論文:Rethinking ImageNet Pre-training
這篇paper因?yàn)槠湎敕ū容^具有顛覆性(還有作者是Kaiming He大佬),剛放出來(lái)就引發(fā)了大量的討論。通常來(lái)說(shuō)苹熏,對(duì)于絕大部分CV問(wèn)題的慣常做法就是褐墅,不管三七二十一置媳,先在ImageNet預(yù)訓(xùn)練一下栓始,然后針對(duì)具體的問(wèn)題fine-tuing胸完。在這里书释,作者發(fā)現(xiàn),從零開(kāi)始訓(xùn)練赊窥,不用fine-tuing效果也和使用預(yù)訓(xùn)練一樣爆惧。那就引發(fā)了一個(gè)思考?為什么需要去ImageNet預(yù)訓(xùn)練锨能?
作者使用從零初始化检激,依然可以得到和COCO2017冠軍的結(jié)果肴捉,且結(jié)果十分魯棒性。即便是在以下三種情況下:
- 使用10%的訓(xùn)練數(shù)據(jù)
- 使用更深叔收,更寬的網(wǎng)絡(luò)(依舊沒(méi)有過(guò)擬合,依舊很魯棒)
- 在多種任務(wù)下傲隶,多種評(píng)價(jià)指標(biāo)下
先看一張作者實(shí)驗(yàn)結(jié)果對(duì)比圖:
從圖中可以看出:
- 迭代次數(shù)足夠多的時(shí)候(達(dá)到
次的時(shí)候)饺律,隨機(jī)初始化與預(yù)訓(xùn)練結(jié)果一樣
- 圖中的精度曲線分叉表示使用/不使用學(xué)習(xí)率衰減
- 使用預(yù)訓(xùn)練收斂更快。
總結(jié)起來(lái)跺株,其實(shí)就是复濒,使用預(yù)訓(xùn)練可以加快收斂,但是精度不會(huì)上升乒省。其實(shí)也沒(méi)有媒體吹得那么神巧颈。在這一行越久,就越發(fā)現(xiàn)袖扛,在深度學(xué)習(xí)領(lǐng)域砸泛,沒(méi)有什么事是絕對(duì)的。一個(gè)結(jié)論可以被反復(fù)推翻蛆封,歸根結(jié)底唇礁,還是因?yàn)樯窠?jīng)網(wǎng)絡(luò)的模型參數(shù)太多,可解釋性太差惨篱。作者得到的這個(gè)結(jié)論盏筐,也是完全有可能和自己工作中的實(shí)際結(jié)論出現(xiàn)偏差的。
作者的比較方法
為了公平的比較使用預(yù)先訓(xùn)練和隨機(jī)初始化的結(jié)果砸讳,作者采用的模型沒(méi)有針對(duì)隨機(jī)初始化進(jìn)行特定的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)琢融。除了以下兩點(diǎn)不同:
- 隨機(jī)初始化模型使用了Group Normalization,因?yàn)锽atch Normalization在batch size太小的時(shí)候效果不好簿寂。對(duì)于檢測(cè)問(wèn)題漾抬,由于圖片太大,使得batch size上不去陶耍,因此用Group Normalization比較合適奋蔚。而對(duì)于預(yù)訓(xùn)練模型,由于分類問(wèn)題的圖片比較小烈钞,batch size可以比較大泊碑,那么BN算出來(lái)的
就靠譜很多,因此直接用BN就可以了毯欣。
- 隨機(jī)初始化模型訓(xùn)練時(shí)間更久馒过,因?yàn)轭A(yù)訓(xùn)練模型沒(méi)有算上預(yù)訓(xùn)練的時(shí)間,所以直接比是不公平的酗钞。
對(duì)于第一點(diǎn)腹忽,作者為了保證實(shí)驗(yàn)結(jié)果的合理性来累,對(duì)于隨機(jī)初始化模型也使用BN,并結(jié)合多GPU訓(xùn)練(增大batch size)實(shí)現(xiàn)了隨機(jī)初始化訓(xùn)練窘奏。此外嘹锁,作者發(fā)現(xiàn)即便不使用歸一化,通過(guò)選擇初始化方式着裹,依舊可以實(shí)現(xiàn)隨機(jī)初始化訓(xùn)練领猾,并且結(jié)果比肩預(yù)訓(xùn)練。
實(shí)驗(yàn)
整片文章思想就是如上面所說(shuō)骇扇,接下來(lái)就是大量的對(duì)比實(shí)驗(yàn)以驗(yàn)證論述摔竿。
使用10%的數(shù)據(jù)進(jìn)行隨機(jī)初始化訓(xùn)練
可以看出,即便是少量數(shù)據(jù)少孝,依舊結(jié)果不差继低。驗(yàn)證了作者的第一條結(jié)論
使用更深,更寬的網(wǎng)絡(luò)
這里使用的模型是Mask RCNN袁翁,backbone分別是ResNet101, ResNeXt152。后者參數(shù)是前者的四倍钱磅。實(shí)際實(shí)驗(yàn)發(fā)現(xiàn)梦裂,即使使用更深,更寬的網(wǎng)絡(luò)盖淡,結(jié)果不僅沒(méi)有過(guò)擬合年柠,精度還上升了。這里驗(yàn)證了作者的第二條結(jié)論褪迟。第三天結(jié)論驗(yàn)證方式類似冗恨,不再贅述。
總結(jié)
- 預(yù)訓(xùn)練可以加快收斂味赃,沒(méi)別的用處掀抹。
- 實(shí)際工程中,還是可以使用預(yù)訓(xùn)練心俗,收斂快傲武,省事
- 本文的實(shí)驗(yàn)設(shè)計(jì)非常嚴(yán)密,基本上考慮到了每一個(gè)疑問(wèn)點(diǎn)城榛。值得借鑒揪利。
- 對(duì)于許多“可能是”理論,要多思考狠持,多問(wèn)幾個(gè)為什么疟位。尤其是對(duì)于深度學(xué)習(xí)這種“黑盒子”,換個(gè)實(shí)驗(yàn)條件喘垂,結(jié)論可能就相反甜刻。這篇paper的結(jié)論也是如此绍撞,不能奉為圣旨