25組-Deep Residual Learning for Image Recognition

“Deep Residual Learning for Image Recognition” 閱讀筆記

論文作者:Kaiming He? Xiangyu Zhang? Shaoqing Ren?Jian Sun

本文作者:陳銘林 吳宗翰 伍海濤


概述

????本文是論文”Deep Residual Learning for Image Recognition”的閱讀筆記仪缸,原論文可以從這里(https://arxiv.org/abs/1512.03385)找到,Caffe版本的代碼可以從這里(https://github.com/KaimingHe/deep-residual-networks)找到海铆。

????該筆記主要從以下幾個(gè)方面來(lái)說(shuō)明論文內(nèi)容:殘差學(xué)習(xí)解決的問(wèn)題庄萎、殘差學(xué)習(xí)基本思想以及結(jié)構(gòu)踪少、殘差網(wǎng)絡(luò)結(jié)構(gòu)。


一糠涛、問(wèn)題提出

????深度卷積網(wǎng)絡(luò)近幾年來(lái)在圖像分類任務(wù)上取得了巨大突破援奢,它是通過(guò)綜合中、低忍捡、高層特征以及分類器來(lái)形成的集漾,很多實(shí)驗(yàn)結(jié)果表明,網(wǎng)絡(luò)深度對(duì)于性能來(lái)說(shuō)是及其重要的砸脊,通過(guò)增加層數(shù)(即加深網(wǎng)絡(luò))可以豐富網(wǎng)絡(luò)學(xué)習(xí)到的特征帆竹。那么現(xiàn)在有個(gè)問(wèn)題:是不是簡(jiǎn)單地通過(guò)加深網(wǎng)絡(luò)就可以獲得更好的性能?當(dāng)網(wǎng)絡(luò)加深時(shí)脓规,容易造成由梯度消失和梯度爆炸引起的網(wǎng)絡(luò)不收斂問(wèn)題,然而這個(gè)問(wèn)題可以通過(guò)Normalized Initialization和Intermediate Normalization Layers來(lái)解決险领。但是當(dāng)網(wǎng)絡(luò)能夠收斂時(shí)侨舆,該論文發(fā)現(xiàn)了另外一個(gè)問(wèn)題,網(wǎng)絡(luò)退化(degradation)绢陌,也就是說(shuō)挨下,當(dāng)網(wǎng)絡(luò)深度加深時(shí),網(wǎng)絡(luò)精度會(huì)趨于飽和脐湾,而這種現(xiàn)象并不是由過(guò)擬合造成的臭笆。

????對(duì)于同一個(gè)訓(xùn)練數(shù)據(jù)集,深層網(wǎng)絡(luò)準(zhǔn)確率理論上不會(huì)比淺層網(wǎng)絡(luò)低秤掌,因?yàn)閷?duì)于任何一個(gè)淺層網(wǎng)絡(luò)愁铺,深層網(wǎng)絡(luò)可以構(gòu)造出這樣一個(gè)解使得它和淺層網(wǎng)絡(luò)是一樣的:深層網(wǎng)絡(luò)多出來(lái)的層是恒等變換,剩下的層與淺層網(wǎng)絡(luò)相同闻鉴。然而茵乱,該論文在CIFAR-10、ImageNet數(shù)據(jù)集上做實(shí)驗(yàn)得到了違反直覺(jué)的結(jié)果:網(wǎng)絡(luò)越深孟岛,訓(xùn)練誤差越大瓶竭。論文指出這是由優(yōu)化器造成的督勺。

????為了解決網(wǎng)絡(luò)退化問(wèn)題,該論文提出了深度殘差學(xué)習(xí)框架(a deep residual learning framework)斤贰。


二智哀、殘差學(xué)習(xí)

????假設(shè)H(x)是一些層需要擬合的函數(shù),該論文提出利用這些層來(lái)擬合F(x)=H(x)-x荧恍,而不是直接擬合H(x)瓷叫。為什么選擇學(xué)習(xí)殘差函數(shù)呢?主要原因有以下兩點(diǎn):

????1块饺、如果多個(gè)非線性層能夠擬合復(fù)雜函數(shù)H(x)赞辩,那么它就能夠擬合F(x),雖然相同的非線性層在擬合能力上相同授艰,但是學(xué)習(xí)難易程度有所不同辨嗽,論文指出優(yōu)化器更容易優(yōu)化殘差函數(shù)。

????2淮腾、網(wǎng)絡(luò)退化問(wèn)題說(shuō)明了優(yōu)化器在優(yōu)化非線性層擬合恒等函數(shù)時(shí)會(huì)有困難糟需,而當(dāng)擬合殘差函數(shù)時(shí),如果恒等函數(shù)是最優(yōu)解谷朝,那么優(yōu)化器只需要將非線性層權(quán)重參數(shù)置零即可洲押。在現(xiàn)實(shí)問(wèn)題種,通常恒等函數(shù)不可能是最優(yōu)解圆凰,但是殘差函數(shù)卻能夠?qū)?wèn)題進(jìn)行預(yù)變換杈帐,因?yàn)槿绻顑?yōu)函數(shù)更接近與恒等變換的話,那么優(yōu)化器更容易捕捉相對(duì)于恒等變換的擾動(dòng)而不是一個(gè)新的函數(shù)专钉,同時(shí)論文實(shí)驗(yàn)中也發(fā)現(xiàn)學(xué)習(xí)到的殘差函數(shù)多數(shù)情況下具有很小的響應(yīng)挑童,這也佐證了恒等函數(shù)是對(duì)問(wèn)題的一個(gè)有意義的預(yù)處理。


三跃须、殘差模塊結(jié)構(gòu)

????該論文將殘差學(xué)習(xí)用在幾個(gè)層疊的層上站叼,使得這些層學(xué)習(xí)的是需要擬合函數(shù)的殘差,而不是原函數(shù)菇民,并形成如Fig.2所示的building block結(jié)構(gòu)尽楔,并且用數(shù)學(xué)公式表示為:

????這里的xy表示這些層的輸入和輸出,

表示需要學(xué)習(xí)的殘差映射第练。該等式中的xF需要具有相同維度辣苏,否則需要對(duì)x進(jìn)行線性變換Ws使得維度能夠匹配晚胡,數(shù)學(xué)公式如下:




四、網(wǎng)絡(luò)結(jié)構(gòu)

????為了通過(guò)實(shí)驗(yàn)說(shuō)明殘差網(wǎng)絡(luò)比一般網(wǎng)絡(luò)在性能上更具優(yōu)勢(shì),該論文在ImageNet數(shù)據(jù)集上訓(xùn)練了兩個(gè)不同的網(wǎng)絡(luò)(如Fig.3所示)來(lái)進(jìn)行對(duì)比實(shí)驗(yàn):Plain Network(一般網(wǎng)絡(luò)滑频,不具有殘差學(xué)習(xí)模塊)和Residual Network(殘差網(wǎng)絡(luò)译荞,在一般網(wǎng)絡(luò)基礎(chǔ)上加入殘差學(xué)習(xí)模塊所構(gòu)成的網(wǎng)絡(luò))。

????Plain Network的設(shè)計(jì)是借鑒了VGG nets的思想,并且遵循以下兩種原則:1凡恍、輸出特征圖大小不變時(shí),卷積核數(shù)量不變怔球;2嚼酝、特征圖大小縮小一半時(shí),卷積核數(shù)量就增加一倍竟坛。除此之外闽巩,VGG通過(guò)Max Pooling下采樣,而這里通過(guò)步長(zhǎng)為2的卷積層直接下采樣担汤,同時(shí)Plain Network最后通過(guò)Average Pooling來(lái)獲得最后的特征涎跨,并且通過(guò)softmax層來(lái)獲得最后1000維的預(yù)測(cè)。

????Residual Network是在Plain Network的基礎(chǔ)上加入shortcut connection來(lái)形成殘差學(xué)習(xí)模塊崭歧,如Fig.3所示隅很,實(shí)線表示殘差模塊的輸入直接被使用,而虛線表示殘差模塊的輸入經(jīng)過(guò)線性變化再被使用率碾,為了匹配維度叔营,這里考慮兩種不同操作:1、在額外維度上增加零所宰;2绒尊、通過(guò)1x1卷積層來(lái)增加維度。

????以這兩種結(jié)構(gòu)在ImageNet數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)仔粥。

五婴谱、實(shí)驗(yàn)

?????? 1.實(shí)驗(yàn)了plain-18和plain-34,展示了退化問(wèn)題躯泰。說(shuō)明了退化問(wèn)題不是因?yàn)樘荻认犯幔驗(yàn)榧尤肓薭atch normalization。另外也不能簡(jiǎn)單地增加迭代次數(shù)來(lái)使其收斂斟冕,增加迭代次數(shù)仍然會(huì)出現(xiàn)退化問(wèn)題。

????2.實(shí)驗(yàn)了ResNet-18和ResNet-34不會(huì)出現(xiàn)退化問(wèn)題缅阳,ResNet-34明顯表現(xiàn)的比ResNet-18和plain-34好磕蛇,證明了殘差學(xué)習(xí)解決了隨網(wǎng)絡(luò)深度增加帶來(lái)的退化問(wèn)題。而且同等深度的plain-18和ResNet-18十办,殘差網(wǎng)絡(luò)更容易優(yōu)化秀撇,收斂更快。

????3.對(duì)于同等映射維度不匹配時(shí)向族,匹配維度的兩種方法呵燕,zero padding是參數(shù)free的,投影法會(huì)帶來(lái)參數(shù)件相。作者比較了這兩種方法的優(yōu)劣再扭。實(shí)驗(yàn)證明氧苍,投影法會(huì)比zero padding表現(xiàn)稍好一些。因?yàn)閦ero padding的部分沒(méi)有參與殘差學(xué)習(xí)泛范。實(shí)驗(yàn)表明让虐,將維度匹配或不匹配的同等映射全用投影法會(huì)取得更稍好的結(jié)果,但是考慮到不增加復(fù)雜度和參數(shù)free罢荡,不采用這種方法赡突。

????4.更深的瓶頸結(jié)構(gòu):

????作者探索的更深的網(wǎng)絡(luò)∏裕考慮到時(shí)間花費(fèi)惭缰,將原來(lái)的殘差學(xué)習(xí)結(jié)構(gòu)改為瓶頸結(jié)構(gòu),如上圖笼才。首端和末端的1x1卷積用來(lái)削減和恢復(fù)維度漱受,相比于原本結(jié)構(gòu),只有中間3x3成為瓶頸部分患整。這兩種結(jié)構(gòu)的時(shí)間復(fù)雜度相似拜效。此時(shí)投影法映射帶來(lái)的參數(shù)成為不可忽略的部分(因?yàn)檩斎刖S度的增大),所以要使用zero padding的恒等映射各谚。

????替換原本ResNet的殘差學(xué)習(xí)結(jié)構(gòu)紧憾,同時(shí)也可以增加結(jié)構(gòu)的數(shù)量,網(wǎng)絡(luò)深度得以增加昌渤。生成了ResNet-50赴穗,ResNet-101,ResNet-152. 隨著深度增加膀息,因?yàn)榻鉀Q了退化問(wèn)題般眉,性能不斷提升。

????作者最后在Cifar-10上嘗試了1202層的網(wǎng)絡(luò)潜支,結(jié)果在訓(xùn)練誤差上與一個(gè)較淺的110層的相近甸赃,但是測(cè)試誤差要比110層大1.5%。作者認(rèn)為是采用了太深的網(wǎng)絡(luò)冗酿,發(fā)生了過(guò)擬合埠对。

????5. 在COCO目標(biāo)檢測(cè)數(shù)據(jù)集上獲得了28%的相對(duì)改進(jìn)。深度殘差網(wǎng)絡(luò)是提交ILSVRC&COCO 2015比賽的基礎(chǔ)裁替,作者還在ImageNet檢測(cè)项玛,ImageNet本地化,COCO檢測(cè)和COCO分割任務(wù)中獲得了第一名弱判。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末襟沮,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌开伏,老刑警劉巖膀跌,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異硅则,居然都是意外死亡淹父,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門怎虫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)暑认,“玉大人,你說(shuō)我怎么就攤上這事大审≌杭剩” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵徒扶,是天一觀的道長(zhǎng)粮彤。 經(jīng)常有香客問(wèn)我,道長(zhǎng)姜骡,這世上最難降的妖魔是什么导坟? 我笑而不...
    開(kāi)封第一講書人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮圈澈,結(jié)果婚禮上惫周,老公的妹妹穿的比我還像新娘。我一直安慰自己康栈,他們只是感情好递递,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著啥么,像睡著了一般登舞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上悬荣,一...
    開(kāi)封第一講書人閱讀 49,784評(píng)論 1 290
  • 那天菠秒,我揣著相機(jī)與錄音,去河邊找鬼氯迂。 笑死践叠,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的囚戚。 我是一名探鬼主播酵熙,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼轧简,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼驰坊!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起哮独,我...
    開(kāi)封第一講書人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤拳芙,失蹤者是張志新(化名)和其女友劉穎察藐,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體舟扎,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡分飞,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了睹限。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片譬猫。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖羡疗,靈堂內(nèi)的尸體忽然破棺而出染服,到底是詐尸還是另有隱情,我是刑警寧澤叨恨,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布柳刮,位于F島的核電站,受9級(jí)特大地震影響痒钝,放射性物質(zhì)發(fā)生泄漏秉颗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一送矩、第九天 我趴在偏房一處隱蔽的房頂上張望蚕甥。 院中可真熱鬧,春花似錦益愈、人聲如沸梢灭。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)敏释。三九已至,卻和暖如春摸袁,著一層夾襖步出監(jiān)牢的瞬間钥顽,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工靠汁, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蜂大,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓蝶怔,卻偏偏與公主長(zhǎng)得像奶浦,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子踢星,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 聲明:作者翻譯論文僅為學(xué)習(xí)澳叉,如有侵權(quán)請(qǐng)聯(lián)系作者刪除博文,謝謝! 翻譯論文匯總:https://github.com...
    SnailTyan閱讀 12,244評(píng)論 3 13
  • 題目:圖像識(shí)別領(lǐng)域的深度殘差學(xué)習(xí) 文章地址:《Deep Residual Learning for Image R...
    zhwhong閱讀 33,065評(píng)論 2 32
  • 聲明:作者翻譯論文僅為學(xué)習(xí)成洗,如有侵權(quán)請(qǐng)聯(lián)系作者刪除博文五督,謝謝! 翻譯論文匯總:https://github.com...
    SnailTyan閱讀 7,042評(píng)論 0 9
  • 這篇論文是2016cvpr最佳論文瓶殃,該論文提出了一種殘差網(wǎng)絡(luò)的模型充包,很大程度上解決了深度網(wǎng)絡(luò)難以學(xué)習(xí)的問(wèn)題。作者使...
    貳拾貳畫生閱讀 804評(píng)論 0 2
  • 【1103今日話題】 你有沒(méi)有“帶”過(guò)什么人遥椿?什么樣的情況下基矮,你覺(jué)得自己“帶”對(duì)人了?(是“傳幫帶”的“帶”哦冠场,不...
    朱朱的餐具閱讀 187評(píng)論 1 2