論文閱讀筆記:Resnet

當(dāng)廢人真的好快樂
不學(xué)習(xí)不去實驗室的日子也太舒坦了吧!
所以小李又拖到現(xiàn)在才來更新了
——————————
論文名稱:《Deep Residual Learning for Image Recognition》
論文地址:https://arxiv.org/pdf/1512.03385.pdf
論文翻譯:https://blog.csdn.net/c_chuxin/article/details/82948733
論文代碼:https://github.com/tornadomeet/ResNet


Background

按慣例先說一下背景:深度卷積網(wǎng)絡(luò)近幾年來在圖像分類任務(wù)上取得了巨大突破趴生,它是通過綜合中座菠、低蛾绎、高層特征以及分類器來形成的,不少實驗結(jié)果表明瘪贱,網(wǎng)絡(luò)深度對于性能來說是及其重要的,通過增加層數(shù)(即加深網(wǎng)絡(luò))在一定程度上可以豐富網(wǎng)絡(luò)學(xué)習(xí)到的特征期贫。憑著這一基本準(zhǔn)則CNN分類網(wǎng)絡(luò)自Alexnet發(fā)展到了VGG的16乃至19層,后來更有了Googlenet的22層廷区。那么現(xiàn)在有一個問題:是不是簡單地通過加深網(wǎng)絡(luò)就可以獲得更好的性能和更高的精準(zhǔn)率?答案是否贾铝,通過后來的實驗我們可以發(fā)現(xiàn)深度CNN網(wǎng)絡(luò)達(dá)到一定深度后再一味地增加層數(shù)并不能帶來進(jìn)一步地分類性能提高隙轻,反會容易造成由梯度消失和梯度爆炸引起的網(wǎng)絡(luò)不收斂問題。
這個問題可以通過歸一初始化與中間初始化來解決垢揩。(如下圖所示)

步驟解釋:
1.計算樣本均值玖绿。
2.計算樣本方差。
3.樣本數(shù)據(jù)標(biāo)準(zhǔn)化處理叁巨。
4.進(jìn)行平移和縮放處理斑匪。引入了γ和β兩個參數(shù)。來訓(xùn)練γ和β兩個參數(shù)锋勺。引入了這個可學(xué)習(xí)重構(gòu)參數(shù)γ蚀瘸、β狡蝶,讓我們的網(wǎng)絡(luò)可以學(xué)習(xí)恢復(fù)出原始網(wǎng)絡(luò)所要學(xué)習(xí)的特征分布。
即第一圖:x先經(jīng)過Wh1的線性變換后得到s1贮勃,將s1再減去batch的平均值μB贪惹,將s2乘以γ調(diào)整數(shù)值大小,再加上β增加偏移后得到s3
通過歸一初始化與中間初始化解決了網(wǎng)絡(luò)不收斂的問題寂嘉,但是又有了新的問題奏瞬,這個時候發(fā)現(xiàn)網(wǎng)絡(luò)出現(xiàn)了退化問題,如下圖泉孩。
由圖可知56層網(wǎng)絡(luò)比20層的網(wǎng)絡(luò)錯誤率更高硼端,可猜測這種退化并不是由過擬合造成的,在一個合理的深度模型中增加更多的層卻導(dǎo)致了更高的錯誤率寓搬。退化問題表明了珍昨,求解器在通過多個非線性層來估計恒等映射上可能是存在困難的。因而订咸,論文推測是優(yōu)化器出了了問題曼尊。

Idea

因而,我們假設(shè)有一個淺層網(wǎng)絡(luò)脏嚷,如果通過向上堆積新層來建立深層網(wǎng)絡(luò)骆撇,前提是這些增加的層什么也不學(xué)習(xí),僅僅復(fù)制淺層網(wǎng)絡(luò)的特征父叙,即這樣新層是恒等映射(對任意集合A神郊,如果映射f:A→A定義為f(a)=a,即規(guī)定A中每個元素a與自身對應(yīng)趾唱,則稱f為A上的恒等映射)涌乳。
在這種情況下,深層網(wǎng)絡(luò)應(yīng)該至少和淺層網(wǎng)絡(luò)性能一樣甜癞,也不應(yīng)該出現(xiàn)退化現(xiàn)象夕晓。
因而,基于這個問題論文作者提出了殘差學(xué)習(xí)框架(Resnet).

Resnet

Model

H(x)是底層映射
F(x)多層堆疊的非線性層來擬合的映射
x是原始映射
原始的網(wǎng)絡(luò)直接擬合所需要的函數(shù)H(x)悠咱,而殘差塊則擬合殘差函數(shù)蒸辆,即:F(x)=H(x)?x,F(xiàn)(x)它擬合的是底層映射與輸入的差值析既,最后通過把輸入與殘差相加求得底層映射躬贡,間接擬合所需要的函數(shù),即:H(x)=F(x)+x眼坏。
相加操作是通過一條shortcut來實現(xiàn)拂玻。
這邊有個問題補(bǔ)充說明一下:為什么要通過間接擬合學(xué)習(xí)我們所需要的函數(shù)H(x)?
網(wǎng)絡(luò)退化問題說明了優(yōu)化器在優(yōu)化非線性層擬合恒等函數(shù)時會有困難,而當(dāng)擬合殘差函數(shù)時,如果恒等函數(shù)是最優(yōu)解檐蚜,那么優(yōu)化器只需要將非線性層權(quán)重參數(shù)置零即可魄懂。也就是說:將殘差推至零比用一堆非線性層擬合恒等映射更容易,優(yōu)化器會更容易優(yōu)化殘差函數(shù)熬甚。除此逢渔,如下圖所示,我們可以看到變化對F的影響遠(yuǎn)遠(yuǎn)大于G乡括,說明引入殘差后的映射對輸出的變化更敏感肃廓,這樣是有利于網(wǎng)絡(luò)進(jìn)行傳播的,更快收斂

Deep residual Learning


如上圖诲泌,一個殘差塊可以如上第一個式子表示盲赊,x和y表示這些層的輸入和輸出,F(xiàn)函數(shù)表示要學(xué)習(xí)的殘差映射敷扫。整體的一個網(wǎng)絡(luò)結(jié)構(gòu)大致如下:
{注:上圖式子中的σ代表ReLU}
ResNet通過直接將輸入信息繞道傳到輸出哀蘑,保護(hù)信息的完整性,網(wǎng)絡(luò)只需要學(xué)習(xí)輸入葵第、輸出差別的那一部分绘迁,簡化學(xué)習(xí)目標(biāo)和難度.

shortcut
shortcut在resnet起著至關(guān)重要的作用,它執(zhí)行了一個相加的操作卒密,Shortcut的作用是簡單地執(zhí)行恒等映射缀台,將恒等映射的輸入添加到堆層的輸出,引入shortcut既不需要額外的參數(shù)哮奇,也沒有計算復(fù)雜性膛腐。


shortcu兩種情況如上圖所示:
1.在BB1中只有卷積層,圖片大小沒有改變鼎俘,也就是等式中的x和F需要具有相同維度哲身,可以直接相加:y=F(x)+x
2.在BB2中,圖片尺寸縮小了一半贸伐,維度不匹配勘天,因此不可以直接相加:y=F(x)+Wsx.
論文的作者給了兩種解決方法:
1.shortcut仍然使用恒等映射,在增加的維度上使用0來填充捉邢,這樣做不會增加額外的參數(shù)脯丝;
2.使用一個投影矩陣Ws來匹配維度(通過1×1卷積)

Experiments

這篇論文實驗涉及較多 這邊簡要記錄幾個

*Network Architectures

實驗一:
Plain Network的設(shè)計是借鑒了VGG nets的思想,并且遵循以下兩種原則:
1歌逢、輸出特征圖大小不變時巾钉,卷積核數(shù)量不變翘狱;
2秘案、特征圖大小縮小一半時,卷積核數(shù)量就增加一倍,以保持每層的時間復(fù)雜度。除此之外阱高,VGG通過Max Pooling下采樣赚导,而這里通過步長為2的卷積層直接下采樣,同時Plain Network最后通過Average Pooling來獲得最后的特征赤惊,并且通過softmax層來獲得最后1000維的預(yù)測吼旧。

Residual Network是在Plain Network的基礎(chǔ)上加入shortcut connection來形成殘差學(xué)習(xí)模塊,為了匹配維度未舟,這里考慮兩種不同操作:
1圈暗、在增加的維度上使用0來填充,這樣做不會增加額外的參數(shù)裕膀;
2员串、投影映射 (通過1x1卷積層來增加維度。)
對比結(jié)果:


1.plain-18 VS plain-34昼扛,展示了退化問題寸齐。說明了退化問題不是因為梯度消失,另外也不能簡單地增加迭代次數(shù)來使其收斂抄谐,增加迭代次數(shù)仍然會出現(xiàn)退化問題渺鹦。
2。ResNet-18 VS ResNet-34不會出現(xiàn)退化問題蛹含,ResNet-34明顯表現(xiàn)的比ResNet-18和plain-34好毅厚,證明了殘差學(xué)習(xí)解決了隨網(wǎng)絡(luò)深度增加帶來的退化問題。因此可以通過增加深度來獲取更高的精度 在極深網(wǎng)絡(luò)中挣惰,residual learning 是有效的卧斟。
3.同等深度的plain-18和ResNet-18,殘差網(wǎng)絡(luò)更容易優(yōu)化憎茂,收斂更快珍语。

實驗二:
網(wǎng)絡(luò)構(gòu)造同上一個實驗,這里是比較對于同等映射維度不匹配時竖幔,匹配維度的兩種方法的優(yōu)劣板乙,其中:
A: 用 zero-padding shortcut 來增加維度,且所有的 shortcut 無需額外的參數(shù)
B:用 projection shortcut 來增加維度拳氢,一般采用1x1的卷積募逞。其他的 shortcut 用于 identity mapping
C :所有的 shortcut 都用 projectio


實驗證明,投影法會比zero padding表現(xiàn)稍好一些馋评。因為zero padding的部分沒有參與殘差學(xué)習(xí)放接。將維度匹配或不匹配的同等映射全用投影法會取得更稍好的結(jié)果,但是考慮到不增加復(fù)雜度和參數(shù)free留特,不采用這種方法.

實驗三
瓶頸結(jié)構(gòu)的構(gòu)造

考慮到時間花費問題纠脾,這里將原來的殘差學(xué)習(xí)結(jié)構(gòu)改為瓶頸結(jié)構(gòu)玛瘸,如上圖。
對于每個殘差函數(shù)F苟蹈,我們使用一個由3層組成的堆棧糊渊,而不是2層。
這三層分別是1×1慧脱、3×3和1×1卷積渺绒,其中1×1層負(fù)責(zé)減小然后增加(恢復(fù))維數(shù),使3×3層成為輸入/輸出維數(shù)較小的瓶頸菱鸥。此時投影法映射帶來的參數(shù)成為不可忽略的部分(因為輸入維度的增大)宗兼,所以要使用zero padding的恒等映射。
替換原本ResNet的殘差學(xué)習(xí)結(jié)構(gòu)氮采,同時也可以增加結(jié)構(gòu)的數(shù)量针炉,網(wǎng)絡(luò)深度得以增加,生成了ResNet-50扳抽,ResNet-101篡帕,ResNet-152。
通過下圖結(jié)果可以看到贸呢,隨著深度增加镰烧,因為解決了退化問題,性能不斷提升楞陷,可以享受增加的深度中獲得的顯著的精確性怔鳖。

實驗四

Exploring Over 1000 layers

在Cifar-10上嘗試了1202層的網(wǎng)絡(luò),結(jié)果在訓(xùn)練誤差上與一個較淺的110層的相近固蛾,但是測試誤差要比110層大1.5%结执。作者認(rèn)為是采用了太深的網(wǎng)絡(luò),發(fā)生了過擬合艾凯。

把resent與其他深層窄模型献幔,如FitNet和 Highway做了對比
結(jié)果:具有更少的參數(shù),然而卻達(dá)到了最好的結(jié)果


參考:25組-Deep Residual Learning for Image Recognition
resnet論文閱讀

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末趾诗,一起剝皮案震驚了整個濱河市蜡感,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌恃泪,老刑警劉巖郑兴,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異贝乎,居然都是意外死亡情连,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進(jìn)店門览效,熙熙樓的掌柜王于貴愁眉苦臉地迎上來却舀,“玉大人球榆,你說我怎么就攤上這事〗ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵衡招,是天一觀的道長篱昔。 經(jīng)常有香客問我,道長始腾,這世上最難降的妖魔是什么州刽? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮浪箭,結(jié)果婚禮上穗椅,老公的妹妹穿的比我還像新娘。我一直安慰自己奶栖,他們只是感情好匹表,可當(dāng)我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著宣鄙,像睡著了一般袍镀。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上冻晤,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天苇羡,我揣著相機(jī)與錄音,去河邊找鬼鼻弧。 笑死设江,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的攘轩。 我是一名探鬼主播叉存,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼度帮!你這毒婦竟也來了鹉胖?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤够傍,失蹤者是張志新(化名)和其女友劉穎甫菠,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體冕屯,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡寂诱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了安聘。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片痰洒。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡瓢棒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出丘喻,到底是詐尸還是另有隱情脯宿,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布泉粉,位于F島的核電站连霉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏嗡靡。R本人自食惡果不足惜跺撼,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望讨彼。 院中可真熱鬧歉井,春花似錦、人聲如沸哈误。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蜜自。三九已至憨募,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間袁辈,已是汗流浹背菜谣。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留晚缩,地道東北人尾膊。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像荞彼,于是被迫代替她去往敵國和親冈敛。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容