深度殘差學(xué)習(xí)的在圖像識別中的應(yīng)用
摘要
層次更深的神經(jīng)網(wǎng)絡(luò)更難訓(xùn)練。 我們提出了一個(gè)殘差的學(xué)習(xí)框架与纽,以便于對比以前使用的網(wǎng)絡(luò)深度更深的網(wǎng)絡(luò)進(jìn)行訓(xùn)練。 我們明確地將層重新組合成殘差函數(shù)并將其用于輸入塘装,而不是學(xué)習(xí)未引用的函數(shù)急迂。 我們提供全面的經(jīng)驗(yàn)證據(jù)表明這些殘差網(wǎng)絡(luò)更容易優(yōu)化,并且可以從顯著增加的深度獲得準(zhǔn)確性蹦肴。 在ImageNet數(shù)據(jù)集上僚碎,我們評估深度高達(dá)152層-殘差網(wǎng)絡(luò) 比VGG網(wǎng)更深8倍[41],但仍然具有較低的復(fù)雜性阴幌。 這些殘差網(wǎng)絡(luò)的集成在ImageNet測試集上實(shí)現(xiàn)了3.57%的誤差勺阐。 該結(jié)果在ILSVRC 2015分類任務(wù)中獲得第一名。 我們還提供了100和1000層的CIFAR-10分析矛双。?
網(wǎng)絡(luò)的深度對于許多視覺識別任務(wù)而言至關(guān)重要渊抽。 僅僅由于我們極其深的模型表示,我們在COCO對象檢測數(shù)據(jù)集上獲得了28%的相對改進(jìn)议忽。 深度殘差網(wǎng)是我們向ILSVRC和COCO 2015競賽1提交的基礎(chǔ)懒闷,我們還在ImageNet檢測,ImageNet定位栈幸,COCO檢測和COCO分割任務(wù)中獲得了第一名愤估。
深度卷積神經(jīng)網(wǎng)絡(luò)[22,21]為圖像分類帶來了一系列突破[21,50,40]速址。 深度網(wǎng)絡(luò)自然地以端到端多層方式集成低/中/高層次的特征[50]和分類器玩焰,并且可以通過堆疊層的數(shù)量(深度)來豐富特征的“層次”。 最近的研究[41,44]揭示了網(wǎng)絡(luò)深度至關(guān)重要芍锚,而具有挑戰(zhàn)性的ImageNet數(shù)據(jù)集[36]的主要結(jié)果[41,44,13,16]都利用了“非常深”的[41]模型昔园, 深度為十六[41]至三十[16]。 許多其他非常重要的視覺識別任務(wù)[8,12,7,32,27]也有?
在深度的重要性驅(qū)動下并炮,出現(xiàn)了一個(gè)問題:學(xué)習(xí)更好的網(wǎng)絡(luò)就像堆疊更多層一樣容易嗎蒿赢? 回答這個(gè)問題的一個(gè)障礙是:臭名昭著的問題:梯度消失/爆炸梯度[1,9],它從一開始就阻礙了收斂渣触。然而,這個(gè)問題在很大程度上通過歸一化初始化和中間歸一化層來解決壹若,這使得具有數(shù)十個(gè)層的網(wǎng)絡(luò)能夠開始收斂以用于具有反向傳播的隨機(jī)梯度下降(SGD)嗅钻。?
但是當(dāng)更深的網(wǎng)絡(luò)能夠開始收斂時(shí)皂冰,就會出現(xiàn)退化問題:隨著網(wǎng)絡(luò)深度的增加,準(zhǔn)確度變得飽和(這可能不足為奇)养篓,然后迅速退化秃流。 出乎意料的是,這種退化不是由過度擬合引起的柳弄,并且在適當(dāng)?shù)纳疃饶P椭刑砑痈鄬訒?dǎo)致更高的訓(xùn)練誤差舶胀。?
退化(訓(xùn)練精度)表明并非所有系統(tǒng)都易于優(yōu)化。 讓我們考慮一個(gè)較淺的架構(gòu)及其更深的對應(yīng)物碧注,在其上添加更多層嚣伐。 對于更深層次的模型,存在構(gòu)造的解決方案:添加的層是身份映射萍丐,并且從學(xué)習(xí)的淺層模型復(fù)制其他層轩端。 這種構(gòu)造的解決方案的存在表明,較深的模型不應(yīng)該產(chǎn)生比較淺的對應(yīng)物更高的訓(xùn)練誤差逝变。 但實(shí)驗(yàn)表明基茵,我們現(xiàn)有的解決方案無法找到比構(gòu)建的解決方案更好或更好的解決方案(或者在可行的時(shí)間內(nèi)無法做到這一點(diǎn))。?
在本文中壳影,我們通過引入深度殘差學(xué)習(xí)框架來解決退化問題拱层。 我們明確地讓這些層適合殘差映射,而不是希望每個(gè)少數(shù)堆疊層直接適合所需的底層映射宴咧。 形式上根灯,將期望的底層映射表示為H(x),我們讓堆疊的非線性層適合F(x):= H(x)+x的另一個(gè)映射悠汽。 原始映射則為F(x)+ x箱吕。 我們假設(shè)優(yōu)化殘差映射比優(yōu)化原始的未引用的映射更容易。 在極端情況下柿冲,如果恒等映射是最優(yōu)的茬高,則將殘差推到零,比通過一堆非線性層擬合恒等映射更容易假抄。?
F(x)+ x的公式可以通過具有“shrotcut 連接”的前饋神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)怎栽。 直連方式連接是跳過一個(gè)或多個(gè)層的連接。 在我們的例子中宿饱,直連方式連接只是執(zhí)行恒等映射熏瞄,并且它們的輸出被添加到堆疊層的輸出中。 恒等直連方式連接既不增加額外參數(shù)也不增加計(jì)算復(fù)雜度谬以, 整個(gè)網(wǎng)絡(luò)仍然可以通過反向傳播由SGD端到端地進(jìn)行訓(xùn)練强饮,并且可以使用公共庫輕松實(shí)現(xiàn)而無需修改求解器。如圖:
我們在ImageNet上進(jìn)行了全面的實(shí)驗(yàn)为黎,以退化問題來證明并評估我們的方法邮丰。 我們表明:1)我們極深的殘差網(wǎng)很容易優(yōu)化行您,但對應(yīng)的“普通”網(wǎng)(簡單地堆疊層)在深度增加時(shí)表現(xiàn)出更高的訓(xùn)練誤差; 2)我們的深度殘留網(wǎng)可以輕松地從大大增加的深度中獲得準(zhǔn)確性增益,從而產(chǎn)生比以前的網(wǎng)絡(luò)更好的結(jié)果剪廉。?
類似的現(xiàn)象也顯示在CIFAR-10集上娃循,表明優(yōu)化困難和我們的方法的效果不僅僅類似于特定的數(shù)據(jù)集。 我們在該數(shù)據(jù)集上提供了100多個(gè)成功訓(xùn)練的模型斗蒋,并探索了超過1000層的模型捌斧。?
在ImageNet分類數(shù)據(jù)集[中,我們通過極深的殘差網(wǎng)絡(luò)獲得了出色的結(jié)果泉沾。 我們的152層殘差網(wǎng)絡(luò)是ImageNet上有史以來最深的網(wǎng)絡(luò)捞蚂,同時(shí)仍然具有比VGG網(wǎng)絡(luò)更低的復(fù)雜性。 我們的團(tuán)隊(duì)在ImageNet測試集上有3.57%的前5名錯(cuò)誤爆哑,并在ILSVRC 2015分類競賽中獲得第一名洞难。 極其深刻的表現(xiàn)也在其他識別任務(wù)上具有出色的泛化性能,并使我們在ILSVRC和COCO 2015競賽中進(jìn)一步贏得第一名:ImageNet檢測揭朝,ImageNet本地化队贱,COCO檢測和COCO分割。 這一有力證據(jù)表明殘差學(xué)習(xí)原則是通用的潭袱,我們希望它適用于其他視力和非視力問題柱嫌。
殘差表示屯换。 在圖像識別中编丘,VLAD(Vector of Aggragate Locally Descriptor)是通過關(guān)于字典的殘差向量進(jìn)行編碼的表示,并且Fisher Vector可以被表達(dá)為VLAD的概率版本彤悔。 它們都是圖像檢索和分類的強(qiáng)大淺表示嘉抓。 對于矢量量化,編碼殘差矢量展現(xiàn)出比編碼原始矢量更有效晕窑。?
在低層次的視覺和計(jì)算機(jī)圖形學(xué)中抑片,為了求解偏微分方程(PDEs),廣泛使用的多重網(wǎng)格方法將系統(tǒng)重新表述為多個(gè)尺度的子問題杨赤,其中每個(gè)子問題負(fù)責(zé)較粗和較精細(xì)之間的殘差解敞斋。Multigrid的替代方法是分層基礎(chǔ)預(yù)處理,它依賴于表示兩個(gè)標(biāo)度之間的殘差向量的變量疾牲。 已經(jīng)表明植捎,這些求解器比沒有殘留性質(zhì)的標(biāo)準(zhǔn)求解器收斂得快得多。 這些方法表明良好的重構(gòu)或預(yù)處理可以簡化優(yōu)化阳柔。?
直連焰枢。 長期以來,人們一直在研究可以實(shí)現(xiàn)直連的實(shí)踐和理論。 訓(xùn)練多層感知器(MLP)的早期實(shí)踐是添加從網(wǎng)絡(luò)輸入連接到輸出的線性層济锄。 一些中間層直接連接到輔助分類器枫匾,用于解決消失/爆炸梯度。 “初始”層由直連分支和幾個(gè)更深的分支組成拟淮。?
與我們的工作同步的是,“高速公路網(wǎng)絡(luò)”提供了與閘控功能的直連谴忧。這些門是數(shù)據(jù)相關(guān)的并且具有參數(shù)很泊,與我們的無參數(shù)直連方式形成對比。 當(dāng)閘控直連方式“關(guān)閉”(接近零)時(shí)沾谓,公路網(wǎng)絡(luò)中的層表示非殘留功能委造。 相反,我們的表述總是學(xué)習(xí)殘差功能; 我們的身份直連方式永遠(yuǎn)不會被關(guān)閉均驶,所有信息總是通過昏兆,還需要學(xué)習(xí)額外的殘差功能。 此外妇穴,高速公路網(wǎng)絡(luò)并沒有在深度極度增加的情況下顯示出準(zhǔn)確性增益爬虱。
讓我們將H(x)視為由幾個(gè)堆疊層(不一定是整個(gè)網(wǎng)絡(luò))擬合的底層映射腾它,其中x表示這些層中第一個(gè)的輸入跑筝。 如果假設(shè)多個(gè)非線性層可以漸近逼近復(fù)雜函數(shù),那么它等效于假設(shè)它們可以漸近逼近殘差函數(shù)瞒滴,即H(x)- x(假設(shè)輸入和輸出具有相同的維度)曲梗。 因此,不是期望堆疊層接近H(x)妓忍,我們明確地讓這些層近似于殘余函數(shù)F(x):= H(x)-x虏两。 因此原始函數(shù)變?yōu)镕(x)+ x。 雖然兩種形式都應(yīng)該能夠漸近地逼近所需的函數(shù)(如假設(shè)的)世剖,但學(xué)習(xí)的容易程度可能會有所不同定罢。?
這種重新制定的動機(jī)是關(guān)于退化問題的違反直覺的現(xiàn)象。 正如我們在介紹中所討論的那樣搁廓,如果添加的層可以構(gòu)造為恒等映射引颈,則更深層次的模型應(yīng)該具有不大于其較淺對應(yīng)物的訓(xùn)練誤差。 退化問題表明求解器可能難以通過多個(gè)非線性層逼近恒等映射境蜕。 利用殘差學(xué)習(xí)重構(gòu)蝙场,如果恒等映射是最優(yōu)的,則解決方案可以簡單地將多個(gè)非線性層的權(quán)重推向零以接近恒等映射粱年。?
在實(shí)際情況中售滤,恒等映射不太可能是最優(yōu)的,但我們的重新制定可能有助于預(yù)處理問題。 如果最優(yōu)函數(shù)更接近于恒等映射而不是零映射完箩,那么應(yīng)該更容易參考恒等映射來查找擾動赐俗,而不是將該函數(shù)作為新映射來學(xué)習(xí)。 我們通過實(shí)驗(yàn)(圖7)表明弊知,學(xué)習(xí)的殘差函數(shù)通常具有較小的響應(yīng)阻逮,這表明恒等映射提供了合理的預(yù)處理。
我們對每個(gè)堆疊層采用殘差學(xué)習(xí)秩彤。 構(gòu)建塊如圖2所示叔扼。在本文中,我們認(rèn)為構(gòu)造塊定義為:
圖二:殘差學(xué)習(xí):構(gòu)建塊
這里x和y是所考慮的層的輸入和輸出向量漫雷。 函數(shù)F(x; f{Wi})表示要學(xué)習(xí)的殘差映射瓜富。 對于圖2中的例子,它有兩層降盹,?
其中σ 表示ReLU与柑,省略了偏差以簡化符號。 通過直連和逐元素添加來執(zhí)行操作F + x蓄坏。 我們在加法后采用第二個(gè)非線性單元价捧。?
方程中的直連方式連接既不引入額外參數(shù)也不引入計(jì)算復(fù)雜性。 這不僅在實(shí)踐中具有吸引力剑辫,而且在我們對普通網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)之間的比較中也很重要干旧。 我們可以公平地比較同時(shí)具有相同數(shù)量的參數(shù),深度妹蔽,寬度和計(jì)算成本的普通/殘差網(wǎng)絡(luò)(除了可忽略的元素添加之外)椎眯。?
公式中x和F的維度必須相等。 如果不是這種情況(例如胳岂,在更改輸入/輸出通道時(shí))编整,我們可以通過直連方式連接執(zhí)行線性投影Ws以匹配維度:?
我們也可以在方程中使用方陣矩陣。 但是我們將通過實(shí)驗(yàn)證明乳丰,恒等映射足以解決退化問題并且是經(jīng)濟(jì)的掌测,因此Ws僅在匹配維度時(shí)使用。?
殘差函數(shù)F的形式是靈活的产园。 本文中的實(shí)驗(yàn)涉及具有兩層或三層的函數(shù)F(圖5)汞斧,而更多層是可能的。 但是如果F只有一層什燕,則方程(1)類似于線性層:y = W1x + x粘勒,我們沒有觀察到它們的優(yōu)點(diǎn)。?
我們還注意到屎即,盡管為簡單起見庙睡,上述符號是關(guān)于完全連接的層事富,但它們適用于卷積層。 函數(shù)F(x; f{Wi})可以表示多個(gè)卷積層乘陪。 逐個(gè)元素添加是在兩個(gè)特征映射上逐個(gè)通道執(zhí)行的统台。
我們測試了各種普通/殘差網(wǎng),并觀察到了一致的現(xiàn)象啡邑。 為了提供討論的實(shí)例贱勃,我們?yōu)镮mageNet描述了兩個(gè)模型,如下所示谤逼。?
普通網(wǎng)絡(luò)募寨。 我們的普通網(wǎng)絡(luò)基線(圖3,中間)主要受到VGG網(wǎng)絡(luò)設(shè)計(jì)理念的啟發(fā)(圖3森缠,左)。 卷積層主要有3*3個(gè)過濾器仪缸,遵循兩個(gè)簡單的設(shè)計(jì)規(guī)則:(i)對于相同的輸出特征映射大小贵涵,層具有相同數(shù)量的過濾器; (ii)如果特征映射大小減半,則過濾器的數(shù)量加倍恰画,以便保持每層的時(shí)間復(fù)雜度宾茂。 我們直接通過步幅為2的卷積層進(jìn)行下采樣。網(wǎng)絡(luò)以全局平均池層和帶有softmax的1000路全連接層結(jié)束拴还。 在圖3(中間)中跨晴,加權(quán)層的總數(shù)是34。?
值得注意的是片林,我們的模型比VGG網(wǎng)絡(luò)具有更少的過濾器和更低的復(fù)雜性[41](圖3端盆,左)。 我們的34層基線有36億FLOP(乘法增加)费封,僅為VGG-19(196億FLOP)的18%短曾。?
圖3. ImageNet的示例網(wǎng)絡(luò)體系結(jié)構(gòu)菩彬。 左圖:VGG-19模型(196億FLOP)作為參考。 中:具有34個(gè)參數(shù)層(36億FLOP)的普通網(wǎng)絡(luò)。 右:具有34個(gè)參數(shù)層(36億FLOP)的殘差網(wǎng)絡(luò)儒鹿。 虛線直連鍵增加了尺寸。 表1顯示了更多細(xì)節(jié)和其他變體舌劳。
殘差網(wǎng)絡(luò)牲证。 基于上述普通網(wǎng)絡(luò),我們插入了直連(圖3锤窑,右)璧针,將網(wǎng)絡(luò)轉(zhuǎn)換為對應(yīng)的殘差版本。 當(dāng)輸入和輸出具有相同的尺寸時(shí)果复,可以直接使用標(biāo)識直連方式(公式(1))(圖3中的實(shí)線直連方式)陈莽。 當(dāng)尺寸增加時(shí)(圖3中的虛線直連),我們考慮兩個(gè)選項(xiàng):(A)直連方式仍然執(zhí)行恒等映射,為增加尺寸填充額外的零條目走搁。 此選項(xiàng)不引入額外參數(shù); (B)方程(2)中的投影直連方式用于匹配維度(由1*1個(gè)卷積完成)独柑。 對于這兩個(gè)選項(xiàng),當(dāng)直連方式跨越兩種尺寸的特征圖譜時(shí)私植,它們的步幅為2忌栅。?
3.4 實(shí)現(xiàn)?
我們對ImageNet的實(shí)現(xiàn)遵循[21,41]中的實(shí)踐。 調(diào)整圖像大小曲稼,其短邊隨機(jī)采樣[256; 480]用于比例增加[41]索绪。 從圖像或其水平翻轉(zhuǎn)中隨機(jī)采樣224*224裁剪,減去每像素平均值[21]贫悄。 使用[21]中的標(biāo)準(zhǔn)顏色增強(qiáng)瑞驱。 我們采用批量歸一化(BN)[16],在每次卷積之后和激活之前窄坦,[16]之后唤反。 我們在[13]中初始化權(quán)重,并從頭開始訓(xùn)練所有普通/殘差網(wǎng)鸭津。 我們使用小批量256的SGD彤侍。學(xué)習(xí)率從0.1開始,當(dāng)誤差平穩(wěn)時(shí)除以10逆趋,并且模型訓(xùn)練多達(dá)60*10^4次迭代盏阶。 我們使用0.0001的權(quán)重衰減和0.9的動量。 我們不按照[16]中的做法使用dropout[14]闻书。?
在測試中名斟,對于比較研究,我們采用標(biāo)準(zhǔn)的剪切10次測試[21]魄眉。 為了獲得最佳結(jié)果蒸眠,我們采用[41,13]中的完全卷積形式,并在多個(gè)尺度上平均得分(圖像被調(diào)整大小以使得短邊在{224; 256; 384; 480; 640}杆融。?
4 實(shí)驗(yàn)?
4.1 ImageNet分類?
我們在由1000個(gè)類組成的ImageNet 2012分類數(shù)據(jù)集[36]上評估我們的方法楞卡。 模型在128萬個(gè)訓(xùn)練圖像上進(jìn)行訓(xùn)練,并在50k驗(yàn)證圖像上進(jìn)行評估脾歇。 我們還獲得了測試服務(wù)器報(bào)告的100k測試圖像的最終結(jié)果蒋腮。 我們的得分是前1和前5錯(cuò)誤率。?
普通網(wǎng)絡(luò)藕各。 我們首先評估18層和34層普通網(wǎng)池摧。 34層普通網(wǎng)在圖3(中間)。 18層普通網(wǎng)具有類似的形式激况。 有關(guān)詳細(xì)的體系結(jié)構(gòu)作彤,請參閱表1膘魄。?
表2中的結(jié)果表明,較深的34層平網(wǎng)比較淺的18層平網(wǎng)具有更高的驗(yàn)證誤差竭讳。 為了揭示原因创葡,在圖4(左)中,我們比較了他們在訓(xùn)練過程中的訓(xùn)練/驗(yàn)證錯(cuò)誤绢慢。 我們觀察到了退化問題 - 即使18層普通網(wǎng)絡(luò)的解空間是34層平面網(wǎng)絡(luò)的子空間灿渴,34層普通網(wǎng)在整個(gè)訓(xùn)練過程中也有較高的訓(xùn)練誤差。?
我們認(rèn)為這種優(yōu)化難度不太可能是由于梯度消失造成的胰舆。 這些普通網(wǎng)絡(luò)采用BN [16]進(jìn)行訓(xùn)練骚露,確保前向傳播信號具有非零方差。 我們還驗(yàn)證了向后傳播的梯度與BN表現(xiàn)出正常的規(guī)范缚窿。 因此棘幸,前向和后向信號都不會消失。 實(shí)際上倦零,34層普通網(wǎng)仍然能夠達(dá)到競爭準(zhǔn)確性(表3)够话,這表明求解器在某種程度上起作用。 我們推測深層次的普通網(wǎng)可能具有指數(shù)級低的收斂速度光绕,這會影響訓(xùn)練誤差的減少。 這種優(yōu)化困難的原因?qū)⒃趯磉M(jìn)行研究畜份。?
殘差網(wǎng)絡(luò)诞帐。 接下來,我們評估18層和34層殘差網(wǎng)(ResNets)爆雹。 架構(gòu)的基準(zhǔn)與上述普通網(wǎng)絡(luò)相同停蕉,期望直連添加到每對3*3過濾器,如圖3(右)所示钙态。 在第一次比較中(表2和圖4右)慧起,我們對所有直連方式使用標(biāo)識映射,為增加維度使用零填充(選項(xiàng)A)册倒。 因此蚓挤,與普通網(wǎng)絡(luò)相比,他們沒有額外的參數(shù)驻子。?
我們從表2和圖4中得到了三個(gè)主要觀察結(jié)果灿意。首先,在殘差學(xué)習(xí)中情況相反 - 34層ResNet優(yōu)于18層ResNet(2.8%)崇呵。 更重要的是缤剧,34層ResNet表現(xiàn)出相當(dāng)?shù)偷挠?xùn)練誤差,并且可以推廣到驗(yàn)證數(shù)據(jù)域慷。 這表明在該設(shè)置中很好地解決了退化問題荒辕,并且我們設(shè)法從增加的深度獲得準(zhǔn)確性增益汗销。?
其次,與對應(yīng)的普通網(wǎng)絡(luò)相比抵窒,34層ResNet將前1個(gè)誤差減少了3.5%(表2)弛针,這是由于成功減少了訓(xùn)練誤差(圖4右對左)。 該比較驗(yàn)證了極深模型上殘差學(xué)習(xí)的有效性估脆。?
最后钦奋,我們還注意到18層普通/殘差網(wǎng)絡(luò)準(zhǔn)確率對比(表2),但18層ResNet收斂速度更快(圖4右側(cè)與左側(cè))疙赠。 當(dāng)網(wǎng)絡(luò)“不太深”(此處為18層)時(shí)付材,當(dāng)前的SGD解算器仍然能夠找到普通網(wǎng)絡(luò)的良好解決方案。 在這種情況下圃阳,ResNet通過在早期階段提供更快的收斂來簡化優(yōu)化厌衔。?
Identity vs. Projection Shortcuts(投影直連)我們已經(jīng)證明,無參數(shù)的標(biāo)識直連方式有助于訓(xùn)練捍岳。 接下來我們研究投影直連方式(方程(2))富寿。 在表3中,我們比較了三個(gè)選項(xiàng):(A)零填充直連方式用于增加維度锣夹,所有直連方式都是無參數(shù)(與表2和圖4右相同); (B)投影直連方式用于增加維度页徐,其他直連方式是標(biāo)識; (C)所有直連都是投影。?
表3顯示所有三個(gè)選項(xiàng)都明顯優(yōu)于普通對應(yīng)選項(xiàng)银萍。 B略好于A.我們認(rèn)為這是因?yàn)锳中的零填充維度確實(shí)沒有殘差學(xué)習(xí)变勇。 C略微優(yōu)于B,我們將其歸因于許多(13個(gè))投影直連方式引入的額外參數(shù)贴唇。 但A / B / C之間的微小差異表明搀绣,投影殘差對解決退化問題并不重要。 因此戳气,我們在本文的其余部分不使用選項(xiàng)C來減少內(nèi)存/時(shí)間復(fù)雜度和模型大小链患。 標(biāo)識直連方式對于不增加下面介紹的瓶頸架構(gòu)的復(fù)雜性特別重要。?
更深層次的瓶頸架構(gòu)瓶您。 接下來麻捻,我們將為ImageNet描述更深層的網(wǎng)絡(luò)。 由于擔(dān)心我們能夠承受的訓(xùn)練時(shí)間呀袱,我們將構(gòu)建塊修改為瓶頸設(shè)計(jì)芯肤。 對于每個(gè)殘差函數(shù)F,我們使用3層而不是2層的堆棧(圖5)压鉴。 這三層是1*1,3*3和1*1卷崖咨,其中1*1層負(fù)責(zé)減少然后增加(恢復(fù))維度,使3*3層成為具有較小輸入/輸出尺寸的瓶頸油吭。 圖5展示出了一個(gè)示例击蹲,其中兩種設(shè)計(jì)具有相似的時(shí)間復(fù)雜度署拟。?
無參數(shù)標(biāo)識快捷方式對于瓶頸架構(gòu)尤為重要。 如果用投影替換圖5(右)中的標(biāo)識快捷方式歌豺,則會發(fā)現(xiàn)時(shí)間復(fù)雜度和模型大小加倍推穷,因?yàn)榭旖莘绞竭B接到兩個(gè)高維端。 因此类咧,標(biāo)識捷徑可以為瓶頸設(shè)計(jì)帶來更高效的模型馒铃。?
50層ResNet:我們用這個(gè)3層瓶頸塊替換34層網(wǎng)絡(luò)中的每個(gè)2層塊,產(chǎn)生50層ResNet(表1)痕惋。 我們使用選項(xiàng)B來增加維度区宇。 這個(gè)模型的FLOPs為38億。?
101層和152層ResNets:我們通過使用更多的3層塊構(gòu)建101層和152層ResNets(表1)值戳。 值得注意的是议谷,雖然深度顯著增加,但152層ResNet(113億FLOP)的復(fù)雜程度仍低于VGG-16/19網(wǎng)(15.3 / 196億FLOP)堕虹。?
50/101/152層ResNets比34層ResNets更準(zhǔn)確卧晓,相當(dāng)大的差距(表3和4)。 我們沒有觀察到退化問題赴捞,并且從顯著增加的深度獲得顯著的準(zhǔn)確性增益逼裆。 所有評估指標(biāo)都見證了深度的好處(表3和表4)。?
與最先進(jìn)的方法進(jìn)行比較赦政。 在表4中胜宇,我們與之前的最佳單模型結(jié)果進(jìn)行了比較。 我們的34層ResNets的基準(zhǔn)已經(jīng)達(dá)到了極具競爭力的準(zhǔn)確性昼钻。 我們的152層ResNet的單模型前5驗(yàn)證誤差為4.49%。 該單模型結(jié)果優(yōu)于所有先前的整體結(jié)果(表5)封寞。 我們將六種不同深度的模型組合成一個(gè)整體(在提交時(shí)只有兩個(gè)152層的模型)然评。 這得到的測試集上的前5誤差為3.57%(表5)。 此項(xiàng)目在2015年ILSVRC中獲得第一名狈究。?
4.2. CIFAR10 and Analysis?
我們對CIFAR-10數(shù)據(jù)集進(jìn)行了更多的研究[20]碗淌,其中包括1包含0個(gè)類別的50k個(gè)訓(xùn)練圖像和10k測試圖像。 我們提供在訓(xùn)練集上訓(xùn)練的實(shí)驗(yàn)并在測試集上進(jìn)行評估抖锥。 我們的重點(diǎn)是極端深度網(wǎng)絡(luò)的行為亿眠,而不是推動最先進(jìn)的結(jié)果,因此我們有意使用如下的簡單架構(gòu)磅废。?
普通/殘差架構(gòu)遵循圖3(中/右)中的形式纳像。 網(wǎng)絡(luò)輸入為32*32的圖像,減去每個(gè)像素的平均值拯勉。 第一層是3*3卷積層竟趾。 然后我們在尺寸{32; 16; 8}的特征圖上分別使用具有3*3卷積的6n層的堆疊憔购,每個(gè)特征圖維度具有2n個(gè)層。 過濾器的數(shù)量是{16;32;64} 岔帽。 子采樣是通過步幅為2的卷積來執(zhí)行的玫鸟。網(wǎng)絡(luò)以全局平均池,10條通道的全連接層和softmax結(jié)束犀勒。 總共有6n + 2個(gè)堆疊加權(quán)層屎飘。 下表總結(jié)了該體系結(jié)構(gòu):?
使用快捷方式連接時(shí),它們連接到3*3層(總共3n個(gè)快捷連接)贾费。 在這個(gè)數(shù)據(jù)集上钦购,我們在所有情況下使用標(biāo)識快捷方式(即選項(xiàng)A),因此我們的殘差模型具有與普通對應(yīng)網(wǎng)絡(luò)完全相同的深度铸本,寬度和參數(shù)數(shù)量肮雨。
我們使用0.0001的權(quán)重衰減和0.9的動量,并在[13]和BN [16]中采用權(quán)重初始化但沒有丟失箱玷。 這些模型在兩個(gè)GPU上進(jìn)行了小批量128的小批量訓(xùn)練怨规。 我們從學(xué)習(xí)率0.1開始,在32k和48k迭代時(shí)將其除以10锡足,并在64k迭代時(shí)終止訓(xùn)練波丰,這是在45k / 5k訓(xùn)練/ 驗(yàn)證比例時(shí)確定的。 我們按照[24]中的簡單數(shù)據(jù)增強(qiáng)進(jìn)行訓(xùn)練:每側(cè)填充4個(gè)像素舶得,從填充圖像或其水平翻轉(zhuǎn)中隨機(jī)采樣32*32剪切掰烟。 為了測試,我們只評估原始32*32圖像的單個(gè)視圖沐批。?
我們比較n = {3;5;7; 9}纫骑,通向20,32,44和56層網(wǎng)絡(luò)。 圖6(左)顯示了普通網(wǎng)的行為。 深度普通網(wǎng)絡(luò)受深度增加的影響糊啡,并且在深入時(shí)表現(xiàn)出更高的訓(xùn)練誤差幽污。 這種現(xiàn)象類似于ImageNet(圖4,左)和MNIST(見[42])煤墙,表明這種優(yōu)化難度是一個(gè)根本問題。?
圖6(中)顯示了ResNets的表現(xiàn)宪拥。 與ImageNet案例(圖4仿野,右圖)類似,我們的ResNets設(shè)法克服優(yōu)化難度并在深度增加時(shí)顯示出準(zhǔn)確度增益她君。?
我們進(jìn)一步探索n = 18脚作,構(gòu)成110層ResNet。 在這種情況下缔刹,我們發(fā)現(xiàn)0.1的初始學(xué)習(xí)率有點(diǎn)太大而無法開始收斂鳖枕。 所以我們使用0.01來訓(xùn)練訓(xùn)練魄梯,直到訓(xùn)練誤差低于80%(大約400次迭代),然后回到0.1并繼續(xù)訓(xùn)練宾符。 其余學(xué)習(xí)計(jì)劃如前所述酿秸。 這個(gè)110層網(wǎng)絡(luò)收斂良好(圖6,中間)魏烫。 它比其他深度和薄型網(wǎng)絡(luò)(如FitNet [35]和Highway [42](表6))的參數(shù)更少辣苏,但卻是最先進(jìn)的結(jié)果(6.43%,表6)哄褒。?
層響應(yīng)分析稀蟋。 圖7顯示了層響應(yīng)的標(biāo)準(zhǔn)偏差(std)。 響應(yīng)是每個(gè)3*3層的輸出呐赡,在BN之后和其他非線性之前(ReLU /加法)退客。 對于ResNets,該分析揭示了殘差函數(shù)的響應(yīng)強(qiáng)度链嘀。 圖7顯示ResNets通常具有比普通對應(yīng)網(wǎng)絡(luò)更小的響應(yīng)萌狂。 這些結(jié)果支持我們的基本動機(jī)(Sec.3.1),殘差函數(shù)通郴巢矗可能比非殘差函數(shù)更接近零茫藏。 我們還注意到,更深層次的ResNet具有更小的響應(yīng)幅度霹琼,如圖7中ResNet-20,56和110之間的比較所證明的务傲。當(dāng)存在更多層時(shí),單個(gè)ResNets層傾向于更少地修改信號枣申。?
探索超過1000層售葡。 我們探索了超過1000層的非常深層的模型。 我們將n = 200會帶來1202層網(wǎng)絡(luò)忠藤,其如上所述進(jìn)行訓(xùn)練挟伙。 我們的方法沒有顯示優(yōu)化難度,這個(gè)10^3層網(wǎng)絡(luò)能夠?qū)崿F(xiàn)<0.1%的訓(xùn)練誤差(圖6熄驼,右)像寒。 它的測試誤差仍然相當(dāng)不錯(cuò)(7.93%烘豹,表6)瓜贾。?
但是,在如此龐大的深層模型中仍存在未解決的問題携悯。 這個(gè)1202層網(wǎng)絡(luò)的測試結(jié)果比我們的110層網(wǎng)絡(luò)差祭芦,盡管兩者都有類似的訓(xùn)練誤差。 我們認(rèn)為這是因?yàn)檫^度擬合憔鬼。 對于這個(gè)小數(shù)據(jù)集龟劲,1202層網(wǎng)絡(luò)可能不必要地大(19.4M)胃夏。 應(yīng)用強(qiáng)正則化(例如maxout [10]或dropout [14])以獲得該數(shù)據(jù)集的最佳結(jié)果([10,25,24,35])。 在本文中昌跌,我們不使用maxout / dropout仰禀,只是簡單地通過設(shè)計(jì)的深層和薄層架構(gòu)進(jìn)行正則化,而不會分散對優(yōu)化難度的關(guān)注蚕愤。 但結(jié)合更強(qiáng)的正規(guī)化可能會改善結(jié)果答恶,我們將在未來研究。?
4.3 PASCAL和MS COCO上的物體檢測?
我們的方法在其他識別任務(wù)上具有良好的泛化性能萍诱。 表7和表8顯示了PASCAL VOC 2007和2012 [5]以及COCO [26]的物體檢測結(jié)果基準(zhǔn)悬嗓。 我們采用更快的R-CNN [32]作為檢測方法。 在這里裕坊,我們感興趣的是用ResNet-101取代VGG-16 [41]的改進(jìn)包竹。 使用兩種模型的檢測實(shí)現(xiàn)(見附錄)是相同的,因此增益只能歸功于更好的網(wǎng)絡(luò)籍凝。 最值得注意的是周瞎,在具有挑戰(zhàn)性的COCO數(shù)據(jù)集中,我們獲得了COCO標(biāo)準(zhǔn)指標(biāo)(mAP @ [静浴。5堰氓,.95])增加了6.0%,相對改善了28%苹享。 這一收益完全歸功于學(xué)到的表述双絮。?
基于深度殘差網(wǎng)絡(luò),我們在ILSVRC和COCO 2015競賽的幾個(gè)賽道中獲得了第一名:ImageNet檢測得问,ImageNet定位囤攀,COCO檢測和COCO分割。 詳情見附錄宫纬。
附錄未翻譯焚挠,翻譯中有錯(cuò)請大家指正。附上原文鏈接http://www.cs.princeton.edu/courses/archive/spring16/cos598F/msra-deepnet.pdf