CNN系列:ResNet:圖像識(shí)別的深度殘差學(xué)習(xí)(Deep Residual Learning for Image Recognition)

譯者按:

關(guān)于圖像識(shí)別CNN 是基礎(chǔ)椅文,VGG和? GoogleNet 是增強(qiáng)版CNN饱狂,繼VGG和GoogLeNet在網(wǎng)絡(luò)深度上進(jìn)行了進(jìn)一步的嘗試廷没,取得了比較大的進(jìn)展-網(wǎng)絡(luò)越深效果也越好-,但也遇到了問(wèn)題:? ? ? ?網(wǎng)絡(luò)越深径荔,越容易出現(xiàn)梯度消失督禽,導(dǎo)致模型訓(xùn)練難度變大,出現(xiàn)“退化”現(xiàn)象总处,出現(xiàn)退化的問(wèn)題狈惫,主要是由于網(wǎng)絡(luò)深度的增加,帶來(lái)的在網(wǎng)絡(luò)訓(xùn)練的時(shí)候鹦马,梯度無(wú)法有效的傳遞到淺層網(wǎng)絡(luò)胧谈,導(dǎo)致出現(xiàn)梯度彌散(vanishing)。BN(BatchNormalization)通過(guò)規(guī)范化輸出數(shù)據(jù)來(lái)改變數(shù)據(jù)分布菠红,是一個(gè)向前的過(guò)程來(lái)解決梯度彌散問(wèn)題,而本文作者創(chuàng)造性提出了一種新的網(wǎng)絡(luò)架構(gòu)难菌,通過(guò)增加skip connection(Identity Map)來(lái)直接連接淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)试溯,從而使得梯度能夠很好的傳遞到淺層。這樣resNet 可以達(dá)到驚人的150層深度且沒(méi)有梯度損失郊酒,作者憑借著深度殘差學(xué)習(xí)在Imagenet比賽的三個(gè)任務(wù)遇绞、以及COCO比賽的檢測(cè)和分割任務(wù)上都獲得了第一名。本文作者何凱明博士燎窘,2003年廣東省理科高考狀元摹闽,2007年清華大學(xué)畢業(yè),2011年香港中文大學(xué)博士畢業(yè)后褐健,加入微軟亞洲研究院MSRA實(shí)習(xí)和正式入職付鹿,本文是他以第一作者身份在2016 CVPR上獲得的最佳論文獎(jiǎng),2016年8月他離開(kāi)MSRA加入了FAIR(Facebook AI Research)蚜迅,擔(dān)任研究科學(xué)家舵匾。恰巧他和前文GoogLeNet作者賈揚(yáng)清 同為?微軟亞洲研究院同事

————————————————————————————————

摘要

在現(xiàn)有基礎(chǔ)下,想要進(jìn)一步訓(xùn)練更深層次的神經(jīng)網(wǎng)絡(luò)是非常困難的谁不。我們提出了一種減輕網(wǎng)絡(luò)訓(xùn)練負(fù)擔(dān)的殘差學(xué)習(xí)框架坐梯,這種網(wǎng)絡(luò)比以前使用過(guò)的網(wǎng)絡(luò)本質(zhì)上層次更深。我們明確地將這層作為輸入層相關(guān)的學(xué)習(xí)殘差函數(shù)刹帕,而不是學(xué)習(xí)未知的函數(shù)吵血。同時(shí)谎替,我們提供了全面實(shí)驗(yàn)數(shù)據(jù),這些數(shù)據(jù)證明殘差網(wǎng)絡(luò)更容易優(yōu)化蹋辅,并且可以從深度增加中大大提高精度钱贯。我們?cè)贗mageNet數(shù)據(jù)集用152 層--比VGG網(wǎng)絡(luò)深8倍的深度來(lái)評(píng)估殘差網(wǎng)絡(luò),但它仍具有較低的復(fù)雜度晕翠。在ImageNet測(cè)試集中喷舀,這些殘差網(wǎng)絡(luò)整體達(dá)到了3.57%的誤差。該結(jié)果在2015年大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽分類(lèi)任務(wù)中贏得了第一淋肾。此外硫麻,我們還用了100到1000層深度分析了的CIFAR-10。

對(duì)于大部分視覺(jué)識(shí)別任務(wù)樊卓,深度表示是非常重要的拿愧。僅由于極深的表示,在COCO對(duì)象檢查數(shù)據(jù)時(shí)碌尔,我們就得到了近28%相關(guān)的改進(jìn)浇辜。深度剩余網(wǎng)絡(luò)是我們提交給ILSVRC和COCO2015競(jìng)賽的基礎(chǔ),而且在ImageNet檢測(cè)任務(wù)唾戚,ImageNet定位柳洋,COCO檢測(cè)和COCO分割等領(lǐng)域贏我們獲得了第一。

簡(jiǎn)介

深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類(lèi)方面叹坦,引發(fā)了一系列突破熊镣。通過(guò)改變疊層的數(shù)量(深度),深度網(wǎng)絡(luò)自然整合低/中/高水平的功能募书,終端到終端多層方式的分層器绪囱,和特征的“水平”都變得更加豐富。最近的證據(jù)表明網(wǎng)絡(luò)深度是至關(guān)重要的莹捡,在挑戰(zhàn)性的ImageNet數(shù)據(jù)集中領(lǐng)先結(jié)果的團(tuán)隊(duì)鬼吵,都利用了“很深”模型,該深度為十六至三十篮赢。而且很多特殊的視覺(jué)識(shí)別任務(wù)也從深度模型中大大受益齿椅。

受到深度意義的驅(qū)使,出現(xiàn)了一個(gè)問(wèn)題:學(xué)習(xí)更好的網(wǎng)絡(luò)是否和疊加層數(shù)一樣簡(jiǎn)單启泣?解決該問(wèn)題的一大障礙是臭名昭著的梯度爆發(fā)與消失問(wèn)題媒咳,它從一開(kāi)始就阻礙了收斂。然而种远,這個(gè)問(wèn)題很大程度上被歸一的初始化和中心歸一層解決了涩澡,它確保幾十層的網(wǎng)絡(luò)開(kāi)始用反向傳播收斂隨機(jī)梯度下降(SGD)。

當(dāng)更深的網(wǎng)絡(luò)能夠開(kāi)始融合時(shí),暴露出了降級(jí)問(wèn)題:隨著網(wǎng)絡(luò)深度的增加妙同,精準(zhǔn)度開(kāi)始飽和(這并不令人吃驚)然后迅速下降射富。預(yù)料之外的是,在[11,42]中報(bào)道并且經(jīng)過(guò)我們實(shí)驗(yàn)徹底驗(yàn)粥帚,證精準(zhǔn)度的下降并不是由過(guò)度擬合造成的胰耗,而且在相配的深度模式中增加更多的層數(shù),會(huì)造成更高的訓(xùn)練誤差芒涡。圖1展示了一個(gè)經(jīng)典的實(shí)例柴灯。


圖1.20層和56層“平原”網(wǎng)絡(luò)時(shí)CIFAR-10的訓(xùn)練誤差(左)和測(cè)試誤差(右),深度網(wǎng)絡(luò)有著更高的訓(xùn)練誤差费尽,并且造成測(cè)試誤差赠群。在圖4也展示了圖像網(wǎng)中類(lèi)似的現(xiàn)象。

精準(zhǔn)度的下降表明了旱幼,并不是所有的系統(tǒng)都同樣容易優(yōu)化查描。我們考慮一個(gè)較淺的體系結(jié)構(gòu)和與它深度相似增加了更多層的體系結(jié)構(gòu)。其中一個(gè)解決方案是建立更深層的模型:添加身份映射層柏卤,另一層則是從學(xué)習(xí)更淺的模型中拷貝的冬三。這個(gè)構(gòu)造解決方案的存在,表示應(yīng)該制造一個(gè)更深層模型,該模型產(chǎn)生的訓(xùn)練誤差,低于與它深度相似更淺的模型橡类。但實(shí)驗(yàn)顯示我們目前無(wú)法找到一個(gè)與構(gòu)造解決方案一樣好,或者更好的解決方案(或者無(wú)法再可行的時(shí)間內(nèi)完成)窝爪。

在本論文中,介紹了一個(gè)深層次的殘差學(xué)習(xí)框架來(lái)解決精準(zhǔn)度下降問(wèn)題该园。我們明確地讓這些層適合殘差映射酸舍,而不是寄希望于每一個(gè)堆疊層直接適合一個(gè)所需的底層映射帅韧。形式上里初,把H(x)作為所需的基本映射,讓堆疊的非線(xiàn)性層適合另一個(gè)映射F(x):=H(x)-x忽舟。那么原映射便轉(zhuǎn)化成:F(x)+x双妨。我們假設(shè)優(yōu)化剩余的映射,比優(yōu)化原來(lái)未引用的映射更容易叮阅。如果身份映射是最佳的刁品,那么將剩余的映射推為零,就比用一堆非線(xiàn)性層來(lái)適應(yīng)身份映射更容易浩姥。

公式F(x)+x可以通過(guò)“快捷連接”前饋神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)(圖2)挑随。快捷連接是那些跳過(guò)中的一層或更多層勒叠。在我們的情景中兜挨,快捷連接簡(jiǎn)單的執(zhí)行身份映射膏孟,并將它們的輸出添加到疊加層的輸出(圖2)。身份快捷連接添加既不產(chǎn)生額外的參數(shù)拌汇,也會(huì)增加不計(jì)算的復(fù)雜度柒桑。通過(guò)反向傳播的SGD,整個(gè)網(wǎng)絡(luò)仍然可以被訓(xùn)練成終端到終端噪舀,并且可以在沒(méi)有修改器的情況下很容易的使用公共圖書(shū)館(例如Caffe)魁淳。

我們?cè)贗mageNet上進(jìn)行了綜合性的實(shí)驗(yàn)展示精準(zhǔn)度下降問(wèn)題,并評(píng)估我們的方法与倡。我們發(fā)現(xiàn):(1)特別深的殘差網(wǎng)很容易優(yōu)化界逛,但深度增加時(shí),對(duì)應(yīng)的“平面”網(wǎng)(即簡(jiǎn)單的堆棧層)表現(xiàn)出更高的訓(xùn)練誤差蒸走。(2)深度殘差網(wǎng)絡(luò)能夠在大大增加深度中獲得高精準(zhǔn)度仇奶, 產(chǎn)生的結(jié)果本質(zhì)上優(yōu)于以前的網(wǎng)絡(luò)。

相似的現(xiàn)象同樣出現(xiàn)在了CIFAR-10集中比驻,這表明了優(yōu)化的難度该溯,以及我們方法影響的不僅僅是類(lèi)似于一個(gè)特定的數(shù)據(jù)集。我們?cè)谶@個(gè)超過(guò)100層數(shù)據(jù)集中提出了成功的訓(xùn)練模型别惦,并探討了超過(guò)1000層的模型狈茉。

在ImageNet分層數(shù)據(jù)集中,通過(guò)極深的殘差網(wǎng)絡(luò)掸掸,我們得到了非常好的結(jié)果氯庆。152層的殘差網(wǎng)絡(luò)在ImageNet中是最深層的網(wǎng)絡(luò),同時(shí)相比于VGG網(wǎng)絡(luò)仍然具有較低的復(fù)雜性扰付。我們的集成在ImageNet測(cè)試集中有3.57%排前5的誤差堤撵,并且在2015ILSVRC分類(lèi)競(jìng)爭(zhēng)中取得第一名。這種極深的陳述在其它識(shí)別任務(wù)方面也有出色的泛化性能羽莺,并帶領(lǐng)我們進(jìn)一步贏得了

第一的位置:在ILSVRC和COCO2015競(jìng)賽中的实昨,mageNet檢測(cè),ImageNet定位盐固,COCO檢測(cè)荒给,和COCO分割方面。這有力的證據(jù)表明刁卜,剩余的學(xué)習(xí)的原則是通用的志电,我們期望它適用于其它的視覺(jué)和非視覺(jué)問(wèn)題。

2.相關(guān)工作

殘差表示蛔趴。在圖像識(shí)別中挑辆,VLAD是一個(gè)象征,通過(guò)關(guān)于字典的殘差向量進(jìn)行編程,而且費(fèi)舍爾向量可以被制定成VLAD的概率版本鱼蝉。它們兩個(gè)對(duì)于圖像檢索與分類(lèi)都是有效的淺表示茉继。

對(duì)于矢量化,編碼殘差向量比編碼原始向量更有效蚀乔。

在低層次視覺(jué)和計(jì)算機(jī)圖形學(xué)中烁竭,為了解決偏微分方程(PDEs),它們廣泛的使用多重網(wǎng)格法吉挣,將系統(tǒng)重構(gòu)成多尺度的子問(wèn)題派撕,每個(gè)子問(wèn)題負(fù)責(zé)更粗和更細(xì)規(guī)模之間的殘差解答。多重網(wǎng)格的一種替代方法是分層的基礎(chǔ)預(yù)處理睬魂,它依賴(lài)于表示兩個(gè)尺度之間的殘差向量的變量终吼。

這些收斂解法比不知道殘差性質(zhì)的標(biāo)準(zhǔn)解法快得多。這些方法表明氯哮,一個(gè)好的方法或預(yù)處理可以簡(jiǎn)化優(yōu)化际跪。

快捷連接。導(dǎo)致快捷連接的方法和理論已經(jīng)被研究了很長(zhǎng)時(shí)間喉钢。訓(xùn)練多層感知器早期的實(shí)踐是從網(wǎng)絡(luò)的輸入到輸出添加一個(gè)線(xiàn)性層姆打。在[44,24]中,一些中間層直接連接到輔助分類(lèi)器肠虽,來(lái)解決梯度的爆發(fā)與消失問(wèn)題幔戏。論文的[39,38,31,47]提出用于中心層響應(yīng),梯度和傳播誤差了的方法税课,該方法通過(guò)快捷連接實(shí)現(xiàn)闲延。在[ 44 ],一個(gè)“開(kāi)始”層是由一個(gè)快捷的分支和一些更深的分支組成韩玩。

并發(fā)我們的工作垒玲,“highway network”提出了門(mén)控功能的快捷連接。這些門(mén)依賴(lài)于數(shù)據(jù)和已有的參數(shù)找颓,而我們的身份快捷鍵無(wú)需參數(shù)合愈。當(dāng)一個(gè)門(mén)控的快捷方式“關(guān)閉”(接近零時(shí)),highway network中的層代表非殘差函數(shù)叮雳。相反的是想暗,我們的想法總是學(xué)習(xí)殘差函數(shù)妇汗,我們的身份快捷方式從來(lái)沒(méi)有關(guān)閉帘不,而且所有的信息通過(guò)時(shí),總是需要學(xué)習(xí)額外的殘差函數(shù)杨箭。此外寞焙,highway network并沒(méi)有表現(xiàn)出,精準(zhǔn)度并沒(méi)有隨著深度的大大增加而提高(例如,超過(guò)100層)捣郊。

3深度殘差學(xué)習(xí)

3.1殘差學(xué)習(xí)

將H(X)假設(shè)為由幾個(gè)堆疊層匹配的(不一定是整個(gè)網(wǎng))基礎(chǔ)映射辽狈,用x表示這些第一層的輸入。假設(shè)多元非線(xiàn)性層能逼近復(fù)雜的函數(shù)2呛牲,也就相當(dāng)于假設(shè)它們可以逼近殘差函數(shù)刮萌,例如H(x)-x(假設(shè)輸入和輸出在同一規(guī)模)。因此我們非常明確的讓這些層近似于殘差函數(shù)娘扩,而并非期待堆疊層近似于H(x)着茸。所以原函數(shù)變成了:F(x)+x。盡管兩種形式都能逼近期望函數(shù)琐旁,但它的學(xué)習(xí)難易度可能不同涮阔。

新的構(gòu)思源于反常的精準(zhǔn)度下降問(wèn)題。如我們?cè)诤?jiǎn)介中討論的一樣灰殴,如果添加的層可以被構(gòu)造為身份映射敬特,那么一個(gè)更深度模型的訓(xùn)練誤差,不應(yīng)大于與其相應(yīng)的更淺的模型訓(xùn)練誤差牺陶。精準(zhǔn)度下降問(wèn)題表明伟阔,求解器在通過(guò)多個(gè)非線(xiàn)性層近似于身份映射方面有困難。隨著殘差學(xué)習(xí)重構(gòu)掰伸,如果身份映射是最佳的方法减俏,那么求解器可以簡(jiǎn)單地驅(qū)動(dòng)多個(gè)非線(xiàn)性層的權(quán)重趨向于零,以便逼近身份映射碱工。

在現(xiàn)實(shí)情況中娃承,身份映射不可能是最優(yōu)的,但我們的方法可能有助于事先處理該問(wèn)題怕篷。如果最優(yōu)函數(shù)與趨近于零映射相比更趨近于身份函數(shù)历筝,那么與學(xué)習(xí)一個(gè)新函數(shù)相比,求解器更容易找到關(guān)于身份映射的干擾廊谓。我們通過(guò)實(shí)驗(yàn)展示(圖7)所學(xué)到的剩余函數(shù)一般有小的響應(yīng)梳猪,這表明身份映射提供了合理的預(yù)處理。


圖2殘差學(xué)習(xí):一個(gè)構(gòu)建模塊

3.2蒸痹〈好郑快捷方式的身份映射

我們對(duì)每一個(gè)堆疊層都采用殘差學(xué)習(xí),一個(gè)構(gòu)建模塊如圖2所示叠荠。正式地說(shuō)匿沛,本文構(gòu)建模塊定義為:

其中x和y是考慮到的層的輸入和輸出向量。函數(shù)F(x榛鼎,{Wi})代表學(xué)習(xí)的殘差函數(shù)逃呼。如圖2所示有兩個(gè)層鳖孤,F(xiàn)=W2?(W1x)中?表示ReLU,而且消除了簡(jiǎn)化符號(hào)的偏見(jiàn)抡笼。F+x的操作是是由快捷連接和增加的元素智能進(jìn)行的苏揣。在增加之后我門(mén)采用了第二非線(xiàn)性特性(例如?(y)如圖2)。

公式(1)中介紹的快捷連接推姻,沒(méi)有額外的參數(shù)和復(fù)雜的計(jì)算平匈。這不僅在實(shí)踐中有吸引力,它在對(duì)比平原和殘差網(wǎng)絡(luò)方面也同樣重要藏古。有著相同數(shù)量的參數(shù)吐葱,深度,寬度和計(jì)算成本時(shí)(除了可以忽略不計(jì)的元素智能的添加)校翔,我們可以對(duì)平原和殘差網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單的對(duì)比弟跑。

在式1中x和F的大小必須相同。如果不同(例如改變輸入和輸出渠道)我們可以通過(guò)快捷連接線(xiàn)性投影Ws來(lái)匹配維度:


我們也可以在式1中使用一個(gè)正方形矩陣Ws防症。但我們會(huì)通過(guò)實(shí)驗(yàn)表明孟辑,身份映射足以

用于解決精準(zhǔn)度下降問(wèn)題并且是非常合算的,因此只有在匹配維度時(shí)蔫敲,才使用Ws饲嗽。

殘差函數(shù)F的形式是靈活的,本文的實(shí)驗(yàn)涉及一個(gè)有兩層或三層(圖5)或者更多層的函數(shù)F奈嘿。但如果F僅僅只有單層貌虾,式1就類(lèi)似于線(xiàn)性層:y=W1x+x,因?yàn)閭儧](méi)有觀察的優(yōu)勢(shì)裙犹。

我們還注意到尽狠,雖然上面的符號(hào)為了簡(jiǎn)單起見(jiàn)是關(guān)于完全連接的層,但它們適用于卷積層叶圃。函數(shù)F(x袄膏,{Wi})可以代表多個(gè)卷積層。增加的元素智能在兩個(gè)特征映射上通過(guò)通道對(duì)通道的方式進(jìn)行掺冠。

3.3網(wǎng)絡(luò)構(gòu)架

我們測(cè)試了不同的平原和殘差網(wǎng)絡(luò)沉馆,并且觀察到一致現(xiàn)象。為了給論述提供實(shí)例德崭,我們描述了兩個(gè)ImageNet模型如下斥黑。

平原網(wǎng)絡(luò)。我們的平原基線(xiàn)(圖3眉厨,中間)主要受啟于VGG網(wǎng)理論(圖3锌奴,左)。卷積層主要有3X3的過(guò)濾器并遵循兩個(gè)簡(jiǎn)單的設(shè)計(jì)規(guī)則:(i)對(duì)于相同的輸出特征映射大小缺猛,圖層有相同數(shù)量的濾波器缨叫;(ii)如果特征映射的大小被減半,過(guò)濾器的數(shù)量增加一倍荔燎,以保持每層的時(shí)間復(fù)雜度耻姥。我們通過(guò)有一個(gè)跨度為2的卷積層,直接進(jìn)行下采樣有咨。網(wǎng)絡(luò)以一個(gè)全局平均池層和有著最溫和的1000路全連接層結(jié)尾琐簇。圖3(中間)中加權(quán)層的總數(shù)是34。值得注意的是座享,我們的模型比VGG網(wǎng)(圖3婉商,左)有著更少的過(guò)濾器和更低的復(fù)雜度。我們的34層基線(xiàn)有3.6億個(gè)觸發(fā)器(乘加)渣叛,這只有vgg-19的18%(19.6億觸發(fā)器)丈秩。

殘差網(wǎng)絡(luò)〈狙茫基于上面的平原網(wǎng)絡(luò)蘑秽,我們插入快捷連接(圖3,右)箫攀,將網(wǎng)絡(luò)轉(zhuǎn)變成其對(duì)應(yīng)的殘差版本肠牲。當(dāng)輸入,輸出大小相同的時(shí)候(實(shí)心線(xiàn)的捷徑在圖3)靴跛,身份快捷鍵(公式(1))可以直接使用缀雳。當(dāng)尺寸增加時(shí)(虛線(xiàn)快捷鍵在圖3)中,我們考慮了兩個(gè)選項(xiàng):(A)快捷方式仍然執(zhí)行身份映射梢睛,用額外的零條目填充以便增加尺寸肥印。該選項(xiàng)不會(huì)引入額外的參數(shù);(B)公式(2)中的投影捷徑绝葡,用于匹配尺寸(完成1×1卷積)竖独。當(dāng)快捷鍵以?xún)蓚€(gè)大小在功能地圖上進(jìn)行時(shí),這兩個(gè)選項(xiàng)進(jìn)行了2跨度挤牛。

3.4 實(shí)施

我們遵循了[21,41]中的方法莹痢,實(shí)施ImageNet。圖像的大小與隨著[ 256墓赴,480 中]它的短邊隨機(jī)采樣而調(diào)整竞膳,以便增大規(guī)模[ 41 ]。 224x224的結(jié)果诫硕,是從減去每個(gè)像素的平均值的圖像或其水平翻轉(zhuǎn)圖像坦辟,中隨機(jī)抽樣得到的。在[ 21 ]中增強(qiáng)了標(biāo)準(zhǔn)色章办。在每一個(gè)卷積之后和激活之前锉走,我們采用了BN算法滨彻。我們?nèi)鏪 13]中一樣初始化權(quán)重 ,并從零開(kāi)始訓(xùn)練所有的平原和殘差網(wǎng)挪蹭。我們使用了一個(gè)迷你的SGD大小為256亭饵。學(xué)習(xí)率從0.1開(kāi)始,并在誤差穩(wěn)定時(shí)分為10份梁厉,而且我們訓(xùn)練該模型高達(dá)60x104次迭代辜羊。我們使用重量衰減為0.0001和0.9。而不是使用傳統(tǒng)[ 16 ]中的慣例词顾。

測(cè)試中八秃,為了對(duì)比我們采用標(biāo)準(zhǔn)的10-crop試驗(yàn)。為達(dá)到最佳效果肉盹,我們采用完全卷積形式如[ 41昔驱,13 ]中所示,并且平均多尺度大小的成績(jī)(短側(cè)圖像的大小調(diào)整在{ 224上忍,256舍悯,384,480睡雇,640 }中)萌衬。

4實(shí)驗(yàn)

4.1 Imagenet分級(jí)

我們?cè)贗mageNet 2012分類(lèi)數(shù)據(jù)集中評(píng)估了我們的方法,該數(shù)據(jù)集由1000個(gè)級(jí)組成它抱。我們?cè)?28萬(wàn)訓(xùn)練圖像中訓(xùn)練模型秕豫,并且在50K驗(yàn)證圖像進(jìn)行了評(píng)估。測(cè)試中心報(bào)道观蓄,我們也在100k的測(cè)試圖像中獲得了最終結(jié)果混移。評(píng)估誤差率在第1和第5之間。

平面網(wǎng)絡(luò)侮穿。我們首先評(píng)估了18層和34層平原網(wǎng)歌径。34層的平原網(wǎng)在圖3(中間)中。18層平面網(wǎng)形式是類(lèi)似亲茅。詳細(xì)架構(gòu)見(jiàn)表1回铛。

表2顯示的結(jié)果表明,較深的34層平面網(wǎng)具有比淺18層平面網(wǎng)更高的驗(yàn)證錯(cuò)誤克锣。為了揭示原因茵肃,在圖4(左)中,我們比較了培訓(xùn)過(guò)程中的訓(xùn)練和驗(yàn)證錯(cuò)誤袭祟。


圖3验残。展示ImageNet網(wǎng)絡(luò)架構(gòu)。左:vgg-19模型(19.6億觸發(fā)器)作為參考巾乳。中間:一個(gè)有34個(gè)參數(shù)層的普通網(wǎng)絡(luò)(3.6億個(gè)觸發(fā)器)您没。右:有34g1參數(shù)層的殘差網(wǎng)絡(luò)(3.6億觸發(fā)器)鸟召。快捷鍵點(diǎn)增加尺寸氨鹏。表1顯示更多細(xì)節(jié)和其他變型欧募。

我們觀察到退化問(wèn)題------在整個(gè)訓(xùn)練過(guò)程中34層的普通網(wǎng)絡(luò)錯(cuò)誤更多,盡管18層普通網(wǎng)絡(luò)的解空間是34層的一個(gè)子空間喻犁。


表1. ImageNet的構(gòu)架槽片。

我們會(huì)爭(zhēng)論優(yōu)化困難不太可能是由梯度消失問(wèn)題導(dǎo)致的何缓。所有的普通網(wǎng)絡(luò)都是通過(guò)BN訓(xùn)練的肢础,而這也保證了向前傳播的信號(hào)有非零差異性。此外我們也要保證反向傳播梯度在BN中表現(xiàn)出良好碌廓。所以無(wú)論是向前或是向后信號(hào)都消失了传轰。事實(shí)上,34層的普通網(wǎng)絡(luò)準(zhǔn)確率更高(如表3)谷婆,而這在一定的程度上也暗示了解算器慨蛙。我們猜想深度普通網(wǎng)絡(luò)可能會(huì)有指數(shù)較低的收斂率能降低訓(xùn)練錯(cuò)誤。此類(lèi)優(yōu)化問(wèn)題會(huì)在未來(lái)進(jìn)行研究纪挎。


圖4. ImageNet訓(xùn)練期贫。細(xì)曲線(xiàn)指代訓(xùn)練錯(cuò)誤,粗曲線(xiàn)指代核心部分的合理錯(cuò)誤异袄。左邊:18層和34層的普通網(wǎng)絡(luò)通砍。右邊:18層和34層的殘差網(wǎng)絡(luò)。在此處烤蜕,殘差網(wǎng)絡(luò)和普通網(wǎng)絡(luò)的參數(shù)一樣封孙。


表2.在ImageNet確認(rèn)部分的最低錯(cuò)誤率。

殘差網(wǎng)絡(luò)讽营。接下來(lái)我們會(huì)18層和34層的殘差網(wǎng)絡(luò)虎忌。殘差網(wǎng)絡(luò)的框架基準(zhǔn)線(xiàn)與普通網(wǎng)絡(luò)一樣,處理每一對(duì)3×3過(guò)濾器有增加快捷連接(圖3橱鹏,右)膜蠢。在第一個(gè)比較中(表2和圖4,右)莉兰,所有用于增加維度的捷徑和補(bǔ)零都用使用身份定位狡蝶。所以殘差網(wǎng)絡(luò)與普通網(wǎng)絡(luò)的參數(shù)并無(wú)區(qū)別。

我們從表2和圖4中得出3個(gè)重大發(fā)現(xiàn)贮勃。第一贪惹,與殘差學(xué)習(xí)模式相反的情況----34層網(wǎng)絡(luò)比18層網(wǎng)絡(luò)表現(xiàn)要好(2.8%左右)。更重要的是寂嘉,34層殘差網(wǎng)絡(luò)比18層殘差網(wǎng)絡(luò)錯(cuò)誤率更低奏瞬,并且使用于驗(yàn)證數(shù)據(jù)枫绅。而這也表明退化問(wèn)題能在此設(shè)置中解決且我們能從更深層次中獲得準(zhǔn)確率。

第二硼端,與普通網(wǎng)絡(luò)相比并淋,34層殘差網(wǎng)絡(luò)將最低錯(cuò)誤率降低了3.5%(如圖2所示)县耽。這一比較證實(shí)了殘差網(wǎng)絡(luò)在深度學(xué)習(xí)系統(tǒng)中的優(yōu)越性镣典。


表3.在ImageNet確認(rèn)部分的錯(cuò)誤率兔毙。VGG-16是基于我們自己的測(cè)試澎剥。ResNet-50/101/152基于B方案的,且只使用規(guī)劃增加維度赶舆。


表4. ImageNet確認(rèn)部分使用單一模式的錯(cuò)誤率。


表5.整體錯(cuò)誤率叙量。

最后绞佩,我們注意到18層的普通和殘差網(wǎng)絡(luò)是比較準(zhǔn)確的(表2)蒸辆,但是18層的殘差網(wǎng)絡(luò)匯集更快(圖4右VS左)躬贡。當(dāng)網(wǎng)絡(luò)沒(méi)有“過(guò)度重合”(如18層)拂玻,當(dāng)前的SGD求解程序依然可以在普通網(wǎng)絡(luò)找到好的解決方法。在此情況下魄懂,在早期階段通過(guò)提供更快的聚合能緩解ResNet的優(yōu)化問(wèn)題市栗。

恒等式VS規(guī)劃捷徑填帽。我們發(fā)現(xiàn)無(wú)參數(shù)和身份捷徑能幫助訓(xùn)練。接下來(lái)我們會(huì)研究規(guī)劃捷徑(等式2)褐荷。在表3中我們比較了三種選擇:(A)使用補(bǔ)零捷徑增加維度嘹悼,且所有的維度都無(wú)參數(shù)(如表2和圖4杨伙,右)缀台;(B)使用規(guī)劃捷徑增加維度膛腐,而其他的捷徑都是恒等式哲身;(C)所有的捷徑都是規(guī)劃的勘天。


圖5.深層殘差網(wǎng)絡(luò)的在ImageNet的功能F脯丝。

表3顯示三個(gè)方案就普通網(wǎng)絡(luò)比較而言都表現(xiàn)得更出色宠进。B比A表現(xiàn)更好材蹬。我們會(huì)懷疑這是因?yàn)锳中的零填充維度不具備殘差學(xué)習(xí)模式堤器。C比B表現(xiàn)稍好闸溃,我們將此歸功于許多(13個(gè))設(shè)計(jì)捷徑引入許多其他因素辉川。但只有在A/B/C之間的少量不同能證明規(guī)劃捷徑對(duì)于解決退化問(wèn)題十分關(guān)鍵。所以為控制記憶勇哗、時(shí)間復(fù)雜性欲诺,及模式規(guī)模扰法,在本文的剩余部分我們不使用方案C塞颁。恒等式捷徑對(duì)于不增加瓶頸的結(jié)構(gòu)復(fù)雜性至關(guān)重要祠锣。

更深層次的瓶頸結(jié)構(gòu)

接下來(lái)我們會(huì)描述ImageNet更深層次網(wǎng)絡(luò)伴网。因?yàn)殍b于我們時(shí)間有限澡腾,要改善區(qū)塊动分,將其變成瓶頸設(shè)計(jì)澜公。對(duì)于每一個(gè)殘留功能F,我們使用3層瓶頸模式玛瘸,而不是2層糊渊。這3層分別是1×1,3×3和1×1的回旋渺绒。在此范圍中宗兼,所有的1×1層都用于先減少后增加(存儲(chǔ))量度殷绍,讓3×3層的輸入或是輸出量度更小主到。圖5展示了一個(gè)例子登钥,這兩個(gè)設(shè)計(jì)的時(shí)間復(fù)雜性都一樣牧牢。

無(wú)參數(shù)恒等式捷徑對(duì)于瓶頸的結(jié)構(gòu)尤為重要塔鳍。如果圖5(右)中的恒等式捷徑被規(guī)劃所取代献幔,我們能發(fā)現(xiàn)時(shí)間復(fù)雜性和模式大小都會(huì)翻倍蜡感,因?yàn)榻輳绞沁B接兩個(gè)高量度端恃泪。

50層的殘留網(wǎng)絡(luò)

在34層網(wǎng)絡(luò)結(jié)構(gòu)中情连,我們用3層的瓶頸區(qū)塊取代2層的區(qū)塊览效,這時(shí)34層結(jié)構(gòu)就會(huì)變成50層殘差結(jié)構(gòu)锤灿。我們使用B方案增加量度螃诅。而這一模式有38億FLOPs术裸。

101層和152層的殘差網(wǎng)絡(luò)模式袭艺。我們通過(guò)使用3層的瓶頸區(qū)塊構(gòu)建101層和152層的殘差模式。讓人驚訝的是门坷,盡管深度顯著增加默蚌,152層的殘差模式(113億FLOPs)復(fù)雜性較VGG-16/19網(wǎng)絡(luò)(153/196億FLOPs)更小。

34層的殘差網(wǎng)絡(luò)較50/101/152層更準(zhǔn)確锦茁。我們不關(guān)注退化問(wèn)題码俩,因此更在意隨著深度增加而增加的準(zhǔn)確度稿存。

先進(jìn)方法之間的比較瓣履。在表4中袖迎,我們比較了之前單一模式所取得的最好結(jié)果燕锥。而我們34層殘差網(wǎng)絡(luò)模式準(zhǔn)確度最高归形。152層ResNet模式錯(cuò)誤率最低4.49%连霉。而這也超過(guò)之前所有模式跺撼。我們結(jié)合6種不同深度的模式形成一種合集模式歉井,這一模在測(cè)試中的錯(cuò)誤率只有3.57%哩至,讓我們?cè)贗LSVRC2015中拔得頭籌卢佣。

4.2 CIFAR-10和分析

我們?cè)贑IFAR-10的數(shù)據(jù)集中進(jìn)行多場(chǎng)研究虚茶,此數(shù)據(jù)集包括50k的訓(xùn)練圖像和10K測(cè)試圖像嘹叫,且這些圖像都被分成了10類(lèi)罩扇。我們將會(huì)展示在訓(xùn)練集中訓(xùn)練和在測(cè)試集中評(píng)估的試驗(yàn)喂饥。我們關(guān)注的焦點(diǎn)在于深層網(wǎng)絡(luò)的行為仰泻,不在于取得最好結(jié)果,所以我們有意使用簡(jiǎn)單結(jié)構(gòu)。

所有普通/殘差結(jié)構(gòu)都必須遵循圖3 的流程泡挺。網(wǎng)絡(luò)輸入32×32的圖像娄猫,但像素有所縮小媳溺。第一層是3×3回旋悬蔽。接下來(lái)是6n層的3×3回旋蝎困,且特征神經(jīng)網(wǎng)絡(luò)有2n層左右大小禾乘。過(guò)濾層的數(shù)量分別是{16,32,64}失暂。二次抽樣是由跨度在2左右的回旋執(zhí)行的弟塞。網(wǎng)絡(luò)結(jié)構(gòu)終止于10個(gè)完全連接層决记。這里總共有6n+2的權(quán)重層倍踪。下表總結(jié)了其結(jié)構(gòu)構(gòu)成扩借。


但當(dāng)它們都運(yùn)用捷徑連接時(shí)潮罪,它們就是通過(guò)3×3層連接起來(lái)。在此數(shù)據(jù)集中何恶,我們?cè)谒械那闆r下都使用恒等式捷徑细层,所以我們殘留模式有與簡(jiǎn)單模式完全一樣的深度疫赎,寬度和參數(shù)數(shù)量虚缎。


圖6 基于CIFAR的錯(cuò)誤分類(lèi)

我們使用了權(quán)重衰減為0.0001和沖量單位為0.9陌僵,并且在采用權(quán)值初始化和BN方法但并未輸出碗短。這些模式是在128有2個(gè)GPUs大小規(guī)模的數(shù)據(jù)中進(jìn)行一次訓(xùn)練偎谁。我們開(kāi)始的學(xué)習(xí)率是0.1,且由32k和48k迭代次數(shù)分為10類(lèi)铐望,且在64k迭代次數(shù)結(jié)束訓(xùn)練正蛙。我們根據(jù)簡(jiǎn)單的訓(xùn)練數(shù)據(jù)增大:每一邊填充4像素,最后從填充的數(shù)據(jù)圖像中隨機(jī)選取32×32的結(jié)果锻全。對(duì)于測(cè)試虱痕,我們只評(píng)價(jià)最初的32×32圖像。

我們比較當(dāng)n={3,5,7}時(shí)新思,20層夹囚,32層荸哟,44層和56層的網(wǎng)絡(luò)結(jié)構(gòu)鞍历。圖6(左)展示的是普通網(wǎng)絡(luò)的表現(xiàn)。普通網(wǎng)絡(luò)隨著深度的增加錯(cuò)誤率也會(huì)變高刑枝。這與ImageNet和MNIST是類(lèi)似的装畅,這說(shuō)明優(yōu)化問(wèn)題是一個(gè)基礎(chǔ)問(wèn)題。

圖6向我們展示了ResNet的表現(xiàn)徽千。與ImageNet類(lèi)似双抽,ResNet旨在隨著深度的增加,克服優(yōu)化問(wèn)題和提高準(zhǔn)確率慎菲。

我們會(huì)更加深入探討當(dāng)n=18,110層的殘差網(wǎng)絡(luò)結(jié)構(gòu)露该。在此情況下抑党,我們發(fā)現(xiàn)初始學(xué)習(xí)率為0.1對(duì)于會(huì)聚還是太高了底靠。所以我們使用0.01的初始學(xué)習(xí)率再進(jìn)行訓(xùn)練暑中,直到錯(cuò)誤率低于80%時(shí),才使用0.1的初始值進(jìn)行訓(xùn)練严衬。接下來(lái)的程序如之前所述進(jìn)行请琳。110層的網(wǎng)絡(luò)匯聚的十分好(圖6中)。它比其他深度或是簡(jiǎn)單模式的參數(shù)更少竖慧,如FitNet和Highway圾旨,但是結(jié)果卻是十分的優(yōu)秀魏蔗。


圖7.在CIFAR-10上的層對(duì)于標(biāo)準(zhǔn)背離的表現(xiàn)砍的。其反應(yīng)是3×3層的結(jié)構(gòu)輸出,在BN之后和非線(xiàn)性之前莺治。上:是層的原始排列廓鞠。下:是按照降序的方法排列其反應(yīng)。

反應(yīng)分析谣旁。CIFAR-10上的層對(duì)于標(biāo)準(zhǔn)背離的表現(xiàn)。其反應(yīng)是3×3層的結(jié)構(gòu)輸出榄审,在BN之后和非線(xiàn)性之前砌们。對(duì)于殘差網(wǎng)絡(luò),這一分析反應(yīng)的是殘差函數(shù)的影響。圖7顯示ResNet通常比原始網(wǎng)絡(luò)反應(yīng)更小怨绣。這一結(jié)果證實(shí)了我們最初的想法殘差函數(shù)比非殘差函數(shù)更接近于零角溃。更深層次的ResNet反應(yīng)幅度更小拷获,如圖7ResNet-20,56,和100所示篮撑。隨著層數(shù)的增加,ResNet的每一次會(huì)傾向于少改變信號(hào)匆瓜。

超過(guò)100層的探索赢笨。我們深入探索超過(guò)1000層的深度模式。我們假設(shè)n=200驮吱,此時(shí)的網(wǎng)絡(luò)結(jié)果超過(guò)1202層茧妒。我們的模式?jīng)]有任何優(yōu)化問(wèn)題,103的網(wǎng)絡(luò)結(jié)構(gòu)能實(shí)現(xiàn)訓(xùn)練錯(cuò)誤率<0.1%(圖6右)左冬。其測(cè)試錯(cuò)誤率也十分的低(7.93%桐筏,表6)。

但是在深度模式中還是有問(wèn)題拇砰。

1202層的測(cè)試結(jié)果比110層的要差梅忌,盡管兩者的訓(xùn)練錯(cuò)誤率差不多。我們認(rèn)為是過(guò)度擬合造成的除破。

1202層網(wǎng)絡(luò)系統(tǒng)對(duì)于如此小是數(shù)據(jù)集或許是太大了牧氮。為在此數(shù)據(jù)集中吸重,取得較好結(jié)果有必要做重要調(diào)整如Maxout激發(fā)函數(shù)和Dropout激發(fā)函數(shù)鲫趁。在本文中,我們并未使用Maxout激發(fā)函數(shù)和Dropout激發(fā)函數(shù)春寿,僅僅只通過(guò)深度和簡(jiǎn)單結(jié)構(gòu)做一些修改光坝。但是聯(lián)合更大的調(diào)整也許能取得更好的結(jié)果尸诽,這一課題我們會(huì)在未來(lái)進(jìn)行研究。


圖7使用更快的R-CNN標(biāo)準(zhǔn)盯另,在PASCAL VOC 2007/2012測(cè)試集上進(jìn)行目標(biāo)檢測(cè)性含。


圖8使用更快的R-CNN標(biāo)準(zhǔn),在COCO驗(yàn)證集中進(jìn)行目標(biāo)測(cè)試土铺。

4.3 在PASCAL和MSCOCO上的目標(biāo)檢測(cè)

我們的模式在其他的識(shí)別任務(wù)中有較好的表現(xiàn)胶滋。表7和表8顯示了基于PASCAL VOC 2007,2012和COCO上悲敷,目標(biāo)測(cè)試結(jié)果究恤。我們采用更快的R-CNN作為測(cè)試方法。我們對(duì)于使用ResNet取代VGG-16方法所獲得的進(jìn)步很感興趣后德。使用兩種模式所得到的方法是一樣的部宿,所以所獲結(jié)果的差別在于網(wǎng)絡(luò)結(jié)構(gòu)。更令人驚訝的是,在極具挑戰(zhàn)性的COCO數(shù)據(jù)集中理张,我們?nèi)〉昧?.0%的進(jìn)步赫蛇,相較而言是有28%左右的進(jìn)步。這全歸功于所學(xué)得的表現(xiàn)雾叭。

基于深度殘差網(wǎng)絡(luò)悟耘,我們贏得了ILSVRC&COCO2015比賽的冠軍:圖像識(shí)別,圖像定位和公共圖像識(shí)別和公共圖像分類(lèi)织狐。詳情請(qǐng)見(jiàn)附錄暂幼。

附錄

A.對(duì)象檢測(cè)基準(zhǔn)

在這一節(jié)中來(lái)介紹我們基于Faster R-CNN系統(tǒng)的檢測(cè)方法。這個(gè)模型最初是用來(lái)進(jìn)行Imagenet分類(lèi)移迫,然后被用于對(duì)象檢測(cè)數(shù)據(jù)領(lǐng)域旺嬉。在ILSVRC&COCO 2015檢測(cè)競(jìng)賽中我們實(shí)現(xiàn)了ResNet-50/101。

與參考文獻(xiàn)[32]中的VGG-16不一樣厨埋,ResNet沒(méi)有隱藏的fc層邪媳。我們將“卷曲特性圖的神經(jīng)網(wǎng)絡(luò)”理念運(yùn)用到這個(gè)問(wèn)題中。將全圖卷曲特性進(jìn)行預(yù)算(如表1所示)荡陷∮晷В考慮到這些層級(jí)和VGG-16中的13卷曲層類(lèi)似,這樣ResNet和VGG-16就都有同樣的跨步了(16像素)亲善。最終的分類(lèi)層被兩個(gè)同級(jí)層取代设易。

對(duì)于BN層的使用,在訓(xùn)練之前我們隊(duì)ImageNet的每個(gè)訓(xùn)練層都進(jìn)行了BN統(tǒng)計(jì)蛹头。然后BN層在轉(zhuǎn)移到物體檢測(cè)時(shí)被修正了顿肺。通過(guò)這些訓(xùn)練,BN層變得更加線(xiàn)性活躍了渣蜗,而且BN統(tǒng)計(jì)數(shù)據(jù)不會(huì)隨著轉(zhuǎn)移而變化屠尊。這些對(duì)BN層的修正主要是為了減少在Faster-CNN訓(xùn)練過(guò)程中的內(nèi)存消耗。

PASCAL VOC

針對(duì)PASCAL VOC 2007數(shù)據(jù)組耕拷,我們和參考文獻(xiàn)[7,32]中使用的方法一樣讼昆,用來(lái)訓(xùn)練Faster R-CNN的超參數(shù)和參考文獻(xiàn)[32]中提到的一樣,表7展示的是訓(xùn)練結(jié)果骚烧。ResNet-101在VGG-16的基礎(chǔ)上提高了mAP超過(guò)3%的成績(jī)浸赫。

MS COCO

MS COCO數(shù)據(jù)組包括80種對(duì)象類(lèi)別。我們使用80k圖像來(lái)針對(duì)訓(xùn)練組赃绊,40k圖像來(lái)針對(duì)預(yù)判組既峡。RPN步態(tài)和Fast R-CNN步態(tài)都使用0.001學(xué)習(xí)率的240k迭代來(lái)進(jìn)行訓(xùn)練,然后在0.0001學(xué)習(xí)率的80k迭代下訓(xùn)練碧查。

表8展示的是MS COCO的訓(xùn)練結(jié)果运敢,這些結(jié)果證明深度網(wǎng)絡(luò)的確能提高識(shí)別和定位的效率校仑。

B. 對(duì)象檢測(cè)提升

為了追求完美,我們針對(duì)競(jìng)賽提升了性能传惠。這些提升都是基于深度特性的迄沫,而且對(duì)殘差學(xué)習(xí)有益。

MS COCO

邊界改良

我們的邊界改良沿用的是參考文獻(xiàn)[6]中的迭代定位卦方。我們將300個(gè)新的預(yù)判與原始的300個(gè)預(yù)判結(jié)合起來(lái)羊瘩。邊界改良大概提升了mAP2個(gè)百分點(diǎn)的成績(jī)(如表9所示)。


表9

多范圍測(cè)試

以上所有的結(jié)果都是在單一范圍內(nèi)進(jìn)行訓(xùn)練愿汰、測(cè)試的困后,如參考文獻(xiàn)[32]中提到的那樣。在我們目前的訓(xùn)練中衬廷,我們沿用了參考文獻(xiàn)[33]中的方法進(jìn)行了多范圍測(cè)試,但由于時(shí)間限制我們還沒(méi)有進(jìn)行多范圍訓(xùn)練汽绢。另外吗跋,我們特別針對(duì)Fast R-CNN步態(tài)進(jìn)行了多范圍測(cè)試。通過(guò)模型訓(xùn)練宁昭,對(duì)圖像椎體進(jìn)行卷曲特性計(jì)算跌宛,它的短邊長(zhǎng)在s ∈ {200,400,600,800,1000}。

我們選取了椎體的兩個(gè)相鄰范圍积仗,結(jié)果證明多范圍測(cè)試能提升mAP2個(gè)百分點(diǎn)的成績(jī)疆拘。

使用確認(rèn)數(shù)據(jù)

接下來(lái)我們使用80k+40k trainval數(shù)據(jù)組來(lái)進(jìn)行訓(xùn)練,20k測(cè)試數(shù)據(jù)組來(lái)進(jìn)行評(píng)估寂曹,單模型結(jié)果如表9所示哎迄。

組合

在Faster R-CNN系統(tǒng)里這些是分別用來(lái)學(xué)習(xí)地區(qū)方案和對(duì)象分類(lèi),如果組合在一起能把兩者加速隆圆。表9展示了我們基于3中網(wǎng)絡(luò)組合的結(jié)果漱挚,在測(cè)試開(kāi)發(fā)組中mAP取得了59.0%和37.4%的成績(jī)。

這是COCO 2015檢測(cè)任務(wù)中的最佳成績(jī)渺氧。

PASCAL VOC

基于上面的模型我們對(duì)PASCAL VOC數(shù)據(jù)組進(jìn)行了測(cè)試旨涝,根據(jù)之前的經(jīng)驗(yàn)我們進(jìn)行了少許調(diào)整,結(jié)果是我們?cè)赑ASCAL VOC 2007上取得了了85.6%mAP的成績(jī)(表10)侣背,在PASCAL VOC 2012上取得了83.8%mAP成績(jī)(表11)白华。在PASCAL VOC 2012上獲得的成績(jī)比目前最佳成績(jī)還要好10%。

表10


表11

ImageNet檢測(cè)

ImageNet檢測(cè)任務(wù)包括200個(gè)對(duì)象類(lèi)別贩耐。我們使用的對(duì)象檢測(cè)算法和在MS COCO中的相同(表9)弧腥。在DET測(cè)試組上,單一ResNet-101模型取得了58.9%的成績(jī)憔杨,3個(gè)組合模型取得了62.1%的成績(jī)(表12)鸟赫。

這是ILSVRC 2015中ImageNet檢測(cè)任務(wù)的最佳成績(jī)。


表12

C.ImageNet定位

Imagenet定位(LOC)任務(wù)要求對(duì)物體分類(lèi)再進(jìn)行定位。根據(jù)參考文獻(xiàn)[40,41]抛蚤,假設(shè)首先用圖像分類(lèi)器來(lái)預(yù)測(cè)圖像類(lèi)別台谢,然后根據(jù)預(yù)測(cè)類(lèi)別使用定位算法開(kāi)始進(jìn)行定位。我們采用了“類(lèi)回歸策略”對(duì)每一類(lèi)進(jìn)行邊界框定岁经。我們提前對(duì)Imagnet分類(lèi)進(jìn)行訓(xùn)練然后將它們調(diào)整到定位功能朋沮。為了訓(xùn)練這個(gè)網(wǎng)絡(luò)我們提供了1000類(lèi)Imagnet訓(xùn)練組。

我們的定位算法基于在RPN框架上進(jìn)行小部分修改缀壤。和參考文獻(xiàn)[32]的未知分類(lèi)不一樣樊拓,我們的RPN定位是每一類(lèi)的形式。和參考文獻(xiàn)[32]中的一樣塘慕,我們的邊界改良在每個(gè)位置都有平移不變的“錨定”邊界筋夏。

在3.4中的ImageNet分類(lèi)訓(xùn)練中,我們隨機(jī)使用224x224切割來(lái)進(jìn)行數(shù)據(jù)擴(kuò)增图呢。為了測(cè)試条篷,將整個(gè)網(wǎng)絡(luò)都應(yīng)用于完全卷積的圖像中。

表13對(duì)定位結(jié)果進(jìn)行了對(duì)比蛤织,VGG的文章指出使用基礎(chǔ)真實(shí)類(lèi)別會(huì)找出33.1%的中心切割錯(cuò)誤赴叹。當(dāng)使用ResNet-101來(lái)預(yù)測(cè)類(lèi)別,前5的定位錯(cuò)誤結(jié)果是14.1%(表4)指蚜。


表13

上述結(jié)果僅是基于Faster R-CNN(參考文獻(xiàn)[32])的RPN上乞巧。人們可以使用檢測(cè)網(wǎng)絡(luò)(Fast R-CNN)在Faster R-CNN中來(lái)改善結(jié)果。但我們注意到摊鸡,在此數(shù)據(jù)集绽媒,一個(gè)圖像通常包含單個(gè)支配對(duì)象,并且該區(qū)域相互高度重疊柱宦。受此啟發(fā)些椒,在我們目前的實(shí)驗(yàn)中,我們使用原來(lái)的R-CNN 來(lái)取代現(xiàn)有的Fast R-CNN掸刊。

我們的R-CNN實(shí)現(xiàn)情況如下免糕。我們將每個(gè)訓(xùn)練好的的單類(lèi)別RPN用于訓(xùn)練圖像上,來(lái)預(yù)測(cè)邊界限制情況和基準(zhǔn)事實(shí)類(lèi)別忧侧。為了測(cè)試石窑,RPN在每個(gè)預(yù)測(cè)類(lèi)別生成了最高到200層的方法,并且使用R-CNN網(wǎng)絡(luò)來(lái)提高這些方法成績(jī)和它的邊界位置蚓炬。

這種方法將前5的定位錯(cuò)誤降低到10.6%(表13)松逊。這是我們的單模型在驗(yàn)證組上的成績(jī)。將分類(lèi)和定位組合起來(lái)使用肯夏,我們將前5的定位錯(cuò)誤率降低到了9.0%经宏。這個(gè)數(shù)字明顯比ILSVRC14的結(jié)果要好(表14)犀暑,還減少了64%的相關(guān)錯(cuò)誤。


表14

這個(gè)結(jié)果在ILSVRC2015中的ImageNet定位任務(wù)上取得第一名的成績(jī)烁兰。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末耐亏,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子沪斟,更是在濱河造成了極大的恐慌广辰,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,110評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件主之,死亡現(xiàn)場(chǎng)離奇詭異择吊,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)槽奕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)几睛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人史翘,你說(shuō)我怎么就攤上這事枉长。” “怎么了琼讽?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,474評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)洪唐。 經(jīng)常有香客問(wèn)我钻蹬,道長(zhǎng),這世上最難降的妖魔是什么凭需? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,881評(píng)論 1 295
  • 正文 為了忘掉前任问欠,我火速辦了婚禮,結(jié)果婚禮上粒蜈,老公的妹妹穿的比我還像新娘顺献。我一直安慰自己,他們只是感情好枯怖,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,902評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布注整。 她就那樣靜靜地躺著,像睡著了一般度硝。 火紅的嫁衣襯著肌膚如雪肿轨。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,698評(píng)論 1 305
  • 那天蕊程,我揣著相機(jī)與錄音椒袍,去河邊找鬼。 笑死藻茂,一個(gè)胖子當(dāng)著我的面吹牛驹暑,可吹牛的內(nèi)容都是我干的玫恳。 我是一名探鬼主播,決...
    沈念sama閱讀 40,418評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼优俘,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼京办!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起兼吓,我...
    開(kāi)封第一講書(shū)人閱讀 39,332評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤臂港,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后视搏,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體审孽,經(jīng)...
    沈念sama閱讀 45,796評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,968評(píng)論 3 337
  • 正文 我和宋清朗相戀三年浑娜,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了佑力。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,110評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡筋遭,死狀恐怖打颤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情漓滔,我是刑警寧澤编饺,帶...
    沈念sama閱讀 35,792評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站响驴,受9級(jí)特大地震影響透且,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜豁鲤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,455評(píng)論 3 331
  • 文/蒙蒙 一秽誊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧琳骡,春花似錦锅论、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,003評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至竖席,卻和暖如春耘纱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背毕荐。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,130評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工束析, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人憎亚。 一個(gè)月前我還...
    沈念sama閱讀 48,348評(píng)論 3 373
  • 正文 我出身青樓员寇,卻偏偏與公主長(zhǎng)得像弄慰,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蝶锋,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,047評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容