翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation
Very Deep Convolutional Networks for Large-Scale Image Recognition
摘要
在這項(xiàng)工作中技肩,我們研究了卷積網(wǎng)絡(luò)深度在大規(guī)模的圖像識(shí)別環(huán)境下對(duì)準(zhǔn)確性的影響。我們的主要貢獻(xiàn)是使用非常小的(3×3)卷積濾波器架構(gòu)對(duì)網(wǎng)絡(luò)深度的增加進(jìn)行了全面評(píng)估,這表明通過(guò)將深度推到16-19加權(quán)層可以實(shí)現(xiàn)對(duì)現(xiàn)有技術(shù)配置的顯著改進(jìn)尚卫。這些發(fā)現(xiàn)是我們的ImageNet Challenge 2014提交的基礎(chǔ),我們的團(tuán)隊(duì)在定位和分類(lèi)過(guò)程中分別獲得了第一名和第二名运嗜。我們還表明齿梁,我們的表示對(duì)于其他數(shù)據(jù)集泛化的很好,在其它數(shù)據(jù)集上取得了最好的結(jié)果斑鸦。我們使我們的兩個(gè)性能最好的ConvNet模型可公開(kāi)獲得,以便進(jìn)一步研究計(jì)算機(jī)視覺(jué)中深度視覺(jué)表示的使用草雕。
1 引言
卷積網(wǎng)絡(luò)(ConvNets)近來(lái)在大規(guī)模圖像和視頻識(shí)別方面取得了巨大成功(Krizhevsky等巷屿,2012;Zeiler&Fergus墩虹,2013嘱巾;Sermanet等,2014诫钓;Simonyan&Zisserman旬昭,2014)由于大的公開(kāi)圖像存儲(chǔ)庫(kù),例如ImageNet菌湃,以及高性能計(jì)算系統(tǒng)的出現(xiàn)问拘,例如GPU或大規(guī)模分布式集群(Dean等,2012)慢味,使這成為可能场梆。特別是,在深度視覺(jué)識(shí)別架構(gòu)的進(jìn)步中纯路,ImageNet大型視覺(jué)識(shí)別挑戰(zhàn)(ILSVRC)(Russakovsky等或油,2014)發(fā)揮了重要作用,它已經(jīng)成為幾代大規(guī)模圖像分類(lèi)系統(tǒng)的測(cè)試臺(tái)驰唬,從高維度淺層特征編碼(Perronnin等顶岸,2010)(ILSVRC-2011的獲勝者)到深層ConvNets(Krizhevsky等,2012)(ILSVRC-2012的獲獎(jiǎng)?wù)撸?/p>
隨著ConvNets在計(jì)算機(jī)視覺(jué)領(lǐng)域越來(lái)越商品化叫编,為了達(dá)到更好的準(zhǔn)確性辖佣,已經(jīng)進(jìn)行了許多嘗試來(lái)改進(jìn)Krizhevsky等人(2012)最初的架構(gòu)。例如搓逾,ILSVRC-2013(Zeiler&Fergus卷谈,2013;Sermanet等霞篡,2014)表現(xiàn)最佳的提交使用了更小的感受窗口尺寸和更小的第一卷積層步長(zhǎng)世蔗。另一條改進(jìn)措施在整個(gè)圖像和多個(gè)尺度上對(duì)網(wǎng)絡(luò)進(jìn)行密集地訓(xùn)練和測(cè)試(Sermanet等端逼,2014;Howard污淋,2014)顶滩。在本文中,我們解決了ConvNet架構(gòu)設(shè)計(jì)的另一個(gè)重要方面——其深度寸爆。為此礁鲁,我們修正了架構(gòu)的其它參數(shù),并通過(guò)添加更多的卷積層來(lái)穩(wěn)定地增加網(wǎng)絡(luò)的深度赁豆,這是可行的仅醇,因?yàn)樵谒袑又惺褂梅浅P〉模?×3)卷積濾波器。
因此魔种,我們提出了更為精確的ConvNet架構(gòu)着憨,不僅可以在ILSVRC分類(lèi)和定位任務(wù)上取得的最佳的準(zhǔn)確性,而且還適用于其它的圖像識(shí)別數(shù)據(jù)集务嫡,它們可以獲得優(yōu)異的性能,即使使用相對(duì)簡(jiǎn)單流程的一部分(例如漆改,通過(guò)線(xiàn)性SVM分類(lèi)深度特征而不進(jìn)行微調(diào))心铃。我們發(fā)布了兩款表現(xiàn)最好的模型1,以便進(jìn)一步研究挫剑。
本文的其余部分組織如下去扣。在第2節(jié),我們描述了我們的ConvNet配置樊破。圖像分類(lèi)訓(xùn)練和評(píng)估的細(xì)節(jié)在第3節(jié)愉棱,并在第4節(jié)中在ILSVRC分類(lèi)任務(wù)上對(duì)配置進(jìn)行了比較。第5節(jié)總結(jié)了論文哲戚。為了完整起見(jiàn)奔滑,我們還將在附錄A中描述和評(píng)估我們的ILSVRC-2014目標(biāo)定位系統(tǒng),并在附錄B中討論了非常深的特征在其它數(shù)據(jù)集上的泛化顺少。最后朋其,附錄C包含了主要的論文修訂列表。
2. ConvNet配置
為了衡量ConvNet深度在公平環(huán)境中所帶來(lái)的改進(jìn)脆炎,我們所有的ConvNet層配置都使用相同的規(guī)則梅猿,靈感來(lái)自Ciresan等(2011);Krizhevsky等人(2012年)秒裕。在本節(jié)中袱蚓,我們首先描述我們的ConvNet配置的通用設(shè)計(jì)(第2.1節(jié)),然后詳細(xì)說(shuō)明評(píng)估中使用的具體配置(第2.2節(jié))几蜻。最后喇潘,我們的設(shè)計(jì)選擇將在2.3節(jié)進(jìn)行討論并與現(xiàn)有技術(shù)進(jìn)行比較体斩。
在訓(xùn)練期間,我們的ConvNet的輸入是固定大小的224×224 RGB圖像响蓉。我們唯一的預(yù)處理是從每個(gè)像素中減去在訓(xùn)練集上計(jì)算的RGB均值硕勿。圖像通過(guò)一堆卷積(conv.)層,我們使用感受野很小的濾波器:3×3(這是捕獲左/右枫甲,上/下源武,中心概念的最小尺寸)。在其中一種配置中想幻,我們還使用了1×1卷積濾波器粱栖,可以看作輸入通道的線(xiàn)性變換(后面是非線(xiàn)性)。卷積步長(zhǎng)固定為1個(gè)像素脏毯;卷積層輸入的空間填充要滿(mǎn)足卷積之后保留空間分辨率闹究,即3×3卷積層的填充為1個(gè)像素∈车辏空間池化由五個(gè)最大池化層進(jìn)行渣淤,這些層在一些卷積層之后(不是所有的卷積層之后都是最大池化)。在2×2像素窗口上進(jìn)行最大池化吉嫩,步長(zhǎng)為2价认。
一堆卷積層(在不同架構(gòu)中具有不同深度)之后是三個(gè)全連接(FC)層:前兩個(gè)每個(gè)都有4096個(gè)通道,第三個(gè)執(zhí)行1000維ILSVRC分類(lèi)自娩,因此包含1000個(gè)通道(一個(gè)通道對(duì)應(yīng)一個(gè)類(lèi)別)用踩。最后一層是soft-max層。所有網(wǎng)絡(luò)中全連接層的配置是相同的忙迁。
所有隱藏層都配備了修正(ReLU(Krizhevsky等脐彩,2012))非線(xiàn)性。我們注意到姊扔,我們的網(wǎng)絡(luò)(除了一個(gè))都不包含局部響應(yīng)規(guī)范化(LRN)(Krizhevsky等惠奸,2012):將在第4節(jié)看到,這種規(guī)范化并不能提高在ILSVRC數(shù)據(jù)集上的性能恰梢,但增加了內(nèi)存消耗和計(jì)算時(shí)間晨川。在應(yīng)用的地方,LRN層的參數(shù)是(Krizhevsky等删豺,2012)的參數(shù)共虑。
2.2 配置
本文中評(píng)估的ConvNet配置在表1中列出,每列一個(gè)呀页。接下來(lái)我們將按網(wǎng)站名稱(chēng)(A-E)來(lái)提及網(wǎng)絡(luò)妈拌。所有配置都遵循2.1節(jié)提出的通用設(shè)計(jì),并且僅是深度不同:從網(wǎng)絡(luò)A中的11個(gè)加權(quán)層(8個(gè)卷積層和3個(gè)FC層)到網(wǎng)絡(luò)E中的19個(gè)加權(quán)層(16個(gè)卷積層和3個(gè)FC層)。卷積層的寬度(通道數(shù))相當(dāng)小尘分,從第一層中的64開(kāi)始猜惋,然后在每個(gè)最大池化層之后增加2倍,直到達(dá)到512培愁。
表1:ConvNet配置(以列顯示)著摔。隨著更多的層被添加,配置的深度從左(A)增加到右(E)(添加的層以粗體顯示)定续。卷積層參數(shù)表示為“conv?感受野大小?-通道數(shù)?”谍咆。為了簡(jiǎn)潔起見(jiàn),不顯示ReLU激活功能私股。
在表2中摹察,我們報(bào)告了每個(gè)配置的參數(shù)數(shù)量。盡管深度很大倡鲸,我們的網(wǎng)絡(luò)中權(quán)重?cái)?shù)量并不大于具有更大卷積層寬度和感受野的較淺網(wǎng)絡(luò)中的權(quán)重?cái)?shù)量(144M的權(quán)重在(Sermanet等人供嚎,2014)中)。
表2:參數(shù)數(shù)量(百萬(wàn)級(jí)別)
2.3 討論
我們的ConvNet配置與ILSVRC-2012(Krizhevsky等峭状,2012)和ILSVRC-2013比賽(Zeiler&Fergus克滴,2013;Sermanet等优床,2014)表現(xiàn)最佳的參賽提交中使用的ConvNet配置有很大不同偿曙。不是在第一卷積層中使用相對(duì)較大的感受野(例如,在(Krizhevsky等人羔巢,2012)中的11×11,步長(zhǎng)為4罩阵,或在(Zeiler&Fergus竿秆,2013;Sermanet等稿壁,2014)中的7×7幽钢,步長(zhǎng)為2),我們?cè)谡麄€(gè)網(wǎng)絡(luò)使用非常小的3×3感受野傅是,與輸入的每個(gè)像素(步長(zhǎng)為1)進(jìn)行卷積匪燕。很容易看到兩個(gè)3×3卷積層堆疊(沒(méi)有空間池化)有5×5的有效感受野;三個(gè)這樣的層具有7×7的有效感受野喧笔。那么我們獲得了什么帽驯?例如通過(guò)使用三個(gè)3×3卷積層的堆疊來(lái)替換單個(gè)7×7層。首先书闸,我們結(jié)合了三個(gè)非線(xiàn)性修正層尼变,而不是單一的,這使得決策函數(shù)更具判別性浆劲。其次嫌术,我們減少參數(shù)的數(shù)量:假設(shè)三層3×3卷積堆疊的輸入和輸出有$C$個(gè)通道哀澈,堆疊卷積層的參數(shù)為$3(32C2)=27C2$個(gè)權(quán)重;同時(shí)度气,單個(gè)7×7卷積層將需要$72C2=49C2$個(gè)參數(shù)割按,即參數(shù)多81%。這可以看作是對(duì)7×7卷積濾波器進(jìn)行正則化磷籍,迫使它們通過(guò)3×3濾波器(在它們之間注入非線(xiàn)性)進(jìn)行分解适荣。
結(jié)合1×1卷積層(配置C,表1)是增加決策函數(shù)非線(xiàn)性而不影響卷積層感受野的一種方式择示。即使在我們的案例下束凑,1×1卷積基本上是在相同維度空間上的線(xiàn)性投影(輸入和輸出通道的數(shù)量相同),由修正函數(shù)引入附加的非線(xiàn)性栅盲。應(yīng)該注意的是1×1卷積層最近在Lin等人(2014)的“Network in Network”架構(gòu)中已經(jīng)得到了使用汪诉。
Ciresan等人(2011)以前使用小尺寸的卷積濾波器,但是他們的網(wǎng)絡(luò)深度遠(yuǎn)遠(yuǎn)低于我們的網(wǎng)絡(luò)谈秫,他們并沒(méi)有在大規(guī)模的ILSVRC數(shù)據(jù)集上進(jìn)行評(píng)估扒寄。Goodfellow等人(2014)在街道號(hào)識(shí)別任務(wù)中采用深層ConvNets(11個(gè)權(quán)重層),顯示出增加的深度導(dǎo)致了更好的性能拟烫。GooLeNet(Szegedy等该编,2014),ILSVRC-2014分類(lèi)任務(wù)的表現(xiàn)最好的項(xiàng)目硕淑,是獨(dú)立于我們工作之外的開(kāi)發(fā)的课竣,但是類(lèi)似的是它是基于非常深的ConvNets(22個(gè)權(quán)重層)和小卷積濾波器(除了3×3,它們也使用了1×1和5×5卷積)置媳。然而于樟,它們的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)比我們的更復(fù)雜,并且在第一層中特征圖的空間分辨率被更積極地減少拇囊,以減少計(jì)算量迂曲。正如將在第4.5節(jié)顯示的那樣,我們的模型在單網(wǎng)絡(luò)分類(lèi)精度方面勝過(guò)Szegedy等人(2014)寥袭。
3 分類(lèi)框架
在上一節(jié)中路捧,我們介紹了我們的網(wǎng)絡(luò)配置的細(xì)節(jié)。在本節(jié)中传黄,我們將介紹分類(lèi)ConvNet訓(xùn)練和評(píng)估的細(xì)節(jié)杰扫。
3.1 訓(xùn)練
ConvNet訓(xùn)練過(guò)程通常遵循Krizhevsky等人(2012)(除了從多尺度訓(xùn)練圖像中對(duì)輸入裁剪圖像進(jìn)行采樣外,如下文所述)膘掰。也就是說(shuō)涉波,通過(guò)使用具有動(dòng)量的小批量梯度下降(基于反向傳播(LeCun等人,1989))優(yōu)化多項(xiàng)式邏輯回歸目標(biāo)函數(shù)來(lái)進(jìn)行訓(xùn)練。批量大小設(shè)為256啤覆,動(dòng)量為0.9苍日。訓(xùn)練通過(guò)權(quán)重衰減(L2懲罰乘子設(shè)定為$5·10{?4}$)進(jìn)行正則化,前兩個(gè)全連接層執(zhí)行丟棄正則化(丟棄率設(shè)定為0.5)窗声。學(xué)習(xí)率初始設(shè)定為$10{?2}$相恃,然后當(dāng)驗(yàn)證集準(zhǔn)確率停止改善時(shí),減少10倍笨觅。學(xué)習(xí)率總共降低3次拦耐,學(xué)習(xí)在37萬(wàn)次迭代后停止(74個(gè)epochs)。我們推測(cè)见剩,盡管與(Krizhevsky等杀糯,2012)相比我們的網(wǎng)絡(luò)參數(shù)更多,網(wǎng)絡(luò)的深度更大苍苞,但網(wǎng)絡(luò)需要更小的epoch就可以收斂固翰,這是由于(a)由更大的深度和更小的卷積濾波器尺寸引起的隱式正則化,(b)某些層的預(yù)初始化羹呵。
網(wǎng)絡(luò)權(quán)重的初始化是重要的骂际,因?yàn)橛捎谏疃染W(wǎng)絡(luò)中梯度的不穩(wěn)定,不好的初始化可能會(huì)阻礙學(xué)習(xí)冈欢。為了規(guī)避這個(gè)問(wèn)題歉铝,我們開(kāi)始訓(xùn)練配置A(表1),足夠淺以隨機(jī)初始化進(jìn)行訓(xùn)練凑耻。然后太示,當(dāng)訓(xùn)練更深的架構(gòu)時(shí),我們用網(wǎng)絡(luò)A的層初始化前四個(gè)卷積層和最后三個(gè)全連接層(中間層被隨機(jī)初始化)香浩。我們沒(méi)有減少預(yù)初始化層的學(xué)習(xí)率类缤,允許他們?cè)趯W(xué)習(xí)過(guò)程中改變。對(duì)于隨機(jī)初始化(如果應(yīng)用)弃衍,我們從均值為0和方差為$10^{?2}$的正態(tài)分布中采樣權(quán)重。偏置初始化為零坚俗。值得注意的是镜盯,在提交論文之后,我們發(fā)現(xiàn)可以通過(guò)使用Glorot&Bengio(2010)的隨機(jī)初始化程序來(lái)初始化權(quán)重而不進(jìn)行預(yù)訓(xùn)練猖败。
訓(xùn)練圖像大小速缆。令S是等軸歸一化的訓(xùn)練圖像的最小邊,ConvNet輸入從S中裁剪(我們也將S稱(chēng)為訓(xùn)練尺度)恩闻。雖然裁剪尺寸固定為224×224艺糜,但原則上S可以是不小于224的任何值:對(duì)于$S=224$,裁剪圖像將捕獲整個(gè)圖像的統(tǒng)計(jì)數(shù)據(jù),完全擴(kuò)展訓(xùn)練圖像的最小邊破停;對(duì)于$S?224$翅楼,裁剪圖像將對(duì)應(yīng)于圖像的一小部分,包含小對(duì)象或?qū)ο蟮囊徊糠帧?/p>
我們考慮兩種方法來(lái)設(shè)置訓(xùn)練尺度S真慢。第一種是修正對(duì)應(yīng)單尺度訓(xùn)練的S(注意毅臊,采樣裁剪圖像中的圖像內(nèi)容仍然可以表示多尺度圖像統(tǒng)計(jì))。在我們的實(shí)驗(yàn)中黑界,我們?cè)u(píng)估了以?xún)蓚€(gè)固定尺度訓(xùn)練的模型:$S = 256$(已經(jīng)在現(xiàn)有技術(shù)中廣泛使用(Krizhevsky等人管嬉,2012;Zeiler&Fergus朗鸠,2013蚯撩;Sermanet等,2014))和$S = 384$烛占。給定ConvNet配置胎挎,我們首先使用$S=256$來(lái)訓(xùn)練網(wǎng)絡(luò)。為了加速$S = 384$網(wǎng)絡(luò)的訓(xùn)練扰楼,用$S = 256$預(yù)訓(xùn)練的權(quán)重來(lái)進(jìn)行初始化呀癣,我們使用較小的初始學(xué)習(xí)率$10^{?3}$。
設(shè)置S的第二種方法是多尺度訓(xùn)練弦赖,其中每個(gè)訓(xùn)練圖像通過(guò)從一定范圍$[S_{min}项栏,S_{max}]$(我們使用$S_{min} = 256$和$S_{max} = 512$)隨機(jī)采樣S來(lái)單獨(dú)進(jìn)行歸一化。由于圖像中的目標(biāo)可能具有不同的大小蹬竖,因此在訓(xùn)練期間考慮到這一點(diǎn)是有益的沼沈。這也可以看作是通過(guò)尺度抖動(dòng)進(jìn)行訓(xùn)練集增強(qiáng),其中單個(gè)模型被訓(xùn)練在一定尺度范圍內(nèi)識(shí)別對(duì)象币厕。為了速度的原因列另,我們通過(guò)對(duì)具有相同配置的單尺度模型的所有層進(jìn)行微調(diào),訓(xùn)練了多尺度模型旦装,并用固定的$S = 384$進(jìn)行預(yù)訓(xùn)練页衙。
3.2 測(cè)試
在測(cè)試時(shí),給出訓(xùn)練的ConvNet和輸入圖像阴绢,它按以下方式分類(lèi)店乐。首先,將其等軸地歸一化到預(yù)定義的最小圖像邊呻袭,表示為Q(我們也將其稱(chēng)為測(cè)試尺度)眨八。我們注意到,Q不一定等于訓(xùn)練尺度S(正如我們?cè)诘?節(jié)中所示左电,每個(gè)S使用Q的幾個(gè)值會(huì)導(dǎo)致性能改進(jìn))廉侧。然后页响,網(wǎng)絡(luò)以類(lèi)似于(Sermanet等人,2014)的方式密集地應(yīng)用于歸一化的測(cè)試圖像上段誊。即闰蚕,全連接層首先被轉(zhuǎn)換成卷積層(第一FC層轉(zhuǎn)換到7×7卷積層,最后兩個(gè)FC層轉(zhuǎn)換到1×1卷積層)枕扫。然后將所得到的全卷積網(wǎng)絡(luò)應(yīng)用于整個(gè)(未裁剪)圖像上陪腌。結(jié)果是類(lèi)得分圖的通道數(shù)等于類(lèi)別的數(shù)量,以及取決于輸入圖像大小的可變空間分辨率烟瞧。最后诗鸭,為了獲得圖像的類(lèi)別分?jǐn)?shù)的固定大小的向量,類(lèi)得分圖在空間上平均(和池化)参滴。我們還通過(guò)水平翻轉(zhuǎn)圖像來(lái)增強(qiáng)測(cè)試集强岸;將原始圖像和翻轉(zhuǎn)圖像的soft-max類(lèi)后驗(yàn)進(jìn)行平均,以獲得圖像的最終分?jǐn)?shù)砾赔。
由于全卷積網(wǎng)絡(luò)被應(yīng)用在整個(gè)圖像上蝌箍,所以不需要在測(cè)試時(shí)對(duì)采樣多個(gè)裁剪圖像(Krizhevsky等温峭,2012)捏境,因?yàn)樗枰W(wǎng)絡(luò)重新計(jì)算每個(gè)裁剪圖像,這樣效率較低檐迟。同時(shí)专普,如Szegedy等人(2014)所做的那樣悯衬,使用大量的裁剪圖像可以提高準(zhǔn)確度,因?yàn)榕c全卷積網(wǎng)絡(luò)相比檀夹,它使輸入圖像的采樣更精細(xì)筋粗。此外,由于不同的卷積邊界條件炸渡,多裁剪圖像評(píng)估是密集評(píng)估的補(bǔ)充:當(dāng)將ConvNet應(yīng)用于裁剪圖像時(shí)娜亿,卷積特征圖用零填充,而在密集評(píng)估的情況下蚌堵,相同裁剪圖像的填充自然會(huì)來(lái)自于圖像的相鄰部分(由于卷積和空間池化)买决,這大大增加了整個(gè)網(wǎng)絡(luò)的感受野,因此捕獲了更多的上下文吼畏。雖然我們認(rèn)為在實(shí)踐中督赤,多裁剪圖像的計(jì)算時(shí)間增加并不足以證明準(zhǔn)確性的潛在收益,但作為參考宫仗,我們還在每個(gè)尺度使用50個(gè)裁剪圖像(5×5規(guī)則網(wǎng)格够挂,2次翻轉(zhuǎn))評(píng)估了我們的網(wǎng)絡(luò)旁仿,在3個(gè)尺度上總共150個(gè)裁剪圖像藕夫,與Szegedy等人(2014)在4個(gè)尺度上使用的144個(gè)裁剪圖像孽糖。
3.3 實(shí)現(xiàn)細(xì)節(jié)
我們的實(shí)現(xiàn)來(lái)源于公開(kāi)的C++ Caffe工具箱(Jia,2013)(2013年12月推出)毅贮,但包含了一些重大的修改办悟,使我們能夠?qū)Π惭b在單個(gè)系統(tǒng)中的多個(gè)GPU進(jìn)行訓(xùn)練和評(píng)估,也能訓(xùn)練和評(píng)估在多個(gè)尺度上(如上所述)的全尺寸(未裁剪)圖像滩褥。多GPU訓(xùn)練利用數(shù)據(jù)并行性病蛉,通過(guò)將每批訓(xùn)練圖像分成幾個(gè)GPU批次,每個(gè)GPU并行處理瑰煎。在計(jì)算GPU批次梯度之后铺然,將其平均以獲得完整批次的梯度。梯度計(jì)算在GPU之間是同步的酒甸,所以結(jié)果與在單個(gè)GPU上訓(xùn)練完全一樣魄健。
最近提出了更加復(fù)雜的加速ConvNet訓(xùn)練的方法(Krizhevsky,2014)插勤,它們對(duì)網(wǎng)絡(luò)的不同層之間采用模型和數(shù)據(jù)并行沽瘦,我們發(fā)現(xiàn)我們概念上更簡(jiǎn)單的方案與使用單個(gè)GPU相比,在現(xiàn)有的4-GPU系統(tǒng)上已經(jīng)提供了3.75倍的加速农尖。在配備四個(gè)NVIDIA Titan Black GPU的系統(tǒng)上析恋,根據(jù)架構(gòu)訓(xùn)練單個(gè)網(wǎng)絡(luò)需要2-3周時(shí)間。
4 分類(lèi)實(shí)驗(yàn)
數(shù)據(jù)集盛卡。在本節(jié)中助隧,我們介紹了描述的ConvNet架構(gòu)(用于ILSVRC 2012-2014挑戰(zhàn))在ILSVRC-2012數(shù)據(jù)集上實(shí)現(xiàn)的圖像分類(lèi)結(jié)果。數(shù)據(jù)集包括1000個(gè)類(lèi)別的圖像窟扑,并分為三組:訓(xùn)練(130萬(wàn)張圖像)喇颁,驗(yàn)證(5萬(wàn)張圖像)和測(cè)試(留有類(lèi)標(biāo)簽的10萬(wàn)張圖像)。使用兩個(gè)措施評(píng)估分類(lèi)性能:top-1和top-5錯(cuò)誤率嚎货。前者是多類(lèi)分類(lèi)誤差橘霎,即不正確分類(lèi)圖像的比例;后者是ILSVRC中使用的主要評(píng)估標(biāo)準(zhǔn)殖属,并且計(jì)算為圖像真實(shí)類(lèi)別在前5個(gè)預(yù)測(cè)類(lèi)別之外的圖像比例姐叁。
對(duì)于大多數(shù)實(shí)驗(yàn),我們使用驗(yàn)證集作為測(cè)試集洗显。在測(cè)試集上也進(jìn)行了一些實(shí)驗(yàn)外潜,并將其作為ILSVRC-2014競(jìng)賽(Russakovsky等,2014)“VGG”小組的輸入提交到了官方的ILSVRC服務(wù)器挠唆。
4.1 單尺度評(píng)估
我們首先評(píng)估單個(gè)ConvNet模型在單尺度上的性能处窥,其層結(jié)構(gòu)配置如2.2節(jié)中描述。測(cè)試圖像大小設(shè)置如下:對(duì)于固定S的$Q = S$玄组,對(duì)于抖動(dòng)$S ∈ [S_{min}, S_{max}]$滔驾,$Q = 0.5(S_{min} + S_{max})$谒麦。結(jié)果如表3所示。
表3:在單測(cè)試尺度的ConvNet性能
首先哆致,我們注意到绕德,使用局部響應(yīng)歸一化(A-LRN網(wǎng)絡(luò))在沒(méi)有任何歸一化層的情況下,對(duì)模型A沒(méi)有改善摊阀。因此耻蛇,我們?cè)谳^深的架構(gòu)(B-E)中不采用歸一化。
第二胞此,我們觀察到分類(lèi)誤差隨著ConvNet深度的增加而減谐伎А:從A中的11層到E中的19層。值得注意的是漱牵,盡管深度相同亡哄,配置C(包含三個(gè)1×1卷積層)比在整個(gè)網(wǎng)絡(luò)層中使用3×3卷積的配置D更差。這表明布疙,雖然額外的非線(xiàn)性確實(shí)有幫助(C優(yōu)于B)蚊惯,但也可以通過(guò)使用具有非平凡感受野(D比C好)的卷積濾波器來(lái)捕獲空間上下文。當(dāng)深度達(dá)到19層時(shí)灵临,我們架構(gòu)的錯(cuò)誤率飽和截型,但更深的模型可能有益于較大的數(shù)據(jù)集。我們還將網(wǎng)絡(luò)B與具有5×5卷積層的淺層網(wǎng)絡(luò)進(jìn)行了比較儒溉,淺層網(wǎng)絡(luò)可以通過(guò)用單個(gè)5×5卷積層替換B中每對(duì)3×3卷積層得到(其具有相同的感受野如第2.3節(jié)所述)宦焦。測(cè)量的淺層網(wǎng)絡(luò)top-1錯(cuò)誤率比網(wǎng)絡(luò)B的top-1錯(cuò)誤率(在中心裁剪圖像上)高7%,這證實(shí)了具有小濾波器的深層網(wǎng)絡(luò)優(yōu)于具有較大濾波器的淺層網(wǎng)絡(luò)顿涣。
最后波闹,訓(xùn)練時(shí)的尺度抖動(dòng)($S∈[256; 512]$)得到了與固定最小邊($S = 256$或$S = 384$)的圖像訓(xùn)練相比更好的結(jié)果,即使在測(cè)試時(shí)使用單尺度涛碑。這證實(shí)了通過(guò)尺度抖動(dòng)進(jìn)行的訓(xùn)練集增強(qiáng)確實(shí)有助于捕獲多尺度圖像統(tǒng)計(jì)精堕。
4.2 多尺度評(píng)估
在單尺度上評(píng)估ConvNet模型后,我們現(xiàn)在評(píng)估測(cè)試時(shí)尺度抖動(dòng)的影響蒲障。它包括在一張測(cè)試圖像的幾個(gè)歸一化版本上運(yùn)行模型(對(duì)應(yīng)于不同的Q值)歹篓,然后對(duì)所得到的類(lèi)別后驗(yàn)進(jìn)行平均∪嘌郑考慮到訓(xùn)練和測(cè)試尺度之間的巨大差異會(huì)導(dǎo)致性能下降庄撮,用固定S訓(xùn)練的模型在三個(gè)測(cè)試圖像尺度上進(jìn)行了評(píng)估,接近于訓(xùn)練一次:$Q = {S ? 32, S, S + 32}$毙籽。同時(shí)洞斯,訓(xùn)練時(shí)的尺度抖動(dòng)允許網(wǎng)絡(luò)在測(cè)試時(shí)應(yīng)用于更廣的尺度范圍,所以用變量$S ∈ [S_{min}; S_{max}]$訓(xùn)練的模型在更大的尺寸范圍$Q = {S_{min}, 0.5(S_{min} + S_{max}), S_{max}$上進(jìn)行評(píng)估坑赡。
表4中給出的結(jié)果表明烙如,測(cè)試時(shí)的尺度抖動(dòng)導(dǎo)致了更好的性能(與在單一尺度上相同模型的評(píng)估相比扭仁,如表3所示)。如前所述厅翔,最深的配置(D和E)執(zhí)行最佳,并且尺度抖動(dòng)優(yōu)于使用固定最小邊S的訓(xùn)練搀突。我們?cè)隍?yàn)證集上的最佳單網(wǎng)絡(luò)性能為24.8%/7.5% top-1/top-5
的錯(cuò)誤率(在表4中用粗體突出顯示)刀闷。在測(cè)試集上,配置E實(shí)現(xiàn)了7.3% top-5
的錯(cuò)誤率仰迁。
表4:在多個(gè)測(cè)試尺度上的ConvNet性能
4.3 多裁剪圖像評(píng)估
在表5中甸昏,我們將稠密ConvNet評(píng)估與多裁剪圖像評(píng)估進(jìn)行比較(細(xì)節(jié)參見(jiàn)第3.2節(jié))。我們還通過(guò)平均其soft-max輸出來(lái)評(píng)估兩種評(píng)估技術(shù)的互補(bǔ)性徐许∈┟郏可以看出,使用多裁剪圖像表現(xiàn)比密集評(píng)估略好雌隅,而且這兩種方法確實(shí)是互補(bǔ)的翻默,因?yàn)樗鼈兊慕M合優(yōu)于其中的每一種。如上所述恰起,我們假設(shè)這是由于卷積邊界條件的不同處理修械。
表5:ConvNet評(píng)估技術(shù)比較。在所有的實(shí)驗(yàn)中訓(xùn)練尺度S從[256检盼;512]采樣肯污,三個(gè)測(cè)試適度Q考慮:{256, 384, 512}。
4.4 卷積網(wǎng)絡(luò)融合
到目前為止吨枉,我們?cè)u(píng)估了ConvNet模型的性能蹦渣。在這部分實(shí)驗(yàn)中,我們通過(guò)對(duì)soft-max類(lèi)別后驗(yàn)進(jìn)行平均貌亭,結(jié)合了幾種模型的輸出柬唯。由于模型的互補(bǔ)性,這提高了性能圃庭,并且在了2012年(Krizhevsky等权逗,2012)和2013年(Zeiler&Fergus,2013冤议;Sermanet等斟薇,2014)ILSVRC的頂級(jí)提交中使用。
結(jié)果如表6所示恕酸。在ILSVRC提交的時(shí)候堪滨,我們只訓(xùn)練了單規(guī)模網(wǎng)絡(luò),以及一個(gè)多尺度模型D(僅在全連接層進(jìn)行微調(diào)而不是所有層)蕊温。由此產(chǎn)生的7個(gè)網(wǎng)絡(luò)組合具有7.3%的ILSVRC測(cè)試誤差袱箱。在提交之后遏乔,我們考慮了只有兩個(gè)表現(xiàn)最好的多尺度模型(配置D和E)的組合,它使用密集評(píng)估將測(cè)試誤差降低到7.0%发笔,使用密集評(píng)估和多裁剪圖像評(píng)估將測(cè)試誤差降低到6.8%盟萨。作為參考,我們表現(xiàn)最佳的單模型達(dá)到7.1%的誤差(模型E了讨,表5)捻激。
表6:多個(gè)卷積網(wǎng)絡(luò)融合結(jié)果
4.5 與最新技術(shù)比較
最后,我們?cè)诒?中與最新技術(shù)比較我們的結(jié)果前计。在ILSVRC-2014挑戰(zhàn)的分類(lèi)任務(wù)(Russakovsky等胞谭,2014)中,我們的“VGG”團(tuán)隊(duì)獲得了第二名男杈,
使用7個(gè)模型的組合取得了7.3%測(cè)試誤差丈屹。提交后,我們使用2個(gè)模型的組合將錯(cuò)誤率降低到6.8%伶棒。
表7:在ILSVRC分類(lèi)中與最新技術(shù)比較旺垒。我們的方法表示為“VGG”。報(bào)告的結(jié)果沒(méi)有使用外部數(shù)據(jù)肤无。
從表7可以看出袖牙,我們非常深的ConvNets顯著優(yōu)于前一代模型,在ILSVRC-2012和ILSVRC-2013競(jìng)賽中取得了最好的結(jié)果舅锄。我們的結(jié)果對(duì)于分類(lèi)任務(wù)獲勝者(GoogLeNet具有6.7%的錯(cuò)誤率)也具有競(jìng)爭(zhēng)力鞭达,并且大大優(yōu)于ILSVRC-2013獲勝者Clarifai的提交,其使用外部訓(xùn)練數(shù)據(jù)取得了11.2%的錯(cuò)誤率皇忿,沒(méi)有外部數(shù)據(jù)則為11.7%畴蹭。這是非常顯著的,考慮到我們最好的結(jié)果是僅通過(guò)組合兩個(gè)模型實(shí)現(xiàn)的——明顯少于大多數(shù)ILSVRC提交鳍烁。在單網(wǎng)絡(luò)性能方面叨襟,我們的架構(gòu)取得了最好節(jié)果(7.0%測(cè)試誤差),超過(guò)單個(gè)GoogLeNet 0.9%幔荒。值得注意的是糊闽,我們并沒(méi)有偏離LeCun(1989)等人經(jīng)典的ConvNet架構(gòu),但通過(guò)大幅增加深度改善了它爹梁。
5 結(jié)論
在這項(xiàng)工作中右犹,我們?cè)u(píng)估了非常深的卷積網(wǎng)絡(luò)(最多19個(gè)權(quán)重層)用于大規(guī)模圖像分類(lèi)。已經(jīng)證明姚垃,表示深度有利于分類(lèi)精度念链,并且深度大大增加的傳統(tǒng)ConvNet架構(gòu)(LeCun等,1989;Krizhevsky等掂墓,2012)可以實(shí)現(xiàn)ImageNet挑戰(zhàn)數(shù)據(jù)集上的最佳性能谦纱。在附錄中,我們還顯示了我們的模型很好地泛化到各種各樣的任務(wù)和數(shù)據(jù)集上君编,可以匹敵或超越更復(fù)雜的識(shí)別流程跨嘉,其構(gòu)建圍繞不深的圖像表示。我們的結(jié)果再次證實(shí)了深度在視覺(jué)表示中的重要性吃嘿。
致謝
這項(xiàng)工作得到ERC授權(quán)的VisRec編號(hào)228180的支持.我們非常感謝NVIDIA公司捐贈(zèng)GPU為此研究使用祠乃。
REFERENCES
Bell, S., Upchurch, P., Snavely, N., and Bala, K. Material recognition in the wild with the materials in context database. CoRR, abs/1412.0623, 2014.
Chatfield, K., Simonyan, K., Vedaldi, A., and Zisserman, A. Return of the devil in the details: Delving deep into convolutional nets. In Proc. BMVC., 2014.
Cimpoi, M., Maji, S., and Vedaldi, A. Deep convolutional filter banks for texture recognition and segmentation. CoRR, abs/1411.6836, 2014.
Ciresan, D. C., Meier, U., Masci, J., Gambardella, L. M., and Schmidhuber, J. Flexible, high performance convolutional neural networks for image classification. In IJCAI, pp. 1237–1242, 2011.
Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., Ranzato, M., Senior, A., Tucker, P., Yang, K., Le, Q. V., and Ng, A. Y. Large scale distributed deep networks. In NIPS, pp. 1232–1240, 2012.
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. Imagenet: A large-scale hierarchical image database. In Proc. CVPR, 2009.
Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E., and Darrell, T. Decaf: A deep convolutional activation feature for generic visual recognition. CoRR, abs/1310.1531, 2013.
Everingham, M., Eslami, S. M. A., Van Gool, L., Williams, C., Winn, J., and Zisserman, A. The Pascal visual object classes challenge: A retrospective. IJCV, 111(1):98–136, 2015.
Fei-Fei, L., Fergus, R., and Perona, P. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. In IEEE CVPR Workshop of Generative Model Based Vision, 2004.
Girshick, R. B., Donahue, J., Darrell, T., and Malik, J. Rich feature hierarchies for accurate object detection and semantic segmentation. CoRR, abs/1311.2524v5, 2014. Published in Proc. CVPR, 2014.
Gkioxari, G., Girshick, R., and Malik, J. Actions and attributes from wholes and parts. CoRR, abs/1412.2604, 2014.
Glorot, X. and Bengio, Y. Understanding the difficulty of training deep feedforward neural networks. In Proc. AISTATS, volume 9, pp. 249–256, 2010.
Goodfellow, I. J., Bulatov, Y., Ibarz, J., Arnoud, S., and Shet, V. Multi-digit number recognition from street view imagery using deep convolutional neural networks. In Proc. ICLR, 2014.
Griffin, G., Holub, A., and Perona, P. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007.
He, K., Zhang, X., Ren, S., and Sun, J. Spatial pyramid pooling in deep convolutional networks for visual recognition. CoRR, abs/1406.4729v2, 2014.
Hoai, M. Regularized max pooling for image categorization. In Proc. BMVC., 2014.
Howard, A. G. Some improvements on deep convolutional neural network based image classification. In Proc. ICLR, 2014.
Jia, Y. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/, 2013.
Karpathy, A. and Fei-Fei, L. Deep visual-semantic alignments for generating image descriptions. CoRR, abs/1412.2306, 2014.
Kiros, R., Salakhutdinov, R., and Zemel, R. S. Unifying visual-semantic embeddings with multimodal neural language models. CoRR, abs/1411.2539, 2014.
Krizhevsky, A. One weird trick for parallelizing convolutional neural networks. CoRR, abs/1404.5997, 2014.
Krizhevsky, A., Sutskever, I., and Hinton, G. E. ImageNet classification with deep convolutional neural networks. In NIPS, pp. 1106–1114, 2012.
LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., and Jackel, L. D. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4):541–551, 1989.
Lin, M., Chen, Q., and Yan, S. Network in network. In Proc. ICLR, 2014.
Long, J., Shelhamer, E., and Darrell, T. Fully convolutional networks for semantic segmentation. CoRR, abs/1411.4038, 2014.
Oquab, M., Bottou, L., Laptev, I., and Sivic, J. Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks. In Proc. CVPR, 2014.
Perronnin, F., Sa ?nchez, J., and Mensink, T. Improving the Fisher kernel for large-scale image classification. In Proc. ECCV, 2010.
Razavian, A., Azizpour, H., Sullivan, J., and Carlsson, S. CNN Features off-the-shelf: an Astounding Baseline for Recognition. CoRR, abs/1403.6382, 2014.
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A. C., and Fei-Fei, L. ImageNet large scale visual recognition challenge. CoRR, abs/1409.0575, 2014.
Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., and LeCun, Y. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. In Proc. ICLR, 2014.
Simonyan, K. and Zisserman, A. Two-stream convolutional networks for action recognition in videos. CoRR, abs/1406.2199, 2014. Published in Proc. NIPS, 2014.
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., and Rabinovich, A. Going deeper with convolutions. CoRR, abs/1409.4842, 2014.
Wei, Y., Xia, W., Huang, J., Ni, B., Dong, J., Zhao, Y., and Yan, S. CNN: Single-label to multi-label. CoRR, abs/1406.5726, 2014.
Zeiler, M. D. and Fergus, R. Visualizing and understanding convolutional networks. CoRR, abs/1311.2901, 2013. Published in Proc. ECCV, 2014.