VGGNet于2014年提出,在文獻(xiàn)VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
中有詳細(xì)介紹锅睛。
摘要 本文研究了在大規(guī)模圖片識(shí)別中型豁,卷積神經(jīng)網(wǎng)絡(luò)的深度對(duì)準(zhǔn)確率(accuracy)的影響。我們的主要貢獻(xiàn)是通過(guò)非常小的3x3卷積核的神經(jīng)網(wǎng)絡(luò)架構(gòu)全面評(píng)估了增加深度對(duì)網(wǎng)絡(luò)的影響沮焕,結(jié)果表明16-19層的網(wǎng)絡(luò)可以使現(xiàn)有設(shè)置的網(wǎng)絡(luò)性能得到顯著提高烦粒。這項(xiàng)發(fā)現(xiàn)是我們?cè)?014年的ImageNet比賽中提交方案的基礎(chǔ)蜡秽,我們的團(tuán)隊(duì)分別在定位和分類(lèi)中獲得了第一和第二的成績(jī)瘸羡。我們還證明了此模型可以泛化到其他數(shù)據(jù)集上漩仙,并達(dá)到當(dāng)前最佳水平。我們已經(jīng)公布了兩個(gè)性能最佳的卷積神經(jīng)網(wǎng)絡(luò)模型犹赖,以便深度視覺(jué)在計(jì)算機(jī)視覺(jué)中的進(jìn)一步研究讯赏。
1 介紹
卷積神經(jīng)網(wǎng)絡(luò)最近在大規(guī)模圖片和視頻識(shí)別中取得了重大成功,這可能得益于大型開(kāi)源圖片庫(kù)冷尉,比如ImageNet,以及高性能計(jì)算系統(tǒng)系枪,如GPU或大規(guī)模分布式集群雀哨。特別是ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)(ILSVRC),對(duì)深度視覺(jué)識(shí)別架構(gòu)的發(fā)展起到了重要作用私爷,它為幾代大規(guī)模圖片識(shí)別系統(tǒng)——從高維淺層特征編碼(ILSVRC-2011的獲勝者)到深層卷積神經(jīng)網(wǎng)絡(luò)(ILSVRC-2012的獲勝者)——提供了測(cè)試平臺(tái)雾棺。
隨著卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用越來(lái)越廣,越來(lái)越多的人嘗試改進(jìn)Krizhevsky等人在2012年提出的原始架構(gòu)衬浑,以得到更好的準(zhǔn)確率捌浩。例如,在2013年ImageNet大賽中性能最好的改進(jìn)方案——在第一個(gè)卷積層中使用較小的接受域窗口以及較小的步長(zhǎng)工秩,另一種改進(jìn)方案是在整幅圖片及多個(gè)尺寸上多次訓(xùn)練和測(cè)試網(wǎng)絡(luò)(Sermanet et al.2014尸饺;Howard, 2014)。在本文中助币,我們著眼于卷積神經(jīng)網(wǎng)絡(luò)中的另一個(gè)方面——深度浪听。為此,我們固定了架構(gòu)中的其他參數(shù)眉菱,并通過(guò)添加卷積層穩(wěn)定地增加網(wǎng)絡(luò)深度迹栓。這是可行的,因?yàn)槲覀冊(cè)诿繉佣际褂梅浅P〉?x3卷積核俭缓。
因此克伊,我們提出了更精確的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),不僅在ILSVRC分類(lèi)和定位中取得最好成績(jī)华坦,還在其他圖片識(shí)別數(shù)據(jù)集中取得卓越性能愿吹,即便只作為簡(jiǎn)單框架的一部分(如不需要微調(diào)的線性SVM深度特征分類(lèi)器)。我們公布了兩個(gè)最佳性能模型季春,以便進(jìn)一步研究洗搂。
本文組織結(jié)構(gòu)如下。在第二部分,描述了卷積神經(jīng)網(wǎng)絡(luò)的設(shè)置耘拇。圖片分類(lèi)的訓(xùn)練及評(píng)估細(xì)節(jié)在第三部分中闡述撵颊。在ILSVRC分類(lèi)任務(wù)中不同設(shè)置的比較在第四部分中闡述。在第五部分惫叛,總結(jié)本文內(nèi)容倡勇。為了完整性,我們還在附錄A中描述評(píng)估了我們?cè)贗LSVRC-2014中的物體定位系統(tǒng)嘉涌,并在附錄B討論了深度特征在其他數(shù)據(jù)集上的泛化妻熊。最后,在附錄C中列出了本文的主要修訂記錄仑最。
2 卷積神經(jīng)網(wǎng)絡(luò)的設(shè)置
為了公平衡量增加卷積深度對(duì)網(wǎng)絡(luò)的影響扔役,我們所有卷積層的設(shè)置均使用與Ciresan(2011)和Krizhevsky(2012)相同的設(shè)計(jì)原則颜及。在這一部分绿满,我們首先描述了卷積神經(jīng)網(wǎng)絡(luò)的通用結(jié)構(gòu),然后詳細(xì)介紹了評(píng)估中具體配置細(xì)節(jié)蟀苛。最后描述了我們的模型與先前最好網(wǎng)絡(luò)的比較预皇。
2.1 架構(gòu)
在整個(gè)訓(xùn)練中侈玄,卷積神經(jīng)網(wǎng)絡(luò)的輸入為固定的224x224的RGB圖片。唯一的預(yù)處理是對(duì)每個(gè)像素減去ImageNet訓(xùn)練集中RGB的平均值吟温。圖片通過(guò)一系列3x3卷積核(是用來(lái)獲取上下左右及中心的最小尺寸)的卷積層序仙。在一種配置中,也使用1x1的卷積核鲁豪,這可以看做是輸入通道的線性變換(后面接一個(gè)非線性變換)潘悼。卷積滑動(dòng)步長(zhǎng)固定為1;卷積層的空間填充(padding
)模式為保留原空間分辨率呈昔,例如3x3的卷積層挥等,padding為1〉涛玻空間池化(pooling)包含5個(gè)最大池化層肝劲,接在部分卷積層后面(不是所有卷積層)。最大池化層使用2x2的窗口郭宝,滑動(dòng)步長(zhǎng)為2辞槐。
在一系列卷積層(不同架構(gòu)有不同深度)后為3個(gè)全連接層(Fully-Connected):前兩個(gè)每個(gè)含有4096個(gè)通道,第三個(gè)用來(lái)給ILSVRC進(jìn)行分類(lèi)粘室,因此有1000個(gè)通道(1000個(gè)類(lèi))榄檬。最后一層使用softmax。全連接層的設(shè)置與所有網(wǎng)絡(luò)一致衔统。
所有隱藏層都使用ReLU非線性激活函數(shù)鹿榜。注意到我們的網(wǎng)絡(luò)(除了一個(gè))都不包含局部響應(yīng)標(biāo)準(zhǔn)化(LRN):在第四部分 中會(huì)展示海雪,這個(gè)標(biāo)準(zhǔn)化并不會(huì)提高網(wǎng)絡(luò)在ILSVRC數(shù)據(jù)集上的性能,反而會(huì)增加內(nèi)存消耗和計(jì)算時(shí)間舱殿。在使用的情況下奥裸,LRN層的參數(shù)是(Krizhevsky et al. 2012)的參數(shù)。
2.2 設(shè)置
本文所評(píng)估的卷積神經(jīng)網(wǎng)絡(luò)的設(shè)置在表1列出沪袭,每列一個(gè)湾宙。接下來(lái)我們稱(chēng)他們?yōu)椋ˋ-E)。所有配置都遵循2.1所述的通用設(shè)計(jì)冈绊,只有深度不同:從網(wǎng)絡(luò)A的11層(8個(gè)卷積層3個(gè)全連接層)到網(wǎng)絡(luò)E的19層(16個(gè)卷積層3個(gè)全連接層)卷積層的寬度(通道數(shù))非常小侠鳄,從第一層的64開(kāi)始,每個(gè)最大池化層后增加1倍死宣,直到512伟恶。
表2給出了每個(gè)設(shè)置的參數(shù)數(shù)目。盡管網(wǎng)絡(luò)很深罢绽,但是網(wǎng)絡(luò)的權(quán)重?cái)?shù)目并沒(méi)有一個(gè)更淺但是卷積層更寬和接受域更大的網(wǎng)絡(luò)權(quán)重?cái)?shù)目大(sermanet et al., 2014有144M的權(quán)重)畏线。
2.3 討論
本文網(wǎng)絡(luò)的設(shè)置與ILSVRC-2012好ILSVRC-2013大賽中的前幾名完全不同。沒(méi)有在第一個(gè)卷積層使用大的接受域(如11x11的卷積核良价,滑動(dòng)步長(zhǎng)為4(Krizhevsky et al. 2012)寝殴,或者7x7的卷積核,滑動(dòng)步長(zhǎng)為2(Zeiler&Fergus明垢,2013蚣常;Sermanet
et al. 2014)),我們?cè)谡麄€(gè)網(wǎng)絡(luò)使用3x3的卷積核痊银,與每個(gè)像素值進(jìn)行卷積(步長(zhǎng)為1)抵蚊。很明顯,兩個(gè)3x3卷積層(中間沒(méi)有池化層)相當(dāng)于5x5的接受域溯革;三個(gè)這樣的層相當(dāng)于7x7的接受域贞绳。那么用三個(gè)3x3的卷積層代替一個(gè)7x7的卷積層有什么好處呢?首先致稀,我們包含三個(gè)非線性修正層而非單一層冈闭,這使決策函數(shù)更具有區(qū)分性。其次抖单,我們減少了參數(shù)數(shù)量:假設(shè)一個(gè)含有三層3x3卷積層堆疊的輸入和輸出都包含C個(gè)通道的網(wǎng)絡(luò)萎攒,權(quán)重?cái)?shù)量為3(32C2)=27C2; 而一個(gè)7x7的卷積層遇八,需要72C2=49C2個(gè)權(quán)重參數(shù),相對(duì)增加了81%耍休,這相當(dāng)于在7x7的濾波器上加了一個(gè)正則化刃永,迫使它們通過(guò)3x3的濾波器進(jìn)行分解(中間有非線性的加入)。
1x1卷積層的加入(表1中的C)是一種為決策增加非線性因素的方式羹应,不影響卷積層接受域揽碘。盡管在這里,1x1的卷積實(shí)質(zhì)上是相同空間維度的線性投影(輸入和輸出通道相同)园匹,但是修正函數(shù)引入了非線性因素雳刺。值得注意的是1x1卷積層最近被Lin等人(2014)用在“Network in Network”結(jié)構(gòu)中。
小尺寸的卷積濾波器之前被Ciresan(2011)等人用過(guò)裸违,但是他們的網(wǎng)絡(luò)深度遠(yuǎn)小于我們掖桦,并且他們沒(méi)有在大規(guī)模ILSVRC數(shù)據(jù)集上做評(píng)估。Goodfellow等人(2014)在識(shí)別街景數(shù)字的任務(wù)中使用了深度卷積神經(jīng)網(wǎng)絡(luò)(11層)供汛,展示了增加深度帶來(lái)的優(yōu)越性能枪汪。GoogLeNet(2014),在ILSVRC-2014的識(shí)別任務(wù)中獲得了最佳表現(xiàn)怔昨,雖然與我們的網(wǎng)絡(luò)不同雀久,但是相似的是都基于很深的卷積網(wǎng)絡(luò)(22層)以及很小的卷積濾波器(除了3x3,他們還使用了1x1和5x5的濾波器)趁舀。但是他們的網(wǎng)絡(luò)拓?fù)浔任覀兊母鼜?fù)雜赖捌,而且為了減少計(jì)算量,特征圖的空間分辨率在第一層衰減的很?chē)?yán)重矮烹。在第4.5部分將展示我們的模型在單一網(wǎng)絡(luò)分類(lèi)中準(zhǔn)確率優(yōu)于GoogLeNet越庇。
3 分類(lèi)框架
前面的部分我們介紹了網(wǎng)絡(luò)設(shè)置的細(xì)節(jié)。這一部分奉狈,我們將詳細(xì)描述分類(lèi)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與評(píng)估卤唉。
3.1 訓(xùn)練
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程與Krizhevsky等人(2012)(除了多尺寸訓(xùn)練數(shù)據(jù)樣本的裁剪,后面會(huì)介紹)的一樣仁期。就是說(shuō)桑驱,通過(guò)用包含動(dòng)量的小批量梯度下降(基于反向傳播)做多項(xiàng)式邏輯回歸的優(yōu)化器來(lái)對(duì)模型進(jìn)行訓(xùn)練。批次大小為256跛蛋,動(dòng)量為0.9碰纬,通過(guò)權(quán)值衰減(L2懲罰因子設(shè)置為5*10-4)和對(duì)前兩個(gè)全連接層進(jìn)行dropout(比率0.5)實(shí)現(xiàn)正則化。學(xué)習(xí)率初始化為0.01问芬,當(dāng)驗(yàn)證集準(zhǔn)確率不提升時(shí)以10倍速率衰減(除以10)悦析。總的來(lái)說(shuō)此衅,學(xué)習(xí)率會(huì)衰減3次强戴,然后訓(xùn)練次數(shù)為370K(74代)亭螟。我們猜想,盡管與Krizhevsky(2012)等人的網(wǎng)絡(luò)相比骑歹,我們的網(wǎng)絡(luò)參數(shù)更多预烙,深度更深,但是卻需要更少的epoch次數(shù)來(lái)收斂道媚,因?yàn)椋?)深度及更小的濾波器數(shù)量隱式增強(qiáng)了正則化扁掸;(2)某些層執(zhí)行了預(yù)初始化。
網(wǎng)絡(luò)權(quán)重的初始化很重要最域,由于深度網(wǎng)絡(luò)梯度下降的不穩(wěn)定性谴分,不好的初始化會(huì)阻礙學(xué)習(xí)。為了規(guī)避這個(gè)問(wèn)題镀脂,我們從訓(xùn)練網(wǎng)絡(luò)A(表1)開(kāi)始牺蹄,它足夠淺,能用隨機(jī)初始化薄翅。然后沙兰,當(dāng)訓(xùn)練更深網(wǎng)絡(luò)結(jié)構(gòu)時(shí),我們用網(wǎng)絡(luò)A的權(quán)重初始化前四個(gè)卷積層和后三個(gè)全連接層(中間層隨機(jī))翘魄。對(duì)預(yù)初始化層鼎天,不降低學(xué)習(xí)率,允許他們?cè)趯W(xué)習(xí)過(guò)程中改變暑竟。對(duì)于隨機(jī)初始化训措,我們從0均值和0.01方差的正態(tài)分布中取值。偏差初始化為0光羞。值得注意的是,我們發(fā)現(xiàn)可以用Glorot&Bengio(2010)中的隨機(jī)初始化程序來(lái)對(duì)權(quán)重進(jìn)行初始化怀大,而不需要進(jìn)行預(yù)訓(xùn)練纱兑。
為了得到固定的224x224的RGB輸入圖片,我們隨機(jī)從經(jīng)過(guò)尺寸縮放的訓(xùn)練集圖片中進(jìn)行裁剪(每張圖的每次SGD迭代時(shí)裁剪一次)化借。為了進(jìn)一步對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行增強(qiáng)潜慎,被裁剪圖片將進(jìn)行隨機(jī)水平翻轉(zhuǎn)及RGB顏色轉(zhuǎn)換。訓(xùn)練圖片的尺寸縮放將在后面闡釋蓖康。
訓(xùn)練集圖片尺寸 令S為各向同性縮放的訓(xùn)練圖像最小邊铐炫, 卷積神經(jīng)網(wǎng)絡(luò)的輸入就是從中裁剪的(S也稱(chēng)為訓(xùn)練尺寸)。裁剪尺寸固定為224x224蒜焊,原則上S可以取任何大于等于224的值:若S=224倒信,裁剪圖像將使用整個(gè)圖像的統(tǒng)計(jì)信息,完全涵蓋訓(xùn)練圖像的最小邊泳梆;若S>>224鳖悠,裁剪圖像就會(huì)取圖像的一小部分榜掌,包含一個(gè)很小的對(duì)象或?qū)ο蟮囊徊糠帧?/p>
我們考慮使用兩種方式來(lái)設(shè)置訓(xùn)練尺寸S。第一種是固定S乘综,針對(duì)單尺寸圖片的訓(xùn)練憎账。(注意,裁剪的樣本圖像內(nèi)容仍然能夠代表多尺寸圖片的統(tǒng)計(jì)信息)在實(shí)驗(yàn)中卡辰,評(píng)估了兩種固定尺寸的訓(xùn)練模型:S=256(在之前研究中廣泛使用)和S=384胞皱。給一個(gè)卷積神經(jīng)網(wǎng)絡(luò),首先用S=256訓(xùn)練九妈。為了加速S=384的訓(xùn)練反砌,使用在S=256上的預(yù)訓(xùn)練權(quán)重來(lái)初始化權(quán)重,并且使用較小的初始學(xué)習(xí)率0.001允蚣。
第二種設(shè)置S的方式是使用多尺寸圖像訓(xùn)練于颖,即每個(gè)訓(xùn)練圖片的尺寸是[Smin,Smax]之間的隨機(jī)數(shù)(這里使用Smin=256,Smax=512)嚷兔。由于圖像中的對(duì)象可能大小不一森渐,所以訓(xùn)練中采用這種方式是有利的。這可以看作是一種尺寸不定(scale jittering)的訓(xùn)練集數(shù)據(jù)增強(qiáng)冒晰,使得一個(gè)單一模型能夠識(shí)別各種尺寸的對(duì)象同衣。考慮到速度壶运,我們使用與微調(diào)后的S=384的單一尺寸預(yù)訓(xùn)練模型相同設(shè)置的模型耐齐,來(lái)訓(xùn)練多尺寸模型。
3.2 測(cè)試
在測(cè)試時(shí)蒋情,給定一個(gè)訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)及一張輸入圖片埠况,用以下方式進(jìn)行分類(lèi)。首先棵癣,各向同性縮放成預(yù)定義的最小邊辕翰,設(shè)為Q(也稱(chēng)為測(cè)試尺寸,注意Q不需要等于訓(xùn)練尺寸S(將在第4部分解釋?zhuān)┍芬辏總€(gè)S使用多個(gè)Q可以提高性能)喜命。然后,根據(jù)Sermanet的方法將網(wǎng)絡(luò)密集應(yīng)用在測(cè)試圖片上河劝,也就是說(shuō)壁榕,全連接層先轉(zhuǎn)化為卷積層(第一個(gè)全連接層轉(zhuǎn)為7x7的卷積層,后兩個(gè)轉(zhuǎn)化為1x1的卷積層)赎瞎。再將這樣得到的全卷積網(wǎng)絡(luò)運(yùn)用在整幅圖像上(未裁切的)牌里。輸出是一個(gè)分類(lèi)得分圖,通道數(shù)與類(lèi)別數(shù)先溝通呢個(gè)务甥,空間分辨率依賴(lài)于輸入圖片的尺寸二庵。最后贪染,為了得到固定尺寸的分類(lèi)得分向量,將分類(lèi)得分圖進(jìn)行空間平均化(求和——池化)催享。我們同樣使用水平翻轉(zhuǎn)對(duì)測(cè)試圖像進(jìn)行增強(qiáng)杭隙;在原始圖像和翻轉(zhuǎn)圖像上的soft-max分類(lèi)概率的平均值作為這幅圖像的最終得分。
由于測(cè)試階段將全卷積網(wǎng)絡(luò)用在了整個(gè)圖像因妙,因此不需要對(duì)圖像進(jìn)行多個(gè)裁切采樣(Krizhevsky2012)痰憎,因?yàn)榫W(wǎng)絡(luò)對(duì)每個(gè)裁切的重新計(jì)算會(huì)使效率降低。但是攀涵,使用大量裁切圖像可以提高準(zhǔn)確率铣耘,如同Szegedy等人的網(wǎng)絡(luò),因?yàn)楹腿矸e網(wǎng)絡(luò)相比以故,它能生成關(guān)于輸入圖像更好的采樣蜗细。同樣的,由于不同的卷積邊界條件怒详,多重裁切評(píng)估與密集評(píng)估是互補(bǔ)的:對(duì)一個(gè)裁剪圖片使用卷積網(wǎng)絡(luò)炉媒,卷積得到的特征圖被0填充,而密度評(píng)估中昆烁,相同裁切圖的填充自然而然來(lái)自于圖片的相鄰像素(由于卷積和空間池化)吊骤,大大增加了網(wǎng)絡(luò)整體的接受域,所以更多上下午信息被獲取静尼。盡管我們認(rèn)為在實(shí)踐中多尺寸裁切圖像增加的計(jì)算時(shí)間并不能證明其具有更高準(zhǔn)確率的潛質(zhì)白粉,但是為了參考,我們依然在評(píng)估時(shí)對(duì)每個(gè)尺寸使用了50 張裁切圖像(5×5個(gè)規(guī)則網(wǎng)格以及水平翻轉(zhuǎn))鼠渺,3種尺寸一共150張裁切圖像鸭巴,這和Szegedy等人的網(wǎng)絡(luò)中使用4種尺寸一共144張裁切圖像是可比的。
3.3 實(shí)現(xiàn)細(xì)節(jié)
我們的實(shí)現(xiàn)使用開(kāi)源的C++ Caffe工具箱(Jia拦盹,2013)(2013年12月的分支)鹃祖,但是進(jìn)行了一些重新修改,允許我們用同一個(gè)系統(tǒng)的多個(gè)GPU訓(xùn)練和評(píng)估模型掌敬,以及對(duì)全尺寸(未裁剪)圖片的多種縮放(上文提到的)進(jìn)行訓(xùn)練評(píng)估。GPU批量梯度下降計(jì)算完成后池磁,取平均數(shù)作為所有批次的梯度奔害。梯度計(jì)算在多個(gè)GPU間是并行計(jì)算的,所以結(jié)果與在單個(gè)GPU上訓(xùn)練是一樣的地熄。
雖然最近提出了更復(fù)雜的加速卷積網(wǎng)絡(luò)訓(xùn)練的方法(Krizhevsky2014)华临,它在網(wǎng)絡(luò)不同層上用模型和數(shù)據(jù)并行計(jì)算,但是我們發(fā)現(xiàn)我們的方法更簡(jiǎn)單端考,且在4個(gè)GPU系統(tǒng)上的速度相對(duì)于單GPU提升了3.75倍雅潭,在NVIDIA Titan Black GPU上揭厚,訓(xùn)練單個(gè)網(wǎng)絡(luò)需要2~3周的時(shí)間。
4 分類(lèi)實(shí)驗(yàn)
數(shù)據(jù)集 在本章扶供,我們講述了卷積神經(jīng)網(wǎng)絡(luò)在ILSVRC2012數(shù)據(jù)集上的分類(lèi)結(jié)果(被用在ILSVRC2012——2014挑戰(zhàn)賽上)筛圆。數(shù)據(jù)集包含1000個(gè)類(lèi)別,被分為三部分:訓(xùn)練集(1.3M張圖片)椿浓,驗(yàn)證集(50K張圖片)太援,測(cè)試集(100K張圖片,沒(méi)有標(biāo)簽)扳碍。分類(lèi)性能使用兩個(gè)辦法評(píng)估:top-1和top-5 error提岔。前者是一個(gè)多類(lèi)分類(lèi)錯(cuò)誤率,即錯(cuò)誤分類(lèi)圖像的比例笋敞;后者是在ILSVRC上的主要評(píng)估標(biāo)準(zhǔn)碱蒙,即真實(shí)類(lèi)別不在top-5預(yù)測(cè)類(lèi)別之中的圖像的比例。
對(duì)于大部分實(shí)驗(yàn)夯巷,我們使用驗(yàn)證集作為測(cè)試集赛惩。某些實(shí)驗(yàn)也在測(cè)試集上進(jìn)行,并提交給官方ILSVRC服務(wù)器作為“VGG”團(tuán)隊(duì)參加ILSVRC-2014競(jìng)賽鞭莽。
4.1 單一尺寸測(cè)試數(shù)據(jù)評(píng)估
我們從評(píng)估在單一尺度上使用第2.2中配置的獨(dú)立卷積網(wǎng)絡(luò)模型的性能開(kāi)始坊秸。測(cè)試集圖片大小如下設(shè)置:對(duì)于固定的S,Q=S澎怒,對(duì)于變動(dòng)的S∈[Smin, Smax>]褒搔,Q=0.5(Smin + Smax>)。結(jié)果如表3中喷面。
首先星瘾,注意使用局部相應(yīng)標(biāo)準(zhǔn)化網(wǎng)絡(luò)(A-LRN)的性能并沒(méi)有比未用標(biāo)準(zhǔn)化層的A高。因此我們沒(méi)有在更深的網(wǎng)絡(luò)結(jié)構(gòu)上使用標(biāo)準(zhǔn)化操作(B-E)惧辈。
其次琳状,我們發(fā)現(xiàn)分類(lèi)的錯(cuò)誤率隨著卷積層的增加而減少:從11層的A到19層的E。注意盒齿,盡管深度相同念逞,配置C(包含3個(gè)1x1卷積層)沒(méi)有配置D(使用3x3卷積層)性能好,這意味著添加非線性層的確有用(C比B好)边翁,但是使用卷積獲取空間上下文信息更有用(D比C好)翎承。當(dāng)深度達(dá)到19層時(shí),錯(cuò)誤率達(dá)到飽和符匾,但是更大的數(shù)據(jù)集使用更深的模型會(huì)更好叨咖。我們也用網(wǎng)絡(luò)B與一個(gè)5x5的淺卷積網(wǎng)絡(luò)(派生自B但是將3x3卷積層換成了一個(gè)5x5卷積層,與2.3種所述接受域相同)進(jìn)行了比較,淺層網(wǎng)絡(luò)的top-1錯(cuò)誤率比B(在中心裁剪圖像上)高了7%甸各,證明了小濾波器的神劇卷積網(wǎng)絡(luò)比大濾波器的淺層網(wǎng)絡(luò)性能更好垛贤。
最后,訓(xùn)練時(shí)尺寸變化(S ∈ [256;512]) 的性能比固定最小邊(S = 256 or S = 384)的性能要好趣倾,盡管測(cè)試時(shí)使用的是單一尺寸聘惦。這證明訓(xùn)練集通過(guò)變化尺寸來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)的確能獲取更多尺寸的圖片統(tǒng)計(jì)信息。
4.2 多尺寸測(cè)試數(shù)據(jù)評(píng)估
評(píng)估了卷積網(wǎng)絡(luò)模型在單一尺度上的性能之后誊酌,我們現(xiàn)在來(lái)評(píng)估在測(cè)試階段使用尺寸抖動(dòng)的效果部凑。先在多個(gè)尺寸的測(cè)試數(shù)據(jù)上運(yùn)行模型(多個(gè)Q值),然后計(jì)算每個(gè)類(lèi)概率的平均值碧浊⊥垦考慮到訓(xùn)練尺寸與測(cè)試尺寸的差異太大會(huì)導(dǎo)致性能下降,模型使用固定的S訓(xùn)練箱锐,通過(guò)3個(gè)接近訓(xùn)練集的測(cè)試集尺寸評(píng)估比勉,:Q={S-32, S驹止, S+32}浩聋。同時(shí),訓(xùn)練時(shí)的尺寸波動(dòng)使測(cè)試時(shí)能使用更大范圍尺寸的圖像臊恋,所以使用S ∈ [Smin;Smax]訓(xùn)練的模型用更大范圍的Q來(lái)評(píng)估衣洁,Q={Smin, 0.5(Smin, Smax), Smax}。
結(jié)果如表4抖仅,表明在測(cè)試時(shí)圖片尺寸波動(dòng)會(huì)使性能更好(對(duì)比表3中單一尺寸的結(jié)果)坊夫。與之前相同,最深的配置(D和E)表現(xiàn)的最好撤卢,并且訓(xùn)練時(shí)尺度波動(dòng)比固定最小邊S表現(xiàn)更好环凿。我們?cè)隍?yàn)證集上最好的單一網(wǎng)絡(luò)模型錯(cuò)誤率為24.8%(top-1)7.5%(top5),在表4種加粗放吩。在測(cè)試集上智听,配置E達(dá)到了7.3%的top-5錯(cuò)誤率。
4.3 多裁剪評(píng)估
Table5 中我們對(duì)密集卷積網(wǎng)絡(luò)評(píng)估和多重裁切評(píng)估進(jìn)行了比較(見(jiàn)Sect 3.2)渡紫。我們同樣還評(píng)估了兩種技術(shù)通過(guò)計(jì)算兩者soft-max輸出平均值的互補(bǔ)結(jié)果到推。可以看出惕澎,使用多重裁切比密集評(píng)估的效果略好莉测,并且兩種方法是完全互補(bǔ)的,因?yàn)閮烧呓M合的效果比每一種都要好集灌。根據(jù)以上結(jié)果悔雹,我們假設(shè)這是由對(duì)于卷積邊界條件的不同處理方法造成的。
4.4 卷積網(wǎng)絡(luò)融合
到目前為止唆阿,我們?cè)u(píng)估了獨(dú)立卷積網(wǎng)絡(luò)模型的性能益涧。這一部分的實(shí)驗(yàn),我們將通過(guò)計(jì)算多個(gè)模型soft-max分類(lèi)概率的平均值來(lái)對(duì)它們的輸出進(jìn)行組合驯鳖。由于模型的互補(bǔ)性闲询,性能得到了改善,這也用在2012 (Krizhevsky et al., 2012) 和2013(Zeiler & Fergus, 2013; Sermanet et al., 2014)的ILSVRC的最佳結(jié)果中浅辙。
結(jié)果如表6扭弧。在ILSVRC比賽中我們進(jìn)訓(xùn)練了單一尺寸網(wǎng)絡(luò)和多尺寸網(wǎng)絡(luò)D(僅僅微調(diào)了全連接層而非所有層)。7個(gè)模型組合結(jié)果在ILSVRC中測(cè)試的錯(cuò)誤率為7.3%记舆。提交后鸽捻,我們考慮禁用兩個(gè)最好表現(xiàn)的多尺寸模型(D和E)進(jìn)行組合,使用密集評(píng)估時(shí)錯(cuò)誤率減少到7.0%泽腮,使用密集和多裁剪評(píng)估時(shí)錯(cuò)誤率為6.8%御蒲。作為參考,我們的最佳單一模型錯(cuò)誤率為7.1%(E诊赊,表5)厚满。
4.5 與業(yè)界最好結(jié)果的比較
最后,我們?cè)诒?與業(yè)界最好結(jié)果進(jìn)行了比較碧磅。在2014年的ILSVRC比賽的分類(lèi)任務(wù)中碘箍,我們的VGG團(tuán)隊(duì)取得了第二名的成績(jī),使用了7個(gè)模型組合的測(cè)試錯(cuò)誤率续崖,為7.3%敲街,提交后,使用2個(gè)模型的組合严望,將錯(cuò)誤率降低到了6.8%多艇。
從表7可以看出,我們的深度卷積神經(jīng)網(wǎng)絡(luò)比在ILSVRC-2012和ILSVRC-2013中成績(jī)最好的模型效果明顯要好像吻。我們的結(jié)果與分類(lèi)任務(wù)的冠軍旗鼓相當(dāng)(GoogLeNet為6.7%的錯(cuò)誤率)峻黍,并且明顯比ILSVRC-2013的冠軍Clarifai的表現(xiàn)好得多,它使用外部訓(xùn)練數(shù)據(jù)時(shí)的錯(cuò)誤率為11.2%拨匆,而不使用外部數(shù)據(jù)時(shí)為11.7%姆涩。更標(biāo)志性的是惭每,我們最佳的結(jié)果是通過(guò)對(duì)兩個(gè)模型的組合——這明顯比大多數(shù)ILSVRC參賽模型要少。在單一網(wǎng)絡(luò)性能上绒北,我們的模型取得了最好的結(jié)果(7.0%的測(cè)試錯(cuò)誤率)闷游,比單一的GoogLeNet低0.9%脐往。值得注意的是业簿,我們并沒(méi)有摒棄經(jīng)典的卷積網(wǎng)絡(luò)框架辖源,并通過(guò)顯著增加深度對(duì)它的性能進(jìn)行了提升克饶。
5 結(jié)論
本文評(píng)估了深度卷積網(wǎng)絡(luò)(到19層)在大規(guī)模圖片分類(lèi)中的應(yīng)用蛙紫。結(jié)果表明,深度有益于提高分類(lèi)的正確率僵驰,通過(guò)在傳統(tǒng)的卷積網(wǎng)絡(luò)框架中使用更深的層能夠在ImageNet數(shù)據(jù)集上取得優(yōu)異的結(jié)果蒜茴。附錄中浆西,展示了我們的模型可以很好的泛化到更多數(shù)據(jù)集種近零,性能達(dá)到甚至超過(guò)了圍繞較淺深度的圖像表達(dá)建立的更復(fù)雜的識(shí)別流程。我們的實(shí)驗(yàn)結(jié)果再次確認(rèn)了深度在視覺(jué)表達(dá)中的重要性憎瘸。