論文原文:Going deeper with convolutions
作 者:Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott E Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich
摘要
我們提出了一個深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)Inception,它在ImageNet的大規(guī)模視覺識別挑戰(zhàn)賽2014(ILSVRC14)的分類和檢測上取得了新的最好結(jié)果耘眨。該體系架構(gòu)的主要特點是在網(wǎng)絡(luò)中改進(jìn)了計算資源的利用率娃善。這是由于精心的設(shè)計而得以實現(xiàn)的式曲。在增加網(wǎng)絡(luò)深度和寬度的同時保持了計算預(yù)算不變笨篷。為了優(yōu)化質(zhì)量醉箕,架構(gòu)的設(shè)計以Hebbian理論和多尺度處理為基礎(chǔ)爬虱。我們在提交ILSVRC14時稱該網(wǎng)絡(luò)為GoogLeNet瞻离,一個22層的深度網(wǎng)絡(luò)碎浇,其質(zhì)量分別在分類和檢測的背景下進(jìn)行了評估。
1. 引言
在過去的三年里璃俗,由于深度學(xué)習(xí)的發(fā)展奴璃,更具體的說是由于卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展[10],圖像識別和目標(biāo)檢測的能力一直在以驚人的速度前進(jìn)城豁。一個令人鼓舞的消息是苟穆,大部分的進(jìn)步不僅僅是因為更強(qiáng)大的硬件、更大的數(shù)據(jù)集和更大的模型钮蛛,而主要是由于新想法鞭缭、算法和網(wǎng)絡(luò)架構(gòu)的改進(jìn)。沒有新的數(shù)據(jù)源被使用魏颓,例如,在ILSVRC 2014的挑戰(zhàn)賽中吱晒,最靠前的輸入除了用于檢測目的的分類數(shù)據(jù)集之外甸饱,沒有使用新的數(shù)據(jù)資源。我們在ILSVRC 2014中提交的GoogLeNet模型實際使用的參數(shù)只有兩年前Krizhevsky等人[9]獲勝結(jié)構(gòu)參數(shù)的1/12仑濒,而我們提交的GoogLeNet模型的結(jié)果明顯更加準(zhǔn)確叹话。目標(biāo)檢測的最大收獲不是來自于深層網(wǎng)絡(luò)的簡單應(yīng)用,而是來自于深層架構(gòu)和經(jīng)典計算機(jī)視覺的協(xié)同作用墩瞳,比如像Girshick等人[6]的R-CNN算法驼壶。
另一個顯著因素是隨著移動和嵌入式計算的不斷發(fā)展,我們的算法的效率——尤其是它們的功耗和內(nèi)存使用喉酌。值得注意的是热凹,這篇論文中提出的深度架構(gòu)設(shè)計正是包含了對于效率的考慮,而不是單純的為了提高準(zhǔn)確率泪电。對于大多數(shù)實驗般妙,模型被設(shè)計為在一次推斷中保持15億乘加的計算預(yù)算,所以最終它們不是單純的學(xué)術(shù)好奇心相速,而是能在現(xiàn)實世界中應(yīng)用碟渺,即使是在大型數(shù)據(jù)集上,也在一個合理的計算成本內(nèi)突诬。
在本文中苫拍,我們將關(guān)注一個高效的計算機(jī)視覺深層神經(jīng)網(wǎng)絡(luò)架構(gòu),代號為Inception旺隙,它的名字來源于Lin等人[12]“Network in Network”論文與著名的“we need to go deeper”網(wǎng)絡(luò)基因[1]的結(jié)合绒极。在我們的案例中,“deep”這個單詞有兩種不同的含義:首先催束,我們引入了一個新的組織形式集峦,以“Inception module”的方式,同時也更直接地增加了網(wǎng)絡(luò)的深度。一般來說塔淤,可以把Inception模型看作論文[12]的邏輯頂點摘昌,同時從Arora等人[2]的理論工作中受到了啟發(fā)和引導(dǎo)。這種體系架構(gòu)的優(yōu)點在ILSVRC 2014分類和檢測挑戰(zhàn)賽中得到了實驗驗證高蜂,它顯著優(yōu)于當(dāng)前的技術(shù)狀態(tài)聪黎。
2. 近期工作
從LeNet-5 [10]開始,卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常有一個標(biāo)準(zhǔn)結(jié)構(gòu)——層疊的卷積層(后面可以有選擇的跟隨歸一化和最大池化)后面是一個或多個的全連接層备恤。這個基本設(shè)計的變體在圖像分類文獻(xiàn)中普遍存在稿饰,并且在MNIST阔拳,CIFAR和更著名的ImageNet分類挑戰(zhàn)賽中[9, 21]取得了迄今最好的結(jié)果沧踏。對于例如ImageNet這種大數(shù)據(jù)集來說,最近的趨勢是增加層數(shù)[12]和層的大小[21, 14]宣赔,同時使用dropout[7]來解決過擬合問題惭笑。
盡管擔(dān)心最大池化層會導(dǎo)致精確空間信息的損失侣姆,但與[9]相同的卷積網(wǎng)絡(luò)結(jié)構(gòu)也已經(jīng)成功的應(yīng)用于定位[9, 14],目標(biāo)檢測[6, 14, 18, 5]和行人姿態(tài)估計[19]沉噩。從靈長類視覺皮層神經(jīng)科學(xué)模型得到啟發(fā)捺宗,Serre等人[15]使用了一系列不同大小的固定的Gabor濾波器來處理多重尺度 ,類似于Inception模型川蒙。然而蚜厉,與[15]的固定的2層深度模型相反,Inception結(jié)構(gòu)中學(xué)習(xí)了所有的濾波器畜眨。此外昼牛,Inception層重復(fù)了很多次,在GoogleNet模型中得到了一個22層的深度模型胶果。
Network-in-Network是Lin等人[12]提出的一種方法匾嘱。目的是為了增加神經(jīng)網(wǎng)絡(luò)的表征能力。在他們的模型中早抠,網(wǎng)絡(luò)中添加了額外的1×1卷積層霎烙,增加了網(wǎng)絡(luò)的深度。我們的架構(gòu)中大量的使用了這個方法蕊连。在我們的設(shè)置中悬垃,1×1卷積有兩個目的:最關(guān)鍵的是,它們主要是用來作為降維模塊來移除卷積瓶頸甘苍,否則將會限制我們網(wǎng)絡(luò)的規(guī)格尝蠕。其次采用1×1卷積不僅允許了深度的增加,而且允許我們網(wǎng)絡(luò)的寬度增加载庭,但沒有明顯的性能損失看彼。
目前處于領(lǐng)先位置的目標(biāo)檢測方法是Girshick等人[6]提出的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)方法廊佩。R-CNN將整個檢測問題分解為兩個子問題:首先利用低級線索,比如顏色靖榕,紋理标锄,以絕對不可知的方式對潛在的對象提出建議(畫出候選區(qū)域),然后用CNN分類器來識別那些位置上的對象類別茁计。這兩個階段的方法利用了低層特征分割邊界框的準(zhǔn)確性料皇,也利用了目前的CNN非常強(qiáng)大的分類能力。我們在我們的檢測提交過程中采用了類似的方式星压,但在這兩個階段都進(jìn)行了改進(jìn)践剂,例如對于更高的目標(biāo)邊界框的多框[5]預(yù)測,并融合了更好的邊界框候選區(qū)域分類方法娜膘。
3.動機(jī)和更高層次的思考
提高深度神經(jīng)網(wǎng)絡(luò)性能最直接的方法就是增加它們的尺寸逊脯。這包括增加網(wǎng)絡(luò)的深度(網(wǎng)絡(luò)層次的數(shù)目),也包括增加網(wǎng)絡(luò)的寬度(每一層的單元數(shù)目)竣贪。這是訓(xùn)練高質(zhì)量模型的一種簡單而安全的方法男窟,特別是考慮到可獲得大量標(biāo)記的訓(xùn)練數(shù)據(jù)的情況下。但是這個簡單的解決方案有兩個主要的缺點贾富。
更大的尺寸意味著更多的參數(shù),這會使增大的網(wǎng)絡(luò)更容易過擬合牺六,特別是在訓(xùn)練集的標(biāo)注樣本有限的情況下颤枪。這可能成為一個主要的瓶頸,因為創(chuàng)建高質(zhì)量的訓(xùn)練集可能很棘手淑际。要獲得高質(zhì)量標(biāo)注數(shù)據(jù)集費時費力且代價昂貴畏纲,經(jīng)常需要專家評委在各種細(xì)粒度的視覺類別進(jìn)行區(qū)分,例如圖1中顯示的ImageNet中的類別(甚至是1000類ILSVRC的子集)春缕。
統(tǒng)一增加網(wǎng)絡(luò)尺寸的另一個缺點是計算資源的使用的顯著增加盗胀。例如,在一個深度視覺網(wǎng)絡(luò)中锄贼,如果兩個卷積層相連票灰,它們的濾波器數(shù)目的任何均勻增加都會導(dǎo)致計算的平方式的增加。如果增加容量使用率低下(例如宅荤,如果大多數(shù)權(quán)重結(jié)束時接近于0)屑迂,那么會浪費大量的計算能力。由于在實際中的計算預(yù)算總是有限的冯键,因此惹盼,計算資源的有效分布更偏向于尺寸無差別的增加,即使在主要目標(biāo)是提高結(jié)果的質(zhì)量惫确。
解決這兩個問題的根本途徑是引入稀疏性并將全連接層替換為稀疏的全連接層手报,甚至是卷積層蚯舱。除了模仿生物系統(tǒng)之外,這也得益于Arora等人[2]的開創(chuàng)性工作帶來更堅固的理論基礎(chǔ)掩蛤。其主要成果說明如果數(shù)據(jù)集的概率分布可以通過一個大型稀疏的深度神經(jīng)網(wǎng)絡(luò)表示枉昏,則最優(yōu)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可以通過分析前一層激活的相關(guān)性統(tǒng)計和聚類高度相關(guān)的神經(jīng)元來一層層的構(gòu)建。盡管嚴(yán)格的數(shù)學(xué)證明需要非常強(qiáng)的條件盏档,但這一說法與著名的Hebbian理論產(chǎn)生共鳴——神經(jīng)元一起激發(fā)凶掰,一起連接——這一事實表明,即使條件不那么嚴(yán)格蜈亩,基礎(chǔ)概念仍然適用于實踐懦窘。
缺點在于,對于非均勻稀疏數(shù)據(jù)結(jié)構(gòu)的數(shù)值計算稚配,現(xiàn)在的計算架構(gòu)效率非常低下畅涂。即使算術(shù)運(yùn)算的數(shù)量減少100倍,查詢和緩存丟失上的開銷仍占主導(dǎo)地位:切換到稀疏矩陣可能是不可行的道川。隨著穩(wěn)定提升和高度調(diào)整的數(shù)值庫的應(yīng)用午衰,差距仍在進(jìn)一步擴(kuò)大,數(shù)值庫要求極度快速密集的矩陣乘法冒萄,利用底層的CPU或GPU硬件[16, 9]臊岸。此外,非均勻的稀疏模型需要更復(fù)雜的工程和計算基礎(chǔ)設(shè)施尊流。目前大多數(shù)面向視覺的機(jī)器學(xué)習(xí)系統(tǒng)都是利用卷積的優(yōu)點來利用空域的稀疏性帅戒。然而,卷積被實現(xiàn)為對上一層的密集連接的集合崖技。為了打破對稱性和提高學(xué)習(xí)能力逻住,從論文[11]開始,ConvNets傳統(tǒng)上在特征維度使用隨機(jī)和稀疏的連接表迎献,為了進(jìn)一步優(yōu)化并行計算瞎访,論文[9]中趨向于變回全連接。目前最新的計算機(jī)視覺架構(gòu)有統(tǒng)一的結(jié)構(gòu)吁恍。更多的濾波器和更大的batch允許使用高效的密集計算扒秸。
這就提出了一個問題:下一個中間步驟是否有希望:一個架構(gòu)能利用濾波器水平的稀疏性,正如理論所建議的那樣践盼,但能通過利用密集矩陣計算來利用我們目前的硬件鸦采。稀疏矩陣乘法的大量文獻(xiàn)(例如[3])認(rèn)為對于稀疏矩陣乘法,將稀疏矩陣聚類為相對密集的子矩陣會有更佳的性能咕幻。在不久的將來會利用類似的方法用于非統(tǒng)一的深度學(xué)習(xí)架構(gòu)的自動構(gòu)建渔伯,這樣的想法似乎并不牽強(qiáng)。
Inception架構(gòu)開始是作為案例研究肄程,用來評估復(fù)雜的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)算法的假設(shè)輸出锣吼,該算法試圖近似[2]中所示的視覺網(wǎng)絡(luò)的稀疏結(jié)構(gòu)选浑,并通過密集的、容易獲得的組件來覆蓋假設(shè)結(jié)果玄叠。盡管這是一項高度投機(jī)的任務(wù)古徒,但在對拓?fù)涞木_選擇進(jìn)行了兩次迭代之后,我們已經(jīng)可以看到基于[12]的參考體系結(jié)構(gòu)的適度收益读恃。在進(jìn)一步調(diào)優(yōu)學(xué)習(xí)速率隧膘、超參數(shù)和改進(jìn)的訓(xùn)練方法之后,我們確定產(chǎn)生的Inception架構(gòu)在定位和對象檢測作為[6]和[5]的基礎(chǔ)網(wǎng)絡(luò)的環(huán)境中特別有用寺惫。有趣的是疹吃,雖然大多數(shù)最初的架構(gòu)選擇已被質(zhì)疑并分離開進(jìn)行全面測試,但結(jié)果證明它們是局部最優(yōu)的西雀。
盡管提出的架構(gòu)已經(jīng)在計算機(jī)視覺上取得成功萨驶,但它的質(zhì)量是否可以歸因于構(gòu)建其架構(gòu)的指導(dǎo)原則仍是有疑問的。確保這一點需要更深入的分析和驗證艇肴。例如腔呜,如果基于以下原則描述會發(fā)現(xiàn)類似的但更好的拓?fù)浣Y(jié)構(gòu)。最令人信服的證明是再悼,如果一個自動化系統(tǒng)能夠創(chuàng)建一個網(wǎng)絡(luò)拓?fù)浜顺耄谄渌I(lǐng)域使用相同的算法不同的全局體系結(jié)構(gòu)但可獲得類似的收益。至少冲九,Inception架構(gòu)的最初的成功為這個方向未來工作提供了堅實的動力膛檀。
4. 架構(gòu)細(xì)節(jié)
Inception架構(gòu)的主要思想是考慮怎樣發(fā)現(xiàn)一個卷積視覺網(wǎng)絡(luò)中一個最優(yōu)的局部稀疏結(jié)構(gòu)是怎樣被用容易獲得的密集組件進(jìn)行覆蓋的。注意假設(shè)轉(zhuǎn)換不變性娘侍,這意味著我們的網(wǎng)絡(luò)將以卷積構(gòu)建塊為基礎(chǔ)。我們所需要做的是找到最優(yōu)的局部構(gòu)造泳炉,并在空間上重復(fù)它憾筏。Arora等人[2]提出了層次結(jié)構(gòu),其中應(yīng)該分析最后一層的相關(guān)統(tǒng)計數(shù)據(jù)花鹅,并將它們聚集成具有高相關(guān)性的單元組氧腰。這些聚類形成了下一層的單元并與前一層的單元連接。我們假設(shè)前面的每個單元都對應(yīng)輸入層的某些區(qū)域刨肃,并且這些單元被分到濾波器組中古拴。在較低的層(接近輸入的層)相關(guān)單元集中在局部區(qū)域。因此真友,如[12]所示黄痪,我們最終會有許多聚類集中在單個區(qū)域,它們可以通過下一層的1×1卷積層覆蓋盔然。然而也可以預(yù)期桅打,在更大的斑塊上是嗜,會有更小的空間分布的簇,其可以被更大塊上的卷積覆蓋挺尾,在越來越大的區(qū)域上塊的數(shù)量將會下降鹅搪。為了避免塊校正的問題,目前Inception架構(gòu)形式的濾波器的尺寸僅限于1×1遭铺、3×3丽柿、5×5,這個決定更多的是基于便易性而不是必要性魂挂。這也意味著提出的架構(gòu)是所有這些層的組合甫题,其輸出濾波器組連接成單個輸出向量形成了下一階段的輸入。另外锰蓬,由于池化操作對于目前卷積網(wǎng)絡(luò)的成功至關(guān)重要幔睬,因此建議在每個這樣的階段添加一個替代的并行池化路徑應(yīng)該也應(yīng)該具有額外的有益效果(看圖2(a))。
正如這些“Inception modules”在彼此的頂部堆疊芹扭,它的輸出相關(guān)統(tǒng)計必然有變化:高層次的較為抽象的特征被較高層捕捉麻顶,他們的空間集中會比預(yù)計中的少,這表明隨著我們移動到更高的層舱卡,3×3和5×5卷積的比例應(yīng)該會增加辅肾。
上述模塊的一個大問題是,至少在一種形式中是這樣的轮锥,即使是少量5×5卷積也可能是非常昂貴的矫钓,一旦池化單元添加到網(wǎng)絡(luò)中,這個問題會變得更明顯:輸出濾波器的數(shù)量等于前一階段濾波器的數(shù)量舍杜。池化層輸出和卷積層輸出的合并會導(dǎo)致這一階段到下一階段輸出數(shù)量不可避免的增加新娜。即使這種架構(gòu)可能會覆蓋最優(yōu)的稀疏結(jié)構(gòu),但也會非常低效既绩,導(dǎo)致在幾個階段內(nèi)出現(xiàn)計算爆炸概龄。
這導(dǎo)致了Inception架構(gòu)的第二個想法:在計算需求增加太多的情況,明智地應(yīng)用維度縮減和預(yù)測饲握。這是基于嵌入的成功:即使是低維度的嵌入也可能包含大量關(guān)于相對較大圖像補(bǔ)丁塊的信息私杜。然而,嵌入表示信息在以稠密壓縮形式表示信息并且壓縮信息更難處理救欧。我們希望在大多數(shù)地方保持稀疏(根據(jù)[2]中條件的要求)并且僅在它們必須匯總時才壓縮信號衰粹。也就是說在昂貴的3×3和5×5卷積之前,添加1×1卷積用來降低維度笆怠。除了用來降維之外铝耻,它們也包括使用線性修正單元使它們有雙重用途。最終的結(jié)果如圖2(b)所示蹬刷。
一般來說田篇,Inception網(wǎng)絡(luò)是由上述類型的模塊互相堆疊組成的網(wǎng)絡(luò)替废,偶爾會有步長為2的最大池化層將網(wǎng)格的分辨率減半。由于技術(shù)原因(訓(xùn)練期間的內(nèi)存效率)泊柬,在開始使用Inception網(wǎng)絡(luò)先在高層次使用而在低層次仍保持傳統(tǒng)的卷積形式似乎是有益的椎镣。這不是絕對必要的,只是反映了我們當(dāng)前實現(xiàn)中的一些基礎(chǔ)結(jié)構(gòu)效率低下兽赁。
這種架構(gòu)的主要優(yōu)勢之一是它可以顯著增加每個階段的單元數(shù)量状答,而不會在計算復(fù)雜性方面造成無法控制的爆炸刀崖。尺寸縮減的普遍使用允許將最后一個階段的大量輸入濾波器屏蔽到下一個層惊科,首先減小它們的尺寸,然后以大的patch尺寸卷積它們亮钦。 這種設(shè)計的另一個實際有用的方面是它符合直覺馆截,即視覺信息應(yīng)該以各種尺度進(jìn)行處理,然后進(jìn)行聚合蜂莉,以便下一階段可以同時從不同尺度提取特征蜡娶。
計算資源的改進(jìn)使用允許增加每個階段的寬度和階段的數(shù)量,而不會陷入計算困境映穗。另一種使用Inception體系結(jié)構(gòu)的方法是創(chuàng)建稍差的但計算較便宜的版本窖张。我們發(fā)現(xiàn)所有可用的控制允許控制平衡的計算資源,導(dǎo)致網(wǎng)絡(luò)比沒有Inception結(jié)構(gòu)的類似執(zhí)行網(wǎng)絡(luò)快2—3倍蚁滋,但是在這一點上需要仔細(xì)的手動設(shè)計宿接。
5. GoogLeNet
我們選擇GoogLeNet作為在ILSVRC 2014競賽中的名稱。這個名字是對Yann LeCuns開創(chuàng)性的網(wǎng)絡(luò)LeNet 5網(wǎng)絡(luò)的致敬【10】辕录。我們還使用GoogLeNet來指代我們在競賽中使用的初始架構(gòu)的特定化身睦霎。 我們還使用了更深入,更廣泛的Inception網(wǎng)絡(luò)走诞,其質(zhì)量稍差碎赢,但將其添加到合奏中似乎稍微改善了結(jié)果。 我們省略了該網(wǎng)絡(luò)的細(xì)節(jié)速梗,因為我們的實驗已經(jīng)表明,確切的架構(gòu)參數(shù)的影響相對較小襟齿。這里姻锁,為了示范目的,在表1中描述了最成功的特定實例(名為GoogLeNet)猜欺。在我們的集合中位隶,7個模型中的6個使用了完全相同的拓?fù)洌ㄓ貌煌牟蓸臃椒ㄓ?xùn)練)。
所有卷積开皿,包括Inception模塊中的卷積涧黄,都使用修正性線性激活篮昧。在我們的網(wǎng)絡(luò)中,感受野的大小是224×224笋妥,RGB色彩通道使用均值減法懊昨。 “#3×3reduce”和“#5×5reduce”表示在3×3和5×5卷積之前,使用的降維層中的1×1濾波器的數(shù)量春宣。 可以在pool proj列中的內(nèi)置最大池之后看到投影層中1×1濾波器的數(shù)量酵颁。所有這些降維/投影層也都使用線性修正激活。
該網(wǎng)絡(luò)的設(shè)計考慮了計算效率和實用性月帝,因此可以在單個設(shè)備上運(yùn)行推理躏惋,包括那些計算資源有限的設(shè)備,特別是內(nèi)存占用較少的設(shè)備嚷辅。當(dāng)僅計算帶有參數(shù)的層時簿姨,網(wǎng)絡(luò)是22層(如果我們還計算池化層的話,則是27層)簸搞。用于構(gòu)建網(wǎng)絡(luò)的層數(shù)(獨立構(gòu)建塊)大約為100個扁位。然而,這個數(shù)字取決于機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施系統(tǒng)的使用攘乒。在分類器之前使用平均池化是基于[12]贤牛,盡管我們的實現(xiàn)不同,我們使用了一個額外的線性層则酝。這使得我們可以很容易地調(diào)整我們的網(wǎng)絡(luò)殉簸,它主要是提供了方便調(diào)整網(wǎng)絡(luò),我們并不期望它會有很大的影響沽讹。研究發(fā)現(xiàn)般卑,從全連接層到平均池層,提高了大約top-1 %0.6的準(zhǔn)確率爽雄,然而即使在移除了全連接層之后蝠检,丟失的使用還是必不可少的。
考慮到網(wǎng)絡(luò)的深度挚瘟,通過有效的方式將梯度傳播回所有層的能力是一個值得關(guān)注的問題叹谁。一個有趣的見解是,相對較淺的網(wǎng)絡(luò)在這個任務(wù)上的強(qiáng)大性能表明乘盖,通過將輔助分類器添加到這些中間層焰檩,可以期望較低階段分類器的判別力。這被認(rèn)為是在提供正則化的同時克服梯度消失問題订框。這些分類器以較小的卷積網(wǎng)絡(luò)的形式放置在Inception (4a)和Inception (4b)模塊的輸出之上析苫。在訓(xùn)練過程中,它們的損失以折扣權(quán)重(輔助分類器損失的權(quán)重是0.3)加到網(wǎng)絡(luò)的整個損失上。在推斷時衩侥,這些輔助網(wǎng)絡(luò)被丟棄国旷。后面的控制實驗表明輔助網(wǎng)絡(luò)的影響相對較小(約0.5)茫死,只需要其中一個就能取得同樣的效果跪但。
包括輔助分類器在內(nèi)的附加網(wǎng)絡(luò)的具體結(jié)構(gòu)如下:
?具有5×5濾波器大小和步長3的平均池化層,(4a)輸出4×4×512
(4d)輸出4×4×528階段璧榄。
?帶有128個濾波器的1×1卷積用于降維和修正線性激活特漩。
?一個全連接層,具有1024個單元和修正線性激活骨杂。
?一個dropout層涂身,丟棄70%的輸出
?使用帶有softmax損失的線性層作為分類器(作為主分類器預(yù)測同樣的1000類,但在推斷時移除)
最終的網(wǎng)絡(luò)模型圖如圖3所示搓蚪。
6. 訓(xùn)練方法
我們的網(wǎng)絡(luò)使用DistBelief [4]分布式機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行訓(xùn)練蛤售,使用適量的模型和數(shù)據(jù)并行性。雖然我們只使用基于CPU的實現(xiàn)方式妒潭,但粗略估計表明悴能,GoogLeNet網(wǎng)絡(luò)可以在一周內(nèi)使用少量高端GPU訓(xùn)練到收斂,主要限制是內(nèi)存使用量雳灾。我們的訓(xùn)練使用異步隨機(jī)梯度下降漠酿,動量參數(shù)為0.9[17],固定的學(xué)習(xí)率計劃(每8次遍歷下降學(xué)習(xí)率4%)谎亩。使用Polyak求平均值[13]來創(chuàng)建用于推斷時間的最終模型炒嘲。
圖像采樣方法在過去的幾個月里發(fā)生了重大變化主導(dǎo)了比賽。并且已經(jīng)收斂的模型在其他選項上進(jìn)行了訓(xùn)練,有時結(jié)合改變超參數(shù)的改變比如,dropout和學(xué)習(xí)速率,所以很難給出一個明確的指導(dǎo),最有效的單一的方式來訓(xùn)練這些網(wǎng)絡(luò)匈庭。使問題更加復(fù)雜的是夫凸,受到[8]的啟發(fā),一些模型主要是針對較小的裁剪圖像進(jìn)行訓(xùn)練阱持,另一些則是針對相對較大的裁剪圖像進(jìn)行訓(xùn)練夭拌。然而,一個經(jīng)過驗證的方案在競賽后工作地很好衷咽,包括各種尺寸的圖像塊的采樣鸽扁,它的尺寸均勻分布在圖像區(qū)域的8%——100%之間,方向角限制為[34,43][34,43]之間镶骗。另外桶现,我們發(fā)現(xiàn)Andrew Howard[8]的光度扭曲對于克服訓(xùn)練數(shù)據(jù)成像條件的過擬合是有用的。此外卖词,我們開始使用隨機(jī)插值方法(雙線性,面積,最近的鄰居和立方體此蜈,具有相等的概率)即横,用于相對較晚的調(diào)整大小,以及與其他超參數(shù)變化相結(jié)合裆赵,所以我們不能確定最終的結(jié)果是否被他們的使用所影響东囚。
7. ILSVRC 2014分類挑戰(zhàn)賽設(shè)置和結(jié)果
ILSVRC 2014分類挑戰(zhàn)涉及將圖像分類到Imagenet層次結(jié)構(gòu)中1000個葉節(jié)點類別之一的任務(wù)。大約有120萬張訓(xùn)練圖片战授,50,000張圖片用于驗證页藻,100,000張圖片用于測試。每個圖像都與一個實際類別相關(guān)聯(lián)植兰,并且性能是根據(jù)分類器預(yù)測最高得分來測量的份帐。通常會報告兩個數(shù)字:top-1準(zhǔn)確率,比較實際類別和第一個預(yù)測類別楣导,top-5錯誤率废境,比較實際類別與前5個預(yù)測類別:如果圖像實際類別在top-5中,則認(rèn)為圖像分類正確筒繁,不管它在top-5中的排名噩凹。挑戰(zhàn)賽使用top-5錯誤率來進(jìn)行排名。
我們參加競賽時沒有用外部數(shù)據(jù)來訓(xùn)練毡咏。 除了本文提到的訓(xùn)練技術(shù)之外驮宴,我們在測試過程中采用了一系列技術(shù)來獲得更高的性能,我們將在下面進(jìn)行詳細(xì)介紹呕缭。
1.我們獨立訓(xùn)練了同一個GoogLeNet模型的7個版本(包括一個更廣泛的版本)堵泽,并對它們進(jìn)行了整體預(yù)測。這些模型經(jīng)過相同的初始化(即使具有相同的初始權(quán)重臊旭,主要是因為監(jiān)督)和學(xué)習(xí)率策略進(jìn)行了培訓(xùn)落恼,并且它們僅在采樣方法和輸入圖像的隨機(jī)順序上有所不同。
2.在測試過程中离熏,我們采取了比Krizhevsky等人更加積極的裁剪方法[9]佳谦。 具體而言,我們將圖像調(diào)整為4個縮放比例滋戳,其中較短的尺寸(高度或?qū)挾龋┓謩e為256,288,320和352钻蔑,取這些歸一化圖像的左側(cè),中間和右側(cè)方塊(在人像圖像中奸鸯, 頂部咪笑,中間和底部方塊)。對于每個方塊娄涩,我們將采用4個角以及中心224×224裁剪圖像以及方塊尺寸歸一化為224×224窗怒,以及它們的鏡像版本映跟。這導(dǎo)致每張圖像4×3×6×2 = 144的裁剪圖像。 Andrew Howard[8]在前一年使用了類似的方法扬虚,我們通過實證驗證其執(zhí)行情況略低于提議的方案努隙。我們注意到,實際應(yīng)用中可能不需要這種裁剪辜昵,因為存在合理數(shù)量的裁剪圖像后荸镊,更多裁剪圖像的好處會變得很微小(我們將在后面展示)堪置。
3.softmax概率是對多個裁剪圖像和所有單個分類器進(jìn)行平均以獲得最終預(yù)測結(jié)果躬存。在我們的實驗中,我們分析了驗證數(shù)據(jù)的其他替代方法舀锨,例如裁剪圖像上的最大池化和分類器上的平均值岭洲,但是它們比簡單平均的性能略遜。
在本文的其余部分雁竞,我們分析了有助于最終提交的整體性能表現(xiàn)的多個因素钦椭。
我們在挑戰(zhàn)中提交的最終提交數(shù)據(jù)在驗證和測試數(shù)據(jù)上獲得了top-5 6.67%的錯誤率,在其他參與者中排名第一碑诉。與2012年SuperVision方法相比相對減少了56.5%彪腔,與前一年的最佳方法(Clarifai)相比相對減少了約40%,兩者均使用了外部數(shù)據(jù)來訓(xùn)練分類器进栽。表2顯示了一些高性能方法的統(tǒng)計數(shù)據(jù)德挣。
我們還通過在表中預(yù)測圖像時通過改變模型的數(shù)量和使用的裁剪圖像數(shù)量來分析和報告多種測試選擇的性能。當(dāng)我們使用一個模型時快毛,我們選擇了驗證數(shù)據(jù)中具有最低top-1錯誤率的模型格嗅。所有數(shù)據(jù)都在驗證數(shù)據(jù)集上報告,以避免過度使用測試數(shù)據(jù)統(tǒng)計數(shù)據(jù)唠帝。
8. ILSVRC 2014檢測挑戰(zhàn)賽設(shè)置和結(jié)果
ILSVRC檢測任務(wù)是在200個可能的類中生成圖像中目標(biāo)的邊界框屯掖。如果檢測到的對象與實際類別相匹配,并且它們的邊界框重疊至少50%(使用Jaccard索引)襟衰,則檢測到的對象記為正確贴铜。無關(guān)的檢測被視為誤報,并受到懲罰瀑晒。與分類任務(wù)相反绍坝,每個圖像可能包含很多對象或不包含任何對象,并且它們的尺度可能是變化的苔悦。報告的結(jié)果使用平均精確度(mAP)報告轩褐。
GoogLeNet采用的方法與[6]中的R-CNN類似,但是將Inception模型作為區(qū)域分類器進(jìn)行了增強(qiáng)玖详。此外把介,通過將選擇性搜索[20]方法與多框[5]預(yù)測相結(jié)合勤讽,可以提高區(qū)域生成步驟,以實現(xiàn)更高的對象邊界框召回率拗踢。為了減少誤報數(shù)量地技,超分辨率像素尺寸增加了2倍。這將選擇搜索算法的區(qū)域生成減少了一半秒拔。我們添加了來自多框[5]的200個區(qū)域提案,大約60%的區(qū)域生成用于[6]飒硅,同時將覆蓋率從92%提高到93%砂缩。減少區(qū)域生成的數(shù)量,增加覆蓋率的影響是對于單個模型的平均精確度提高1%三娩。最后庵芭,在對每個區(qū)域進(jìn)行分類時,我們使用6個ConvNets組合雀监,從而將結(jié)果從40%提高到43.9%的準(zhǔn)確度双吆。請注意,與R-CNN相反会前,由于缺少時間好乐,我們沒有使用邊界框回歸。
我們首先報告檢測結(jié)果并顯示檢測任務(wù)第一版以來的進(jìn)展情況瓦宜。與2013年的結(jié)果相比蔚万,準(zhǔn)確率幾乎翻了一番。表現(xiàn)最佳的團(tuán)隊都使用了卷積網(wǎng)絡(luò)临庇。我們在表4中報告了官方分?jǐn)?shù)以及每個團(tuán)隊的常用策略:使用外部數(shù)據(jù)反璃,集成模型或上下文模型。外部數(shù)據(jù)通常是ILSVRC12分類數(shù)據(jù)假夺,用于預(yù)先訓(xùn)練一個模型淮蜈,該模型稍后將在檢測數(shù)據(jù)上完善。一些團(tuán)隊還提到了定位數(shù)據(jù)的使用已卷。由于定位任務(wù)邊界框的很大一部分不包含在檢測數(shù)據(jù)集中梧田,因此可以用這種數(shù)據(jù)預(yù)訓(xùn)練一般邊界框回歸器,這與使用分類用于預(yù)訓(xùn)練的方式相同悼尾。GoogLeNet條目沒有使用本地化數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練柿扣。
在表5中,我們僅比較了使用單個模型的結(jié)果闺魏。 表現(xiàn)最佳的模型由Deep Insight提供未状,令人驚訝的是只有3個模型的集合僅僅提高了0.3個點,而GoogLeNet獲得了更強(qiáng)的集合效果析桥。
9. 總結(jié)
我們的研究結(jié)果似乎有了一個堅實的證據(jù)司草,即通過容易獲得的密集構(gòu)建塊來近似預(yù)期的最優(yōu)稀疏結(jié)構(gòu)是改進(jìn)用于計算機(jī)視覺的神經(jīng)網(wǎng)絡(luò)的可行方法艰垂。這種方法的主要優(yōu)點是與較淺和較寬的網(wǎng)絡(luò)相比,在計算要求的適度增加中顯著提高了質(zhì)量埋虹。另外請注意猜憎,盡管我們的檢測工作既沒有利用上下文,也沒有執(zhí)行邊界框10回歸搔课,但我們的檢測工作仍然具有競爭力胰柑,這一事實進(jìn)一步證明了Inception體系結(jié)構(gòu)的優(yōu)勢。對于分類和檢測爬泥,預(yù)期通過更昂貴的類似深度和寬度的非Inception類型網(wǎng)絡(luò)可以實現(xiàn)類似質(zhì)量的結(jié)果柬讨,但我們的方法提供了可靠證據(jù),表明向更稀疏的架構(gòu)轉(zhuǎn)變是可行和有用的想法袍啡。 這表明在[2]的基礎(chǔ)上踩官,以自動化的方式創(chuàng)建稀疏和更精細(xì)的結(jié)構(gòu)是有前途的工作。