本文轉(zhuǎn)自:http://www.jixuweifeng.com/2016/07/24/AlexNet%E8%AE%BA%E6%96%87%E7%BF%BB%E8%AF%91/
ImageNet Classification with Deep Convolution Neural Network在2012年的ImageNet挑戰(zhàn)賽上大顯神威,以絕對(duì)優(yōu)勢(shì)奪得冠軍产喉,是卷積神經(jīng)網(wǎng)絡(luò)的開(kāi)山之作捂掰,引領(lǐng)了人工智能的新一輪發(fā)展。懷著對(duì)經(jīng)典的無(wú)限景仰曾沈,小心翼翼地翻譯了一下這篇論文这嚣,以加深理解。論文地址:http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks
ImageNet Classification with Deep Convolution Neural Network
Abstract
我們訓(xùn)練了一個(gè)大型的深層卷積神經(jīng)網(wǎng)絡(luò)來(lái)將ImageNet LSVRC-2010挑戰(zhàn)賽上的120萬(wàn)張高清圖片分為1000類晦譬。在測(cè)試數(shù)據(jù)集上疤苹,我們實(shí)現(xiàn)了top-1 top-5的錯(cuò)誤率 37.5% 和 17.0%,這比之前最好的結(jié)果都還要好很多。這個(gè)網(wǎng)絡(luò)有6000萬(wàn)參數(shù)和65萬(wàn)個(gè)神經(jīng)元敛腌,包含5個(gè)卷積層卧土,一些卷積層后面連接有max-pooling層惫皱,還有三層全連接層后面接有1000-way的softmax.為了加快訓(xùn)練速度,我們使用了非飽和神經(jīng)元和一個(gè)對(duì)卷積操作非常有效的GPU尤莺。為了減少全連接層的過(guò)擬合問(wèn)題旅敷,我們使用了最近開(kāi)發(fā)的正則化方法“dropout”,它被證明是非常有效的。在ILSVRC-2012比賽中颤霎,我們又輸入了這個(gè)模型的一個(gè)變形媳谁,在top-5的的測(cè)試中錯(cuò)誤率達(dá)到了15.3%,相比之下,第二名錯(cuò)誤率為26.2%.
1 Introduction
當(dāng)前的物體識(shí)別都必不可少地使用了機(jī)器學(xué)習(xí)方法友酱。為了提高這些方法晴音,我們可以收集更大的數(shù)據(jù)集,學(xué)習(xí)更多有效的模型缔杉,使用更好的技巧來(lái)防止過(guò)擬合锤躁。直到現(xiàn)在,有標(biāo)記的圖像數(shù)據(jù)集是相當(dāng)小的—大約數(shù)萬(wàn)張(如NORB [16], Caltech-101/256 [8, 9], and CIFAR-10/100 [12])或详。簡(jiǎn)單的識(shí)別任務(wù)用這些大小的數(shù)據(jù)集能很好的解決系羞,尤其當(dāng)它們被標(biāo)簽–保留轉(zhuǎn)換增強(qiáng)了以后。例如霸琴,最近在MNIST數(shù)字識(shí)別任務(wù)中的錯(cuò)誤率(<0.3%)達(dá)到了人類水平椒振。但是,在真實(shí)物體數(shù)據(jù)集中卻表現(xiàn)出了相當(dāng)大的變化梧乘,所以澎迎,為了學(xué)習(xí)識(shí)別它們,使用更大的數(shù)據(jù)集是非常必要的宋下。的確嗡善,小規(guī)模圖像數(shù)據(jù)集的缺點(diǎn)已經(jīng)被廣泛地發(fā)現(xiàn)了辑莫,但是学歧,收集百萬(wàn)張有標(biāo)記的圖片數(shù)據(jù)集最近才變成了可能。新的更大的數(shù)據(jù)集包括LabelMe各吨,包含幾十萬(wàn)張完全分割的圖片枝笨,還有Image-net,包含150萬(wàn)超過(guò)2200種標(biāo)記的高清圖片揭蜒。
為了從百萬(wàn)張圖片中學(xué)習(xí)上千種物體横浑,我們需要一個(gè)具有強(qiáng)大學(xué)習(xí)能力的模型。然而屉更,物體識(shí)別任務(wù)的巨大復(fù)雜性意味著這個(gè)問(wèn)題甚至不能被ImagenNet這么大的數(shù)據(jù)集明確規(guī)定徙融,所以,我們的模型可能也有許多先驗(yàn)知識(shí)來(lái)彌補(bǔ)我們沒(méi)有的所有數(shù)據(jù)瑰谜。卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了一個(gè)這種類型的模型欺冀。它們的能力可以通過(guò)改變它們的深度和廣度來(lái)控制树绩,而且它們也可以作出有關(guān)圖像性質(zhì)的強(qiáng)壯和最大準(zhǔn)確率的假設(shè)。(即隐轩,統(tǒng)計(jì)數(shù)據(jù)的穩(wěn)定性和像素依賴的局部性).因此饺饭,相比于具有同樣規(guī)模的標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò),CNNs有更少的連接和參數(shù)职车,所以它們是更容易訓(xùn)練的瘫俊,而它們理論上的最佳性能可能僅僅差了一點(diǎn)點(diǎn)。
盡管CNN有非常吸引人的品質(zhì)悴灵,以及它自身的結(jié)構(gòu)的相對(duì)較高的效率扛芽,但是應(yīng)用到大規(guī)模高清圖像上還是非常昂貴的。幸運(yùn)的是积瞒,現(xiàn)在的GPU和實(shí)現(xiàn)高度優(yōu)化的2D卷積的配合是足夠強(qiáng)大的胸哥,可以促進(jìn)大規(guī)模CNN的訓(xùn)練,并且最近像ImageNet這樣的數(shù)據(jù)集包含了足夠的被標(biāo)記例子來(lái)訓(xùn)練出沒(méi)有嚴(yán)重過(guò)擬合的模型赡鲜。
這篇論文具體的貢獻(xiàn)如下:我們訓(xùn)練了一個(gè)最大的卷積神經(jīng)網(wǎng)絡(luò)來(lái)標(biāo)記ILSVRC-2010 和 ILSVRC-2012比賽的數(shù)據(jù)集空厌,并且實(shí)現(xiàn)了到目前為止在這些數(shù)據(jù)集上的最好結(jié)果。我們寫了一個(gè)實(shí)現(xiàn)2D卷積的高度優(yōu)化的GPU和其他的一些公開(kāi)的訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的固有操作银酬。我們的網(wǎng)絡(luò)包含大量新的和不尋常特點(diǎn)嘲更,這些特點(diǎn)提高了網(wǎng)絡(luò)的效率并且減少了訓(xùn)練時(shí)間,詳細(xì)介紹在第三部分揩瞪。我們的網(wǎng)絡(luò)規(guī)模解決了過(guò)擬合這個(gè)重要問(wèn)題赋朦,即使有1200萬(wàn)被標(biāo)記的訓(xùn)練圖片,我們使用了大量有效的技巧來(lái)防止過(guò)擬合李破,這將在第四部分詳細(xì)介紹宠哄。我們最終的網(wǎng)絡(luò)包含5個(gè)卷積層和三個(gè)全連接層,而且這個(gè)深度似乎是非常重要的:我們發(fā)現(xiàn)移除任何一個(gè)卷積層(每層包含的參數(shù)不足整個(gè)模型的1%)都會(huì)導(dǎo)致非常差的效果嗤攻。
最后毛嫉,網(wǎng)絡(luò)的大小主要由當(dāng)前GPU的可用內(nèi)存數(shù)量和我們所能忍受的訓(xùn)練時(shí)間所限制。我們的網(wǎng)絡(luò)在兩塊3G的GTX 580GPU上訓(xùn)練了五六天的時(shí)間妇菱。所有的實(shí)驗(yàn)表明承粤,我們的結(jié)果還能通過(guò)更快的GPU和更大的可用數(shù)據(jù)集來(lái)進(jìn)一步提高。
2 The Dataset
ImageNet是一個(gè)超過(guò)1500萬(wàn)張包含22000種類的被標(biāo)記的高清圖像數(shù)據(jù)集闯团。這些圖片收集自web辛臊,使用Ama-zon’s Mechanical Turk的工具箱來(lái)人工標(biāo)記。從2010年開(kāi)始房交,作為Pascal視覺(jué)對(duì)象挑戰(zhàn)賽的一部分彻舰,一年一度的ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)開(kāi)始舉行。ILSVRC使用ImageNet的子集,包含1000種圖像刃唤,每種包含1000張圖片口猜。總共有120萬(wàn)張訓(xùn)練圖片透揣,5萬(wàn)張驗(yàn)證圖片和15萬(wàn)張測(cè)試圖片济炎。
ILSVRC-2010是唯一的測(cè)試標(biāo)簽可用的版本,所以我們用它來(lái)做大量的實(shí)驗(yàn)辐真。當(dāng)然我們也使我們的模型參加ILSVRC-2012比賽须尚,在第六部分我們也會(huì)展示這一版數(shù)據(jù)集上的結(jié)果,其測(cè)試標(biāo)簽不可用侍咱。在ImageNet上耐床,通常報(bào)告兩類錯(cuò)誤率:top-1和top-5,top5錯(cuò)誤率表示測(cè)試圖片的標(biāo)簽不在模型所認(rèn)為的五種標(biāo)簽之內(nèi)楔脯。
ImageNet包含的圖片分辨率是變化的撩轰,然而我們的系統(tǒng)需要的輸入維數(shù)是一個(gè)常量。因此昧廷,我們采樣這些圖片一個(gè)固定的像素值256X256堪嫂。給定一張矩形的圖片,我們首先重置這張圖片的短邊長(zhǎng)度為256木柬,然后從得到的圖片中裁剪出中心的256X256皆串。除了從每一個(gè)像素中減去平均值外,我們沒(méi)有做任何其他的操作眉枕。所以恶复,我們?cè)谙袼氐脑糝GB值(裁剪出的中心部分)上訓(xùn)練我們的網(wǎng)絡(luò)。
3 The Architecture
我們的網(wǎng)絡(luò)結(jié)構(gòu)總結(jié)在圖2中速挑。它包含8個(gè)學(xué)習(xí)層—–5個(gè)卷積層和3個(gè)全連接層谤牡。接下來(lái),介紹一下我們這個(gè)網(wǎng)絡(luò)的神奇和不尋常的特點(diǎn)姥宝。3.1–3.4節(jié)根據(jù)我們對(duì)它們的重要性的估計(jì)來(lái)排序翅萤,最重要的在第一個(gè)。
3.1 Relu Nonlinearity
一般的方法是將神經(jīng)元的輸出作為函數(shù)f(x)=tanh(x) 或f(x)=(1+e-x)-1的輸入x 伶授。依據(jù)梯度下降的時(shí)間断序,這些飽和非線性函數(shù)是比不飽和非線性函數(shù)f(x)=max(0,x)更慢的流纹。根據(jù)Nair和Hinton糜烹,我們參考非線性的神經(jīng)元Rectified Linear Units (ReLUs).用RELUs訓(xùn)練的深層卷積神經(jīng)網(wǎng)絡(luò)比用tanh等價(jià)的神經(jīng)網(wǎng)絡(luò)快很多倍。如圖1漱凝,顯示了一個(gè)特別的四層卷積神經(jīng)網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上達(dá)到25%的錯(cuò)誤率所需要的迭代次數(shù)疮蹦。這個(gè)圖說(shuō)明如果我們使用了飽和的神經(jīng)元模型,我們將不能使用這么大規(guī)模的神經(jīng)網(wǎng)絡(luò)來(lái)做這個(gè)實(shí)驗(yàn)茸炒。
我們不是第一個(gè)考慮在CNNs中替換傳統(tǒng)神經(jīng)模型的愕乎。例如阵苇,Jarrett et al. [11]宣稱非線性函數(shù)f(x)=|tanh(x)|在Caltech-101數(shù)據(jù)集上對(duì)比度歸一化后局部平均池化的效果是非常好的。然而感论,在這個(gè)數(shù)據(jù)集上首要的問(wèn)題是防止過(guò)擬合绅项,所以,它們觀察到的結(jié)果是我們我們報(bào)告的通過(guò)使用Relus來(lái)獲得加速擬合訓(xùn)練集能力的結(jié)果是不一樣的比肄。更快的學(xué)習(xí)對(duì)大數(shù)據(jù)集上的大模型有非常重大的影響快耿。
[圖片上傳中...(image-1ad661-1511097214574-8)]
Figure 1: 使用ReLus(實(shí)線)的四層卷積神經(jīng)網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上達(dá)到25%的訓(xùn)練錯(cuò)誤率,比使用tanh(虛線)神經(jīng)元的等效網(wǎng)絡(luò)快了6倍芳绩。每一個(gè)網(wǎng)絡(luò)的學(xué)習(xí)率被獨(dú)立地選擇使得訓(xùn)練盡可能的快掀亥。沒(méi)有使用任何形式的正則化。在這里表現(xiàn)的結(jié)果隨著網(wǎng)絡(luò)結(jié)構(gòu)的不同而變化妥色,但是搪花,使用ReLus的網(wǎng)絡(luò)一貫地比使用飽和神經(jīng)元的等效網(wǎng)絡(luò)快好幾倍。
3.2 Training on Multiple GPUs
一個(gè)GTX580 GPU僅僅有3GB的內(nèi)存嘹害,這限制了在其上訓(xùn)練的網(wǎng)絡(luò)的最大規(guī)模撮竿。事實(shí)是120萬(wàn)訓(xùn)練樣本才足以訓(xùn)練網(wǎng)絡(luò),這太大了不適合在一個(gè)GPU上訓(xùn)練笔呀。因此倚聚,我們將網(wǎng)絡(luò)分布在兩個(gè)GPU上。當(dāng)前的GPU非常適合跨GPU并行化凿可,因?yàn)樗鼈兛梢灾苯訉?duì)另一塊GPU進(jìn)行讀寫操作惑折,而不需要通過(guò)主機(jī)內(nèi)存。我們采用的并行機(jī)制基本上每塊GPU設(shè)置了一半的核函數(shù)(神經(jīng)元)枯跑,一個(gè)額外的小技巧:GPU 的交流僅僅在某些層惨驶。意思是說(shuō),例如敛助,第三層神經(jīng)元的輸入來(lái)自第二層的所有神經(jīng)元粗卜。但是,第四層的神經(jīng)元僅僅來(lái)自同一塊GPU上第三層的神經(jīng)元纳击。選擇這種連接方式對(duì)于交叉驗(yàn)證是一個(gè)問(wèn)題续扔,但是這允許我們精確地調(diào)整連接的數(shù)量直到計(jì)算數(shù)值是一個(gè)可以接受的值。
最終的結(jié)構(gòu)是和Cire ?sanet al. [5] 所采用的“柱狀”CNN有點(diǎn)相似的焕数,只是我們的柱狀不是相互獨(dú)立的(如圖2)纱昧。這個(gè)機(jī)制分別減小了我們的top1錯(cuò)誤率1.7% 和 top5錯(cuò)誤率1.2%,和每個(gè)卷積層許多神經(jīng)元在同一塊GPU上訓(xùn)練像比較起來(lái)堡赔,兩塊GPU網(wǎng)絡(luò)比一塊GPU花費(fèi)更少的時(shí)間识脆。
3.3 Local Response Normalization
Relus 有一個(gè)良好的特性,它不要求輸入歸一化來(lái)防止飽和。如果至少一些訓(xùn)練數(shù)據(jù)產(chǎn)生了一個(gè)積極的輸入給Relus灼捂,那個(gè)神經(jīng)元將開(kāi)始學(xué)習(xí)离例。然而,我們還發(fā)現(xiàn)接下來(lái)的局部歸一化機(jī)制促進(jìn)了泛化悉稠。用a表示通過(guò)核函數(shù)i在神經(jīng)元(x,y)處計(jì)算得到的激活值宫蛆,然后應(yīng)用Relu非線性變換,響應(yīng)歸一化b通過(guò)表達(dá)式給出:
[圖片上傳中...(image-9bd424-1511097214574-7)]
在n個(gè)相鄰的核函數(shù)的同一空間位置求和的猛,N是每層總的核函數(shù)數(shù)量洒扎。核函數(shù)的順序在開(kāi)始訓(xùn)練之前都是任意的而且是確定的。受真實(shí)神經(jīng)元的啟發(fā)衰絮,響應(yīng)歸一化的順序?qū)崿F(xiàn)了單側(cè)抑制的形式袍冷,為使用不同核函數(shù)計(jì)算的神經(jīng)元輸出創(chuàng)造了競(jìng)爭(zhēng)。常量k,n猫牡,阿爾法胡诗,貝塔,是超參數(shù)淌友,它的值使用一個(gè)驗(yàn)證集來(lái)確定煌恢,我們使k=2,n=5,阿爾法=10^-4,貝塔=0.75.我們?cè)谝恍討?yīng)用ReLu非線性變換之后,采用這個(gè)歸一化震庭。
這個(gè)機(jī)制和局部常量歸一化有一些相似瑰抵。但是我們的更準(zhǔn)確的說(shuō)是“亮度歸一化”,因?yàn)槲覀儧](méi)有減去平均值器联。響應(yīng)歸一化將top-1和top-5錯(cuò)誤率分別減少了1.4%和1.2%.我們也在CIFAR-10 數(shù)據(jù)集上驗(yàn)證了這個(gè)機(jī)制的有效性:一個(gè)四層的CNN不用歸一化達(dá)到了13%的測(cè)試錯(cuò)誤率二汛,用了之后為11%.
3.4 Overlapping Pooling
在CNN中池化層總結(jié)了同一個(gè)核函數(shù)下相鄰神經(jīng)元的輸出。傳統(tǒng)的拨拓,相鄰池化單元的總結(jié)不重疊肴颊。為了更精確,一個(gè)池化層可以被認(rèn)為是由相鄰S個(gè)像素的池化網(wǎng)格所組成渣磷,每個(gè)總結(jié)是池化單元中心的鄰近z X z單元婿着。如果我們假設(shè)s=z,我們獲得CNN中傳統(tǒng)的局部池化醋界。如果設(shè)s<z,我們獲得重疊池化竟宋。這是我們的網(wǎng)絡(luò)里使用的參數(shù),s=2,z=3形纺。這個(gè)機(jī)制減小了top1錯(cuò)誤率0.4%丘侠,top5錯(cuò)誤率0.3%,和不重疊機(jī)制s=2,z=2比較起來(lái),它減小了等效面積的輸出挡篓。我們觀察并發(fā)現(xiàn)婉陷,在訓(xùn)練有重疊池化的模型中擬合是有一點(diǎn)困難的帚称。
3.5 Overall Architecture
現(xiàn)在我們準(zhǔn)備好介紹我們CNN的整體架構(gòu)了官研。像第二節(jié)描繪的那樣秽澳,網(wǎng)絡(luò)包含8層權(quán)重,前5層是卷積層和 3層全鏈接層戏羽。最后一層全連接層的輸出傳給一個(gè)1000的softmax函數(shù)担神,產(chǎn)生一個(gè)1000種標(biāo)簽的分類。
[圖片上傳中...(image-a64617-1511097214573-6)]
第2,4,5卷積層的核函數(shù)僅僅和GPU上前一層的那些映射結(jié)果相連接始花。第三層卷積層和第二層所有的映射結(jié)果相連接妄讯。全連接層的神經(jīng)元和前一層所有的神經(jīng)元相連。響應(yīng)歸一化層連接在第1,2卷積層后面酷宵。最大池化層亥贸,如第3,4節(jié)描述的那樣,連接在響應(yīng)歸一化層和第5卷基層后面浇垦。ReLu非線性函數(shù)應(yīng)用在每一個(gè)卷積層和全連接層后面炕置。
第1個(gè)卷積層用96個(gè)11X11X3的濾波器對(duì)224X224X3的圖像以步長(zhǎng)為4做濾波。第2層卷積層以第1層卷積層(響應(yīng)歸一化和池化之后)的結(jié)果為輸入男韧,用256個(gè)5X5X48的濾波器做濾波朴摊。第3,4,5卷積層互相連接沒(méi)有任何池化,歸一的干擾此虑。第三層卷積層有384個(gè)3X3X256 的核函數(shù)連接在第二層卷積層歸一化甚纲,池化之后。第四層卷積層有384個(gè)3X3X192核函數(shù)連接朦前,第五層有256個(gè)3x3X192的核函數(shù)連接介杆,全連接層各有4096個(gè)神經(jīng)元。
4 Reducing Overfitting
我們的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有6000萬(wàn)參數(shù)韭寸。盡管ILSVRC的1000種使得每一個(gè)訓(xùn)練樣例增加了10倍的限制这溅,從圖像到標(biāo)簽,這說(shuō)明不考慮過(guò)擬合來(lái)學(xué)習(xí)這么多的參數(shù)是不足的棒仍。下面悲靴,我們介紹兩種主要的防止過(guò)擬合的方法。
4.1 Data Augmentation
在圖像數(shù)據(jù)上最容易也是最常見(jiàn)的減少過(guò)擬合的方法是通過(guò)標(biāo)簽保存轉(zhuǎn)換人工地增大數(shù)據(jù)集(e.g., [25, 4, 5])莫其。我們采用兩種不同形式的數(shù)據(jù)增強(qiáng)癞尚,兩者都允許原始圖像經(jīng)過(guò)一些運(yùn)算來(lái)產(chǎn)生轉(zhuǎn)換后的圖像旋恼,所以轉(zhuǎn)換后的圖像不必存儲(chǔ)在磁盤上橱健。我們?cè)趯?shí)際操作中,轉(zhuǎn)換的圖片通過(guò)python代碼在CPU上產(chǎn)生绽榛,同時(shí)GPU在圖像的前一個(gè)batch上訓(xùn)練憨颠。所以這些數(shù)據(jù)增強(qiáng)機(jī)制實(shí)際上是計(jì)算自由的胳徽。
第一個(gè)數(shù)據(jù)增強(qiáng)的方式由圖片轉(zhuǎn)換和水平翻轉(zhuǎn)組成积锅。我們實(shí)現(xiàn)它通過(guò)在256X256的圖片上隨機(jī)提取224x224的patches(和它們的水平鏡像)并且在這些提取出來(lái)的Patches上訓(xùn)練我們的網(wǎng)絡(luò)。這使我們的訓(xùn)練集規(guī)模增加了2048养盗,當(dāng)然缚陷,訓(xùn)練樣本的結(jié)果是高度相互依存的。沒(méi)有這個(gè)方案往核,我們的網(wǎng)絡(luò)會(huì)遭受大量的過(guò)擬合箫爷,那將會(huì)迫使我們使用更小的網(wǎng)絡(luò)。在測(cè)試階段聂儒,網(wǎng)絡(luò)會(huì)做一個(gè)預(yù)測(cè)通過(guò)提取5個(gè)224X224的patches(四個(gè)角的patches和中心patches)和它們的水平鏡像(因此一共10個(gè)patches)虎锚,并且通過(guò)網(wǎng)絡(luò)的softmax層平均這10個(gè)patches上的預(yù)測(cè)。
第2種數(shù)據(jù)增強(qiáng)的方式是改變訓(xùn)練圖片上RGB通道的強(qiáng)度衩婚。特別的窜护,我們?cè)贗mageNet訓(xùn)練集上對(duì)RGB像素值做PCA操作。對(duì)每一張訓(xùn)練圖片非春,我們成倍的增加已有的主成分柱徙,比例大小為對(duì)應(yīng)特征值的隨機(jī)變量,符合0均值税娜,0.1標(biāo)準(zhǔn)差的高斯分布坐搔。
[圖片上傳中...(image-14e8c2-1511097214573-5)]
p和入是RGB像素值3X3協(xié)方差矩陣的特征向量和特征值,阿爾法是上述的隨機(jī)變量敬矩。每個(gè)阿爾法只描述一次一張?zhí)囟▓D片的所有像素值概行,直到這張圖片被再次訓(xùn)練,每個(gè)點(diǎn)再次被描繪弧岳。這個(gè)方案大概捕捉了自然圖像的重要性質(zhì)凳忙,也就是說(shuō),對(duì)象標(biāo)識(shí)對(duì)于光照強(qiáng)度和顏色的變化是不變的禽炬。這個(gè)方案減少了top-1錯(cuò)誤率1%.
4.2 Dropout
結(jié)合許多不同模型的預(yù)測(cè)是減小測(cè)試錯(cuò)誤非常成功的方式涧卵,但是這對(duì)于大的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)似乎代價(jià)太大了,需要花費(fèi)好多天來(lái)訓(xùn)練腹尖。然而柳恐,這有一個(gè)聯(lián)合模型的非常有效的版本僅僅花費(fèi)兩天訓(xùn)練。最新引進(jìn)的技術(shù)热幔,“Dropout”,以50%的概率對(duì)每一個(gè)隱含層的輸出置0乐设。被“Dropout”的這些神經(jīng)元對(duì)前向傳播不做貢獻(xiàn),也不參與后向傳播绎巨。所以近尚,每次一個(gè)輸入被展示的時(shí)候,神經(jīng)網(wǎng)絡(luò)表現(xiàn)出不同的結(jié)構(gòu)场勤,但是所有這些結(jié)構(gòu)共享權(quán)重戈锻。這個(gè)技術(shù)減少了神經(jīng)元的復(fù)雜的互相適應(yīng)歼跟,由于一個(gè)神經(jīng)元不能依賴其他特定神經(jīng)元的存在。因此格遭,學(xué)習(xí)更多穩(wěn)定的特征是緊迫的哈街,這些特征對(duì)連接其他神經(jīng)元的許多不同隨機(jī)集合是非常有用的。在測(cè)試階段如庭,我們使用所有的神經(jīng)元但是對(duì)它們的輸出乘以0.5叹卷,這是一個(gè)合理的近似撼港,采取由指數(shù)丟包網(wǎng)絡(luò)產(chǎn)生的預(yù)測(cè)分布的幾何平均值坪它。
我們?cè)谇皟蓪尤B接層使用dropout。沒(méi)有dropout帝牡,我們的網(wǎng)絡(luò)表現(xiàn)出大量的過(guò)擬合往毡。孤過(guò)擬合大概使達(dá)到收斂的次數(shù)增加兩倍。
5 Details of learning
[圖片上傳中...(image-d4f3e1-1511097214573-4)]
我們使用隨機(jī)梯度下降訓(xùn)練我們的模型靶溜,batch大小為128开瞭,momentum0.9,權(quán)重衰減率0.0005罩息。我們發(fā)現(xiàn)小的學(xué)習(xí)衰減率對(duì)于模型學(xué)習(xí)是非常重要的嗤详。換句話說(shuō),權(quán)重衰減不僅僅是正則化:它減小了模型的訓(xùn)練錯(cuò)誤瓷炮。權(quán)重w的更新規(guī)則為:
[圖片上傳中...(image-7d6257-1511097214573-3)]
i是迭代索引葱色,v是變量momentum,e是學(xué)習(xí)率,是第i個(gè)batch上關(guān)于W的倒數(shù)的均值娘香。
我們以0均值苍狰,標(biāo)準(zhǔn)差0.01的高斯分布初始化每一層的權(quán)重。初始化神經(jīng)元偏置值在第2,4,5卷積層和全連接層為常量1.這些初始值通過(guò)給Relus提供積極的輸入來(lái)加速了學(xué)習(xí)的早期階段烘绽。我們將其余層的神經(jīng)元偏置值初始化為0淋昭。
我們對(duì)所有層使用相等的學(xué)習(xí)速率,手動(dòng)地調(diào)整訓(xùn)練安接。我們使用的這個(gè)啟發(fā)式是為了當(dāng)驗(yàn)證錯(cuò)誤率停止提高當(dāng)前學(xué)習(xí)率時(shí)以10為單位分割學(xué)習(xí)率翔忽。學(xué)習(xí)率初始化為0.01并且在終止之前減少三倍。我們用兩塊NVIDIA GTX 580 3GB GPUs.在1200萬(wàn)張圖片的訓(xùn)練集上訓(xùn)練這個(gè)網(wǎng)絡(luò)90次盏檐,花費(fèi)了5,6天的時(shí)間歇式。
6 Result
[圖片上傳中...(image-9473cd-1511097214573-2)]
ILSVRC-2010的結(jié)果總結(jié)在table中。我們的網(wǎng)絡(luò)實(shí)現(xiàn)top-1和top-5測(cè)試集錯(cuò)誤率37.5%和17%糯笙。 ILSVRC-2010比賽中最好的表現(xiàn)以平均預(yù)測(cè)值的方法是47.1%和28.2%贬丛,平均了不同特征上訓(xùn)練的六個(gè)稀疏編碼模型產(chǎn)生的預(yù)測(cè)值,因此给涕,以平均預(yù)測(cè)值的方法最好的結(jié)果是45.7%和25.7%豺憔,平均了兩類密集采樣特點(diǎn)計(jì)算出的Fisher向量訓(xùn)練的兩個(gè)分類器的預(yù)測(cè)额获。
我們也把我們的模型用在ILSVRC-2012比賽中并且記錄結(jié)果在Table2中。因?yàn)镮LSVRC-2012測(cè)試集標(biāo)簽不是公開(kāi)可用的恭应,我們不能記錄我們訓(xùn)練的所有模型的測(cè)試錯(cuò)誤率抄邀。在這段剩下的部分,我們交換地使用驗(yàn)證和測(cè)試錯(cuò)誤率昼榛,因?yàn)樵谖覀兊慕?jīng)驗(yàn)里境肾,它們的不同超過(guò)0.1%(如圖2)。這篇文章中描述的CNN實(shí)現(xiàn)了top-5錯(cuò)誤率18.2%胆屿。五個(gè)相似的CNN錯(cuò)誤率預(yù)測(cè)的平均值是16.4%奥喻。訓(xùn)練一個(gè)在最后一層pooling層額外增加第六層卷積層的CNN,來(lái)分類整個(gè)Imagenet 2011的數(shù)據(jù)集非迹,并且微調(diào)它在ILSVRC-2012上环鲤,得到一個(gè)16.6%的錯(cuò)誤率。平均兩個(gè)CNN的預(yù)測(cè)憎兽,得到一個(gè)15.3%的錯(cuò)誤率冷离。第二名達(dá)到了26.2%的錯(cuò)誤率,平均了不同密集采樣特點(diǎn)計(jì)算出的Fisher向量訓(xùn)練的七個(gè)分類器的預(yù)測(cè)纯命。
[圖片上傳中...(image-efcb81-1511097214573-1)]
最后西剥,我們也記錄我們?cè)贗mageNet 2009上的錯(cuò)誤率,包括10184種類別和8900萬(wàn)張圖片亿汞。在這個(gè)數(shù)據(jù)集上我們遵循一半圖片訓(xùn)練一半圖片測(cè)試的這個(gè)慣例瞭空。因?yàn)檫@個(gè)沒(méi)有建立好的測(cè)試集,我們必要的分割和之前作者的分割是不同的留夜,但是對(duì)結(jié)果沒(méi)有明顯的影響匙铡。在這個(gè)數(shù)據(jù)集上使用在pooling層添加第六層卷積層的網(wǎng)絡(luò),我們獲得的top-1和top-5錯(cuò)誤率為67.4%和40.9%碍粥。這個(gè)數(shù)據(jù)集上之前最好的結(jié)果是78.1%和60.9%鳖眼。
6.1 Qualitative Evaluations
圖3 顯示了通過(guò)網(wǎng)絡(luò)的兩個(gè)數(shù)據(jù)連接層學(xué)習(xí)到的卷積核。網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)了各種頻率和方向選擇性的核和各種顏色模塊嚼摩。注意兩片GPU的特別展示钦讳,3.5節(jié)描述的限制連接的結(jié)果。第1片GPU上的卷積核大部分是色彩不可知的枕面,第2片上的大部分是特定顏色的愿卒。這種特別的情況發(fā)生在程序的每一次運(yùn)行并且獨(dú)立于任意特定的隨機(jī)權(quán)重初始化。
[圖片上傳中...(image-2189cf-1511097214573-0)]
在圖4的左半部分潮秘,我們定性地評(píng)估網(wǎng)絡(luò)通過(guò)計(jì)算8?jìng)€(gè)測(cè)試圖片top-5預(yù)測(cè)的學(xué)習(xí)琼开。注意到偏離中心的物體,例如左上角的螨枕荞,能被網(wǎng)絡(luò)識(shí)別出來(lái)柜候。標(biāo)簽的top-5大都看起來(lái)很合理搞动。例如,僅僅其他貓的類型被認(rèn)為是豹貌似是合理的渣刷。在一些例子中(護(hù)柵鹦肿,櫻桃),關(guān)于照片的預(yù)期焦點(diǎn)存在真正的歧義辅柴。
另一個(gè)探查網(wǎng)絡(luò)視覺(jué)知識(shí)的方法是考慮圖片在最后一個(gè)4096維隱含層的特征激活箩溃。如果兩張圖片產(chǎn)生的特征激活向量有一個(gè)小的歐氏距離,我們就可以說(shuō)神經(jīng)網(wǎng)絡(luò)的高層特征認(rèn)為它們是相似的碌嘀。圖4顯示了依據(jù)這個(gè)原理來(lái)判定測(cè)試集的5張和訓(xùn)練集的6張最相似的圖片涣旨。注意到在像素層級(jí),恢復(fù)的訓(xùn)練圖片通常不是很接近第一列的圖片筏餐。例如开泽,恢復(fù)的狗和大象在很多姿勢(shì)上都是相似的牡拇。在補(bǔ)充材料中我們展示了更多的測(cè)試圖片魁瞪。
通過(guò)歐式距離來(lái)計(jì)算兩個(gè)4096維之間的相似度,真實(shí)值向量是低效的惠呼,但是通過(guò)訓(xùn)練一個(gè)自動(dòng)編碼來(lái)把這些向量壓縮到短的二進(jìn)制碼可能是有效的导俘。這可能產(chǎn)生一個(gè)更好的圖像恢復(fù)方法比直接應(yīng)用自動(dòng)編碼器到原始像素上,它沒(méi)有使用圖像標(biāo)簽剔蹋,因此有一個(gè)恢復(fù)圖像邊緣相似模式的趨勢(shì)旅薄,無(wú)論它們?cè)谡Z(yǔ)義上是不是相似的。
7 Discussion
我們的結(jié)果展現(xiàn)了一個(gè)大型的泣崩,深度卷積神經(jīng)網(wǎng)絡(luò)是可以在一個(gè)高水平的挑戰(zhàn)賽數(shù)據(jù)集上使用純的監(jiān)督學(xué)習(xí)來(lái)打破記錄的少梁。值得注意的是,如果有一個(gè)卷積層被去掉了矫付,我們的網(wǎng)路效率就會(huì)降低凯沪。例如,去掉任何一個(gè)中間層會(huì)導(dǎo)致網(wǎng)絡(luò)在top-1的結(jié)果損失2%买优。所以妨马,深度對(duì)于實(shí)現(xiàn)我們的結(jié)果是非常重要的。
為了簡(jiǎn)化我們的實(shí)驗(yàn)杀赢,我們沒(méi)有使用任何無(wú)監(jiān)督的預(yù)訓(xùn)練即使我們希望那將會(huì)幫助我們烘跺,尤其是如果我們獲得足夠的計(jì)算能力來(lái)顯著地增加網(wǎng)絡(luò)的規(guī)模而不用相應(yīng)地增加標(biāo)簽數(shù)據(jù)。因此脂崔,我們的結(jié)果已經(jīng)提高了因?yàn)槲覀円呀?jīng)使我們的網(wǎng)絡(luò)更大并且訓(xùn)練它更久滤淳,但是為了符合人類視覺(jué)系統(tǒng)的行為方式我們依然有許多數(shù)量級(jí)去探索。最終砌左,我們會(huì)在視頻序列上使用非常大型的深度卷積網(wǎng)絡(luò)脖咐,視頻序列的時(shí)序結(jié)構(gòu)會(huì)提供非常有用的信息伤柄,靜態(tài)圖像中的缺失或不太明顯。
References
[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter 9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.image-
net.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cire ?san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification.Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cire ?san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale HierarchicalImage Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL
http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: Anincremental bayesian approach tested on 101 object categories. Computer Vision and Image Understand-ing, 106(1):59–70, 2007.
[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, Cali-fornia Institute of Technology, 2007. URLhttp://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural net-works by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. InESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Hand-written digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsuper-vised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classifi-cation: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on ComputerVision, Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computa-tional biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579, 2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large-scale image classification. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE,2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.
[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman, W. Denk, and H.S. Seung. Con-volutional networks can learn to generate affinity graphs for image segmentation. Neural Computation,22(2):511–538, 2010.