Deep Learning

文章作者：Tyan
博客：noahsnail.com | CSDN | 簡書

聲明：作者翻譯論文僅為學習茸习，如有侵權請聯(lián)系作者刪除博文巧勤，謝謝！

翻譯論文匯總：https://github.com/SnailTyan/deep-learning-papers-translation

ImageNet Classification with Deep Convolutional Neural Networks

摘要

我們訓練了一個大型深度卷積神經(jīng)網(wǎng)絡來將ImageNet LSVRC-2010競賽的120萬高分辨率的圖像分到1000不同的類別中器贩。在測試數(shù)據(jù)上夺克，我們得到了top-1 37.5%, top-5 17.0%的錯誤率弟晚，這個結果比目前的最好結果好很多忘衍。這個神經(jīng)網(wǎng)絡有6000萬參數(shù)和650000個神經(jīng)元，包含5個卷積層（某些卷積層后面帶有池化層）和3個全連接層卿城，最后是一個1000維的softmax枚钓。為了訓練的更快，我們使用了非飽和神經(jīng)元并對卷積操作進行了非常有效的GPU實現(xiàn)藻雪。為了減少全連接層的過擬合秘噪，我們采用了一個最近開發(fā)的名為dropout的正則化方法，結果證明是非常有效的勉耀。我們也使用這個模型的一個變種參加了ILSVRC-2012競賽指煎，贏得了冠軍并且與第二名 top-5 26.2%的錯誤率相比，我們取得了top-5 15.3%的錯誤率便斥。

1 引言

當前的目標識別方法基本上都使用了機器學習方法至壤。為了提高目標識別的性能，我們可以收集更大的數(shù)據(jù)集枢纠，學習更強大的模型像街，使用更好的技術來防止過擬合。直到最近晋渺，標注圖像的數(shù)據(jù)集都相對較小--在幾萬張圖像的數(shù)量級上（例如镰绎，NORB[16]，Caltech-101/256 [8, 9]和CIFAR-10/100 [12]）木西。簡單的識別任務在這樣大小的數(shù)據(jù)集上可以被解決的相當好畴栖，尤其是如果通過標簽保留變換進行數(shù)據(jù)增強的情況下。例如八千，目前在MNIST數(shù)字識別任務上（<0.3%）的最好準確率已經(jīng)接近了人類水平[4]吗讶。但真實環(huán)境中的對象表現(xiàn)出了相當大的可變性，因此為了學習識別它們恋捆，有必要使用更大的訓練數(shù)據(jù)集照皆。實際上，小圖像數(shù)據(jù)集的缺點已經(jīng)被廣泛認識到（例如沸停，Pinto et al. [21]）膜毁，但收集上百萬圖像的標注數(shù)據(jù)僅在最近才變得的可能。新的更大的數(shù)據(jù)集包括LabelMe [23]，它包含了數(shù)十萬張完全分割的圖像爽茴，ImageNet [6]葬凳，它包含了22000個類別上的超過1500萬張標注的高分辨率的圖像。

為了從數(shù)百萬張圖像中學習幾千個對象室奏，我們需要一個有很強學習能力的模型。然而對象識別任務的巨大復雜性意味著這個問題不能被指定劲装，即使通過像ImageNet這樣的大數(shù)據(jù)集胧沫，因此我們的模型應該也有許多先驗知識來補償我們所沒有的數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(CNNs)構成了一個這樣的模型[16, 11, 13, 18, 15, 22, 26]占业。它們的能力可以通過改變它們的廣度和深度來控制绒怨，它們也可以對圖像的本質進行強大且通常正確的假設（也就是說，統(tǒng)計的穩(wěn)定性和像素依賴的局部性）谦疾。因此南蹂，與具有層次大小相似的標準前饋神經(jīng)網(wǎng)絡，CNNs有更少的連接和參數(shù)念恍，因此它們更容易訓練六剥，而它們理論上的最佳性能可能僅比標準前饋神經(jīng)網(wǎng)絡差一點。

盡管CNN具有引人注目的質量峰伙，盡管它們的局部架構相當有效疗疟，但將它們大規(guī)模的應用到到高分辨率圖像中仍然是極其昂貴的。幸運的是瞳氓，目前的GPU策彤，搭配了高度優(yōu)化的2D卷積實現(xiàn)，強大到足夠促進有趣地大量CNN的訓練匣摘，最近的數(shù)據(jù)集例如ImageNet包含足夠的標注樣本來訓練這樣的模型而沒有嚴重的過擬合店诗。

本文具體的貢獻如下：我們在ILSVRC-2010和ILSVRC-2012[2]的ImageNet子集上訓練了到目前為止最大的神經(jīng)網(wǎng)絡之一，并取得了迄今為止在這些數(shù)據(jù)集上報道過的最好結果音榜。我們編寫了高度優(yōu)化的2D卷積GPU實現(xiàn)以及訓練卷積神經(jīng)網(wǎng)絡內部的所有其它操作庞瘸，我們把它公開了。我們的網(wǎng)絡包含許多新的不尋常的特性囊咏，這些特性提高了神經(jīng)網(wǎng)絡的性能并減少了訓練時間恕洲，詳見第三節(jié)。即使使用了120萬標注的訓練樣本梅割，我們的網(wǎng)絡尺寸仍然使過擬合成為一個明顯的問題霜第，因此我們使用了一些有效的技術來防止過擬合，詳見第四節(jié)户辞。我們最終的網(wǎng)絡包含5個卷積層和3個全連接層泌类，深度似乎是非常重要的：我們發(fā)現(xiàn)移除任何卷積層（每個卷積層包含的參數(shù)不超過模型參數(shù)的1%）都會導致更差的性能。

最后，網(wǎng)絡尺寸主要受限于目前GPU的內存容量和我們能忍受的訓練時間刃榨。我們的網(wǎng)絡在兩個GTX 580 3GB GPU上訓練五六天弹砚。我們的所有實驗表明我們的結果可以簡單地通過等待更快的GPU和更大的可用數(shù)據(jù)集來提高。

2 數(shù)據(jù)集

ImageNet數(shù)據(jù)集有超過1500萬的標注高分辨率圖像枢希，這些圖像屬于大約22000個類別桌吃。這些圖像是從網(wǎng)上收集的，使用了Amazon’s Mechanical Turk的眾包工具通過人工標注的苞轿。從2010年起茅诱，作為Pascal視覺對象挑戰(zhàn)賽的一部分，每年都會舉辦ImageNet大規(guī)模視覺識別挑戰(zhàn)賽（ILSVRC）搬卒。ILSVRC使用ImageNet的一個子集瑟俭，1000個類別每個類別大約1000張圖像∑跹總計摆寄，大約120萬訓練圖像，50000張驗證圖像和15萬測試圖像坯门。

ILSVRC-2010是ILSVRC競賽中唯一可以獲得測試集標簽的版本微饥，因此我們大多數(shù)實驗都是在這個版本上運行的。由于我們也使用我們的模型參加了ILSVRC-2012競賽田盈，因此在第六節(jié)我們也報告了模型在這個版本的數(shù)據(jù)集上的結果畜号，這個版本的測試標簽是不可獲得的。在ImageNet上允瞧，按照慣例報告兩個錯誤率：top-1和top-5简软，top-5錯誤率是指測試圖像的正確標簽不在模型認為的五個最可能的便簽之中。

ImageNet包含各種分辨率的圖像述暂，而我們的系統(tǒng)要求不變的輸入維度痹升。因此，我們將圖像進行下采樣到固定的256×256分辨率畦韭。給定一個矩形圖像疼蛾，我們首先縮放圖像短邊長度為256，然后從結果圖像中裁剪中心的256×256大小的圖像塊艺配。除了在訓練集上對像素減去平均活躍度外察郁，我們不對圖像做任何其它的預處理。因此我們在原始的RGB像素值（中心的）上訓練我們的網(wǎng)絡转唉。

3 架構

我們的網(wǎng)絡架構概括為圖2皮钠。它包含八個學習層--5個卷積層和3個全連接層。下面赠法，我們將描述我們網(wǎng)絡結構中的一些新奇的不尋常的特性麦轰。3.1-3.4小節(jié)按照我們對它們評估的重要性進行排序，最重要的最有先。

3.1 ReLU非線性

將神經(jīng)元輸出f建模為輸入x的函數(shù)的標準方式是用f(x) = tanh(x)或f(x) = (1 + e?x)?1款侵∧┘觯考慮到梯度下降的訓練時間，這些飽和的非線性比非飽和非線性f(x) = max(0,x)更慢新锈。根據(jù)Nair和Hinton[20]的說法甲脏，我們將這種非線性神經(jīng)元稱為修正線性單元(ReLU)。采用ReLU的深度卷積神經(jīng)網(wǎng)絡訓練時間比等價的tanh單元要快幾倍壕鹉。在圖1中剃幌，對于一個特定的四層卷積網(wǎng)絡，在CIFAR-10數(shù)據(jù)集上達到25%的訓練誤差所需要的迭代次數(shù)可以證實這一點晾浴。這幅圖表明，如果我們采用傳統(tǒng)的飽和神經(jīng)元模型牍白，我們將不能在如此大的神經(jīng)網(wǎng)絡上實驗該工作脊凰。

Figure 1

圖1：使用ReLU的四層卷積神經(jīng)網(wǎng)絡在CIFAR-10數(shù)據(jù)集上達到25%的訓練誤差比使用tanh神經(jīng)元的等價網(wǎng)絡（虛線）快六倍。為了使訓練盡可能快茂腥，每個網(wǎng)絡的學習率是單獨選擇的狸涌。沒有采用任何類型的正則化。影響的大小隨著網(wǎng)絡結構的變化而變化最岗，這一點已得到證實帕胆，但使用ReLU的網(wǎng)絡都比等價的飽和神經(jīng)元快幾倍。

我們不是第一個考慮替代CNN中傳統(tǒng)神經(jīng)元模型的人般渡。例如懒豹，Jarrett等人[11]聲稱非線性函數(shù)f(x) = |tanh(x)|與其對比度歸一化一起，然后是局部均值池化驯用，在Caltech-101數(shù)據(jù)集上工作的非常好脸秽。然而，在這個數(shù)據(jù)集上主要的關注點是防止過擬合蝴乔，因此他們觀測到的影響不同于我們使用ReLU擬合數(shù)據(jù)集時的加速能力记餐。更快的學習對大型數(shù)據(jù)集上大型模型的性能有很大的影響。

3.2 多GPU訓練

單個GTX580 GPU只有3G內存薇正，這限制了可以在GTX580上進行訓練的網(wǎng)絡最大尺寸片酝。事實證明120萬圖像用來進行網(wǎng)絡訓練是足夠的，但網(wǎng)絡太大因此不能在單個GPU上進行訓練挖腰。因此我們將網(wǎng)絡分布在兩個GPU上雕沿。目前的GPU非常適合跨GPU并行，因為它們可以直接互相讀寫內存曙聂，而不需要通過主機內存晦炊。我們采用的并行方案基本上每個GPU放置一半的核（或神經(jīng)元），還有一個額外的技巧：只在某些特定的層上進行GPU通信。這意味著断国，例如贤姆，第3層的核會將第2層的所有核映射作為輸入。然而稳衬，第4層的核只將位于相同GPU上的第3層的核映射作為輸入霞捡。連接模式的選擇是一個交叉驗證問題，但這可以讓我們準確地調整通信數(shù)量薄疚，直到它的計算量在可接受的范圍內碧信。

除了我們的列不是獨立的之外（看圖2），最終的架構有點類似于Ciresan等人[5]采用的“columnar” CNN街夭。與每個卷積層一半的核在單GPU上訓練的網(wǎng)絡相比砰碴，這個方案降分別低了我們的top-1 1.7%，top-5 1.2%的錯誤率板丽。雙GPU網(wǎng)絡比單GPU網(wǎng)絡稍微減少了訓練時間呈枉。

Figure 2

圖 2：我們CNN架構圖解，明確描述了兩個GPU之間的責任埃碱。在圖的頂部猖辫，一個GPU運行在部分層上，而在圖的底部砚殿，另一個GPU運行在部分層上啃憎。GPU只在特定的層進行通信。網(wǎng)絡的輸入是150,528維似炎，網(wǎng)絡剩下層的神經(jīng)元數(shù)目分別是253,440–186,624–64,896–64,896–43,264–4096–4096–1000（8層）辛萍。

3.3 局部響應歸一化

ReLU具有讓人滿意的特性，它不需要通過輸入歸一化來防止飽和名党。如果至少一些訓練樣本對ReLU產生了正輸入叹阔，那么那個神經(jīng)元上將發(fā)生學習。然而传睹，我們仍然發(fā)現(xiàn)接下來的局部響應歸一化有助于泛化耳幢。 $a\_{x,y}^i$ 表示神經(jīng)元激活，通過在 $(x, y)$ 位置應用核 $i$ 欧啤，然后應用ReLU非線性來計算睛藻，響應歸一化激活 $b^i\_{x,y}$ 通過下式給定：

$b^i\_{x,y} = a\_{x,y}^i / ( k + \alpha \sum \_{j = max(0, i-n / 2)} ^{min(N-1, i+n / 2)} (a\_{x,y}^j)^2 )^\beta$

求和運算在n個“毗鄰的”核映射的同一位置上執(zhí)行，N是本層的卷積核數(shù)目邢隧。核映射的順序當然是任意的店印，在訓練開始前確定。響應歸一化的順序實現(xiàn)了一種側抑制形式倒慧，靈感來自于真實神經(jīng)元中發(fā)現(xiàn)的類型按摘，為使用不同核進行神經(jīng)元輸出計算的較大活動創(chuàng)造了競爭包券。常量k，n炫贤，α溅固，β是超參數(shù)，它們的值通過驗證集確定兰珍；我們設k=2侍郭，n=5，α=0.0001掠河，β=0.75亮元。我們在特定的層使用的ReLU非線性之后應用了這種歸一化（請看3.5小節(jié)）。

這個方案與Jarrett等人[11]的局部對比度歸一化方案有一定的相似性唠摹，但我們更恰當?shù)姆Q其為“亮度歸一化”爆捞，因此我們沒有減去均值。響應歸一化分別減少了top-1 1.4%勾拉，top-5 1.2%的錯誤率嵌削。我們也在CIFAR-10數(shù)據(jù)集上驗證了這個方案的有效性：一個乜嘢歸一化的四層CNN取得了13%的錯誤率，而使用歸一化取得了11%的錯誤率望艺。

3.4 重疊池化

CNN中的池化層歸納了同一核映射上相鄰組神經(jīng)元的輸出。習慣上肌访，相鄰池化單元歸納的區(qū)域是不重疊的（例如[17, 11, 4]）找默。更確切的說，池化層可看作由池化單元網(wǎng)格組成吼驶，網(wǎng)格間距為 $s$ 個像素惩激，每個網(wǎng)格歸納池化單元中心位置 $z × z$ 大小的鄰居。如果設置 $s = z$ 蟹演，我們會得到通常在CNN中采用的傳統(tǒng)局部池化风钻。如果設置 $s < z$ ，我們會得到重疊池化酒请。這就是我們網(wǎng)絡中使用的方法骡技，設置 $s = 2$ ， $z = 3$ 羞反。這個方案分別降低了top-1 0.4%布朦，top-5 0.3%的錯誤率，與非重疊方案 $s = 2昼窗，z = 2$ 相比是趴，輸出的維度是相等的。我們在訓練過程中通常觀察采用重疊池化的模型澄惊，發(fā)現(xiàn)它更難過擬合唆途。

3.5 整體架構

現(xiàn)在我們準備描述我們的CNN的整體架構富雅。如圖2所示，我們的網(wǎng)絡包含8個帶權重的層肛搬；前5層是卷積層没佑，剩下的3層是全連接層。最后一層全連接層的輸出是1000維softmax的輸入滚婉，softmax會產生1000類標簽的分布图筹。我們的網(wǎng)絡最大化多項邏輯回歸的目標，這等價于最大化預測分布下訓練樣本正確標簽的對數(shù)概率的均值让腹。

第2远剩，4，5卷積層的核只與位于同一GPU上的前一層的核映射相連接（看圖2）骇窍。第3卷積層的核與第2層的所有核映射相連瓜晤。全連接層的神經(jīng)元與前一層的所有神經(jīng)元相連。第1腹纳，2卷積層之后是響應歸一化層痢掠。3.4節(jié)描述的這種最大池化層在響應歸一化層和第5卷積層之后。ReLU非線性應用在每個卷積層和全連接層的輸出上嘲恍。

第1卷積層使用96個核對224 × 224 × 3的輸入圖像進行濾波足画，核大小為11 × 11 × 3，步長是4個像素（核映射中相鄰神經(jīng)元感受野中心之間的距離）佃牛。第2卷積層使用用第1卷積層的輸出（響應歸一化和池化）作為輸入淹辞，并使用256個核進行濾波，核大小為5 × 5 × 48俘侠。第3象缀，4，5卷積層互相連接爷速，中間沒有接入池化層或歸一化層央星。第3卷積層有384個核，核大小為3 × 3 × 256惫东，與第2卷積層的輸出（歸一化的莉给，池化的）相連。第4卷積層有384個核凿蒜，核大小為3 × 3 × 192禁谦，第5卷積層有256個核，核大小為3 × 3 × 192废封。每個全連接層有4096個神經(jīng)元州泊。

4 減少過擬合

我們的神經(jīng)網(wǎng)絡架構有6000萬參數(shù)。盡管ILSVRC的1000類使每個訓練樣本從圖像到標簽的映射上強加了10比特的約束漂洋，但這不足以學習這么多的參數(shù)而沒有相當大的過擬合遥皂。下面力喷，我們會描述我們用來克服過擬合的兩種主要方式。

4.1 數(shù)據(jù)增強

圖像數(shù)據(jù)上最簡單常用的用來減少過擬合的方法是使用標簽保留變換（例如[25, 4, 5]）來人工增大數(shù)據(jù)集演训。我們使用了兩種獨特的數(shù)據(jù)增強方式弟孟，這兩種方式都可以從原始圖像通過非常少的計算量產生變換的圖像，因此變換圖像不需要存儲在硬盤上样悟。在我們的實現(xiàn)中拂募，變換圖像通過CPU的Python代碼生成，而此時GPU正在訓練前一批圖像窟她。因此陈症，實際上這些數(shù)據(jù)增強方案是計算免費的。

第一種數(shù)據(jù)增強方式包括產生圖像變換和水平翻轉震糖。我們從256×256圖像上通過隨機提取224 × 224的圖像塊實現(xiàn)了這種方式录肯，然后在這些提取的圖像塊上進行訓練。這通過一個2048因子增大了我們的訓練集吊说，盡管最終的訓練樣本是高度相關的论咏。沒有這個方案，我們的網(wǎng)絡會有大量的過擬合颁井，這會迫使我們使用更小的網(wǎng)絡厅贪。在測試時，網(wǎng)絡會提取5個224 × 224的圖像塊（四個角上的圖像塊和中心的圖像塊）和它們的水平翻轉（因此總共10個圖像塊）進行預測雅宾，然后對網(wǎng)絡在10個圖像塊上的softmax層進行平均卦溢。

第二種數(shù)據(jù)增強方式包括改變訓練圖像的RGB通道的強度。具體地秀又，我們在整個ImageNet訓練集上對RGB像素值集合執(zhí)行PCA。對于每幅訓練圖像贬芥，我們加上多倍找到的主成分吐辙，大小成正比的對應特征值乘以一個隨機變量，隨機變量通過均值為0蘸劈，標準差為0.1的高斯分布得到昏苏。因此對于每幅RGB圖像像素 $I\_xy = [I^R\_{xy} , I^G\_{xy} , I^B\_{xy} ]^T$ ，我們加上下面的數(shù)量：

$[p\_1, p\_2, p\_3][\alpha\_1\lambda\_1, \alpha\_2\lambda\_2, \alpha\_3\lambda\_3]^T$

$p\_i$ 威沫， $\lambda\_i$ 分別是RGB像素值3 × 3協(xié)方差矩陣的第 $i$ 個特征向量和特征值贤惯， $\alpha\_i$ 是前面提到的隨機變量。對于某個訓練圖像的所有像素棒掠，每個 $\alpha\_i$ 只獲取一次孵构，直到圖像進行下一次訓練時才重新獲取。這個方案近似抓住了自然圖像的一個重要特性烟很，即光照的顏色和強度發(fā)生變化時颈墅，目標身份是不變的蜡镶。這個方案減少了top 1錯誤率1%以上

4.2 失活(Dropout)

將許多不同模型的預測結合起來是降低測試誤差[1, 3]的一個非常成功的方法勺爱，但對于需要花費幾天來訓練的大型神經(jīng)網(wǎng)絡來說葛作，這似乎太昂貴了。然而讥耗，有一個非常有效的模型結合版本毒坛，它只花費兩倍的訓練成本望伦。這種最近引入的技術，叫做“dropout”[10]煎殷，它會以0.5的概率對每個隱層神經(jīng)元的輸出設為0屯伞。那些“失活的”的神經(jīng)元不再進行前向傳播并且不參與反向傳播。因此每次輸入時蝌数，神經(jīng)網(wǎng)絡會采樣一個不同的架構愕掏，但所有架構共享權重。這個技術減少了復雜的神經(jīng)元互適應顶伞，因為一個神經(jīng)元不能依賴特定的其它神經(jīng)元的存在饵撑。因此，神經(jīng)元被強迫學習更魯棒的特征唆貌，它在與許多不同的其它神經(jīng)元的隨機子集結合時是有用的滑潘。在測試時，我們使用所有的神經(jīng)元但它們的輸出乘以0.5锨咙，對指數(shù)級的許多失活網(wǎng)絡的預測分布進行幾何平均语卤，這是一種合理的近似。

我們在圖2中的前兩個全連接層使用失活酪刀。如果沒有失活粹舵，我們的網(wǎng)絡表現(xiàn)出大量的過擬合。失活大致上使要求收斂的迭代次數(shù)翻了一倍骂倘。

5 學習細節(jié)

我們使用隨機梯度下降來訓練我們的模型眼滤，樣本的batch size為128，動量為0.9历涝，權重衰減為0.0005诅需。我們發(fā)現(xiàn)少量的權重衰減對于模型的學習是重要的。換句話說荧库，權重衰減不僅僅是一個正則項：它減少了模型的訓練誤差堰塌。權重 $w$ 的更新規(guī)則是

$v\_{i+1} := 0.9 \bullet v\_i - 0.0005 \bullet \varepsilon \bullet w\_i - \varepsilon \bullet \langle \frac{\partial L} {\partial w} |\_{w\_i}\rangle \_{D\_i}$

$i$ 是迭代索引， $v$ 是動量變量分衫， $\varepsilon$ 是學習率场刑， $\langle \frac{\partial L} {\partial w} |\_{w\_i}\rangle \_{D\_i}$ 是目標函數(shù)對 $w$ ，在 $w\_i$ 上的第 $i$ 批微分 $D\_i$ 的平均蚪战。

我們使用均值為0摇邦，標準差為0.01的高斯分布對每一層的權重進行初始化恤煞。我們在第2，4施籍，5卷積層和全連接隱層將神經(jīng)元偏置初始化為常量1居扒。這個初始化通過為ReLU提供正輸入加速了學習的早期階段。我們在剩下的層將神經(jīng)元偏置初始化為0丑慎。

我們對所有的層使用相等的學習率喜喂，這個是在整個訓練過程中我們手動調整得到的。當驗證誤差在當前的學習率下停止提供時竿裂，我們遵循啟發(fā)式的方法將學習率除以10玉吁。學習率初始化為0.01，在訓練停止之前降低三次腻异。我們在120萬圖像的訓練數(shù)據(jù)集上訓練神經(jīng)網(wǎng)絡大約90個循環(huán)进副，在兩個NVIDIA GTX 580 3GB GPU上花費了五到六天。

6 結果

我們在ILSVRC-2010上的結果概括為表1悔常。我們的神經(jīng)網(wǎng)絡取得了top-1 37.5%影斑，top-5 17.0%的錯誤率。在ILSVRC-2010競賽中最佳結果是top-1 47.1%机打，top-5 28.2%矫户，使用的方法是對6個在不同特征上訓練的稀疏編碼模型生成的預測進行平均，從那時起已公布的最好結果是top-1 45.7%残邀，top-5 25.7%皆辽，使用的方法是平均在Fisher向量（FV）上訓練的兩個分類器的預測結果，F(xiàn)isher向量是通過兩種密集采樣特征計算得到的[24]芥挣。

表1

表1：ILSVRC-2010測試集上的結果對比驱闷。斜體是其它人取得的最好結果。

我們也用我們的模型參加了ILSVRC-2012競賽并在表2中報告了我們的結果空免。由于ILSVRC-2012的測試集標簽不可以公開得到遗嗽，我們不能報告我們嘗試的所有模型的測試錯誤率。在這段的其余部分鼓蜒，我們會使用驗證誤差率和測試誤差率互換，因為在我們的實驗中它們的差別不會超過0.1%（看圖2）征字。本文中描述的CNN取得了top-5 18.2%的錯誤率都弹。五個類似的CNN預測的平均誤差率為16.4%。為了對ImageNet 2011秋季發(fā)布的整個數(shù)據(jù)集（1500萬圖像匙姜，22000個類別）進行分類畅厢，我們在最后的池化層之后有一個額外的第6卷積層，訓練了一個CNN氮昧，然后在它上面進行“fine-tuning”框杜，在ILSVRC-2012取得了16.6%的錯誤率浦楣。對在ImageNet 2011秋季發(fā)布的整個數(shù)據(jù)集上預訓練的兩個CNN和前面提到的五個CNN的預測進行平均得到了15.3%的錯誤率。第二名的最好競賽輸入取得了26.2%的錯誤率咪辱，他的方法是對FV上訓練的一些分類器的預測結果進行平均振劳，F(xiàn)V在不同類型密集采樣特征計算得到的。

表2

表2：ILSVRC-2012驗證集和測試集的誤差對比油狂。斜線部分是其它人取得的最好的結果历恐。帶星號的是“預訓練的”對ImageNet 2011秋季數(shù)據(jù)集進行分類的模型。更多細節(jié)請看第六節(jié)专筷。

最后弱贼，我們也報告了我們在ImageNet 2009秋季數(shù)據(jù)集上的誤差率，ImageNet 2009秋季數(shù)據(jù)集有10,184個類磷蛹，890萬圖像吮旅。在這個數(shù)據(jù)集上我們按照慣例用一半的圖像來訓練，一半的圖像來測試味咳。由于沒有建立測試集庇勃，我們的數(shù)據(jù)集分割有必要不同于以前作者的數(shù)據(jù)集分割，但這對結果沒有明顯的影響莺葫。我們在這個數(shù)據(jù)集上的的top-1和top-5錯誤率是67.4%和40.9%匪凉，使用的是上面描述的在最后的池化層之后有一個額外的第6卷積層網(wǎng)絡。這個數(shù)據(jù)集上公開可獲得的最好結果是78.1%和60.9%[19]捺檬。

6.1 定性評估

圖3顯示了網(wǎng)絡的兩個數(shù)據(jù)連接層學習到的卷積核再层。網(wǎng)絡學習到了大量的頻率核、方向選擇核堡纬，也學到了各種顏色點聂受。注意兩個GPU表現(xiàn)出的專業(yè)化，3.5小節(jié)中描述的受限連接的結果烤镐。GPU 1上的核主要是沒有顏色的蛋济，而GPU 2上的核主要是針對顏色的。這種專業(yè)化在每次運行時都會發(fā)生炮叶，并且是與任何特別的隨機權重初始化（以GPU的重新編號為模）無關的碗旅。

Figure 3

圖3：第一卷積層在224×224×3的輸入圖像上學習到的大小為11×11×3的96個卷積核。上面的48個核是在GPU 1上學習到的而下面的48個卷積核是在GPU 2上學習到的镜悉。更多細節(jié)請看6.1小節(jié)祟辟。

在圖4的左邊部分，我們通過在8張測試圖像上計算它的top-5預測定性地評估了網(wǎng)絡學習到的東西侣肄。注意即使是不在圖像中心的目標也能被網(wǎng)絡識別旧困，例如左上角的小蟲。大多數(shù)的top-5標簽似乎是合理的。例如吼具，對于美洲豹來說僚纷，只有其它類型的貓被認為是看似合理的標簽。在某些案例（格柵拗盒，櫻桃）中怖竭，網(wǎng)絡在意的圖片焦點真的很含糊。

Figure 4

圖4：（左）8張ILSVRC-2010測試圖像和我們的模型認為最可能的5個標簽锣咒。每張圖像的下面是它的正確標簽侵状，正確標簽的概率用紅條表示（如果正確標簽在top 5中）。（右）第一列是5張ILSVRC-2010測試圖像毅整。剩下的列展示了6張訓練圖像趣兄，這些圖像在最后的隱藏層的特征向量與測試圖像的特征向量有最小的歐氏距離。

探索網(wǎng)絡可視化知識的另一種方式是思考最后的4096維隱藏層在圖像上得到的特征激活悼嫉。如果兩幅圖像生成的特征激活向量之間有較小的歐式距離艇潭，我們可以認為神經(jīng)網(wǎng)絡的更高層特征認為它們是相似的。圖4表明根據(jù)這個度量標準戏蔑，測試集的5張圖像和訓練集的6張圖像中的每一張都是最相似的蹋凝。注意在像素級別，檢索到的訓練圖像與第一列的查詢圖像在L2上通常是不接近的总棵。例如鳍寂，檢索的狗和大象似乎有很多姿態(tài)。我們在補充材料中對更多的測試圖像呈現(xiàn)了這種結果情龄。

通過兩個4096維實值向量間的歐氏距離來計算相似性是效率低下的迄汛，但通過訓練一個自動編碼器將這些向量壓縮為短二值編碼可以使其變得高效。這應該會產生一種比將自動編碼器應用到原始像素上[14]更好的圖像檢索方法骤视，自動編碼器應用到原始像素上的方法沒有使用圖像標簽鞍爱，因此會趨向于檢索與要檢索的圖像具有相似邊緣模式的圖像，無論它們是否是語義上相似专酗。

7 探討

我們的結果表明一個大型深度卷積神經(jīng)網(wǎng)絡在一個具有高度挑戰(zhàn)性的數(shù)據(jù)集上使用純有監(jiān)督學習可以取得破紀錄的結果睹逃。值得注意的是，如果移除一個卷積層祷肯，我們的網(wǎng)絡性能會降低沉填。例如，移除任何中間層都會引起網(wǎng)絡損失大約2%的top-1性能佑笋。因此深度對于實現(xiàn)我們的結果非常重要翼闹。

為了簡化我們的實驗，我們沒有使用任何無監(jiān)督的預訓練允青，盡管我們希望它會有所幫助，特別是在如果我們能獲得足夠的計算能力來顯著增加網(wǎng)絡的大小而標注的數(shù)據(jù)量沒有對應增加的情況下。到目前為止颠锉，我們的結果已經(jīng)提高了法牲，因為我們的網(wǎng)絡更大、訓練時間更長琼掠，但為了匹配人類視覺系統(tǒng)的下顳線（視覺專業(yè)術語）我們仍然有許多數(shù)量級要達到拒垃。最后我們想在視頻序列上使用非常大的深度卷積網(wǎng)絡，視頻序列的時序結構會提供非常有幫助的信息瓷蛙，這些信息在靜態(tài)圖像上是缺失的或遠不那么明顯悼瓮。

References

[1] R.M.BellandY.Koren.Lessonsfromthenetflixprizechallenge.ACMSIGKDDExplorationsNewsletter, 9(2):75–79, 2007.

[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet.org/challenges. 2010.

[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.

[4] D. Cires ?an, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification. Arxiv preprint arXiv:1202.2745, 2012.

[5] D.C. Cires ?an, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.

[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.

[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL http://www.image-net.org/challenges/LSVRC/2012/.

[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding, 106(1):59–70, 2007.

[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.

[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.

[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.

[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.

[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.

[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.

[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.

[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.

[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.

[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.

[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.

[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.

[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.

[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579,2009.

[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.

[24] J.Sa?nchezandF.Perronnin.High-dimensionalsignaturecompressionforlarge-scaleimageclassification. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE,2011.

[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.

[26] S.C.Turaga,J.F.Murray,V.Jain,F.Roth,M.Helmstaedter,K.Briggman,W.Denk,andH.S.Seung.Convolutional networks can learn to generate affinity graphs for image segmentation. Neural Computation, 22(2):511–538, 2010.

AlexNet論文翻譯——中文版