英文原文請點(diǎn)這里
摘要 我們提出了一種新型的深度網(wǎng)絡(luò)結(jié)構(gòu)蛋欣,稱為“Network In Network”(NIN)秕噪,它可以增強(qiáng)模型在感受野(receptive field)內(nèi)對局部區(qū)域(local patches)的辨別能力。傳統(tǒng)的卷積層使用線性濾波器來掃描輸入漾根,后面接一個(gè)非線性激活函數(shù)泰涂。而我們則構(gòu)建了一些結(jié)構(gòu)稍復(fù)雜的微型神經(jīng)網(wǎng)絡(luò)來抽象receptive field內(nèi)的數(shù)據(jù)。 我們用多層感知器實(shí)例化微型神經(jīng)網(wǎng)絡(luò)辐怕,這是一種有效的函數(shù)逼近器逼蒙。特征圖可以通過微型神經(jīng)網(wǎng)絡(luò)在輸入上滑動(dòng)得到袜茧,類似于CNN占卧;接下來特征圖被傳入下一層。深度NIN可以通過堆疊上述結(jié)構(gòu)實(shí)現(xiàn)礁击。通過微型網(wǎng)絡(luò)增強(qiáng)局部模型陕截,我們就可以在分類層中利用所有特征圖的全局平均池化層(GAP)驳棱,這樣更容易解釋且比傳統(tǒng)的全連接層更不容易過擬合。我們證明了NIN在CIFAR-10和CIFAR-100上得到了有史以來最佳的表現(xiàn)以及在SVHN和MNIST數(shù)據(jù)集上合理的表現(xiàn)艘策。
1 Introduction
卷積神經(jīng)網(wǎng)絡(luò)(CNN)由卷積層和池化層交替組成蹈胡。卷積層使用線性濾波器和底層receptive field做內(nèi)積,然后接一個(gè)非線性的激活函數(shù),得到的輸出稱作特征圖(feature map)罚渐。
CNN的卷積濾波器是底層數(shù)據(jù)塊的廣義線性模型(generalized linear model )(GLM)却汉,而且我們認(rèn)為它的抽象程度較低。這里的抽象較低是指該特征對同一概念的變體是不變的荷并。用更有效的非線性函數(shù)逼近器代替GLM可以增強(qiáng)局部模型的抽象能力合砂。當(dāng)樣本的隱含概念(latent concept)線性可分時(shí),GLM可以達(dá)到很好的抽象程度源织,例如:這些概念的變體都在GLM分割平面的同一邊翩伪,而傳統(tǒng)的CNN就默認(rèn)了這個(gè)假設(shè)——認(rèn)為隱含概念(latent concept)是線性可分的。然而谈息,同一概念的數(shù)據(jù)通常是非線性流形的(nonlinear manifold)缘屹,捕捉這些概念的表達(dá)通常都是輸入的高維非線性函數(shù)。在NIN中侠仇,GLM用“微型網(wǎng)絡(luò)”結(jié)構(gòu)替代轻姿,該結(jié)構(gòu)是一個(gè)非線性函數(shù)逼近器。在本項(xiàng)研究中逻炊,我們選擇多層感知器實(shí)例化微型網(wǎng)絡(luò)互亮,該感知器是一個(gè)通用函數(shù)逼近器,也是一個(gè)通過反向傳播訓(xùn)練的神經(jīng)網(wǎng)絡(luò)余素。
最終結(jié)構(gòu)我們稱為“mlpconv”層豹休,與CNN的比較見圖1.
線性卷積層和mlpconv層都從局部感受野(receptive field)映射到了輸出特征向量。mlpconv 層將局部塊的輸入通過一個(gè)由全連接層和非線性激活函數(shù)組成的多層感知器(MLP)映射到了輸出的特征向量屏积。MLP在所有局部感受野中共享医窿。特征圖通過用像CNN一樣的方式在輸入上滑動(dòng)MLP得到,NIN的總體結(jié)構(gòu)是一系列mplconv層的堆疊炊林。被稱作“Network In Network”(NIN)姥卢,因?yàn)閮?nèi)部含有MLP。
我們沒有采用傳統(tǒng)CNN的全連接層進(jìn)行分類渣聚,而是直接通過全局平均池化層(GAP)輸出最后一個(gè)mlpconv層特征圖的空間平均值作為類別的置信度值独榴,然后將得到的向量輸入softmax層。在傳統(tǒng)的CNN中奕枝,很難解釋如何將來自分類層(objective cost layer)的分類信息傳遞回前一個(gè)卷積層棺榔,因?yàn)槿B接層像一個(gè)黑盒一樣。相比之下隘道,全局平均池化層(GAP)更有意義且容易解釋症歇,因?yàn)樗鼜?qiáng)化了特征圖與分類的對應(yīng)關(guān)系郎笆,這是通過使用微型網(wǎng)絡(luò)構(gòu)成的局部建模器實(shí)現(xiàn)的。此外忘晤,全連接層更容易過擬合且嚴(yán)重依賴于dropout正則化宛蚓,而GAP則本身就是一個(gè)結(jié)構(gòu)化的正則化器,能避免整體結(jié)構(gòu)的過擬合设塔。
2 Convolutional Neural Networks
經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)由卷積層和空間池化層交替堆疊產(chǎn)生凄吏。卷積層通過線性卷積濾波器接一個(gè)非線性激活函數(shù)(如rectifier,sigmoid闰蛔,tanh等等)生成特征圖痕钢。例如使用rectifier激活函數(shù),特征圖的計(jì)算如下:
這里的
(i, j)
是特征圖像素的索引序六,xij代表以位置(i, j)
為中心的輸入塊任连,k
用來索引特征圖的顏色通道。
當(dāng)隱含概念線性可分時(shí)例诀,這種線性卷積足以用于抽象课梳,但是要想得到更好的抽象,應(yīng)該是用輸入數(shù)據(jù)的高度非線性函數(shù)余佃。在傳統(tǒng)的CNN中,這可以通過利用一套完整的濾波器來彌補(bǔ)跨算,覆蓋所有隱含概念的變化爆土。也就是說,單獨(dú)的線性濾波器可以學(xué)習(xí)檢測同一概念的不同變化诸蚕。但是同一概念使用太多的濾波器會(huì)給下一層帶來額外的負(fù)擔(dān)步势,需要考慮來自前一層的所有變化的組合,來自更高層的濾波器會(huì)映射到原始輸入的更大區(qū)域背犯,它通過結(jié)合下層的較低級概念生成較高級的概念坏瘩,因此,我們認(rèn)為在每一個(gè)局部塊結(jié)合生成更高級概念之前就作出更好的抽象是更有益的漠魏。
在最近的maxout網(wǎng)絡(luò)中倔矾,特征圖的數(shù)目通過在affine feature maps上做最大池化來減少(affine feature maps是線性卷積未通過激活函數(shù)的直接結(jié)果)。線性函數(shù)的最大化使分段線性逼近器能逼近任何凸函數(shù)柱锹。與執(zhí)行線性可分的傳統(tǒng)卷積層相比哪自,maxout網(wǎng)絡(luò)更有效,因?yàn)樗芊蛛x在凸集內(nèi)的概念禁熏。這種改進(jìn)使maxout網(wǎng)絡(luò)在幾個(gè)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色壤巷。
但是maxout網(wǎng)絡(luò)加了一個(gè)前提:隱含概念位于輸入空間的凸集內(nèi),而這是不一定的瞧毙。因此應(yīng)該使用一個(gè)更通用的函數(shù)逼近器胧华,在隱含概念處于更復(fù)雜的分布時(shí)也依然能用寄症。我們通過使用新的“Network In Network”結(jié)構(gòu)在實(shí)現(xiàn)這個(gè)需求,在每個(gè)卷積層內(nèi)引入一個(gè)微型網(wǎng)絡(luò)矩动,來計(jì)計(jì)算和抽象每個(gè)局部塊的特征有巧。
在輸入上滑動(dòng)微型網(wǎng)絡(luò)已經(jīng)在之前的研究中提出過。比如铅忿,Sturctured Multilayer Perceptron(SMLP)在輸入圖片的不同塊中使用了共享的多層感知器剪决;在另一項(xiàng)研究中,基于神經(jīng)網(wǎng)絡(luò)的濾波器被訓(xùn)練以用于面部檢測檀训。但是柑潦,他們都是針對某個(gè)特定問題設(shè)計(jì)的,且滑動(dòng)的網(wǎng)絡(luò)結(jié)構(gòu)都只有一層峻凫。NIN則從一個(gè)通用的角度上提出渗鬼,微型網(wǎng)絡(luò)被整合到CNN結(jié)構(gòu)中,以追求對各級特征的更好的抽象荧琼。
3 Network In Network
我們首先強(qiáng)調(diào)提出的“Network In Network”結(jié)構(gòu)的關(guān)鍵組成:3.1節(jié)和3.2節(jié)分別介紹了MLP卷積層和全局平均池化層譬胎。然后我們在3.3節(jié)詳細(xì)介紹NIN整體。
3.1 MLP卷積層
由于隱含概念的分布一開始并不知道命锄,所以用一個(gè)通用函數(shù)逼近器做局部塊的特征提取堰乔,因?yàn)樗鼙平[含概念的更多抽象表示。Radial basis network和多層感知器是兩個(gè)眾所周知的通用函數(shù)逼近器脐恩。我們使用多層感知器镐侯,有兩個(gè)原因,首先驶冒,多層感知器與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)一樣苟翻,都是通過反向傳播訓(xùn)練。其次多層感知器本身就是一個(gè)深度模型骗污,符合特征再利用的精神崇猫。這種多層感知器層在文本被稱作mlpconv,我們用它來替代GLM(general linear model)在輸入上做卷積需忿。圖1展示了線性卷積層和mplconv層的不同诅炉。mlpconv層的計(jì)算如下:
這里
n
是多層感知器中的層編號。rectified為多層感知器的激活函數(shù)屋厘。
從cross channel(cross feature map)池化的角度來看汞扎,公式2等效于級聯(lián)普通卷積層的cross channel parametric pooling。每個(gè)池化層在輸入特征圖上做加權(quán)線性重組擅这,然后通過rectifier函數(shù)澈魄。池化了的cross channel特征圖又在下一層池化,如此一遍又一遍重復(fù)仲翎。級聯(lián)的cross channel parameteric pooling結(jié)構(gòu)允許復(fù)雜的和可學(xué)習(xí)的cross channel信息進(jìn)行交互痹扇。
cross channel parametric pooling層也等效于一個(gè)1x1卷積核的卷積層铛漓。這個(gè)解釋可以更直觀的理解NIN的結(jié)構(gòu)。
與maxout層的比較: maxout網(wǎng)絡(luò)中的maxout層在affine feature maps上做了最大池化鲫构,maxout層的特征圖計(jì)算如下:
maxout線性函數(shù)形成了一個(gè)分段線性函數(shù)浓恶,可以給任何凸函數(shù)建模。對于一個(gè)凸函數(shù)來說结笨,函數(shù)值在特定閾值下的樣本點(diǎn)形成一個(gè)凸集包晰,因此,通過擬合局部塊的凸函數(shù)炕吸,可以形成樣本點(diǎn)在凸集內(nèi)的概念的分割超平面(例如伐憾,l2 balls, convex cones)。mlpconv層和maxout層的不同之處在與見凸函數(shù)擬合器用通用函數(shù)擬合器替代赫模,使其能對更多的隱含概念分布建模树肃。
3.2 Global Average Pooling
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)的較低層執(zhí)行卷積。對于分類任務(wù)瀑罗,最后一個(gè)卷積層得到的特征圖被向量化然后送入全連接層胸嘴,接一個(gè)softmax邏輯回歸層。這種結(jié)構(gòu)將卷積結(jié)構(gòu)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分類器連接起來斩祭,見卷積層作為特征提取器劣像,得到的特征用傳統(tǒng)方式進(jìn)行分類。
但是摧玫,全連接層容易過擬合驾讲,從而阻礙了整個(gè)網(wǎng)絡(luò)的泛化能力。后來dropout被Hinton等人提出席赂,用于正則化,在訓(xùn)練過程中隨機(jī)地將全連接層的一半激活值置零时迫,改善了它的泛化能力并且很大程度地預(yù)防了過擬合颅停。
在本文中,我們提出了另一個(gè)策略掠拳,叫做全局平均池化層癞揉,用它來替代CNN中的全連接層。想法是在最后一個(gè)mlpconv層生成一個(gè)分類任務(wù)中相應(yīng)類別的特征圖溺欧。我們沒有在特征圖最頂端增加全連接層喊熟,而是求每個(gè)特征圖的平均值,得到的結(jié)果向量直接輸入softmax層姐刁。GAP相比全連接層的優(yōu)點(diǎn)在于通過增強(qiáng)特征圖與類比間的對應(yīng)關(guān)系使卷積結(jié)構(gòu)保留的更好芥牌,使特征圖分類是可信的得到很好的解釋;另一個(gè)優(yōu)點(diǎn)是GAP層中沒有參數(shù)設(shè)置聂使,因此避免了過擬合壁拉;此外谬俄,GAP匯聚了空間信息,所以對輸入的空間轉(zhuǎn)換更魯棒弃理。
我們可以看到GAP作為一個(gè)正則化器溃论,加強(qiáng)了特征圖與概念(類別)的可信度的聯(lián)系。這是通過mlpconv層實(shí)現(xiàn)的痘昌,因?yàn)樗麄儽菺LM更好逼近置信圖(conficence maps)钥勋。
3.3 Network In Network Structure
NIN的整體結(jié)構(gòu)是一系列mlpconve層的堆疊,最上層接一個(gè)GAP層和分類層辆苔。mlpconv層間的子層可以被相加算灸,像CNN和maxout網(wǎng)絡(luò)一樣。圖2展示了一個(gè)包含三個(gè)mlpconv層的NIN姑子。每個(gè)mlpconv層乎婿,包含一個(gè)三層的感知器,NIN和微型網(wǎng)絡(luò)的層數(shù)都是靈活的街佑,可以根據(jù)具體任務(wù)微調(diào)谢翎。
4 Experiment
4.1 Overview
我們在四個(gè)基準(zhǔn)數(shù)據(jù)集上評估了NIN:CIFAR-10森逮,CIFAR-100,SVHN和MNIST磁携。網(wǎng)絡(luò)在這些數(shù)據(jù)上都使用三層堆疊mplconv層結(jié)構(gòu)褒侧,mlpconv層后面都跟隨一個(gè)最大池化層,把原輸入樣本縮減一倍谊迄。作為正則化器闷供,除了最后一個(gè)mlpconv層外所有輸出都加一個(gè)dropout。除非特別說明统诺,否則實(shí)驗(yàn)部分的所有全連接層都用全局平均池化層替代歪脏。另一個(gè)正則化方法是和Krizhevsky等人一樣的權(quán)重衰減。圖2展示了本節(jié)所用的NIN網(wǎng)絡(luò)整體結(jié)構(gòu)粮呢,詳細(xì)的參數(shù)設(shè)置在補(bǔ)充材料中婿失。我們使用由AlexKrizhevsky開發(fā)的超快速cuda-convnet代碼來實(shí)現(xiàn)我們的網(wǎng)絡(luò)。數(shù)據(jù)預(yù)處理和訓(xùn)練集驗(yàn)證集的拆分同Goodfellow啄寡。
我們的訓(xùn)練過程同Krizhevsky等人一樣豪硅。也就是說,我們手動(dòng)初始化了權(quán)重以及學(xué)習(xí)率挺物,使用128小批次訓(xùn)練懒浮。訓(xùn)練層初始化權(quán)重和學(xué)習(xí)率開始,直到訓(xùn)練集上的準(zhǔn)確率停止改善识藤,然后損失率減少10倍嵌溢,再繼續(xù)訓(xùn)練眯牧,重復(fù)直到學(xué)習(xí)率衰減到1%。
4.2 CIFAR-10
CIFAR-10數(shù)據(jù)集由10類自然圖片組成赖草,有50000張訓(xùn)練圖片学少,10000張測試圖片,每張圖片是32x32的RGB圖片秧骑。對于這個(gè)數(shù)據(jù)集版确,我們使用與Goodfellow在maxout network中相同的global contrast normalization和ZCA白化。我們用訓(xùn)練集的最后10000張圖片做驗(yàn)證集乎折。
實(shí)驗(yàn)中每個(gè)mlpconv層的特征圖數(shù)與maxout網(wǎng)絡(luò)相同绒疗。有兩個(gè)超參數(shù)用驗(yàn)證集微調(diào),如局部感受野(local receptive field)的大小和權(quán)重衰減骂澄。超參數(shù)調(diào)整好后固定吓蘑,然后重新在訓(xùn)練集合驗(yàn)證集上訓(xùn)練,將最終模型用于測試集坟冲。我們在測試集上得到了10.41%的錯(cuò)誤率磨镶,比當(dāng)前最優(yōu)結(jié)果降低1%。表1展示了與先前方法的對比健提。
我們實(shí)驗(yàn)證明琳猫,mlpconv層間使用dropout可以通過增加模型泛化能力來提升模型表現(xiàn)。如圖3所示私痹,在mlpconv層間引用dropout層錯(cuò)誤率減少了20%多脐嫂。這一結(jié)果與Goodfellow等人的一致,所以本文的所有模型mlpconv層間都加了dropout紊遵。沒有dropout的模型在CIFAR-10數(shù)據(jù)集上錯(cuò)誤率是14.5%账千,已經(jīng)超過之前最好的使用正則化的模型(除了maxout)。由于沒有dropout的maxout不可靠暗膜,所以本文只與有dropout正則器的版本比較匀奏。
與先前一樣桦山,我們也在做了位移和水平翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)的CIFAR-10數(shù)據(jù)集上對我們的方法做了評估,在測試集上達(dá)到了8.81%的錯(cuò)誤率醋旦,創(chuàng)了新紀(jì)錄恒水。
4.3 CIFAR-100
CIFAR-100和CIFAR-10數(shù)據(jù)規(guī)模一樣,只是分為100類饲齐。因此每一類圖的數(shù)目是CIFAR-10的1/10钉凌。對于CIFAR-100,我們不調(diào)整超參數(shù)捂人,而是使用和CIFAR-10一樣的設(shè)置御雕。位移的不同是最后一個(gè)mlpconv層輸出100個(gè)特征圖矢沿。CIFAR-100在測試集上的錯(cuò)誤率為35.68%,超了當(dāng)前不做數(shù)據(jù)增強(qiáng)最好的表現(xiàn)1%多酸纲。詳細(xì)的表現(xiàn)比較見表2捣鲸。
4.4 Street View House Numbers
SVHN數(shù)據(jù)集由630,420 32x32的彩圖組成,分為訓(xùn)練集闽坡、測試集和額外集和栽惶。這個(gè)數(shù)據(jù)集的任務(wù)是識別出每張圖中間的數(shù)字。訓(xùn)練和測試過程同Goodfellow疾嗅,也就是說外厂,每一類從訓(xùn)練集中選擇400張圖,從額外集中選200張圖作為驗(yàn)證集代承。剩余的訓(xùn)練集和額外集用于訓(xùn)練汁蝶。驗(yàn)證集只用于調(diào)整超參數(shù),不用于訓(xùn)練论悴。
數(shù)據(jù)集的預(yù)處理也同Goodfellow掖棉,即local contrast normalization。用于SVHN的結(jié)構(gòu)和參數(shù)設(shè)置同CIFAR-10一樣意荤,由三個(gè)mlpconv層加GAP組成啊片。我們在這個(gè)數(shù)據(jù)集上得到2.35%的錯(cuò)誤率。我們將結(jié)果與其他沒有做數(shù)據(jù)增強(qiáng)的方法結(jié)果進(jìn)行比較玖像,如表3所示紫谷。
4.5 MNIST
MNIST數(shù)據(jù)集由28x28的0-9手寫數(shù)字組成。有60000張訓(xùn)練集圖片和10000張測試集圖片捐寥。對于這個(gè)數(shù)據(jù)集笤昨,網(wǎng)絡(luò)結(jié)構(gòu)同CIFAR-10一樣,只是每個(gè)mlpconv層的特征圖數(shù)減少了握恳,因?yàn)镸NIST比CIFAR-10簡單瞒窒。與先前使用卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果對比如表4.
我們得到了0.47%的表現(xiàn),但是沒有當(dāng)前最好的0.45%好乡洼,因?yàn)镸NIST的錯(cuò)誤率已經(jīng)非常低了崇裁。
4.6 Global Average Pooling as a Regularizer
GAP層和全連接層很相似,都對特征向量做了線性轉(zhuǎn)換束昵。不同的是轉(zhuǎn)換矩陣拔稳。GAP的轉(zhuǎn)換矩陣是事先定義的并且僅在共享相同值的塊對角線元素上是非零的。全連接層可以有復(fù)雜矩陣變換且值是通過反向傳播設(shè)置的锹雏。為了研究GAP的正則化影響巴比,我們用GAP替換全連接層,模型其他部分相同。我們評估了全連接層前面有dropout和沒有dropout的模型轻绞,都在CIFAR-10上測試采记,表現(xiàn)比較如表5.
如表5所示,全連接層沒有dropout的表現(xiàn)最差政勃,11.59%唧龄,與預(yù)期一樣,全連接層沒有正則化器會(huì)過擬合稼病。全連接層前增加了dropout后測試集錯(cuò)誤率為10.88%选侨。GAP在三者比較中得到了最低錯(cuò)誤率10.41%。
然后我們探索了GAP對傳統(tǒng)CNN來說是否也有同樣的正則化影響然走。我們實(shí)例化了一個(gè)像Hiton等人描述的傳統(tǒng)CNN援制,由三個(gè)卷積層和一個(gè)局部連接層(local connection layer)組成。局部連接層生成16個(gè)特征圖芍瑞,傳給沒有dropout的全連接層晨仑。為了比較的公正性,我們把局部連接層的特征圖數(shù)從16減到了10拆檬,因?yàn)镚AP的每個(gè)類別只允許一個(gè)特征圖洪己。GAP的等價(jià)網(wǎng)絡(luò)由dropout+帶有GAP的全連接層替代,表現(xiàn)在CIFAR-10上測試竟贯。
全連接層的CNN模型只能得到17.56%的錯(cuò)誤率答捕,添加dropout后與Hinton等人提到的表現(xiàn)相近——15.99%。用GAP替換全連接層屑那,我們達(dá)到16.46%的錯(cuò)誤率拱镐,與沒有dropout的CNN相比提升了1%。這又一次驗(yàn)證了GAP層作為正則化器的有效性持际。盡管比dropout稍差一些沃琅,但是我們認(rèn)為GAP可能對線性卷積要求過高,因?yàn)樗枰獛в衦ectified激活函數(shù)的線性濾波器來為類別的置信圖建模蜘欲。
4.7 Visualization of NIN
我們通過GAP來增強(qiáng)NIN最后一個(gè)mlpconv層的特征圖益眉,使其作為分類是可信的,這可能會(huì)加強(qiáng)局部感受野的建模姥份。為了知道這個(gè)目標(biāo)實(shí)現(xiàn)了多少郭脂,我們提取和可視化了在CIFAR-10上訓(xùn)練的模型的來自最后一個(gè)mlpconv層的特征圖。
圖4展示了CIFAR-10上測試集上選擇的10類的一些示例圖和相關(guān)特征圖澈歉。如預(yù)期展鸡,特征圖的最大激活區(qū)域和輸入的相關(guān)真實(shí)分類吻合,這明顯是GAP加強(qiáng)過的闷祥。在真實(shí)分類的特征圖內(nèi)娱颊,可以看到最大的激活區(qū)域出現(xiàn)在與原物體相同的區(qū)域,在結(jié)構(gòu)化物體中尤其如此凯砍,例如圖4第二行的車箱硕。注意這些特征圖的分類只用類別信息進(jìn)行訓(xùn)練,如果使用有邊界框標(biāo)注的圖片效果會(huì)更好悟衩。
可視化證明了NIN的有效性,通過用mlpconv層建模得到一個(gè)更強(qiáng)的局部感受野挑势,使其有效镇防,然后GAP增強(qiáng)了特征圖類別的學(xué)習(xí)。下一步研究可以用于物體偵測潮饱,偵測結(jié)果可以基于與Farabet等人的場景標(biāo)記工作相同的類別級特征圖來實(shí)現(xiàn)来氧。
5 Conclusions
我們提出了一個(gè)新的深度網(wǎng)絡(luò),叫做“Network In Network”(NIN)香拉,用于分類任務(wù)啦扬。這個(gè)新結(jié)構(gòu)有mlpconv層組成,使用多層感知器對輸入進(jìn)行卷積凫碌,用GAP代替?zhèn)鹘y(tǒng)CNN中的全連接層扑毡。mlpconv層對局部塊建模更好,GAP充當(dāng)結(jié)構(gòu)化正則化器盛险,防止了過擬合瞄摊。用NIN的這兩個(gè)組件,我們得到了當(dāng)前在CIFAR-10枉层,CIFAR-100和SVHN數(shù)據(jù)集上最好的表現(xiàn)泉褐。通過可視化特征圖,我們證明了來自NIN的最后一個(gè)mlpconv層的特征圖得到的分類是可信的鸟蜡,并且使通過NIN做物體偵測變成了可能膜赃。