文章原文:Understanding the effective receptive field in deep convolutional neural networks
作者: Wenjie Luo, Yujia Li,Raquel Urtasun,Richard Zemel
1. 介紹
感受野(receptive field或者field of view)是卷積神經(jīng)網(wǎng)絡(luò)中的一個(gè)基本概念宿稀。與全連接層中每個(gè)輸出值都與全部輸入特征值有關(guān)不同的是互广,卷積層的一個(gè)輸出值只與一部分的輸入特征值有關(guān)。輸入特征值中與輸出特征值有關(guān)的部分就是它的感受野。
對(duì)于處于中心位置的特征值暗膜,對(duì)于輸出的影響會(huì)更大,根據(jù)實(shí)驗(yàn)結(jié)果在一個(gè)接受野的影響分布是高斯分布箫措。由此也引入了一個(gè)有效感受野的概念塑陵,因?yàn)楦咚狗植荚谥行奈恢脧?qiáng)度更高,然后逐漸向周圍遞減谭贪。
2. 有效感受野的性質(zhì)
我們想用數(shù)學(xué)的方法來(lái)描述一個(gè)接收野中的每個(gè)輸入像素對(duì)網(wǎng)絡(luò)上一個(gè)單元層的輸出的影響程度境钟,并研究這種影響是如何在輸出單元的接收野內(nèi)分布的。為了簡(jiǎn)化符號(hào)俭识,我們只考慮每層上的一個(gè)信道慨削,但是對(duì)于具有更多輸入和輸出的卷積層,可以很容易地得到類似的結(jié)果通道套媚。
假設(shè)每層上的像素用(i缚态,j)索引,其中心位于(0,0)堤瘤。表示第層的第(i玫芦,j)個(gè)像素為,其中作為網(wǎng)絡(luò)的輸入本辐,作為第n層的輸出。我們要測(cè)量每個(gè)對(duì)貢獻(xiàn)了多少慎皱。我們將這個(gè)中央輸出單元的有效感受野(ERF)定義為包含任何輸入像素且對(duì)其影響不可忽略的區(qū)域單位老虫。
本文采用偏導(dǎo)數(shù),j來(lái)度量隨有多大的變化宝冕;因此张遭,它是相對(duì)于重要性的自然度量。然而地梨,這種度量不僅取決于網(wǎng)絡(luò)的權(quán)值,而且在大多數(shù)情況下也依賴于輸入缔恳,因此我們的大多數(shù)結(jié)果都是期望值大于輸入分布宝剖。
偏導(dǎo)數(shù)可以用反向傳播法計(jì)算。在標(biāo)準(zhǔn)設(shè)置中歉甚,反向傳播傳播相對(duì)于某個(gè)損耗函數(shù)的誤差梯度万细。假設(shè)我們有一個(gè)任意的損失函數(shù)l,根據(jù)鏈?zhǔn)揭?guī)則纸泄,我們有
我們可以設(shè)置誤差梯度和赖钞,然后將這個(gè)梯度從那里傳播回網(wǎng)絡(luò)。得到的聘裁,相當(dāng)于期望的\partial{y_{0,0}}}{\partial {x^0_{i,j}}雪营。這里我們使用無(wú)顯式損失函數(shù)的反向傳播過(guò)程,并且該過(guò)程可以用標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)輕松實(shí)現(xiàn)工具衡便。
在下面我們首先考慮線性網(wǎng)絡(luò)献起,其中這個(gè)導(dǎo)數(shù)不依賴于輸入洋访,而純粹是網(wǎng)絡(luò)權(quán)重和(i,j)谴餐,它清楚地顯示了感受野中像素的影響是如何分布的姻政。然后我們繼續(xù)考慮更現(xiàn)代的架構(gòu)設(shè)計(jì),并討論非線性激活岂嗓、dropout汁展、子采樣、空洞卷積和跳躍連接對(duì)ERF的影響厌殉。
2.1最簡(jiǎn)單的情況:權(quán)值都等于1的卷積層
考慮使用k×k卷積核的步長(zhǎng)為1的卷積層的情況食绿,每層一個(gè)單通道,無(wú)非線性年枕,疊加成一個(gè)深線性CNN炫欺。在這個(gè)分析中,我們忽略了所有層上的偏差熏兄。我們首先分析權(quán)值都等于1的卷積核品洛。(推理過(guò)程公式好多,看原文吧……)
3. 實(shí)驗(yàn)部分
在本節(jié)中摩桶,我們將實(shí)證研究各種深層CNN架構(gòu)的ERF桥状。我們首先使用人工構(gòu)造的CNN模型來(lái)驗(yàn)證我們分析中的理論結(jié)果。然后硝清,我們提出了在實(shí)際數(shù)據(jù)集上訓(xùn)練深層cnn時(shí)ERF如何變化的觀察結(jié)果辅斟。對(duì)于所有ERF研究,我們?cè)谳敵銎矫娴闹行姆胖靡粋€(gè)梯度信號(hào)1芦拿,在其他任何地方放置0士飒,然后通過(guò)網(wǎng)絡(luò)反向傳播該梯度,得到輸入的梯度蔗崎。
3.1驗(yàn)證理論結(jié)果
我們首先在人工構(gòu)建的CNN中驗(yàn)證我們的理論結(jié)果酵幕。為了計(jì)算ERF我們使用隨機(jī)輸入,對(duì)于所有隨機(jī)權(quán)重網(wǎng)絡(luò)缓苛,我們進(jìn)行適當(dāng)?shù)碾S機(jī)初始化芳撒。在本節(jié)中,我們驗(yàn)證以下內(nèi)容結(jié)果:
ERF是高斯分布的讶凉。如圖所示在圖1中,我們可以觀察到均勻加權(quán)卷積核和隨機(jī)加權(quán)山孔,沒有非線性激活卷積核的完美高斯形狀懂讯,以及隨機(jī)加權(quán)非線性激活的卷積核的近似高斯形狀。加上ReLU非線性使得分布的高斯性變小台颠,因?yàn)镋RF的分布也取決于輸入褐望。另一個(gè)原因是ReLU單元的一半輸入輸出正好為零,而且很容易為輸出平面上的中心像素設(shè)置零輸出串前,這意味著感受野的路徑無(wú)法到達(dá)輸出瘫里,因此梯度都為零。在這里荡碾,ERF在不同的傳輸種子下平均運(yùn)行20次谨读。下圖顯示了具有20層隨機(jī)權(quán)值、具有不同非線性的網(wǎng)絡(luò)的ERF坛吁。在這里劳殖,結(jié)果是不同的隨機(jī)權(quán)重以及不同的隨機(jī)輸入平均運(yùn)行的100次的結(jié)果。在這種情況下拨脉,感受野更像高斯分布哆姻。
絕對(duì)增長(zhǎng)和相對(duì)收縮。圖2中玫膀,我們給出了ERF尺寸的改變和ERF相對(duì)于理論RF的比例隨卷積層數(shù)的變化矛缨。ERF大小的最佳擬合線在對(duì)數(shù)域的斜率為0.56,而ERF比值的擬合線斜率為-0.43帖旨。這表明ERF大小對(duì)于呈線性增長(zhǎng)箕昭,ERF比率對(duì)于呈線性縮小帮孔。注意這里我們使用2個(gè)標(biāo)準(zhǔn)偏差作為ERF大小的測(cè)量值伟墙,即任何大于中心點(diǎn)1?95.45%的像素都被視為ERF。ERF大小由ERF中像素?cái)?shù)目的平方根表示祖搓,而理論RF大小是平方的邊長(zhǎng)瓮钥,在該邊長(zhǎng)中,所有像素對(duì)輸出像素的影響都是非零的烹吵,無(wú)論多么小碉熄。所有實(shí)驗(yàn)是在超過(guò)20次的結(jié)果上平均得到的。
采樣和空洞卷積增加了感受野:下圖顯示了采樣和空洞卷積的效果肋拔。參考基線是具有15個(gè)密集卷積層的convnet锈津。它的ERF如最左邊的圖所示。然后我們用stride-2卷積代替15個(gè)卷積層中的3個(gè)凉蜂,以得到采樣的ERF琼梆,并用因子為2性誉、4和8的空洞卷積替換。如我們所見茎杂,這兩種都能顯著增加感受野错览。注意空洞卷積顯示出了矩形。
3.2在訓(xùn)練過(guò)程中ERF是如何演變的
在這一部分中倾哺,我們將研究分類CNN和語(yǔ)義分割CNN最頂層的單元ERF在訓(xùn)練過(guò)程中是如何演變的。對(duì)于這兩個(gè)任務(wù)刽脖,我們采用了 ResNet架構(gòu)羞海,它廣泛地使用了skip-connection。分析表明曲管,該網(wǎng)絡(luò)的ERF應(yīng)明顯小于理論感受野却邓。這是我們最初觀察到的。有趣的是院水,隨著網(wǎng)絡(luò)的學(xué)習(xí)腊徙,ERF變得更大,并且在訓(xùn)練結(jié)束時(shí)衙耕,ERF明顯大于初始ERF昧穿。
對(duì)于分類任務(wù),我們?cè)贑IFAR-10數(shù)據(jù)集上訓(xùn)練了一個(gè)包含17個(gè)殘差塊的ResNet橙喘。在訓(xùn)練結(jié)束時(shí)时鸵,該網(wǎng)絡(luò)的測(cè)試準(zhǔn)確率達(dá)到89%。請(qǐng)注意厅瞎,在這個(gè)實(shí)驗(yàn)中饰潜,我們沒有使用池或降采樣,而是專門關(guān)注具有跳過(guò)連接的體系結(jié)構(gòu)和簸。網(wǎng)絡(luò)的精確度雖然不是最先進(jìn)的彭雾,但仍然相當(dāng)高。在圖3中锁保,我們顯示了在訓(xùn)練開始時(shí)(隨機(jī)初始化權(quán)重)和訓(xùn)練結(jié)束時(shí)薯酝,當(dāng)達(dá)到最佳驗(yàn)證精度時(shí),32×32圖像空間上的有效感受野爽柒。請(qǐng)注意吴菠,我們網(wǎng)絡(luò)的理論接收?qǐng)鰧?shí)際上是74×74,大于圖像大小浩村,但是ERF仍然可以完全填充圖像做葵。比較訓(xùn)練前后的結(jié)果,我們發(fā)現(xiàn)有效感受野有所增加很明顯心墅。
對(duì)于語(yǔ)義分割任務(wù)利用CamVid數(shù)據(jù)集進(jìn)行城市場(chǎng)景分割酿矢。我們訓(xùn)練了一個(gè)“前端”模型榨乎,它是一個(gè)純粹的卷積網(wǎng)絡(luò),它預(yù)測(cè)輸出的分辨率略低瘫筐。該網(wǎng)絡(luò)與VGG網(wǎng)絡(luò)在許多以前的著作中所起的作用相同蜜暑。我們訓(xùn)練了一個(gè)ResNet,16個(gè)殘差塊交錯(cuò)严肪,每個(gè)子采樣操作的因子為2史煎。由于這些子采樣操作,輸出是輸入大小的1/16驳糯。對(duì)于這個(gè)模型篇梭,頂層卷積層單元的理論感受野為505×505。然而酝枢,如圖3所示恬偷,在訓(xùn)練開始時(shí),ERF只得到直徑為100的部分帘睦。我們?cè)俅斡^察到袍患,在訓(xùn)練過(guò)程中,ERF的尺寸增大竣付,最后達(dá)到直徑約為150的直徑诡延。
4. 降低高斯損傷
上述分析表明ERF只占理論接收野的一小部分古胆,這對(duì)于需要較大接收能力的任務(wù)是不可取的領(lǐng)域肆良。
新的初始化。一增加有效感受野的簡(jiǎn)單方法是控制初始權(quán)重逸绎。我們提出了一種新的隨機(jī)權(quán)值初始化方案惹恃,使得卷積核中心的權(quán)值具有較小的尺度,而外部的權(quán)值較大棺牧,這使得中心的集中度向外圍擴(kuò)散巫糙。實(shí)際上,我們可以用任何初始化方法對(duì)網(wǎng)絡(luò)進(jìn)行初始化颊乘,然后根據(jù)中心低標(biāo)度参淹、外標(biāo)度高的分布來(lái)調(diào)整權(quán)重。
在極端情況下乏悄,我們可以優(yōu)化w(m)以使ERF大小最大化承二,或者等價(jià)地使等式(前面推公式部分里的公式)中的方差最大化。解決這個(gè)優(yōu)化問(wèn)題的結(jié)果是在卷積核的4個(gè)角上平均地設(shè)置權(quán)重纲爸,而其他地方都是0。但是妆够,使用此解決方案進(jìn)行隨機(jī)權(quán)重初始化過(guò)于激進(jìn)识啦,并且將大量權(quán)重保留為0會(huì)使學(xué)習(xí)變慢负蚊。這種想法的溫和版本通常是有效的更好。
我們用這種初始化方法訓(xùn)練了一個(gè)用于CIFAR-10分類任務(wù)的CNN颓哮,使用了幾種隨機(jī)種子家妆。在一些情況下,與更標(biāo)準(zhǔn)的初始化相比冕茅,我們的訓(xùn)練速度提高了30%伤极。但總的來(lái)說(shuō),這種方法的好處并不總是如此很重要姨伤。
我們請(qǐng)注意哨坪,無(wú)論我們?nèi)绾胃淖僿(m),有效感受野仍然是高斯分布的乍楚,因此上述建議只解決了問(wèn)題部分当编。
改變構(gòu)架。一個(gè)潛在的更好的方法是對(duì)cnn進(jìn)行架構(gòu)上的更改徒溪,這可能會(huì)改變?cè)诟镜姆矫娣尥怠@纾覀儾挥脤NN中的每個(gè)單元連接到本地矩形卷積窗口臊泌,而是可以使用相同的連接數(shù)將每個(gè)單元稀疏地連接到下層的一個(gè)較大區(qū)域鲤桥。空洞卷積屬于這一類渠概,但我們可以進(jìn)一步推進(jìn)茶凳,并使用不類似網(wǎng)格的稀疏連接。
5. 討論
與生物神經(jīng)的聯(lián)系網(wǎng)絡(luò)高氮。在我們的分析表明慧妄,深部CNN中的有效接收?qǐng)鰧?shí)際上比我們以前想象的要慢得多。這表明即使經(jīng)過(guò)許多卷積層剪芍,仍然保留了許多局部信息塞淹。這一發(fā)現(xiàn)與深層生物網(wǎng)絡(luò)中一些長(zhǎng)期持有的相關(guān)概念相矛盾。哺乳動(dòng)物視覺系統(tǒng)的一個(gè)普遍特征是分為“什么”和“哪里”路徑罪裹。沿著what或where路徑進(jìn)行饱普,連通性的性質(zhì)逐漸改變:感受野大小增加,空間組織變得松散状共,直到?jīng)]有明顯的視網(wǎng)膜色素組織套耕;視網(wǎng)膜脫離意味著單個(gè)神經(jīng)元對(duì)視野中的面部等物體做出反應(yīng)。然而峡继,如果ERF比RF小冯袍,這表明表示可以保留位置信息,同時(shí)也提出了一個(gè)有趣的問(wèn)題,即這些區(qū)域在發(fā)育過(guò)程中的大小變化康愤。
我們的分析的第二個(gè)相關(guān)影響是儡循,它表明卷積網(wǎng)絡(luò)可能會(huì)自動(dòng)地產(chǎn)生一種中心凹表現(xiàn)形式。人類視網(wǎng)膜中央凹只在中心像素附近提取高分辨率信息征冷。等分辨率的子場(chǎng)的排列使得它們的大小隨著距中心的距離而增大固定择膝。在視網(wǎng)膜的外圍,低分辨率的信息是從圖像的較大區(qū)域提取的检激。一些神經(jīng)網(wǎng)絡(luò)已經(jīng)明確地構(gòu)造了這種形式的表示肴捉。然而,由于卷積網(wǎng)絡(luò)形成高斯感受野叔收,其底層表示自然會(huì)有這種感受野特性齿穗。
與之前研究的聯(lián)系。雖然CNN中的感受野尚未得到深入研究今穿,一些人在計(jì)算方差如何通過(guò)網(wǎng)絡(luò)演化方面進(jìn)行了類似的分析缤灵。他們開發(fā)了一個(gè)很好的卷積層初始化方案,遵循的原則是方差在經(jīng)過(guò)網(wǎng)絡(luò)蓝晒。
研究人員為了理解神經(jīng)網(wǎng)絡(luò)是如何工作的腮出,我們還利用了可視化技術(shù)。[14] 展示了使用自然圖像先驗(yàn)的重要性芝薇,以及卷積層的激活將代表什么胚嘲。[22]使用反褶積網(wǎng)絡(luò)來(lái)顯示圖像中像素點(diǎn)與被激活神經(jīng)元之間的關(guān)系。[23]對(duì)感受野進(jìn)行了實(shí)證研究洛二,并將其作為定位的提示馋劈。也有可視化研究使用梯度上升技術(shù)[4]產(chǎn)生有趣的圖像,如[15]晾嘶。這些都集中在單位激活或特征圖上妓雾,而不是我們?cè)谶@里研究的有效感受野。
6. 結(jié)論
本文對(duì)CNN的感受野進(jìn)行了細(xì)致的研究垒迂,并對(duì)有效感受野大小進(jìn)行了初步探討械姻。特別地,我們已經(jīng)證明了在感受野內(nèi)的影響分布是漸近高斯的机断,有效感受野只占整個(gè)理論感受野的一小部分楷拳。實(shí)證結(jié)果與我們建立的理論相呼應(yīng)。我們認(rèn)為這只是有效感受野研究的一個(gè)開始吏奸,它為深入了解CNN提供了一個(gè)新的視角欢揖。在未來(lái)的研究中,我們希望更多地研究在實(shí)踐中影響有效感受野的因素以及如何更好地控制這些因素奋蔚。