[譯] 用于語義分割的全卷積網(wǎng)絡(luò)FCN(UC Berkeley)

題目:用于語義分割的全卷積網(wǎng)絡(luò)

(轉(zhuǎn)載請注明出處:[譯] 用于語義分割的全卷積網(wǎng)絡(luò)(UC Berkeley) (zhwhong)


摘要

卷積網(wǎng)絡(luò)在特征分層領(lǐng)域是非常強(qiáng)大的視覺模型啃匿。我們證明了經(jīng)過端到端、像素到像素訓(xùn)練的卷積網(wǎng)絡(luò)超過語義分割中最先進(jìn)的技術(shù)。我們的核心觀點(diǎn)是建立“全卷積”網(wǎng)絡(luò)迫悠,輸入任意尺寸蟆盐,經(jīng)過有效的推理和學(xué)習(xí)產(chǎn)生相應(yīng)尺寸的輸出。我們定義并指定全卷積網(wǎng)絡(luò)的空間,解釋它們在空間范圍內(nèi)dense prediction任務(wù)(預(yù)測每個(gè)像素所屬的類別)和獲取與先驗(yàn)?zāi)P吐?lián)系的應(yīng)用狂男。我們改編當(dāng)前的分類網(wǎng)絡(luò)(AlexNet [22],the VGG net [34], and GoogLeNet [35])到完全卷積網(wǎng)絡(luò)和通過微調(diào)[5]傳遞它們的學(xué)習(xí)表現(xiàn)到分割任務(wù)中埠忘。然后我們定義了一個(gè)跳躍式的架構(gòu),結(jié)合來自深莹妒、粗層的語義信息和來自淺名船、細(xì)層的表征信息來產(chǎn)生準(zhǔn)確和精細(xì)的分割。我們的完全卷積網(wǎng)絡(luò)成為了在PASCAL VOC最出色的分割方式(在2012年相對62.2%的平均IU提高了20%)旨怠,NYUDv2渠驼,和SIFT Flow,對一個(gè)典型圖像推理只需要花費(fèi)不到0.2秒的時(shí)間。

1. 引言

卷積網(wǎng)絡(luò)在識別領(lǐng)域前進(jìn)勢頭很猛鉴腻。卷積網(wǎng)不僅全圖式的分類上有所提高[22,34,35],也在結(jié)構(gòu)化輸出的局部任務(wù)上取得了進(jìn)步迷扇。包括在目標(biāo)檢測邊界框 [32,12,19]、部分和關(guān)鍵點(diǎn)預(yù)測[42,26]和局部通信[26,10]的進(jìn)步爽哎。

在從粗糙到精細(xì)推理的進(jìn)展中下一步自然是對每一個(gè)像素進(jìn)行預(yù)測蜓席。早前的方法已經(jīng)將卷積網(wǎng)絡(luò)用于語義分割[30,3,9,31,17,15,11],其中每個(gè)像素被標(biāo)記為其封閉對象或區(qū)域的類別,但是有個(gè)缺點(diǎn)就是這項(xiàng)工作addresses课锌。

我們證明了經(jīng)過端到端厨内、像素到像素訓(xùn)練的的卷積網(wǎng)絡(luò)超過語義分割中沒有further machinery的最先進(jìn)的技術(shù)。我們認(rèn)為产镐,這是第一次訓(xùn)練端到端(1)的FCN在像素級別的預(yù)測隘庄,而且來自監(jiān)督式預(yù)處理(2)。全卷積在現(xiàn)有的網(wǎng)絡(luò)基礎(chǔ)上從任意尺寸的輸入預(yù)測密集輸出癣亚。學(xué)習(xí)和推理能在全圖通過密集的前饋計(jì)算和反向傳播一次執(zhí)行丑掺。網(wǎng)內(nèi)上采樣層能在像素級別預(yù)測和通過下采樣池化學(xué)習(xí)。

這種方法非常有效述雾,無論是漸進(jìn)地還是完全地街州,消除了在其他方法中的并發(fā)問題兼丰。Patchwise訓(xùn)練是常見的 [30, 3, 9, 31, 11],但是缺少了全卷積訓(xùn)練的有效性唆缴。我們的方法不是利用預(yù)處理或者后期處理解決并發(fā)問題鳍征,包括超像素[9,17],proposals[17,15]面徽,或者對通過隨機(jī)域事后細(xì)化或者局部分類[9,17]艳丛。我們的模型通過重新解釋分類網(wǎng)到全卷積網(wǎng)絡(luò)和微調(diào)它們的學(xué)習(xí)表現(xiàn)將最近在分類上的成功[22,34,35]移植到dense prediction。與此相反趟紊,先前的工作應(yīng)用的是小規(guī)模氮双、沒有超像素預(yù)處理的卷積網(wǎng)。

語義分割面臨在語義和位置的內(nèi)在張力問題:全局信息解決的“是什么”霎匈,而局部信息解決的是“在哪里”戴差。深層特征通過非線性的局部到全局金字塔編碼了位置和語義信息。我們在4.2節(jié)(見圖3)定義了一種利用集合了深铛嘱、粗層的語義信息和淺暖释、細(xì)層的表征信息的特征譜的跨層架構(gòu)。

在下一節(jié)墨吓,我們回顧深層分類網(wǎng)球匕、FCNs和最近一些利用卷積網(wǎng)解決語義分割的相關(guān)工作。接下來的章節(jié)將解釋FCN設(shè)計(jì)和密集預(yù)測權(quán)衡肛真,介紹我們的網(wǎng)內(nèi)上采樣和多層結(jié)合架構(gòu)谐丢,描述我們的實(shí)驗(yàn)框架。最后蚓让,我們展示了最先進(jìn)技術(shù)在PASCAL VOC 2011-2, NYUDv2, 和SIFT Flow上的實(shí)驗(yàn)結(jié)果乾忱。

2. 相關(guān)工作

我們的方法是基于最近深層網(wǎng)絡(luò)在圖像分類上的成功[22,34,35]和轉(zhuǎn)移學(xué)習(xí)。轉(zhuǎn)移第一次被證明在各種視覺識別任務(wù)[5,41]历极,然后是檢測窄瘟,不僅在實(shí)例還有融合proposal-classification模型的語義分割[12,17,15]。我們現(xiàn)在重新構(gòu)建和微調(diào)直接的趟卸、dense prediction語義分割的分類網(wǎng)蹄葱。在這個(gè)框架里我們繪制FCNs的空間并將過去的或是最近的先驗(yàn)?zāi)P椭糜谄渲小?/p>

全卷積網(wǎng)絡(luò) 據(jù)我們所知,第一次將卷積網(wǎng)擴(kuò)展到任意尺寸的輸入的是Matan等人[28],它將經(jīng)典的LeNet[23]擴(kuò)展到識別字符串的位數(shù)锄列。因?yàn)樗麄兊木W(wǎng)絡(luò)結(jié)構(gòu)限制在一維的輸入串图云,Matan等人利用譯碼器譯碼獲得輸出。Wolf和Platt[40]將卷積網(wǎng)輸出擴(kuò)展到來檢測郵政地址塊的四角得分的二維圖邻邮。這些先前工作做的是推理和用于檢測的全卷積式學(xué)習(xí)竣况。Ning等人[30]定義了一種卷積網(wǎng)絡(luò)用于秀麗線蟲組織的粗糙的、多分類分割筒严,基于全卷積推理丹泉。

全卷積計(jì)算也被用在現(xiàn)在的一些多層次的網(wǎng)絡(luò)結(jié)構(gòu)中情萤。Sermanet等人的滑動(dòng)窗口檢測[32],Pinherio 和Collobert的語義分割[31]摹恨,Eigen等人的圖像修復(fù)[6]都做了全卷積式推理筋岛。全卷積訓(xùn)練很少,但是被Tompson等人[38]用來學(xué)習(xí)一種端到端的局部檢測和姿態(tài)估計(jì)的空間模型非常有效晒哄,盡管他們沒有解釋或者分析這種方法睁宰。

此外,He等人[19]在特征提取時(shí)丟棄了分類網(wǎng)的無卷積部分揩晴。他們結(jié)合proposals和空間金字塔池來產(chǎn)生一個(gè)局部的勋陪、固定長度的特征用于分類。盡管快速且有效硫兰,但是這種混合模型不能進(jìn)行端到端的學(xué)習(xí)。
  
基于卷積網(wǎng)的dense prediction 近期的一些工作已經(jīng)將卷積網(wǎng)應(yīng)用于dense prediction問題寒锚,包括Ning等人的語義分割[30],Farabet等人[9]以及Pinheiro和Collobert [31]劫映;Ciresan等人的電子顯微鏡邊界預(yù)測[3]以及Ganin和Lempitsky[11]的通過混合卷積網(wǎng)和最鄰近模型的處理自然場景圖像;還有Eigen等人[6,7]的圖像修復(fù)和深度估計(jì)。這些方法的相同點(diǎn)包括如下:

  • 限制容量和接收域的小模型
  • patchwise訓(xùn)練 [30,3,9,31,11]
  • 超像素投影的預(yù)處理刹前,隨機(jī)場正則化泳赋、濾波或局部分類 [9,3,11]
  • 輸入移位和dense輸出的隔行交錯(cuò)輸出 [32,31,11]
  • 多尺度金字塔處理 [9,31,11]
  • 飽和雙曲線正切非線性 [9,6,31]
  • 集成 [3,11]

然而我們的方法確實(shí)沒有這種機(jī)制。但是我們研究了patchwise訓(xùn)練 (3.4節(jié))和從FCNs的角度出發(fā)的“shift-and-stitch”dense輸出(3.2節(jié))喇喉。我們也討論了網(wǎng)內(nèi)上采樣(3.3節(jié))祖今,其中Eigen等人[7]的全連接預(yù)測是一個(gè)特例。

和這些現(xiàn)有的方法不同的是拣技,我們改編和擴(kuò)展了深度分類架構(gòu)千诬,使用圖像分類作為監(jiān)督預(yù)處理,和從全部圖像的輸入和ground truths(用于有監(jiān)督訓(xùn)練的訓(xùn)練集的分類準(zhǔn)確性)通過全卷積微調(diào)進(jìn)行簡單且高效的學(xué)習(xí)膏斤。

Hariharan等人[17]和Gupta等人[15]也改編深度分類網(wǎng)到語義分割徐绑,但是也在混合proposal-classifier模型中這么做了。這些方法通過采樣邊界框和region proposal進(jìn)行微調(diào)了R-CNN系統(tǒng)[12],用于檢測莫辨、語義分割和實(shí)例分割傲茄。這兩種辦法都不能進(jìn)行端到端的學(xué)習(xí)。他們分別在PASCAL VOC和NYUDv2實(shí)現(xiàn)了最好的分割效果沮榜,所以在第5節(jié)中我們直接將我們的獨(dú)立的盘榨、端到端的FCN和他們的語義分割結(jié)果進(jìn)行比較。

我們通過跨層和融合特征來定義一種非線性的局部到整體的表述用來協(xié)調(diào)端到端蟆融。在現(xiàn)今的工作中Hariharan等人[18]也在語義分割的混合模型中使用了多層草巡。

3. 全卷積網(wǎng)絡(luò)

卷積網(wǎng)的每層數(shù)據(jù)是一個(gè)h*w*d的三維數(shù)組,其中h和w是空間維度,d是特征或通道維數(shù)振愿。第一層是像素尺寸為h*w捷犹、顏色通道數(shù)為d的圖像弛饭。高層中的locations和圖像中它們連通的locations相對應(yīng),被稱為接收域萍歉。

卷積網(wǎng)是以平移不變形作為基礎(chǔ)的侣颂。其基本組成部分(卷積,池化和激勵(lì)函數(shù))作用在局部輸入域枪孩,只依賴相對空間坐標(biāo)憔晒。在特定層記X_ij為在坐標(biāo)(i,j)的數(shù)據(jù)向量,在following layer有Y_ij蔑舞,Y_ij的計(jì)算公式如下:

其中k為卷積核尺寸拒担,s是步長或下采樣因素,f_ks決定了層的類型:一個(gè)卷積的矩陣乘或者是平均池化攻询,用于最大池的最大空間值或者是一個(gè)激勵(lì)函數(shù)的一個(gè)非線性elementwise从撼,亦或是層的其他種類等等。

當(dāng)卷積核尺寸和步長遵從轉(zhuǎn)換規(guī)則钧栖,這個(gè)函數(shù)形式被表述為如下形式:

當(dāng)一個(gè)普通深度的網(wǎng)絡(luò)計(jì)算一個(gè)普通的非線性函數(shù)低零,一個(gè)網(wǎng)絡(luò)只有這種形式的層計(jì)算非線性濾波,我們稱之為深度濾波或全卷積網(wǎng)絡(luò)拯杠。FCN理應(yīng)可以計(jì)算任意尺寸的輸入并產(chǎn)生相應(yīng)(或許重采樣)空間維度的輸出掏婶。

一個(gè)實(shí)值損失函數(shù)有FCN定義了task。如果損失函數(shù)是一個(gè)最后一層的空間維度總和,



潭陪,它的梯度將是它的每層空間組成梯度總和雄妥。所以在全部圖像上的基于l的隨機(jī)梯度下降計(jì)算將和基于l'的梯度下降結(jié)果一樣,將最后一層的所有接收域作為minibatch(分批處理)依溯。

在這些接收域重疊很大的情況下老厌,前反饋計(jì)算和反向傳播計(jì)算整圖的疊層都比獨(dú)立的patch-by-patch有效的多。

我們接下來將解釋怎么將分類網(wǎng)絡(luò)轉(zhuǎn)換到能產(chǎn)生粗輸出圖的全卷積網(wǎng)絡(luò)誓沸。對于像素級預(yù)測梅桩,我們需要連接這些粗略的輸出結(jié)果到像素。3.2節(jié)描述了一種技巧拜隧,快速掃描[13]因此被引入宿百。我們通過將它解釋為一個(gè)等價(jià)網(wǎng)絡(luò)修正而獲得了關(guān)于這個(gè)技巧的一些領(lǐng)悟。作為一個(gè)高效的替換洪添,我們引入了去卷積層用于上采樣見3.3節(jié)垦页。在3.4節(jié),我們考慮通過patchwise取樣訓(xùn)練干奢,便在4.3節(jié)證明我們的全圖式訓(xùn)練更快且同樣有效痊焊。

3.1 改編分類用于dense prediction

典型的識別網(wǎng)絡(luò),包括LeNet [23], AlexNet[22], 和一些后繼者[34, 35],表面上采用的是固定尺寸的輸入產(chǎn)生了非空間的輸出薄啥。這些網(wǎng)絡(luò)的全連接層有確定的位數(shù)并丟棄空間坐標(biāo)辕羽。然而,這些全連接層也被看做是覆蓋全部輸入域的核卷積垄惧。需要將它們加入到可以采用任何尺寸輸入并輸出分類圖的全卷積網(wǎng)絡(luò)中刁愿。這種轉(zhuǎn)換如圖2所示。

此外到逊,當(dāng)作為結(jié)果的圖在特殊的輸入patches上等同于原始網(wǎng)絡(luò)的估計(jì)铣口,計(jì)算是高度攤銷的在那些patches的重疊域上。例如觉壶,當(dāng)AlexNet花費(fèi)了1.2ms(在標(biāo)準(zhǔn)的GPU上)推算一個(gè)227*227圖像的分類得分脑题,全卷積網(wǎng)絡(luò)花費(fèi)22ms從一張500*500的圖像上產(chǎn)生一個(gè)10*10的輸出網(wǎng)格,比樸素法快了5倍多铜靶。

這些卷積化模式的空間輸出圖可以作為一個(gè)很自然的選擇對于dense問題叔遂,比如語義分割。每個(gè)輸出單元ground truth可用争剿,正推法和逆推法都是直截了當(dāng)?shù)奶桶荆祭昧司矸e的固有的計(jì)算效率(和可極大優(yōu)化性)。對于AlexNet例子相應(yīng)的逆推法的時(shí)間為單張圖像時(shí)間2.4ms秒梅,全卷積的10*10輸出圖為37ms,結(jié)果是相對于順推法速度加快了舌胶。

當(dāng)我們將分類網(wǎng)絡(luò)重新解釋為任意輸出尺寸的全卷積域輸出圖捆蜀,輸出維數(shù)也通過下采樣顯著的減少了。分類網(wǎng)絡(luò)下采樣使filter保持小規(guī)模同時(shí)計(jì)算要求合理幔嫂。這使全卷積式網(wǎng)絡(luò)的輸出結(jié)果變得粗糙辆它,通過輸入尺寸因?yàn)橐粋€(gè)和輸出單元的接收域的像素步長等同的因素來降低它。

3.2 Shift-and stitch是濾波稀疏

dense prediction能從粗糙輸出中通過從輸入的平移版本中將輸出拼接起來獲得履恩。如果輸出是因?yàn)橐粋€(gè)因子f降低采樣锰茉,平移輸入的x像素到左邊,y像素到下面切心,一旦對于每個(gè)(x,y)滿足0<=x,y<=f.處理f^2個(gè)輸入飒筑,并將輸出交錯(cuò)以便預(yù)測和它們接收域的中心像素一致。

盡管單純地執(zhí)行這種轉(zhuǎn)換增加了f^2的這個(gè)因素的代價(jià)绽昏,有一個(gè)非常有名的技巧用來高效的產(chǎn)生完全相同的結(jié)果[13,32]协屡,這個(gè)在小波領(lǐng)域被稱為多孔算法[27]∪考慮一個(gè)層(卷積或者池化)中的輸入步長s,和后面的濾波權(quán)重為f_ij的卷積層(忽略不相關(guān)的特征維數(shù))肤晓。設(shè)置更低層的輸入步長到l上采樣它的輸出影響因子為s。然而,將原始的濾波和上采樣的輸出卷積并沒有產(chǎn)生和shift-and-stitch相同的結(jié)果补憾,因?yàn)樵嫉臑V波只看得到(已經(jīng)上采樣)輸入的簡化的部分漫萄。為了重現(xiàn)這種技巧,通過擴(kuò)大來稀疏濾波盈匾,如下:

如果s能除以i和j腾务,除非i和j都是0。重現(xiàn)該技巧的全網(wǎng)輸出需要重復(fù)一層一層放大這個(gè)filter知道所有的下采樣被移除威酒。(在練習(xí)中窑睁,處理上采樣輸入的下采樣版本可能會(huì)更高效。)

在網(wǎng)內(nèi)減少二次采樣是一種折衷的做法:filter能看到更細(xì)節(jié)的信息葵孤,但是接受域更小而且需要花費(fèi)很長時(shí)間計(jì)算担钮。Shift-and -stitch技巧是另外一種折衷做法:輸出更加密集且沒有減小filter的接受域范圍,但是相對于原始的設(shè)計(jì)filter不能感受更精細(xì)的信息尤仍。

盡管我們已經(jīng)利用這個(gè)技巧做了初步的實(shí)驗(yàn)箫津,但是我們沒有在我們的模型中使用它。正如在下一節(jié)中描述的宰啦,我們發(fā)現(xiàn)從上采樣中學(xué)習(xí)更有效和高效苏遥,特別是接下來要描述的結(jié)合了跨層融合。

3.3 上采樣是向后向卷積

另一種連接粗糙輸出到dense像素的方法就是插值法赡模。比如田炭,簡單的雙線性插值計(jì)算每個(gè)輸出y_ij來自只依賴輸入和輸出單元的相對位置的線性圖最近的四個(gè)輸入。

從某種意義上漓柑,伴隨因子f的上采樣是對步長為1/f的分?jǐn)?shù)式輸入的卷積操作教硫。只要f是整數(shù),一種自然的方法進(jìn)行上采樣就是向后卷積(有時(shí)稱為去卷積)伴隨輸出步長為f辆布。這樣的操作實(shí)現(xiàn)是不重要的瞬矩,因?yàn)樗皇呛唵蔚恼{(diào)換了卷積的順推法和逆推法。所以上采樣在網(wǎng)內(nèi)通過計(jì)算像素級別的損失的反向傳播用于端到端的學(xué)習(xí)锋玲。

需要注意的是去卷積濾波在這種層面上不需要被固定不變(比如雙線性上采樣)但是可以被學(xué)習(xí)景用。一堆反褶積層和激勵(lì)函數(shù)甚至能學(xué)習(xí)一種非線性上采樣。

在我們的實(shí)驗(yàn)中惭蹂,我們發(fā)現(xiàn)在網(wǎng)內(nèi)的上采樣對于學(xué)習(xí)dense prediction是快速且有效的伞插。我們最好的分割架構(gòu)利用了這些層來學(xué)習(xí)上采樣用以微調(diào)預(yù)測,見4.2節(jié)剿干。

3.4 patchwise訓(xùn)練是一種損失采樣

在隨機(jī)優(yōu)化中蜂怎,梯度計(jì)算是由訓(xùn)練分布支配的。patchwise 訓(xùn)練和全卷積訓(xùn)練能被用來產(chǎn)生任意分布置尔,盡管他們相對的計(jì)算效率依賴于重疊域和minibatch的大小杠步。在每一個(gè)由所有的單元接受域組成的批次在圖像的損失之下(或圖像的集合)整張圖像的全卷積訓(xùn)練等同于patchwise訓(xùn)練。當(dāng)這種方式比patches的均勻取樣更加高效的同時(shí),它減少了可能的批次數(shù)量幽歼。然而在一張圖片中隨機(jī)選擇patches可能更容易被重新找到朵锣。限制基于它的空間位置隨機(jī)取樣子集產(chǎn)生的損失(或者可以說應(yīng)用輸入和輸出之間的DropConnect mask[39])排除來自梯度計(jì)算的patches。

如果保存下來的patches依然有重要的重疊甸私,全卷積計(jì)算依然將加速訓(xùn)練诚些。如果梯度在多重逆推法中被積累,batches能包含幾張圖的patches皇型。

patcheswise訓(xùn)練中的采樣能糾正分類失調(diào)[30,9,3]和減輕密集空間相關(guān)性的影響[31,17]诬烹。在全卷積訓(xùn)練中,分類平衡也能通過給損失賦權(quán)重實(shí)現(xiàn)弃鸦,對損失采樣能被用來標(biāo)識空間相關(guān)绞吁。

我們研究了4.3節(jié)中的伴有采樣的訓(xùn)練,沒有發(fā)現(xiàn)對于dense prediction它有更快或是更好的收斂效果唬格。全圖式訓(xùn)練是有效且高效的家破。

4 分割架構(gòu)

我們將ILSVRC分類應(yīng)用到FCNs增大它們用于dense prediction結(jié)合網(wǎng)內(nèi)上采樣和像素級損失。我們通過微調(diào)為分割進(jìn)行訓(xùn)練购岗。接下來我們增加了跨層來融合粗的汰聋、語義的和局部的表征信息。這種跨層式架構(gòu)能學(xué)習(xí)端到端來改善輸出的語義和空間預(yù)測喊积。

為此烹困,我們訓(xùn)練和在PASCAL VOC 2011分割挑戰(zhàn)賽[8]中驗(yàn)證。我們訓(xùn)練逐像素的多項(xiàng)式邏輯損失和驗(yàn)證標(biāo)準(zhǔn)度量的在集合中平均像素交集還有基于所有分類上的平均接收乾吻,包括背景韭邓。這個(gè)訓(xùn)練忽略了那些在groud truth中被遮蓋的像素(模糊不清或者很難辨認(rèn))。

注:不是每個(gè)可能的patch被包含在這種方法中溶弟,因?yàn)樽詈笠粚訂挝坏牡慕邮沼蛞蕾囈粋€(gè)固定的、步長大的網(wǎng)格瞭郑。然而辜御,對該圖像進(jìn)行向左或向下隨機(jī)平移接近該步長個(gè)單位,從所有可能的patches 中隨機(jī)選取或許可以修復(fù)這個(gè)問題屈张。

【原文圖】


4.1 從分類到dense FCN

我們在第3節(jié)中以卷積證明分類架構(gòu)的擒权。我們認(rèn)為拿下了ILSVRC12的AlexNet3架構(gòu)[22]和VGG nets[34]、GoogLeNet4[35]一樣在ILSVRC14上表現(xiàn)的格外好阁谆。我們選擇VGG 16層的網(wǎng)絡(luò)5碳抄,發(fā)現(xiàn)它和19層的網(wǎng)絡(luò)在這個(gè)任務(wù)(分類)上相當(dāng)。對于GoogLeNet,我們僅僅使用的最后的損失層场绿,通過丟棄了最后的平均池化層提高了表現(xiàn)能力剖效。我們通過丟棄最后的分類切去每層網(wǎng)絡(luò)頭,然后將全連接層轉(zhuǎn)化成卷積層。我們附加了一個(gè)1*1的璧尸、通道維數(shù)為21的卷積來預(yù)測每個(gè)PASCAL分類(包括背景)的得分在每個(gè)粗糙的輸出位置咒林,后面緊跟一個(gè)去卷積層用來雙線性上采樣粗糙輸出到像素密集輸出如3.3.節(jié)中描述。表1將初步驗(yàn)證結(jié)果和每層的基礎(chǔ)特性比較爷光。我們發(fā)現(xiàn)最好的結(jié)果在以一個(gè)固定的學(xué)習(xí)速率得到(最少175個(gè)epochs)垫竞。
從分類到分割的微調(diào)對每層網(wǎng)絡(luò)有一個(gè)合理的預(yù)測。甚至最壞的模型也能達(dá)到大約75%的良好表現(xiàn)蛀序。內(nèi)設(shè)分割的VGG網(wǎng)絡(luò)(FCN-VGG16)已經(jīng)在val上平均IU 達(dá)到了56.0取得了最好的成績欢瞪,相比于52.6[17]。在額外數(shù)據(jù)上的訓(xùn)練將FCN-VGG16提高到59.4徐裸,將FCN-AlexNet提高到48.0遣鼓。盡管相同的分類準(zhǔn)確率,我們的用GoogLeNet并不能和VGG16的分割結(jié)果相比較倦逐。

4.2 結(jié)合“是什么”和“在哪里”

我們定義了一個(gè)新的全卷積網(wǎng)用于結(jié)合了特征層級的分割并提高了輸出的空間精度譬正,見圖3。

當(dāng)全卷積分類能被微調(diào)用于分割如4.1節(jié)所示檬姥,甚至在標(biāo)準(zhǔn)度量上得分更高曾我,它們的輸出不是很粗糙(見圖4)。最后預(yù)測層的32像素步長限制了上采樣輸入的細(xì)節(jié)的尺寸健民。

我們提出增加結(jié)合了最后預(yù)測層和有更細(xì)小步長的更低層的跨層信息[1]抒巢,將一個(gè)線劃拓?fù)浣Y(jié)構(gòu)轉(zhuǎn)變成DAG(有向無環(huán)圖),并且邊界將從更底層向前跳躍到更高(圖3)秉犹。因?yàn)樗鼈冎荒塬@取更少的像素點(diǎn)蛉谜,更精細(xì)的尺寸預(yù)測應(yīng)該需要更少的層,所以從更淺的網(wǎng)中將它們輸出是有道理的崇堵。結(jié)合了精細(xì)層和粗糙層讓模型能做出遵從全局結(jié)構(gòu)的局部預(yù)測型诚。與Koenderick 和an Doorn [21]的jet類似,我們把這種非線性特征層稱之為deep jet鸳劳。

我們首先將輸出步長分為一半狰贯,通過一個(gè)16像素步長層預(yù)測。我們增加了一個(gè)1*1的卷積層在pool4的頂部來產(chǎn)生附加的類別預(yù)測赏廓。我們將輸出和預(yù)測融合在conv7(fc7的卷積化)的頂部以步長32計(jì)算涵紊,通過增加一個(gè)2×的上采樣層和預(yù)測求和(見圖3)。我們初始化這個(gè)2×上采樣到雙線性插值幔摸,但是允許參數(shù)能被學(xué)習(xí)摸柄,如3.3節(jié)所描述、最后既忆,步長為16的預(yù)測被上采樣回圖像驱负,我們把這種網(wǎng)結(jié)構(gòu)稱為FCN-16s嗦玖。FCN-16s用來學(xué)習(xí)端到端,能被最后的參數(shù)初始化电媳。這種新的踏揣、在pool4上生效的參數(shù)是初始化為0 的,所以這種網(wǎng)結(jié)構(gòu)是以未變性的預(yù)測開始的匾乓。這種學(xué)習(xí)速率是以100倍的下降的捞稿。

學(xué)習(xí)這種跨層網(wǎng)絡(luò)能在3.0平均IU的有效集合上提高到62.4。圖4展示了在精細(xì)結(jié)構(gòu)輸出上的提高拼缝。我們將這種融合學(xué)習(xí)和僅僅從pool4層上學(xué)習(xí)進(jìn)行比較娱局,結(jié)果表現(xiàn)糟糕,而且僅僅降低了學(xué)習(xí)速率而沒有增加跨層咧七,導(dǎo)致了沒有提高輸出質(zhì)量的沒有顯著提高表現(xiàn)衰齐。

我們繼續(xù)融合pool3和一個(gè)融合了pool4和conv7的2×上采樣預(yù)測,建立了FCN-8s的網(wǎng)絡(luò)結(jié)構(gòu)继阻。在平均IU上我們獲得了一個(gè)較小的附加提升到62.7耻涛,然后發(fā)現(xiàn)了一個(gè)在平滑度和輸出細(xì)節(jié)上的輕微提高。這時(shí)我們的融合提高已經(jīng)得到了一個(gè)衰減回饋瘟檩,既在強(qiáng)調(diào)了大規(guī)模正確的IU度量的層面上抹缕,也在提升顯著度上得到反映,如圖4所示墨辛,所以即使是更低層我們也不需要繼續(xù)融合卓研。

其他方式精煉化   減少池層的步長是最直接的一種得到精細(xì)預(yù)測的方法。然而這么做對我們的基于VGG16的網(wǎng)絡(luò)帶來問題睹簇。設(shè)置pool5的步長到1奏赘,要求我們的卷積fc6核大小為14*14來維持它的接收域大小。另外它們的計(jì)算代價(jià)太惠,通過如此大的濾波器學(xué)習(xí)非常困難磨淌。我們嘗試用更小的濾波器重建pool5之上的層,但是并沒有得到有可比性的結(jié)果凿渊;一個(gè)可能的解釋是ILSVRC在更上層的初始化時(shí)非常重要的伦糯。

另一種獲得精細(xì)預(yù)測的方法就是利用3.2節(jié)中描述的shift-and-stitch技巧。在有限的實(shí)驗(yàn)中嗽元,我們發(fā)現(xiàn)從這種方法的提升速率比融合層的方法花費(fèi)的代價(jià)更高。

4.3 實(shí)驗(yàn)框架

優(yōu)化  我們利用momentum訓(xùn)練了GSD喂击。我們利用了一個(gè)minibatch大小的20張圖片剂癌,然后固定學(xué)習(xí)速率為10-3,10-4,和5-5用于FCN-AlexNet, FCN-VGG16,和FCN-GoogLeNet翰绊,通過各自的線性搜索選擇佩谷。我們利用了0.9的momentum,權(quán)值衰減在5-4或是2-4旁壮,而且對于偏差的學(xué)習(xí)速率加倍了,盡管我們發(fā)現(xiàn)訓(xùn)練對單獨(dú)的學(xué)習(xí)速率敏感谐檀。我們零初始化類的得分層抡谐,隨機(jī)初始化既不能產(chǎn)生更好的表現(xiàn)也沒有更快的收斂。Dropout被包含在用于原始分類的網(wǎng)絡(luò)中桐猬。

微調(diào)  我們通過反向傳播微調(diào)整個(gè)網(wǎng)絡(luò)的所有層麦撵。經(jīng)過表2的比較,微調(diào)單獨(dú)的輸出分類表現(xiàn)只有全微調(diào)的70%溃肪∶馕福考慮到學(xué)習(xí)基礎(chǔ)分類網(wǎng)絡(luò)所需的時(shí)間,從scratch中訓(xùn)練不是可行的惫撰。(注意VGG網(wǎng)絡(luò)的訓(xùn)練是階段性的羔沙,當(dāng)我們從全16層初始化后)。對于粗糙的FCN-32s厨钻,在單GPU上扼雏,微調(diào)要花費(fèi)三天的時(shí)間,而且大約每隔一天就要更新到FCN-16s和FCN-8s版本夯膀。

更多的訓(xùn)練數(shù)據(jù)  PASCAL VOC 2011分割訓(xùn)練設(shè)置1112張圖片的標(biāo)簽诗充。Hariharan等人[16]為一個(gè)更大的8498的PASCAL訓(xùn)練圖片集合收集標(biāo)簽,被用于訓(xùn)練先前的先進(jìn)系統(tǒng),SDS[17]棍郎。訓(xùn)練數(shù)據(jù)將FCV-VGG16得分提高了3.4個(gè)百分點(diǎn)到59.4其障。

patch取樣  正如3.4節(jié)中解釋的,我們的全圖有效地訓(xùn)練每張圖片batches到常規(guī)的涂佃、大的励翼、重疊的patches網(wǎng)格。相反的辜荠,先前工作隨機(jī)樣本patches在一整個(gè)數(shù)據(jù)集[30,3,9,31,11]汽抚,可能導(dǎo)致更高的方差batches,可能加速收斂[24]伯病。我們通過空間采樣之前方式描述的損失研究這種折中造烁,以1-p的概率做出獨(dú)立選擇來忽略每個(gè)最后層單元。為了避免改變有效的批次尺寸午笛,我們同時(shí)以因子1/p增加每批次圖像的數(shù)量惭蟋。注意的是因?yàn)榫矸e的效率,在足夠大的p值下药磺,這種拒絕采樣的形式依舊比patchwose訓(xùn)練要快(比如告组,根據(jù)3.1節(jié)的數(shù)量,最起碼p>0.2)圖5展示了這種收斂的采樣的效果癌佩。我們發(fā)現(xiàn)采樣在收斂速率上沒有很顯著的效果相對于全圖式訓(xùn)練木缝,但是由于每個(gè)每個(gè)批次都需要大量的圖像便锨,很明顯的需要花費(fèi)更多的時(shí)間。

分類平衡  全卷積訓(xùn)練能通過按權(quán)重或?qū)p失采樣平衡類別我碟。盡管我們的標(biāo)簽有輕微的不平衡(大約3/4是背景)涕烧,我們發(fā)現(xiàn)類別平衡不是必要的逢并。

dense prediction 分?jǐn)?shù)是通過網(wǎng)內(nèi)的去卷積層上采樣到輸出維度。最后層去卷積濾波被固定為雙線性插值,當(dāng)中間采樣層是被初始化為雙線性上采樣肝集,然后學(xué)習(xí)野舶。

擴(kuò)大  我們嘗試通過隨機(jī)反射擴(kuò)大訓(xùn)練數(shù)據(jù)峦耘,"jettering"圖像通過將它們在每個(gè)方向上轉(zhuǎn)化成32像素(最粗糙預(yù)測的尺寸)砌们。這并沒有明顯的改善。

實(shí)現(xiàn)  所有的模型都是在單NVIDIA Tesla K40c上用Caffe[20]訓(xùn)練和學(xué)習(xí)催烘。我們的模型和代碼都是公開可用的,網(wǎng)址為http://fcn.berkeleyvision.org沥阱。

5 結(jié)果

我們訓(xùn)練FCN在語義分割和場景解析,研究了PASCAL VOC, NYUDv2和 SIFT Flow伊群。盡管這些任務(wù)在以前主要是用在物體和區(qū)域上考杉,我們都一律將它們視為像素預(yù)測。我們在這些數(shù)據(jù)集中都進(jìn)行測試用來評估我們的FCN跨層式架構(gòu)舰始,然后對于NYUDv2將它擴(kuò)展成一個(gè)多模型的輸出崇棠,對于SIFT Flow則擴(kuò)展成多任務(wù)的語義和集合標(biāo)簽。

度量 我們從常見的語義分割和場景解析評估中提出四種度量丸卷,它們在像素準(zhǔn)確率和在聯(lián)合的區(qū)域交叉上是不同的枕稀。令n_ij為類別i的被預(yù)測為類別j的像素?cái)?shù)量,有n_ij個(gè)不同的類別谜嫉,令

為類別i的像素總的數(shù)量萎坷。我們將計(jì)算:

PASCAL VOC 表3給出了我們的FCN-8s的在PASCAL VOC2011和2012測試集上的表現(xiàn),然后將它和之前的先進(jìn)方法SDS[17]和著名的R-CNN[12]進(jìn)行比較沐兰。我們在平均IU上取得了最好的結(jié)果相對提升了20%哆档。推理時(shí)間被降低了114×(只有卷積網(wǎng),沒有proposals和微調(diào))或者286×(全部都有)住闯。

NVUDv2[33] 是一種通過利用Microsoft Kinect收集到的RGB-D數(shù)據(jù)集瓜浸,含有已經(jīng)被合并進(jìn)Gupt等人[14]的40類別的語義分割任務(wù)的pixelwise標(biāo)簽。我們報(bào)告結(jié)果基于標(biāo)準(zhǔn)分離的795張圖片和654張測試圖片比原。(注意:所有的模型選擇將展示在PASCAL 2011 val上)插佛。表4給出了我們模型在一些變化上的表現(xiàn)。首先我們在RGB圖片上訓(xùn)練我們的未經(jīng)修改的粗糙模型(FCN-32s)量窘。為了添加深度信息雇寇,我們訓(xùn)練模型升級到能采用4通道RGB-Ds的輸入(早期融合)。這提供了一點(diǎn)便利,也許是由于模型一直要傳播有意義的梯度的困難谢床。緊隨Gupta等人[15]的成功,我們嘗試3維的HHA編碼深度厘线,只在這個(gè)信息上(即深度)訓(xùn)練網(wǎng)絡(luò)识腿,和RGB與HHA的“后期融合”一樣來自這兩個(gè)網(wǎng)絡(luò)中的預(yù)測將在最后一層進(jìn)行總結(jié),結(jié)果的雙流網(wǎng)絡(luò)將進(jìn)行端到端的學(xué)習(xí)造壮。最后我們將這種后期融合網(wǎng)絡(luò)升級到16步長的版本渡讼。

SIFT Flow 是一個(gè)帶有33語義范疇(“橋”、“山”耳璧、“太陽”)的像素標(biāo)簽的2688張圖片的數(shù)據(jù)集和3個(gè)幾何分類(“水平”成箫、“垂直”和“sky")一樣。一個(gè)FCN能自然學(xué)習(xí)共同代表權(quán)旨枯,即能同時(shí)預(yù)測標(biāo)簽的兩種類別蹬昌。我們學(xué)習(xí)FCN-16s的一種雙向版本結(jié)合語義和幾何預(yù)測層和損失。這種學(xué)習(xí)模型在這兩種任務(wù)上作為獨(dú)立的訓(xùn)練模型表現(xiàn)很好攀隔,同時(shí)它的學(xué)習(xí)和推理基本上和每個(gè)獨(dú)立的模型一樣快皂贩。表5的結(jié)果顯示,計(jì)算在標(biāo)準(zhǔn)分離的2488張訓(xùn)練圖片和200張測試圖片上計(jì)算昆汹,在這兩個(gè)任務(wù)上都表現(xiàn)的極好明刷。

6 結(jié)論

全卷積網(wǎng)絡(luò)是模型非常重要的部分,是現(xiàn)代化分類網(wǎng)絡(luò)中一個(gè)特殊的例子满粗。認(rèn)識到這個(gè)辈末,將這些分類網(wǎng)絡(luò)擴(kuò)展到分割并通過多分辨率的層結(jié)合顯著提高先進(jìn)的技術(shù),同時(shí)簡化和加速學(xué)習(xí)和推理映皆。

鳴謝 這項(xiàng)工作有以下部分支持DARPA's MSEE和SMISC項(xiàng)目挤聘,NSF awards IIS-1427425, IIS-1212798, IIS-1116411, 還有NSF GRFP,Toyota, 還有 Berkeley Vision和Learning Center。我們非常感謝NVIDIA捐贈(zèng)的GPU劫扒。我們感謝Bharath Hariharan 和Saurabh Gupta的建議和數(shù)據(jù)集工具;我們感謝Sergio Guadarrama 重構(gòu)了Caffe里的GoogLeNet;我們感謝Jitendra Malik的有幫助性評論;感謝Wei Liu指出了我們SIFT Flow平均IU計(jì)算上的一個(gè)問題和頻率權(quán)重平均IU公式的錯(cuò)誤檬洞。

附錄A IU上界

在這篇論文中,我們已經(jīng)在平均IU分割度量上取到了很好的效果沟饥,即使是粗糙的語義預(yù)測添怔。為了更好的理解這種度量還有關(guān)于這種方法的限制,我們在計(jì)算不同的規(guī)模上預(yù)測的表現(xiàn)的大致上界贤旷。我們通過下采樣ground truth圖像广料,然后再次對它們進(jìn)行上采樣,來模擬可以獲得最好的結(jié)果幼驶,其伴隨著特定的下采樣因子艾杏。下表給出了不同下采樣因子在PASCAL2011 val的一個(gè)子集上的平均IU。
  pixel-perfect預(yù)測很顯然在取得最最好效果上不是必須的盅藻,而且购桑,相反的畅铭,平均IU不是一個(gè)好的精細(xì)準(zhǔn)確度的測量標(biāo)準(zhǔn)。

附錄B 更多的結(jié)果

我們將我們的FCN用于語義分割進(jìn)行了更進(jìn)一步的評估勃蜘。
  PASCAL-Context[29]提供了PASCAL VOC 2011的全部場景注釋硕噩。有超過400中不同的類別,我們遵循了[29]定義的被引用最頻繁的59種類任務(wù)缭贡。我們分別訓(xùn)練和評估了訓(xùn)練集和val集炉擅。在表6中,我們將聯(lián)合對象和Convolutional
  Feature Masking[4]的stuff variation進(jìn)行比較阳惹,后者是之前這項(xiàng)任務(wù)中最好的方法谍失。FCN-8s在平均IU上得分為37.8,相對提高了20%莹汤。

變更記錄

論文的arXiv版本保持著最新的修正和其他的相關(guān)材料快鱼,接下來給出一份簡短的變更歷史。
  v2 添加了附錄A和附錄B体啰。修正了PASCAL的有效數(shù)量(之前一些val圖像被包含在訓(xùn)練中)攒巍,SIFT Flow平均IU(用的不是很規(guī)范的度量),還有頻率權(quán)重平均IU公式的一個(gè)錯(cuò)誤荒勇。添加了模型和更新時(shí)間數(shù)字來反映改進(jìn)的實(shí)現(xiàn)的鏈接(公開可用的)柒莉。

參考文獻(xiàn)

[1] C. M. Bishop. Pattern recognition and machine learning,page 229. Springer-Verlag New York, 2006. 6

[2] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV,2012. 9

[3] D. C. Ciresan, A. Giusti, L. M. Gambardella, and J. Schmidhuber.Deep neural networks segment neuronal membranes in electron microscopy images. In NIPS, pages 2852–2860,2012. 1, 2, 4, 7

[4] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. arXiv preprint arXiv:1412.1283, 2014. 9

[5] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang,E. Tzeng, and T. Darrell. DeCAF: A deep convolutional activation feature for generic visual recognition. In ICML, 2014.1, 2

[6] D. Eigen, D. Krishnan, and R. Fergus. Restoring an image taken through a window covered with dirt or rain. In Computer Vision (ICCV), 2013 IEEE International Conference on, pages 633–640. IEEE, 2013. 2

[7] D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. arXiv preprint arXiv:1406.2283, 2014. 2

[8] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results. http://www.pascalnetwork.org/challenges/VOC/voc2011/workshop/index.html.4

[9] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013. 1, 2, 4,7, 8

[10] P. Fischer, A. Dosovitskiy, and T. Brox. Descriptor matching with convolutional neural networks: a comparison to SIFT.CoRR, abs/1405.5769, 2014. 1

[11] Y. Ganin and V. Lempitsky. N4-fields: Neural network nearest neighbor fields for image transforms. In ACCV, 2014. 1,2, 7

[12] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition,2014. 1, 2, 7

[13] A. Giusti, D. C. Cires?an, J. Masci, L. M. Gambardella, and J. Schmidhuber. Fast image scanning with deep max-pooling convolutional neural networks. In ICIP, 2013. 3, 4

[14] S. Gupta, P. Arbelaez, and J. Malik. Perceptual organization and recognition of indoor scenes from RGB-D images. In CVPR, 2013. 8

[15] S. Gupta, R. Girshick, P. Arbelaez, and J. Malik. Learning rich features from RGB-D images for object detection and segmentation. In ECCV. Springer, 2014. 1, 2, 8

[16] B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J. Malik.Semantic contours from inverse detectors. In International Conference on Computer Vision (ICCV), 2011. 7

[17] B. Hariharan, P. Arbel′aez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In European Conference on Computer Vision (ECCV), 2014. 1, 2, 4, 5, 7, 8

[18] B. Hariharan, P. Arbel′aez, R. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained localization.In Computer Vision and Pattern Recognition, 2015.2

[19] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. 1, 2

[20] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick,S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint
arXiv:1408.5093, 2014. 7

[21] J. J. Koenderink and A. J. van Doorn. Representation of local geometry in the visual system. Biological cybernetics,55(6):367–375, 1987. 6

[22] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 1, 2, 3, 5

[23] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. E. Howard,W. Hubbard, and L. D. Jackel. Backpropagation applied to hand-written zip code recognition. In Neural Computation,1989. 2, 3

[24] Y. A. LeCun, L. Bottou, G. B. Orr, and K.-R. M¨uller. Efficient backprop. In Neural networks: Tricks of the trade,pages 9–48. Springer, 1998. 7

[25] C. Liu, J. Yuen, and A. Torralba. Sift flow: Dense correspondence across scenes and its applications. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 33(5):978–994, 2011.8

[26] J. Long, N. Zhang, and T. Darrell. Do convnets learn correspondence?In NIPS, 2014. 1

[27] S. Mallat. A wavelet tour of signal processing. Academic press, 2nd edition, 1999. 4

[28] O. Matan, C. J. Burges, Y. LeCun, and J. S. Denker. Multidigit recognition using a space displacement neural network.In NIPS, pages 488–495. Citeseer, 1991. 2

[29] R. Mottaghi, X. Chen, X. Liu, N.-G. Cho, S.-W. Lee, S. Fidler,R. Urtasun, and A. Yuille. The role of context for object detection and semantic segmentation in the wild. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 891–898. IEEE, 2014. 9

[30] F. Ning, D. Delhomme, Y. LeCun, F. Piano, L. Bottou, and P. E. Barbano. Toward automatic phenotyping of developing embryos from videos. Image Processing, IEEE Transactions on, 14(9):1360–1371, 2005. 1, 2, 4, 7

[31] P. H. Pinheiro and R. Collobert. Recurrent convolutional neural networks for scene labeling. In ICML, 2014. 1, 2,4, 7, 8

[32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.1, 2, 4

[33] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus. Indoor segmentation and support inference from rgbd images. In ECCV, 2012. 8

[34] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. CoRR,abs/1409.1556, 2014. 1, 2, 3, 5

[35] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A.Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842,2014. 1, 2, 3, 5

[36] J. Tighe and S. Lazebnik. Superparsing: scalable nonparametric image parsing with superpixels. In ECCV, pages 352–365. Springer, 2010. 8

[37] J. Tighe and S. Lazebnik. Finding things: Image parsing with regions and per-exemplar detectors. In CVPR, 2013. 8

[38] J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. CoRR, abs/1406.2984, 2014. 2

[39] L. Wan, M. Zeiler, S. Zhang, Y. L. Cun, and R. Fergus. Regularization of neural networks using dropconnect. In Proceedings of the 30th International Conference on Machine Learning (ICML-13), pages 1058–1066, 2013. 4

[40] R. Wolf and J. C. Platt. Postal address block location using a convolutional locator network. Advances in Neural Information Processing Systems, pages 745–745, 1994. 2

[41] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In Computer Vision–ECCV 2014,pages 818–833. Springer, 2014. 2

[42] N. Zhang, J. Donahue, R. Girshick, and T. Darrell. Partbased r-cnns for fine-grained category detection. In Computer Vision–ECCV 2014, pages 834–849. Springer, 2014.1


(注:感謝您的閱讀,希望本文對您有所幫助沽翔。如果覺得不錯(cuò)歡迎分享轉(zhuǎn)載兢孝,但請先點(diǎn)擊 這里 獲取授權(quán)。本文由 版權(quán)印 提供保護(hù)仅偎,禁止任何形式的未授權(quán)違規(guī)轉(zhuǎn)載跨蟹,謝謝!)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末橘沥,一起剝皮案震驚了整個(gè)濱河市窗轩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌座咆,老刑警劉巖痢艺,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異介陶,居然都是意外死亡堤舒,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門哺呜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來舌缤,“玉大人,你說我怎么就攤上這事」欤” “怎么了陵吸?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長介牙。 經(jīng)常有香客問我走越,道長,這世上最難降的妖魔是什么耻瑟? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮赏酥,結(jié)果婚禮上喳整,老公的妹妹穿的比我還像新娘。我一直安慰自己裸扶,他們只是感情好框都,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著呵晨,像睡著了一般魏保。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上摸屠,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天谓罗,我揣著相機(jī)與錄音,去河邊找鬼季二。 笑死檩咱,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的胯舷。 我是一名探鬼主播刻蚯,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼桑嘶!你這毒婦竟也來了炊汹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤逃顶,失蹤者是張志新(化名)和其女友劉穎讨便,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體口蝠,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡器钟,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了妙蔗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片傲霸。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出昙啄,到底是詐尸還是另有隱情穆役,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布梳凛,位于F島的核電站耿币,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏韧拒。R本人自食惡果不足惜淹接,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望叛溢。 院中可真熱鬧塑悼,春花似錦、人聲如沸楷掉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽烹植。三九已至斑鸦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間草雕,已是汗流浹背巷屿。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留墩虹,地道東北人攒庵。 一個(gè)月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像败晴,于是被迫代替她去往敵國和親浓冒。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容