原文鏈接:http://www.cnblogs.com/sandy-t/p/7474686.html
本文主要分為三個(gè)部分:
圖像的語(yǔ)義分割問(wèn)題是什么
分割方法的概述
對(duì)語(yǔ)義分割方面有代表性的論文的總結(jié)
什么是圖像的語(yǔ)義分割传趾?
在計(jì)算機(jī)視覺(jué)領(lǐng)域,分割牡借、檢測(cè)伦连、識(shí)別雨饺、跟蹤這幾個(gè)問(wèn)題是緊密相連的钳垮。不同于傳統(tǒng)的基于灰度、顏色额港、紋理和形狀等特征的圖像分割問(wèn)題饺窿,圖像語(yǔ)義分割是從像素級(jí)理解圖像,需要確定圖像中每個(gè)像素的對(duì)應(yīng)的目標(biāo)類別移斩。如下圖:
除了識(shí)別出摩托車和騎摩托車的人肚医,我們還必須劃定每個(gè)物體的邊界。圖像分類問(wèn)題輸出幾個(gè)代表類別的值向瓷,而語(yǔ)義分割需要輸出每個(gè)像素對(duì)應(yīng)的類別肠套。
有哪些語(yǔ)義分割的方法?
在深度學(xué)習(xí)統(tǒng)治計(jì)算機(jī)視覺(jué)領(lǐng)域之前风罩,有Texton Forests和Random Forest based classifiers等方法來(lái)進(jìn)行語(yǔ)義分割糠排。深度學(xué)習(xí)的方法興起以后,在圖像分類任務(wù)上取得巨大成功的卷積神經(jīng)網(wǎng)絡(luò)同樣在圖像語(yǔ)義分割任務(wù)中得到了非常大的提升超升。最初引入深度學(xué)習(xí)的方法是patch classification方法入宦,它使用像素周圍的區(qū)塊來(lái)進(jìn)行分類,由于使用了神經(jīng)網(wǎng)絡(luò)中使用了全連接結(jié)構(gòu)室琢,所以限制了圖像尺寸和只能使用區(qū)塊的方法乾闰。2014年出現(xiàn)了[Fully Convolutional Networks (FCN),F(xiàn)CN推廣了原有的CNN結(jié)構(gòu)盈滴,在不帶有全連接層的情況下能進(jìn)行密集預(yù)測(cè)涯肩。,因此FCN可以處理任意大小的圖像巢钓,并且提高了處理速度病苗。后來(lái)的很多語(yǔ)義分割方法都是基于FCN的改進(jìn)。
然而將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在語(yǔ)義分割中也帶來(lái)了一些問(wèn)題症汹,其中一個(gè)主要的問(wèn)題就是池化層( pooling layers)硫朦。池化層增加了視野,但是同時(shí)也丟失了精確的位置信息背镇,這與語(yǔ)義分割需要的準(zhǔn)確的像素位置信息相矛盾咬展。
針對(duì)這個(gè)問(wèn)題,學(xué)術(shù)界主要有兩種類型的解決方法瞒斩。
一種是編碼解碼器(encoder-decoder)網(wǎng)絡(luò)結(jié)構(gòu)破婆,編碼器使用池化層逐漸減少空間維度,解碼器逐漸恢復(fù)目標(biāo)對(duì)象的細(xì)節(jié)和空間維度胸囱。通常從編碼器到解碼器的快捷連接幫助解碼器更好地恢復(fù)對(duì)象細(xì)節(jié)祷舀,如下圖所示。U-Net是這類方法的代表。
另一種方法是取消了池化層蔑鹦,并使用了空洞卷積夺克。
條件隨機(jī)場(chǎng)(Conditional Random Field箕宙,CRF)方法通常在后期處理中用于改進(jìn)分割效果嚎朽。CRF方法是一種基于底層圖像像素強(qiáng)度進(jìn)行“平滑”分割的圖模型,在運(yùn)行時(shí)會(huì)將像素強(qiáng)度相似的點(diǎn)標(biāo)記為同一類別柬帕。加入條件隨機(jī)場(chǎng)方法可以提高1~2%的最終評(píng)分值哟忍。
接下來(lái)是對(duì)一些有代表性的論文進(jìn)行梳理,包括了從FCN開(kāi)始的語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)的演變過(guò)程陷寝。這些網(wǎng)絡(luò)結(jié)構(gòu)都使用了VOC2012進(jìn)行評(píng)測(cè)锅很。
論文梳理
按照論文的發(fā)表順序,將會(huì)梳理一下論文:
FCN
SegNet
Dilated Convolutions
DeepLab (v1 & v2)
RefineNet
PSPNet
Large Kernel Matters
DeepLab v3
對(duì)于以上的每篇論文凤跑,下面將會(huì)分別指出主要貢獻(xiàn)并進(jìn)行解釋爆安,也貼出了這些結(jié)構(gòu)在VOC2012數(shù)據(jù)集中的測(cè)試分值IOU。
FCN
Fully Convolutional Networks for Semantic Segmentation
Submitted on 14 Nov 2014
主要貢獻(xiàn):
將端到端的卷積網(wǎng)絡(luò)推廣到語(yǔ)義分割中
將Imagenet分類任務(wù)中訓(xùn)練好的網(wǎng)絡(luò)結(jié)構(gòu)仔引,應(yīng)用與語(yǔ)義分割中
使用反卷積層進(jìn)行上采樣
提出了跳層連接來(lái)改善上采樣的粗糙程度
詳細(xì)解釋:
FCN將傳統(tǒng)CNN中的全連接層轉(zhuǎn)化成一個(gè)個(gè)的卷積層扔仓。如下圖所示,在傳統(tǒng)的CNN結(jié)構(gòu)中咖耘,前5層是卷積層翘簇,第6層和第7層分別是一個(gè)長(zhǎng)度為4096的一維向量,第8層是長(zhǎng)度為1000的一維向量儿倒,分別對(duì)應(yīng)1000個(gè)類別的概率版保。FCN將這3層表示為卷積層,卷積核的大小(通道數(shù)夫否,寬彻犁,高)分別為(4096,1,1)、(4096,1,1)凰慈、(1000,1,1)汞幢。所有的層都是卷積層,故稱為全卷積網(wǎng)絡(luò)溉瓶。
可以發(fā)現(xiàn)急鳄,經(jīng)過(guò)多次卷積(還有pooling)以后,得到的圖像越來(lái)越小,分辨率越來(lái)越低(粗略的圖像)堰酿,那么FCN是如何得到圖像中每一個(gè)像素的類別的呢疾宏?為了從這個(gè)分辨率低的粗略圖像恢復(fù)到原圖的分辨率,F(xiàn)CN使用了上采樣触创。例如經(jīng)過(guò)5次卷積(和pooling)以后坎藐,圖像的分辨率依次縮小了2,4,8岩馍,16碉咆,32倍。對(duì)于最后一層的輸出圖像蛀恩,需要進(jìn)行32倍的上采樣疫铜,以得到原圖一樣的大小。
這個(gè)上采樣是通過(guò)反卷積(deconvolution)和跳層連接實(shí)現(xiàn)的双谆。對(duì)第5層的輸出(32倍放大)反卷積到原圖大小壳咕,得到的結(jié)果還是不夠精確,一些細(xì)節(jié)無(wú)法恢復(fù)顽馋。于是Jonathan將第4層的輸出和第3層的輸出也依次反卷積谓厘,分別需要16倍和8倍上采樣,結(jié)果就精細(xì)一些了寸谜。下圖是這個(gè)卷積和反卷積上采樣的過(guò)程:
下圖是32倍竟稳,16倍和8倍上采樣得到的結(jié)果的對(duì)比,可以看到它們得到的結(jié)果越來(lái)越精確:
與傳統(tǒng)用CNN進(jìn)行圖像分割的方法相比熊痴,F(xiàn)CN有兩大明顯的優(yōu)點(diǎn):一是可以接受任意大小的輸入圖像他爸,而不用要求所有的訓(xùn)練圖像和測(cè)試圖像具有同樣的尺寸。二是更加高效愁拭,因?yàn)楸苊饬擞捎谑褂孟袼貕K而帶來(lái)的重復(fù)存儲(chǔ)和計(jì)算卷積的問(wèn)題讲逛。
同時(shí)FCN的缺點(diǎn)也比較明顯:一是得到的結(jié)果還是不夠精細(xì)。進(jìn)行8倍上采樣雖然比32倍的效果好了很多岭埠,但是上采樣的結(jié)果還是比較模糊和平滑盏混,對(duì)圖像中的細(xì)節(jié)不敏感。二是對(duì)各個(gè)像素進(jìn)行分類惜论,沒(méi)有充分考慮像素與像素之間的關(guān)系许赃,忽略了在通常的基于像素分類的分割方法中使用的空間規(guī)整(spatial regularization)步驟,缺乏空間一致性馆类。
補(bǔ)充:
反池化和反卷積:
FCN在VOC2012上的得分:
SegNet
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
Submitted on 2 Nov 2015
主要貢獻(xiàn):
將最大池化指數(shù)轉(zhuǎn)移至解碼器中混聊,改善了分割分辨率
詳細(xì)解釋:
在FCN網(wǎng)絡(luò)中,通過(guò)上卷積層和一些跳躍連接產(chǎn)生了粗糙的分割圖乾巧,為了提升效果而引入了更多的跳躍連接句喜。
然而,F(xiàn)CN網(wǎng)絡(luò)僅僅復(fù)制了編碼器特征沟于,而Segnet網(wǎng)絡(luò)復(fù)制了最大池化指數(shù)咳胃。這使得在內(nèi)存使用上,SegNet比FCN更為高效旷太。
SegNet在VOC2012上的得分:
空洞卷積
Multi-Scale Context Aggregation by Dilated Convolutions
Submitted on 23 Nov 2015
主要貢獻(xiàn):
使用了空洞卷積展懈,這是一種可用于密集預(yù)測(cè)的卷積層
提出在多尺度聚集條件下使用空洞卷積的“背景模塊”
詳細(xì)解釋:
池化操作增大了感受野销睁,有助于實(shí)現(xiàn)分類網(wǎng)絡(luò)。但是池化操作在分割過(guò)程中也降低了分辨率存崖。
因此冻记,該論文所提出的空洞卷積層工作方式如下圖:
空洞卷積層在不降低空間維度的前提下增大了相應(yīng)的感受野指數(shù)(注:在接下來(lái)將提到的DeepLab中,空洞卷積被稱為多孔卷積atrous convolution)来惧。從預(yù)訓(xùn)練好的分類網(wǎng)絡(luò)中(這里指的是VGG網(wǎng)絡(luò))移除最后兩個(gè)池化層冗栗,而用空洞卷積取代了隨后的卷積層。特別的是违寞,池化層3和池化層4之間的卷積操作為空洞卷積層2贞瞒,池化層4之后的卷積操作為空洞卷積層4偶房。這篇文章所提出的背景模型(frontend module)可在不增加參數(shù)數(shù)量的情況下獲得密集預(yù)測(cè)結(jié)果趁曼。
這篇文章所提到的背景模塊單獨(dú)訓(xùn)練了前端模塊的輸出,作為該模型的輸入棕洋。該模塊是由不同擴(kuò)張程度的空洞卷積層級(jí)聯(lián)而得到的挡闰,從而聚集多尺度背景模塊并改善前端預(yù)測(cè)效果。
在VOC2012上的得分:
評(píng)價(jià):
需要注意的是掰盘,該模型預(yù)測(cè)分割圖的大小是原圖像大小的1/8摄悯。這是幾乎所有方法中都存在的問(wèn)題,將通過(guò)內(nèi)插方法得到最終分割圖愧捕。
DeepLab (v1 奢驯, v2)
v1 :?Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
Submitted on 22 Dec 2014
詳細(xì)解釋:
DeepLab是Google搞出來(lái)的一個(gè)model,在VOC上的排名要比CRF as RNN的效果好次绘。Deeplab仍然采用了FCN來(lái)得到score map瘪阁,并且也是在VGG網(wǎng)絡(luò)上進(jìn)行fine-tuning。但是在得到score map的處理方式上邮偎,要比原FCN處理的優(yōu)雅很多管跺。
還記得FCN中是怎么得到一個(gè)更加dense的score map的嗎? 是一張500x500的輸入圖像禾进,直接在第一個(gè)卷積層上conv1_1加了一個(gè)100的padding豁跑。最終在fc7層勉強(qiáng)得到一個(gè)16x16的score map。雖然處理上稍顯粗糙泻云,但是畢竟人家是第一次將圖像分割在CNN上搞成end-to-end艇拍,并且在當(dāng)時(shí)performance是state-of-the-art。
而怎樣才能保證輸出的尺寸不會(huì)太小而又不必加100 padding這樣“粗糙的”做法呢宠纯?可能有人會(huì)說(shuō)減少池化層不就行了卸夕,這樣理論上是可以的,但是這樣直接就改變了原先可用的結(jié)構(gòu)了征椒,而且最重要的一點(diǎn)是就不能用以前的結(jié)構(gòu)參數(shù)進(jìn)行fine-tune了娇哆。
所以,Deeplab這里使用了一個(gè)非常優(yōu)雅的做法:將VGG網(wǎng)絡(luò)的pool4和pool5層的stride由原來(lái)的2改為了1,再加上 1 padding碍讨。就是這樣一個(gè)改動(dòng)治力,使得vgg網(wǎng)絡(luò)總的stride由原來(lái)的32變成8,進(jìn)而使得在輸入圖像為514x514時(shí)勃黍,fc7能得到67x67的score map, 要比FCN確實(shí)要dense很多很多宵统。
但是這種改變網(wǎng)絡(luò)結(jié)果的做法也帶來(lái)了一個(gè)問(wèn)題: stride改變以后,如果想繼續(xù)利用vgg model進(jìn)行fine tuning覆获,會(huì)導(dǎo)致后面感受野發(fā)生變化马澈。這個(gè)問(wèn)題在下圖(a) (b)體現(xiàn)出來(lái)了,注意花括號(hào)就是感受野的大信ⅰ:
感受野就是輸出featuremap某個(gè)節(jié)點(diǎn)的響應(yīng)對(duì)應(yīng)的輸入圖像的區(qū)域痊班。比如我們第一層是一個(gè)33的卷積核,那么我們經(jīng)過(guò)這個(gè)卷積核得到的featuremap中的每個(gè)節(jié)點(diǎn)都源自這個(gè)33的卷積核與原圖像中33的區(qū)域做卷積摹量,那么我們就稱這個(gè)featuremap的節(jié)點(diǎn)感受野大小為33涤伐。
具體計(jì)算公式為:
rn=(rn+1?1)?sn+knrn=(rn+1?1)?sn+kn
其中:rnrn表示第n層layer的輸入的某個(gè)區(qū)域,snsn表示第n層layer的步長(zhǎng)缨称,knkn表示kernel/pooling size
Deeplab提出了一種新的卷積凝果,帶孔的卷積:Atrous Convolution。來(lái)解決兩個(gè)看似有點(diǎn)矛盾的問(wèn)題:
既想利用已經(jīng)訓(xùn)練好的模型進(jìn)行fine-tuning睦尽,又想改變網(wǎng)絡(luò)結(jié)構(gòu)得到更加dense的score map器净。
如下圖(a) (b)所示,在以往的卷積或者pooling中当凡,一個(gè)filter中相鄰的權(quán)重作用在feature map上的位置上是連續(xù)的山害。為了保證感受野不發(fā)生變化,某一層的stride由2變?yōu)?以后宁玫,后面的層需要采用hole算法粗恢,具體來(lái)講就是將連續(xù)的連接關(guān)系是根據(jù)hole size大小變成skip連接的。上圖(C)中使用hole為2的Atrous Convolution則感受野依然為7欧瘪。(C)中的padding為2眷射,如果再增加padding大小,是不是又變”粗糙”了佛掖?當(dāng)然不會(huì)妖碉,因?yàn)槭茿trous Convolution,連接是skip的芥被,所以2個(gè)padding不會(huì)同時(shí)和一個(gè)filter相連欧宜。
所以,Atrous Convolution能夠保證這樣的池化后的感受野不變拴魄,從而可以fine tune冗茸,同時(shí)也能保證輸出的結(jié)果更加精細(xì)席镀。即:
DeepLab后面接了一個(gè)全連接條件隨機(jī)場(chǎng)(Fully-Connected Conditional Random Fields)對(duì)分割邊界進(jìn)行refine。 CRF簡(jiǎn)單來(lái)說(shuō)夏漱,能做到的就是在決定一個(gè)位置的像素值時(shí)(在這個(gè)paper里是label)豪诲,會(huì)考慮周圍鄰居的像素值(label),這樣能抹除一些噪音挂绰。但是通過(guò)CNN得到的feature map在一定程度上已經(jīng)足夠平滑了屎篱,所以short range的CRF沒(méi)什么意義。于是作者采用了fully connected CRF葵蒂,這樣考慮的就是全局的信息了交播。
另外,CRF是后處理践付,是不參與訓(xùn)練的秦士,在測(cè)試的時(shí)候?qū)eature map做完CRF后,再雙線性插值resize到原圖尺寸荔仁,因?yàn)閒eature map是8s的伍宦,所以直接放大到原圖是可以接受的。
Submitted on 2 Jun 2016
v1之后乏梁,論文作者又推出了DeepLab的v2版本。這里就簡(jiǎn)單講講改進(jìn)的地方关贵。
Multi-scale對(duì)performance提升很大遇骑,而我們知道,receptive field揖曾,視野域(或者感受野)落萎,是指feature map上一個(gè)點(diǎn)能看到的原圖的區(qū)域,那么如果有多個(gè)receptive field炭剪,是不是相當(dāng)于一種Multi-scale练链?出于這個(gè)思路,v2版本在v1的基礎(chǔ)上增加了一個(gè)多視野域奴拦。具體看圖可以很直觀的理解媒鼓。
rate也就是hole size。這個(gè)結(jié)構(gòu)作者稱之為ASPP(atrous spatial pyramid pooling)错妖,基于洞的空間金字塔绿鸣。
此外,DeepLab v2有兩個(gè)基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)暂氯,一個(gè)是基于vgg16潮模,另外一個(gè)是基于resnet101的
在VOC2012上的得分:
RefineNet
RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
Submitted on 20 Nov 2016
主要貢獻(xiàn):
帶有精心設(shè)計(jì)解碼器模塊的編碼器-解碼器結(jié)構(gòu)
所有組件遵循殘差連接的設(shè)計(jì)方式
詳細(xì)解釋:
使用空洞卷積的方法也存在一定的缺點(diǎn),它的計(jì)算成本比較高痴施,同時(shí)由于需處理大量高分辨率特征圖譜擎厢,會(huì)占用大量?jī)?nèi)存究流,這個(gè)問(wèn)題阻礙了高分辨率預(yù)測(cè)的計(jì)算研究。DeepLab得到的預(yù)測(cè)結(jié)果只有原始輸入的1/8大小动遭。所以梯嗽,這篇論文提出了相應(yīng)的編碼器-解碼器結(jié)構(gòu),其中編碼器是ResNet-101模塊沽损,解碼器為能融合編碼器高分辨率特征和先前RefineNet模塊低分辨率特征的RefineNet模塊灯节。
每個(gè)RefineNet模塊包含一個(gè)能通過(guò)對(duì)較低分辨率特征進(jìn)行上采樣來(lái)融合多分辨率特征的組件,以及一個(gè)能基于步幅為1及5×5大小的重復(fù)池化層來(lái)獲取背景信息的組件绵估。這些組件遵循恒等映射的思想炎疆,采用了殘差連接的設(shè)計(jì)方式。
在VOC2012上的得分:
PSPNet
Submitted on 4 Dec 2016
主要貢獻(xiàn):
提出了金字塔池化模塊來(lái)聚合背景信息
使用了附加損失(auxiliary loss)
詳細(xì)解釋:
全局場(chǎng)景分類很重要国裳,由于它提供了分割類別分布的線索形入。金字塔池化模塊使用大內(nèi)核池化層來(lái)捕獲這些信息。和上文提到的空洞卷積論文一樣缝左,PSPNet也用空洞卷積來(lái)改善Resnet結(jié)構(gòu)亿遂,并添加了一個(gè)金字塔池化模塊。該模塊將ResNet的特征圖譜連接到并行池化層的上采樣輸出渺杉,其中內(nèi)核分別覆蓋了圖像的整個(gè)區(qū)域蛇数、半各區(qū)域和小塊區(qū)域。
在ResNet網(wǎng)絡(luò)的第四階段(即輸入到金字塔池化模塊后)是越,除了主分支的損失之外又新增了附加損失耳舅,這種思想在其他研究中也被稱為中級(jí)監(jiān)督(intermediate supervision)。
在VOC2012上的得分:
大內(nèi)核
Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network
Submitted on 8 Mar 2017
主要貢獻(xiàn):
提出了一種帶有大維度卷積核的編碼器-解碼器結(jié)構(gòu)倚评。
詳細(xì)解釋:
這項(xiàng)研究通過(guò)全局卷積網(wǎng)絡(luò)來(lái)提高語(yǔ)義分割的效果浦徊。
語(yǔ)義分割不僅需要圖像分割,而且需要對(duì)分割目標(biāo)進(jìn)行分類天梧。在分割結(jié)構(gòu)中不能使用全連接層盔性,這項(xiàng)研究發(fā)現(xiàn)可以使用大維度內(nèi)核來(lái)替代。
采用大內(nèi)核結(jié)構(gòu)的另一個(gè)原因是呢岗,盡管ResNet等多種深層網(wǎng)絡(luò)具有很大的感受野冕香,有相關(guān)研究發(fā)現(xiàn)網(wǎng)絡(luò)傾向于在一個(gè)小得多的區(qū)域來(lái)獲取信息,并提出了有效感受野的概念敷燎。
大內(nèi)核結(jié)構(gòu)計(jì)算成本高暂筝,且具有很多結(jié)構(gòu)參數(shù)。因此硬贯,k×k卷積可近似成1×k+k×1和k×1+1×k的兩種分布組合焕襟。這個(gè)模塊稱為全局卷積網(wǎng)絡(luò)(Global Convolutional Network, GCN)。
接下來(lái)談結(jié)構(gòu)饭豹,ResNet(不帶空洞卷積)組成了整個(gè)結(jié)構(gòu)的編碼器部分鸵赖,同時(shí)GCN網(wǎng)絡(luò)和反卷積層組成了解碼器部分务漩。該結(jié)構(gòu)還使用了一種稱作邊界細(xì)化(Boundary Refinement,BR)的簡(jiǎn)單殘差模塊它褪。GCN結(jié)構(gòu):
在VOC2012上的得分:
DeepLab v3
Rethinking Atrous Convolution for Semantic Image Segmentation
Submitted on 17 Jun 2017
主要貢獻(xiàn):
改進(jìn)了空間維度上的金字塔空洞池化方法(ASPP)
該模塊級(jí)聯(lián)了多個(gè)空洞卷積結(jié)構(gòu)
詳細(xì)解釋:
與在DeepLab v2網(wǎng)絡(luò)饵骨、空洞卷積中一樣,這項(xiàng)研究也用空洞卷積/多空卷積來(lái)改善ResNet模型茫打。這篇論文還提出了三種改善ASPP的方法居触,涉及了像素級(jí)特征的連接、加入1×1的卷積層和三個(gè)不同比率下3×3的空洞卷積老赤,還在每個(gè)并行卷積層之后加入了批量歸一化操作轮洋。
級(jí)聯(lián)模塊實(shí)際上是一個(gè)殘差網(wǎng)絡(luò)模塊,但其中的空洞卷積層是以不同比率構(gòu)建的抬旺。這個(gè)模塊與空洞卷積論文中提到的背景模塊相似弊予,但直接應(yīng)用到中間特征圖譜中,而不是置信圖譜开财。置信圖譜是指其通道數(shù)與類別數(shù)相同的CNN網(wǎng)絡(luò)頂層特征圖譜汉柒。
該論文獨(dú)立評(píng)估了這兩個(gè)所提出的模型,嘗試結(jié)合將兩者結(jié)合起來(lái)并沒(méi)有提高實(shí)際性能责鳍。兩者在驗(yàn)證集上的實(shí)際性能相近碾褂,帶有ASPP結(jié)構(gòu)的模型表現(xiàn)略好一些,且沒(méi)有加入CRF結(jié)構(gòu)薇搁。
這兩種模型的性能優(yōu)于DeepLab v2模型的最優(yōu)值斋扰,文章中還提到性能的提高是由于加入了批量歸一化層和使用了更優(yōu)的方法來(lái)編碼多尺度背景。
在VOC2012上的得分:
References:
A Review on Deep Learning Techniques Applied to Semantic Segmentation翻譯