Abstract
用
DL
做semantic image segmentation
腻异,本文有three main contributions:
-
atrous convolution
:提高feature map的分辨率 扩灯,不增加參數(shù)的前提下增大感受野俐镐。 -
Atrous Spatial Pyramid Pooling(ASPP)
:來對不同的尺度做分割.提高了效果筐喳。 -
CRF
:進(jìn)一步提升localization的性能
INTRODUCTION
3個挑戰(zhàn)和解決辦法:
- 連續(xù)的
max-pooling and downsampling
使得feature map的size減小太多贺待,不利于后續(xù)處理.
feature map減少太快的原因是因為max pooling,downsampling(striding)依次用在原圖上面岭妖,導(dǎo)致feature map size迅速減少.為了克服這個問題临庇,DeepLab對于網(wǎng)絡(luò)的最后幾層并沒有再繼續(xù)使用pooling,downsampling(striding)反璃,而是用upsample來替代。作者使用 atrous convolution來作為upsample的手段假夺。之后再使用bilinear interpolation來恢復(fù)到原圖大小淮蜈。 - 多尺度的圖片
最直接的方法是利用原圖的不同尺寸輸入到針對不同尺寸的DCNN中,然后將這些CNN的feature map結(jié)合起來生成最后的結(jié)果已卷,事實證明這樣做效果很好梧田,但是操作太麻煩,太耗時侧蘸。受SPP的啟發(fā)裁眯,作者提出了atrous spatial pyramid pooling直接在原圖這一個input的基礎(chǔ)上提取中多scale的信息。 - invariance to spatial transformations
FCN是采取skip layer的措施讳癌,作者是采用 全連接的CRF 這樣做的優(yōu)勢 是: 速度快穿稳,準(zhǔn)確率高,結(jié)構(gòu)簡單
網(wǎng)絡(luò)架構(gòu)
METHODS
-
Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement
1-D :
2-D:
給定一張圖片它改,首先一個下采樣使其變成原來的一半,再來一個kernel_size = 7的convolution,(垂直高斯導(dǎo)數(shù)是什么東東)娩怎,如果把特征圖放到原圖片中搔课,發(fā)現(xiàn)得到的特征圖只是原來圖片的四分之一的響應(yīng)。但是如果我們使用atrous convolution 截亦,在整張圖片上進(jìn)行卷積運(yùn)算爬泥,就能夠得到整張圖片的特征響應(yīng)。其中崩瓤,將原始的濾波器2倍的上采樣袍啡,即在濾波器的值與值之間插入一個0。雖然濾波器變大了却桶,但是我們只需要考慮非0值境输,因此濾波器的參數(shù),每個位置的操作數(shù)并未改變颖系。
Atrous convolution
還能擴(kuò)大感受野嗅剖,當(dāng)atrous convolution 的rate = r ,kernel size =k 時,在不增加參數(shù)和計算量的前提下嘁扼,變相的擴(kuò)大了kernel size.實際的kernel大小k<sub>e</sub> = k + (k-1)(r-1)
信粮。關(guān)于感受野擴(kuò)大的解釋的較清晰的,請移步here趁啸。
實現(xiàn)Atrous convolution
方式有兩種强缘,具體的請看原論文督惰。 -
ASPP
在SPP中,是根據(jù)輸入的size來確定池化的size旅掂,才能得到一樣的特征圖赏胚,但在這里,是利用不同rate的Atrous Convolution商虐,再進(jìn)一步的處理觉阅,從而得到一樣的特征圖。称龙。留拾。好吧戳晌,其實并不知道他怎么就能一致了,不同的輸入size,即使經(jīng)過不同rate的Atrous Convolution诀拭,得到的額feature map size還不是不同的么吹缔??豪嚎?
Structured Prediction with Fully-Connected Conditional Random Fields for Accurate Boundary Recovery
CRF經(jīng)常用于 pixel-wise的label 預(yù)測侈询。把像素的label作為隨機(jī)變量舌涨,像素與像素間的關(guān)系作為邊,即構(gòu)成了一個條件隨機(jī)場且能夠獲得全局觀測時扔字,CRF便可以對這些label進(jìn)行建模囊嘉。全局觀測通常就是輸入圖像。
令隨機(jī)變量Xi是像素i的標(biāo)簽革为,Xi∈L=l1,l2,...,lL扭粱,令變量X是由X1,X2,...,XN組成的隨機(jī)向量,N就是圖像的像素個數(shù)震檩。 假設(shè)圖 G=(V,E)琢蛤,其中V=X1,X2,...,XN,全局觀測為I 抛虏。條件隨機(jī)場符合吉布斯分布博其,(I,X)可以被模型為CRF,
在全連接的CRF模型中迂猴,標(biāo)簽x 的能量可以表示為:
其中慕淡, θi(xi) 是一元能量項,代表著將像素 i分成label xi 的能量错忱,二元能量項φp(xi,xj)是對像素點 i儡率、j同時分割成xi挂据、xj的能量。 二元能量項描述像素點與像素點之間的關(guān)系儿普,鼓勵相似像素分配相同的標(biāo)簽崎逃,而相差較大的像素分配不同標(biāo)簽,而這個“距離”的定義與顏色值和實際相對距離有關(guān)眉孩。所以這樣CRF能夠使圖片盡量在邊界處分割个绍。最小化上面的能量就可以找到最有可能的分割。而全連接條件隨機(jī)場的不同就在于浪汪,二元勢函數(shù)描述的是每一個像素與其他所有像素的關(guān)系巴柿,所以叫“全連接”。
具體來說死遭,在DeepLab中一元能量項直接來自于前端FCN的輸出广恢,計算方式如下:
而二元能量項的計算方式如下:
其中,μ(xi,xj)=1呀潭,當(dāng)i≠j時钉迷,其他時候值為0。也就是說當(dāng)標(biāo)簽不同時钠署,才有懲罰糠聪。剩余表達(dá)式是在不同特征空間的兩個高斯核函數(shù),第一個基于雙邊高斯函數(shù)基于像素位置p和RGB值I谐鼎,強(qiáng)制相似RGB和位置的像素分在相似的label中舰蟆,第二個只考慮像素位置,等于施加一個平滑項狸棍。 超參數(shù)σα身害,σβ,σγ控制高斯核的權(quán)重隔缀。