DeepLab: Semantic Images Segmentation with DCNNs,Atrous Convolution,and Fully connected CRFs

Abstract


DLsemantic image segmentation腻异,本文有three main contributions:

  1. atrous convolution:提高feature map的分辨率 扩灯,不增加參數(shù)的前提下增大感受野俐镐。
  2. Atrous Spatial Pyramid Pooling(ASPP):來對不同的尺度做分割.提高了效果筐喳。
  3. CRF:進(jìn)一步提升localization的性能

INTRODUCTION

3個挑戰(zhàn)和解決辦法:

  1. 連續(xù)的max-pooling and downsampling 使得feature map的size減小太多贺待,不利于后續(xù)處理.
    feature map減少太快的原因是因為max pooling,downsampling(striding)依次用在原圖上面岭妖,導(dǎo)致feature map size迅速減少.為了克服這個問題临庇,DeepLab對于網(wǎng)絡(luò)的最后幾層并沒有再繼續(xù)使用pooling,downsampling(striding)反璃,而是用upsample來替代。作者使用 atrous convolution來作為upsample的手段假夺。之后再使用bilinear interpolation來恢復(fù)到原圖大小淮蜈。
  2. 多尺度的圖片
    最直接的方法是利用原圖的不同尺寸輸入到針對不同尺寸的DCNN中,然后將這些CNN的feature map結(jié)合起來生成最后的結(jié)果已卷,事實證明這樣做效果很好梧田,但是操作太麻煩,太耗時侧蘸。受SPP的啟發(fā)裁眯,作者提出了atrous spatial pyramid pooling直接在原圖這一個input的基礎(chǔ)上提取中多scale的信息。
  3. invariance to spatial transformations
    FCN是采取skip layer的措施讳癌,作者是采用 全連接的CRF 這樣做的優(yōu)勢 是: 速度快穿稳,準(zhǔn)確率高,結(jié)構(gòu)簡單

網(wǎng)絡(luò)架構(gòu)

先使用deep network抽取feature map,去掉deep network后面的全連接層晌坤,用atrous convolution層替代逢艘,用最原始的雙線性插值恢復(fù)到原圖大小,最后使用CRF平滑邊界骤菠,得到最終語義分割結(jié)果.

METHODS

  1. Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement
    1-D :


    2-D:
    給定一張圖片它改,首先一個下采樣使其變成原來的一半,再來一個kernel_size = 7的convolution,(垂直高斯導(dǎo)數(shù)是什么東東)娩怎,如果把特征圖放到原圖片中搔课,發(fā)現(xiàn)得到的特征圖只是原來圖片的四分之一的響應(yīng)。但是如果我們使用atrous convolution 截亦,在整張圖片上進(jìn)行卷積運(yùn)算爬泥,就能夠得到整張圖片的特征響應(yīng)。其中崩瓤,將原始的濾波器2倍的上采樣袍啡,即在濾波器的值與值之間插入一個0。雖然濾波器變大了却桶,但是我們只需要考慮非0值境输,因此濾波器的參數(shù),每個位置的操作數(shù)并未改變颖系。

    Atrous convolution 還能擴(kuò)大感受野嗅剖,當(dāng)atrous convolution 的rate = r ,kernel size =k 時,在不增加參數(shù)和計算量的前提下嘁扼,變相的擴(kuò)大了kernel size.實際的kernel大小k<sub>e</sub> = k + (k-1)(r-1)信粮。關(guān)于感受野擴(kuò)大的解釋的較清晰的,請移步here趁啸。
    實現(xiàn)Atrous convolution 方式有兩種强缘,具體的請看原論文督惰。

  2. ASPP



    在SPP中,是根據(jù)輸入的size來確定池化的size旅掂,才能得到一樣的特征圖赏胚,但在這里,是利用不同rate的Atrous Convolution商虐,再進(jìn)一步的處理觉阅,從而得到一樣的特征圖。称龙。留拾。好吧戳晌,其實并不知道他怎么就能一致了,不同的輸入size,即使經(jīng)過不同rate的Atrous Convolution诀拭,得到的額feature map size還不是不同的么吹缔??豪嚎?

  3. Structured Prediction with Fully-Connected Conditional Random Fields for Accurate Boundary Recovery

可以看到搔驼,經(jīng)過CRFs的處理,結(jié)果還是很棒的

CRF經(jīng)常用于 pixel-wise的label 預(yù)測侈询。把像素的label作為隨機(jī)變量舌涨,像素與像素間的關(guān)系作為邊,即構(gòu)成了一個條件隨機(jī)場且能夠獲得全局觀測時扔字,CRF便可以對這些label進(jìn)行建模囊嘉。全局觀測通常就是輸入圖像。


令隨機(jī)變量Xi是像素i的標(biāo)簽革为,Xi∈L=l1,l2,...,lL扭粱,令變量X是由X1,X2,...,XN組成的隨機(jī)向量,N就是圖像的像素個數(shù)震檩。 假設(shè)圖 G=(V,E)琢蛤,其中V=X1,X2,...,XN,全局觀測為I 抛虏。條件隨機(jī)場符合吉布斯分布博其,(I,X)可以被模型為CRF,



在全連接的CRF模型中迂猴,標(biāo)簽x 的能量可以表示為:


其中慕淡, θi(xi) 是一元能量項,代表著將像素 i分成label xi 的能量错忱,二元能量項φp(xi,xj)是對像素點 i儡率、j同時分割成xi挂据、xj的能量。 二元能量項描述像素點與像素點之間的關(guān)系儿普,鼓勵相似像素分配相同的標(biāo)簽崎逃,而相差較大的像素分配不同標(biāo)簽,而這個“距離”的定義與顏色值和實際相對距離有關(guān)眉孩。所以這樣CRF能夠使圖片盡量在邊界處分割个绍。最小化上面的能量就可以找到最有可能的分割。而全連接條件隨機(jī)場的不同就在于浪汪,二元勢函數(shù)描述的是每一個像素與其他所有像素的關(guān)系巴柿,所以叫“全連接”。
具體來說死遭,在DeepLab中一元能量項直接來自于前端FCN的輸出广恢,計算方式如下:



而二元能量項的計算方式如下:


其中,μ(xi,xj)=1呀潭,當(dāng)i≠j時钉迷,其他時候值為0。也就是說當(dāng)標(biāo)簽不同時钠署,才有懲罰糠聪。剩余表達(dá)式是在不同特征空間的兩個高斯核函數(shù),第一個基于雙邊高斯函數(shù)基于像素位置p和RGB值I谐鼎,強(qiáng)制相似RGB和位置的像素分在相似的label中舰蟆,第二個只考慮像素位置,等于施加一個平滑項狸棍。 超參數(shù)σα身害,σβ,σγ控制高斯核的權(quán)重隔缀。

REFERENCES

從FCN到DeepLab
董卓瑤 deeplab筆記
paper

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末题造,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子猾瘸,更是在濱河造成了極大的恐慌界赔,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件牵触,死亡現(xiàn)場離奇詭異淮悼,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)揽思,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進(jìn)店門袜腥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人钉汗,你說我怎么就攤上這事羹令±鹇牛” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵福侈,是天一觀的道長酒来。 經(jīng)常有香客問我,道長肪凛,這世上最難降的妖魔是什么堰汉? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮伟墙,結(jié)果婚禮上翘鸭,老公的妹妹穿的比我還像新娘。我一直安慰自己戳葵,他們只是感情好就乓,可當(dāng)我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著譬淳,像睡著了一般档址。 火紅的嫁衣襯著肌膚如雪盹兢。 梳的紋絲不亂的頭發(fā)上邻梆,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天,我揣著相機(jī)與錄音绎秒,去河邊找鬼浦妄。 笑死,一個胖子當(dāng)著我的面吹牛见芹,可吹牛的內(nèi)容都是我干的剂娄。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼玄呛,長吁一口氣:“原來是場噩夢啊……” “哼阅懦!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起徘铝,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤耳胎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后惕它,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體怕午,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年淹魄,在試婚紗的時候發(fā)現(xiàn)自己被綠了郁惜。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡甲锡,死狀恐怖兆蕉,靈堂內(nèi)的尸體忽然破棺而出羽戒,到底是詐尸還是另有隱情,我是刑警寧澤虎韵,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布半醉,位于F島的核電站,受9級特大地震影響劝术,放射性物質(zhì)發(fā)生泄漏缩多。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一养晋、第九天 我趴在偏房一處隱蔽的房頂上張望衬吆。 院中可真熱鬧,春花似錦绳泉、人聲如沸逊抡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽冒嫡。三九已至,卻和暖如春四苇,著一層夾襖步出監(jiān)牢的瞬間孝凌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工月腋, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留蟀架,地道東北人。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓榆骚,卻偏偏與公主長得像片拍,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子妓肢,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容