Abstract
在本文中震肮,我們重溫一下Atrous Convolution
的妙用,Atrous Convolution
能在調(diào)整濾波器的感受野的的同時,解決DCNNs
造成的分辨率降低的問題。同時蹦玫,為了解決圖像語義分割的多尺度問題,設(shè)計了很多模型刘绣,包括并行或者串行的使用不同的rate的Atrous Convolution
樱溉。更進(jìn)一步的提出了ASPP
。接下來會詳細(xì)的說明實現(xiàn)的具體的細(xì)節(jié)和訓(xùn)練過程纬凤,我們的Deeplabv3
在沒有Dense crf
的后期處理的條件下取得了非常不錯的成績福贞,達(dá)到了state-of-art
。
1. Introduction
對使用DCNNs
進(jìn)行圖片語義分割的任務(wù)來說停士,我們認(rèn)為主要有兩大挑戰(zhàn)肚医,第一是由DCNNs
中的下采樣(如pooling,convolution stride等)造成的特征圖分辨率降低绢馍,這種局部的不變性會對密集的預(yù)測任務(wù)造成干擾向瓷,因為丟失了很多空間信息肠套。為了解決這一問題,提出了Atrous Convolution
猖任,也稱為Dilated convolution
你稚,被證明對圖片語義分割的任務(wù)很有效。通過使用Atrous Convolution
朱躺,允許我們使用在ImageNet 上預(yù)訓(xùn)練好的模型來提取更加密集的特征圖刁赖,也就是空間分辨率更高的特征圖。
第二個則是物體存在的多尺度問題长搀,主要有4種策略來解決這個問題宇弛。
如上圖所示,第一種辦法是對不同的
sacle
的image
進(jìn)行并行的處理源请,再融合在一起枪芒。第二辦法是使用編碼和解碼的對稱結(jié)構(gòu),利用來自編碼器部分的多尺度特征并從解碼器部分恢復(fù)空間分辨率谁尸。第三種辦法是在原始的網(wǎng)絡(luò)上級聯(lián)一些模塊舅踪,用以捕獲更多的信息。第四則是大名鼎鼎的SPP
的使用了良蛮。
在級聯(lián)模塊和SPP
的框架下抽碌,我們使用Atrous Convolution
來增大濾波器的感受野去融合多尺度的語境信息。特別的是决瞳,我們提出的網(wǎng)絡(luò)由不同rate的Atrous Convolution
货徙,BN
層等組成。我們在并聯(lián)或者串聯(lián)的模塊上做實驗皮胡,發(fā)現(xiàn)一個重要的實際問題痴颊,就是當(dāng)使用3×3的卷積核(Atrous Convolution
的rate很大)時,由于圖片邊界的影響并不能捕獲遠(yuǎn)程信息胸囱,有效簡單地退化為1×1卷積祷舀,并提出將圖像級特征納入ASPP模塊。此外烹笔,我們詳細(xì)介紹實施細(xì)節(jié)裳扯,分享訓(xùn)練模型的經(jīng)驗,包括一個簡單而有效的引導(dǎo)方法谤职,用于處理稀有和精細(xì)注釋的對象饰豺。最后再提出模型Deeplabv3
,在PASCAL VOC 2012的test set上的mIOU取得了85.7%的成績(沒有Dense crf
的后期處理的條件下)允蜈。
2. Related Work
Image pyramid
Encoder-decoder
Context module
Spatial pyramid pooling
具體的請看原paper吧
3. Methods
在本節(jié)中冤吨,我們將回顧如何應(yīng)用Atrous Convolution
來提取密集特征圖用于語義分割蒿柳。然后,我們討論使用級聯(lián)或并聯(lián)的Atrous Convolution
模塊漩蟆。
3.1. Atrous Convolution for Dense Feature Extraction
前面還一堆已經(jīng)講過的垒探,就不贅述了。如下怠李,一個二維的信號的Atrous Convolution
的輸出表達(dá)式
rate的具體含義可見上面的
Atrous Convolution
示意圖夷蚊。
再提出一個概念output_stride
,個人認(rèn)為可以簡要的理解為輸出的特征圖是輸入的多少分之一。如output_stride=32
時髓介,輸入即為輸出的32倍惕鼓,而這也是一般的image classification
任務(wù)常用的倍率(在全連接層或者全局最大/平均池化層之前的輸出)。因此為了得到密集的特征圖就應(yīng)該減小output_stride
唐础,我們把下采樣的Convolution
全部換成了Atrous Convolution(rate=2)
,可參考這里箱歧。
3.2. Going Deeper with Atrous Convolution
如上圖,在級聯(lián)模型中(類似于原始的
ResNet
)彻犁,每個Block都是幾個卷積層的疊加叫胁,使用了Atrous Convolution
比沒有的 能夠獲取更密集的特征圖,這正是其優(yōu)勢所在之處汞幢。
3.2.1 Multigrid
這個比較有意思了驼鹅,
final atrous rate = Multi Grid * corresponding rate
.(每個Block有三個卷積層)
3.3. Atrous Spatial Pyramid Pooling(ASPP)
這是deeplab中關(guān)于ASPP
的描述,如下圖
ASPP
能捕獲到多尺度的信息森篷,但是隨著rate的增大输钩,出現(xiàn)了如下圖的情況:
就是說,當(dāng)
atrous rate
在極限的情況下(等于特征圖的大兄僦恰)买乃,3×3的卷積退化成為了1×1的卷積(只有一個權(quán)重(中心)是有效的)
為了解決這個問題,并且將全局的上下文信息合并到模型中钓辆,在模型最后得到的特征圖中采用全局平均池化剪验,再給256個1×1的卷積(BN),然后雙線性地將特征圖 上采樣 到所需的空間維度前联。最后功戚,改善的ASPP由一個1×1的卷積,三個3×3的卷積似嗤,且rate=(6,12,18)當(dāng)output_stride=16
時啸臀,如下圖所示:
當(dāng)output_stride=8時,rate=2×(6,12,18).并行處理后的特征圖在集中通過256個1×1卷積(BN),最后就是輸出了烁落,依舊是1×1卷積乘粒。
4. Experimental Evaluation
4.1. Training Protocol
分別介紹了:
Learning rate policy
Crop size
Batch normalization
Upsampling logits
Data augmentation
4.2. Going Deeper with Atrous Convolution
這是加了
block7
的ResNet-50
在不同output_stride
的條件下的試驗結(jié)果豌注。
這是層次變深的結(jié)果。
這是
Multi-Grid
的不同rate的結(jié)果灯萍。
不同的辦法在VAL set上的結(jié)果轧铁。
4.3. Atrous Spatial Pyramid Pooling
這是不同rate的ASPP的結(jié)果。
不同的辦法在VAL set上的結(jié)果竟稳。
5. Conclusions
詳情請看原paper
[完]