FANet:Deep Feature Aggregation for Real-Time Semantic Segmentation
?DFANet是曠視發(fā)布于2019年4月份的一個針對于道路場景理解的語義分割網(wǎng)絡(luò)犁柜,該網(wǎng)絡(luò)的backbone采用的是輕量級的Xception網(wǎng)絡(luò)找岖,然后分別通過sub-network和sub-stage來進行級聯(lián)聚合特征信息大审。
? ? ? ? 該網(wǎng)絡(luò)模型的設(shè)計出發(fā)點是為了更好的更充分的利用下采樣過程中各個特征圖的信息贿肩,文中利用兩種策略來實現(xiàn)不同特征圖的信息聚合,第一個是將backbone采集的不同尺寸的特征信息來進行重復使用聂使,進行語義層和空間層的信息融合(對應的sub-network)壁拉。第二個是在網(wǎng)絡(luò)結(jié)構(gòu)的過程路徑中,通過不同的階段的特征組合來提升網(wǎng)絡(luò)特征的表現(xiàn)能力(對應sub-stage)岩遗。
網(wǎng)絡(luò)結(jié)構(gòu)介紹
網(wǎng)絡(luò)的結(jié)構(gòu)圖如下所示扇商。
????????從圖1也可以看出凤瘦,sub-network的重點是將前一個backbone的高層特征圖上采樣到下一個backbone的輸入宿礁,以精修預測結(jié)果。sub-network也可以看作是一個將像素預測從粗略到精細的過程蔬芥。sub-stage則是在相應的階段中的“粗略”到“精細”部分進行不同特征之間的組合梆靖。這樣可以通過組合相同維度的不同特征圖來傳遞感受野和高維度的結(jié)構(gòu)細節(jié)。網(wǎng)絡(luò)結(jié)構(gòu)中的fc attention模塊是參考SENet的設(shè)計理念笔诵,通過逐通道的選擇特征圖比例來提高網(wǎng)絡(luò)的表現(xiàn)能力返吻。因此,為了更好地提取語義信息和類別信息乎婿,F(xiàn)C attention中的全連接層在ImageNet上預訓練得到测僵。( 在分類任務中,網(wǎng)絡(luò)的最后一般都是Global Pooling + FC谢翎,得到一個類別概率向量捍靠。)FC后接一個1 x 1的卷積,匹配每個backbone輸出特征圖的channel維度森逮。
? ? ? ? 文中指出了輕量化模型中多支路輸入網(wǎng)絡(luò)的不足之處:1.多支路輸入網(wǎng)絡(luò)缺少了不同支路之間對于高層特征的組合榨婆;2不同的支路之間也缺少了信息的交互;3.對于高分辨率的輸入圖片來說限制了網(wǎng)絡(luò)的推理速度提升褒侧。
實驗部分
網(wǎng)絡(luò)的初始實驗部分良风,作者以Xception作為backbone進行實驗谊迄,作者實驗對比了Xception+ASPP與resnet50的效果,發(fā)現(xiàn)二者能夠取得近似的準確率烟央,但是Xception+ASPP的推理速度要快很多统诺,證明了ASPP模塊的有效性,但是ASPP對于輕量化模型來說計算量還是偏大疑俭。作者在后面又加入了Fully connected的自注意力模塊篙议,發(fā)現(xiàn)相較于不加入FC的Xception模型,準確率能夠提升4-6%百分點怠硼。因此作者采用Xception+fc attention模型作為backbone鬼贱,注意,加入FC attention 并沒有增加太多的計算量香璃。在此基礎(chǔ)上驗證后續(xù)sub-network和sub-stage的效果这难。作者采用的backbone有XceptionA和XceptionB兩種,但是只是網(wǎng)絡(luò)特征層數(shù)量上的區(qū)別葡秒。
????在進行特征聚合時姻乓,其實驗結(jié)果如下圖所示。
上圖中第一行是輸入圖片眯牧,第二行表示的是第一個backbone的預測結(jié)果蹋岩,可以看出有大量噪音;第三行表示前二個backbone使用后的結(jié)果学少,對比前一行剪个,該backbone中因為添加了很多的細節(jié)信息,結(jié)果更加平滑版确;對于圖像結(jié)果的主觀評估也驗證了 DFANet 結(jié)構(gòu)的有效性扣囊。如下圖所示,隨著特征提取塔數(shù)的加多绒疗,分割結(jié)果中錯誤的細節(jié)越來越少侵歇,直到逼近真實答案。這說明隨著越來越多的特征被聚合吓蘑,原來“看不明白”的地方可以被更正確的理解與預測惕虑。
最終的準確率結(jié)果如下圖所示。
根據(jù)解碼器的操作磨镶,backboneA x3的精度要比backboneA? x2更好溃蔫。與前面的結(jié)論一樣,這也說明了細節(jié)是在sub-stage3中學習得到的棋嘲,而噪聲是在不同比例輸出的組合中被逐漸去除酒唉。
最后是推理速度的對比,直接上圖作為展示沸移。