face++ eccv2008的paper,主要提出bisenet锭汛,用于實(shí)時(shí)語義分割尚洽。感覺寫的還是蠻不錯(cuò)的,結(jié)構(gòu)清晰缤底,通俗易懂嗅定。自己需要學(xué)習(xí)的是怎么說這個(gè)story自娩,怎么create出創(chuàng)新點(diǎn),其實(shí)架構(gòu)很簡(jiǎn)單渠退,但是說的特別好忙迁,為什么要這么做,還給了每一個(gè)部分起了一個(gè)好title.主要設(shè)計(jì)了BiSeNet,其中spatial path 負(fù)責(zé)保留空間信息并且生成高分辨率特征(三個(gè)卷積)碎乃,context path 獲取足夠的感受野(用了快速的下采樣动漾,用FFM模塊(feature fusion module)對(duì)特征進(jìn)行融合,還add了類似與senet的注意力機(jī)制對(duì)特征進(jìn)行加權(quán)荠锭。該網(wǎng)絡(luò)在titian xp 上105FPS 且MIOU為0.684(cityscape數(shù)據(jù)集)。
首先晨川,先介紹了現(xiàn)有加速的方法:1.crop或者resize圖片 2. 減少特征通道數(shù)证九,尤其在網(wǎng)絡(luò)的早期3.丟棄網(wǎng)絡(luò)的最后階段(ENet),使模型變得緊湊共虑。三種方式的缺點(diǎn)如下 1.損失了空間細(xì)節(jié)愧怜,特別是邊緣 2.弱化了空間信息 3. 少了最后階段的下采樣,感受野變小妈拌,影響大物體的分割(對(duì)自己來說特別重要)這些方法為了速度犧牲了acc,在實(shí)際中處于劣勢(shì)拥坛。為了彌補(bǔ)空間信息,u-shape結(jié)構(gòu)被提出來尘分,粗暴的對(duì)特征進(jìn)行融合猜惋。但是這種方法計(jì)算太慢而且不能還原通過剪裁和resize的空間信息。so,還是我家提出的BiSeNet好培愁。
main contribution:
Spatial Path
在語義分割任務(wù)中著摔,空間分辨率和感受野很難兩全,尤其是在實(shí)時(shí)語義分割的情況下定续,現(xiàn)有方法通常是利用小的輸入圖像或者輕量主干模型實(shí)現(xiàn)加速谍咆。但是小圖像相較于原圖像缺失了很多空間信息禾锤,而輕量級(jí)模型則由于裁剪通道而損害了空間信息。
本文提出 Spatial Path來保留原輸入圖像的空間尺度摹察,并編碼豐富的空間信息恩掷。Spatial Path為三個(gè)(stride為 2 的卷積+bn+ ReLU)。因此供嚎,該path輸出的feature map為原圖像 1/8 黄娘。其含有豐富的空間信息due to 巨大的size。
Context path
用來獲取足夠的感受野查坪,在語義分割中寸宏,感受野十分重要,現(xiàn)有的增大感受野的方式 pyramid pooling, atrous spatial pyramid pooling,large kernel等偿曙,消耗內(nèi)存和計(jì)算氮凝,降低速度。
Context path 通過初始化輕量模型與global average pooling 來提供大的感受野并加速望忆。輕量模型(xception) 快速下采樣罩阵。全局均勻池化,獲取全局語義信息启摄。然后借鑒unet稿壁,融合最后兩個(gè)階段的語義信息。
還添加了特征優(yōu)化模塊Attention refinement module(就是senet的特征加權(quán))
Network architecture
Context path用的是xception39,Spatial Path用的是三層卷積歉备。用FFM來融合傅是。具體結(jié)構(gòu)如上圖所示。FFM不是簡(jiǎn)單的特征相加蕾羊,是先concacte,然后bn喧笔,在后類似與senet reweight特征。
損失函數(shù):有輔助損失 兩個(gè)輔助損失和一個(gè)主損失龟再,用參數(shù) α來平衡书闸。輔助損失在Context path模塊的兩個(gè)出口那里。都是softmax利凑。
實(shí)現(xiàn)細(xì)節(jié)
(SGD)batch size 16, momentum 0.9 and weight decay 1e ?4“poly” learning rate strategy power 0.9. The initial learning rate is 2.5e .
Data augmentation: mean subtraction, random horizontal flip
and random scale on the input images to augment the dataset in training process.
The scales contains { 0.75, 1.0, 1.5, 1.75, 2.0}. Finally, we randomly crop the
image into fix size for training.
experiment:
采用改版的 Xception39(不知道改哪里了浆劲,據(jù)說code會(huì)公開),并在 Cityscapes哀澈,CamVid 和 COCO-Stuff 三個(gè)數(shù)據(jù)集進(jìn)行評(píng)估牌借。具體實(shí)驗(yàn)結(jié)果就不一一列出。
給自己的思考:
自己是個(gè)二分類問題割按,然后道路占比又大走哺,屬于大物體,那么自己crop的時(shí)候是否要注意,最好能夠cover整個(gè)道路丙躏,然后择示,感受野確實(shí)也要大。沒有小物體晒旅,所以栅盲,特征融合模塊估計(jì)不太需要。