接著介紹圖像語(yǔ)義分割中解決分割精細(xì)度的另一種解決方案--多尺度特征融合蹄咖。在基于FCNs的語(yǔ)義分割架構(gòu)中,如何有效的融合各個(gè)尺度之間的特征將會(huì)對(duì)最終結(jié)果產(chǎn)生極大的影響付鹿,關(guān)于這方面的工作很多澜汤,我將簡(jiǎn)單介紹兩篇CVPR的優(yōu)秀工作。
Hypercolumns for Object Segmentation and Fine-grained Localization
(注:hypercolumn是借用神經(jīng)學(xué)中的概念倘屹,它用來(lái)描述那些對(duì)不同 orientation & frequency edge 敏感的v1神經(jīng)元)
觀察一下深度學(xué)習(xí)出現(xiàn)以來(lái)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用银亲,你會(huì)發(fā)現(xiàn)關(guān)于分類(lèi)、識(shí)別纽匙、分割等任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)大致相同务蝠,最大的區(qū)別就是最后幾層,原因就是在訓(xùn)練網(wǎng)絡(luò)的過(guò)程中前幾層可以看作自動(dòng)特征提取的過(guò)程烛缔,后幾層用來(lái)完成具體的任務(wù)(個(gè)人理解馏段,有錯(cuò)誤歡迎批評(píng)指正)。在基于深度學(xué)習(xí)的分類(lèi)任務(wù)中践瓷,我們的目的是找到同一類(lèi)別之間的共性特征并保留下來(lái)院喜,因此后幾層得到的往往是粗粒度的圖像特征,而語(yǔ)義分割可以看作是像素級(jí)別的細(xì)粒度分類(lèi)任務(wù)晕翠,因此之前基于分類(lèi)任務(wù)改進(jìn)的分割網(wǎng)絡(luò)結(jié)構(gòu)就具有了很大的改進(jìn)空間喷舀。
在給予CNN的網(wǎng)絡(luò)架構(gòu)中,我們往往認(rèn)為特征級(jí)別越高淋肾,具有的語(yǔ)義信息越多而粒度越粗硫麻,在語(yǔ)義分割任務(wù)中,只使用頂層特征進(jìn)行語(yǔ)義分割并不是最優(yōu)的學(xué)習(xí)方法樊卓,因此將高層特征和低層特征融合將會(huì)極大改善語(yǔ)義分割任務(wù)中邊界分割不清晰的問(wèn)題拿愧。
本文的核心思想是提出Hypercolumn(超列)的概念,即將像素點(diǎn)對(duì)應(yīng)的激活網(wǎng)絡(luò)特征進(jìn)行串聯(lián)碌尔,進(jìn)行目標(biāo)的細(xì)粒度定位浇辜,同時(shí)進(jìn)行分割(Simultaneous Detection and Segmentation (SDS)為本文作者2014年上發(fā)表的文章,用于檢測(cè)一個(gè)類(lèi)別的所有的 objects唾戚,并確定每個(gè) object 覆蓋了哪些pixels柳洋,本片論文可以視作14年論文的改進(jìn))。
闡述完如何結(jié)合高級(jí)和低級(jí)語(yǔ)義信息叹坦,簡(jiǎn)單說(shuō)明一下本文如何利用該思想解決問(wèn)題的膳灶。
1. 問(wèn)題提出 (公式就參考原文吧)
對(duì)每個(gè)任務(wù),擴(kuò)展bbox并預(yù)測(cè)一個(gè)對(duì)應(yīng)的heatmap立由;在分割任務(wù)中轧钓,heatmap編碼的是像素點(diǎn)對(duì)應(yīng)位置在物體內(nèi)部的概率大小锐膜;對(duì)于組件標(biāo)記毕箍,為每個(gè)組件預(yù)測(cè)一個(gè)heatmap,對(duì)應(yīng)每個(gè)位置屬于該組件的概率道盏;對(duì)于關(guān)鍵點(diǎn)檢測(cè)而柑,每個(gè)關(guān)鍵點(diǎn)有一個(gè)heatmap,對(duì)應(yīng)該關(guān)鍵點(diǎn)在特定區(qū)域內(nèi)的概率荷逞。?
對(duì)以上三種情況媒咳,預(yù)測(cè)一個(gè)50*50的heatmap,之后縮放到與bbox同樣大小种远,問(wèn)題轉(zhuǎn)化為對(duì)50*50個(gè)位置進(jìn)行分類(lèi)涩澡,分類(lèi)使用的特征就是超列特征(網(wǎng)格分類(lèi)器的想法應(yīng)該來(lái)源于RCNN)。?
2. 計(jì)算超列?
對(duì)每個(gè)位置坠敷,使用上圖的方法提取對(duì)應(yīng)點(diǎn)某些層上的輸出作為特征妙同。由于特征圖大小不一,將特征圖使用雙線性插值縮放到統(tǒng)一大小膝迎。特征圖F上采樣到f粥帚,i位置的特征向量為:?
fi=∑kαikFk(1)?
3. 網(wǎng)格分類(lèi)器?
獲得對(duì)應(yīng)位置的分類(lèi)器,簡(jiǎn)單的方法是對(duì)50*50的位置分別訓(xùn)練分類(lèi)器限次∶⑽校考慮到速度和臨近關(guān)系,實(shí)際訓(xùn)練的分類(lèi)器數(shù)量一般不需要50*50卖漫,可選取K=5费尽,10。每個(gè)分類(lèi)器是一個(gè)函數(shù) g(k)懊亡,g(k)的輸入是特征向量輸出是0依啰,1。與(1)類(lèi)似店枣,插值實(shí)現(xiàn)網(wǎng)格附近的預(yù)測(cè):?
hi(?)=∑kαikgk(?)(2)?
如果i位置的特征向量是fi速警,則對(duì)應(yīng)的得分是?
pi=∑kαikgk(fi)=∑kαikpik(3)?
pikpik是i位置第k個(gè)分類(lèi)器的概率輸出,測(cè)試時(shí)鸯两,對(duì)每個(gè)像素運(yùn)行K2K2個(gè)分類(lèi)器闷旧,之后使用(3)式對(duì)所有的分類(lèi)結(jié)果進(jìn)行線性組合。?
每個(gè)特征圖對(duì)應(yīng)多個(gè)通道钧唐,i位置特征fifi在第j個(gè)特征圖的特征段為f(j)ifi(j)忙灼,將線性分類(lèi)器進(jìn)行分解:?
wTfi=∑jw(j)Tf(j)i
4. 卷積及上采樣?
對(duì)特征圖每個(gè)位置進(jìn)行分類(lèi)類(lèi)似于1*1卷積,先將特征分割成對(duì)應(yīng)每個(gè)特征圖的組塊,對(duì)每個(gè)組塊進(jìn)行1*1卷積生成得分圖该园,之后上采樣得分圖酸舍,最后累加。?
Attention to Scale: Scale-aware Semantic Image Segmentation
關(guān)于注意力機(jī)制大家可以閱讀深度學(xué)習(xí)中的注意力機(jī)制里初,我個(gè)人比較喜歡這篇文章啃勉,因?yàn)樽⒁饬C(jī)制本身比較符合人類(lèi)視覺(jué)觀察事物的特點(diǎn),因此將注意力機(jī)制應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù)當(dāng)中具有天然的合理性双妨,同時(shí)我自己也在進(jìn)相關(guān)研究淮阐。
在已有的特征融合方法當(dāng)中,主流方法有兩種:
左邊為FCNs中提出的Skip-net結(jié)構(gòu)刁品,右邊為Share-net結(jié)構(gòu)泣特。由于Skip-net在訓(xùn)練方法上有固有的缺陷,因?yàn)槠湫枰扔?xùn)練分類(lèi)器主干網(wǎng)絡(luò)然后針對(duì)分類(lèi)任務(wù)進(jìn)行微調(diào)挑随,因此訓(xùn)練時(shí)間很長(zhǎng)(三到五天)状您,所以Share-net網(wǎng)絡(luò)結(jié)構(gòu)與注意力機(jī)制具有更好的親和性,因此文章作者選擇了Share-net網(wǎng)絡(luò)結(jié)構(gòu)镀裤。Share-net網(wǎng)絡(luò)結(jié)構(gòu)是在輸入端改變輸入圖像的尺度然后共享后幾層的權(quán)重從而進(jìn)行多尺度特征融合竞阐。
那么如何利用注意力機(jī)制來(lái)融合多尺度特征呢?想想你在看東西的時(shí)候的感覺(jué)暑劝,當(dāng)你看大象的時(shí)候要離得比較遠(yuǎn)才能看到全貌骆莹,而看螞蟻的時(shí)候就要湊得很近,或者看近距離物體的時(shí)候瞳孔焦距變短担猛,而看遠(yuǎn)距離物體的時(shí)候瞳孔焦距變大幕垦。注意力機(jī)制就是模仿這一過(guò)程(我猜的),當(dāng)分割較大物體的時(shí)候傅联,給感受野比較大(粗粒度)的特征賦予高權(quán)重先改,當(dāng)物體比較小的時(shí)候,就給感受野比較姓糇摺(細(xì)粒度)的特征賦予高權(quán)重仇奶。更為重要的一點(diǎn)是,注意力機(jī)制將神經(jīng)網(wǎng)絡(luò)在一定程度上可視化了出來(lái)比驻,使得訓(xùn)練過(guò)程不再像一個(gè)黑盒子该溯。
關(guān)于本篇論文的代碼和作者的更多工作,大家可以訪問(wèn)http://liangchiehchen. com/projects/DeepLab.html别惦。
前面介紹的是基于圖片的語(yǔ)義分割狈茉,當(dāng)然由于我能力和時(shí)間有限無(wú)法理解的很透徹和介紹的很具體,希望大家諒解掸掸。介紹圖片語(yǔ)義分割的原因是為了進(jìn)行基于視頻語(yǔ)義分割的介紹打基礎(chǔ)氯庆,視頻語(yǔ)義分割任務(wù)具有低延遲蹭秋,高時(shí)序相關(guān)等要求,因此需要在圖片語(yǔ)義分割的任務(wù)中進(jìn)一步發(fā)展堤撵。尤其是在自動(dòng)駕駛?cè)蝿?wù)中仁讨,視頻數(shù)據(jù)量大,車(chē)速快粒督,車(chē)載計(jì)算能力有限陪竿,因此對(duì)自動(dòng)駕駛相關(guān)的計(jì)算機(jī)視覺(jué)算法在時(shí)間消耗上都有很?chē)?yán)格的要求。因此接下來(lái)的幾篇文章將介紹幾種針對(duì)視頻語(yǔ)義分割的相關(guān)方法屠橄。
祝好!愿與諸君一起進(jìn)步闰挡。