文章概覽
圖像語意分割定義--->語意分割面臨的兩個主要問題及算法改近--->自己的心得體會--->論文參考鏈接
圖像語意分割定義
語意分割指的是在像素級別的基礎(chǔ)上理解圖像输莺。具體點說就是—>對圖像上的每一個像素都分配一個圖像中的具體物體類別給它交洗。如圖1所示瘪匿,對摩托車和人內(nèi)的所有像素都指定了標(biāo)簽:
語意分割面臨的兩個主要問題及算法改近
與如VGG等深度學(xué)習(xí)分類算法相比暇检,fully connected layer和pooling layer會影響語意分割算法的性能探越。前者要求有一致的輸入圖像尺寸雁比,后者雖然會增強特征的感受野和上下文信息蔚袍,但是卻會降低目標(biāo)的位置特征信息。本文主要介紹兩種針對pooling layer的算法改進結(jié)構(gòu)奸柬。
Encoder-Decoder結(jié)構(gòu)
Encoder通常用于降低圖像的空間維度(spatial dimension)信息生年,而Decoder通常用于逐步復(fù)原目標(biāo)和空間維度信息。Decoder通常通過類似ResNet里的shortcut connection與Encoder鏈接以便更好的還原目標(biāo)細節(jié)廓奕。如圖2所示抱婉,U-Net就是其中一種比較常見的結(jié)構(gòu)。
空洞卷積(dilated/atrous convolutions)結(jié)構(gòu)
在分類網(wǎng)絡(luò)中桌粉,pooling layer比較有效的擴大目標(biāo)的感受野蒸绩,但是卻會減少分辨率×蹇希空洞卷積可以在提升感受野的同時不降低圖像的的分辨率患亿。如,在Deeplab網(wǎng)絡(luò)中(基于VGG16的特征提取網(wǎng)絡(luò))押逼,最后兩層的pooling layer以及后面的卷積層被dilated convolutions層替換步藕。Deeplab系列網(wǎng)絡(luò)都是基于該結(jié)構(gòu)實現(xiàn)的。
自己的心得體會
在查找Semantic Segmentation的資料中發(fā)現(xiàn)有兩個metric可以有效的提升分割效果挑格。一個是基于CRF后處理(Conditional Random Field postprocessing)咙冗,另一個是基于COCO數(shù)據(jù)集的預(yù)訓(xùn)練模型。這兩個metric都能在一定程度上提升Segmentation的效果漂彤。
論文參考鏈接
Encoder-Decoder結(jié)構(gòu)
空洞卷積結(jié)構(gòu)
Multi-Scale Context Aggregation by Dilated Convolutions
其他的一些沒有見過但效果比較好的論文
PS:分割算法將會有上下兩篇雾消,下篇主要介紹DeepLab系列算法及DeepLab-V3算法的實現(xiàn)灾搏。筆者也是一邊自學(xué)一邊寫博客的,接下來幾周時間在工作上會有其他事情立润,所以下篇可能要等到兩至三周才更新出來狂窑。但是如果朋友們點贊的話,筆者會更有激情去寫作喲~