一柬帕、FCN(Fully Convolutional Networks)
之前的深度學(xué)習(xí)一般使用的CNN用于分類和檢測問題上狡门,所以最后提取的特征的尺度是變小的。為了讓CNN提取出來的尺度能恢復(fù)到原圖大小凤跑,F(xiàn)CN網(wǎng)絡(luò)利用上采樣和反卷積到原圖像大小,然后做像素級的分類仔引。
輸入原圖,經(jīng)過網(wǎng)絡(luò)咖耘,得到特征map抖僵,然后將特征map上采樣回去。再將預(yù)測結(jié)果和ground truth每個像素一一對應(yīng)分類耍群,做像素級別分類。也就是說將分割問題變成分類問題蹈垢,而分類問題正好是深度學(xué)習(xí)的強項。
接受任意大小的輸入曹抬,然后得到具有有效推理的相應(yīng)大小的輸出。FCN作為語義分割領(lǐng)域的經(jīng)典之作堰酿,可實現(xiàn)端到端分割。
二触创、U-Net(編碼器—解碼器)
U-Net模型是FCN的改進(jìn)和延伸为牍,它沿用了FCN進(jìn)行圖像語義分割的思想哼绑,即利用卷積層碉咆、池化層進(jìn)行特征提取,再利用反卷積層還原圖像尺寸疫铜。
U-Net包括左邊的收縮路徑(contracting path)用于捕獲上下文和右邊的對稱擴張路徑(symmetric expanding path)用于精確定位,收縮路徑包括幾個3×3的卷積加RELU激活層再加2×2 max pooling的結(jié)構(gòu)(stride:2) 励稳,下采樣的每一步特征通道數(shù)都增加一倍。
擴張路徑的每一步包括上采樣驹尼、2×2卷積(減少一半通道數(shù))庞呕,和相應(yīng)收縮路徑中的剪裁過的特征層的串聯(lián)以及兩個3×3卷積加 RELU。最后一層用了1×1卷積把64個通道映射到想要的類別種類數(shù)住练。
采用了拼接的特征融合方式,將特征在channel維度拼接在一起讲逛,形成更厚的特征,連接貫穿整個網(wǎng)絡(luò)盏混。它具有彈性變形的數(shù)據(jù)增強惜论,需要很少的注釋圖像止喷。
三、Deeplabv3p(帶孔卷積)
語義分割任務(wù)通常會用到空間金字塔模塊和編解碼模塊弹谁。前者有利于提取多尺度上下文信息,后者更容易捕獲邊緣信息预愤。
ASPP:Atrous Spatial Pyramid Pooling,意為空洞空間金字塔池化社裆。對所給定的輸入以不同采樣率的空洞卷積并行采樣,相當(dāng)于以多個比例捕捉圖像的上下文泳秀,可以說是基于多尺度場景的上下文是一組稀疏采樣的像素榄攀。
在網(wǎng)絡(luò)結(jié)構(gòu)中嗜傅,通過空洞卷積任意控制Encoder模塊特征圖的分辨率檩赢,并充分考慮的速度和精度。
Deeplabv3p中Encoder架構(gòu)采用Deeplabv3贞瞒,Decoder采用一個簡單的模塊用于恢復(fù)目標(biāo)邊界細(xì)節(jié),并可使用atrous convolution在指定計算資源下控制特征的分辨率棕洋。
四、OCRNet(注意力機制)
像素的標(biāo)簽是像素所屬對象的類別掰盘,那么利用物體信息增強像素上下文信息赞季,OCRNet可提高語義分割網(wǎng)絡(luò)的上下文感知能力。
對比基于 ASPP 的多尺度上下文信息與基于 OCR 的物體上下文信息的區(qū)別申钩。對選定的紅色標(biāo)記的像素,我們用藍(lán)色來標(biāo)記其對應(yīng)的上下文信息÷尴矗可以看到基于 ASPP 的多尺度上下文信息通常會包含不屬于紅色像素所屬類別的像素,左圖中采樣到的藍(lán)色標(biāo)記的像素有一部分落在了人的身體上,還有一部分像素落在了后面的展板上轩缤。因此,這樣的多尺度信息同時包含了物體信息與背景信息火的。而基于 OCR 的物體上下文信息的目標(biāo)是只利用物體信息,即顯式地增強物體信息征椒。
OCR 方法提出的物體上下文信息的目的在于顯式地增強物體信息湃累,通過計算一組物體的區(qū)域特征表達(dá),根據(jù)物體區(qū)域特征表示與像素特征表示之間的相似度將這些物體區(qū)域特征表示傳播給每一個像素治力。