論文:《Pyramid Scene Parsing Network》by Hengshuang Zhao etc.
使用FCN進(jìn)行語義分割存在以下三個常見問題:
- Mismatched Relationship: 匹配關(guān)系錯誤泼菌,如將在水中的船識別為車。
- Confusion Categories: 模糊的分類啦租,如 hill 和 mountain的區(qū)分哗伯。
- Inconspicuous classes: 無視小尺寸物品。
(關(guān)于FCN的細(xì)節(jié)可以看我的另一篇文章生物醫(yī)學(xué)圖像語義分割(一)FCN)
總結(jié)起來篷角,這些錯誤與語義間的關(guān)系以及不同感知區(qū)域的全局信息有關(guān)焊刹。通常情況下,我們可以粗略認(rèn)為,卷積層卷積核大信翱椤(感知域)能夠表示結(jié)構(gòu)考慮了多大范圍的context俩滥。然而,在研究中表面贺奠,卷積層實際感知域小于理論霜旧。因此,很多結(jié)構(gòu)并不能很好地表現(xiàn)全局信息儡率。
文中提出pyramid pooling modules的結(jié)構(gòu)來解決以上問題挂据。結(jié)構(gòu)如下圖所示。
Architecture
Pyramid scene parsing network
- 上圖結(jié)構(gòu)首先將輸入圖片(a)用ResNet提取成特征圖(b)喉悴。
- 通過pyramid pooling modules 來進(jìn)行不同尺寸的池化棱貌。文章中將特征圖大小分別池化為:1x1,2x2,3x3,6x6。并通過一個卷積層將每個特征通道數(shù)變?yōu)閒eature map通道數(shù)的1/N箕肃,其中N為級數(shù)婚脱,此時N=4。
- 最后將池化結(jié)果上采樣(文中使用了雙線性插值)勺像,與特征圖(b)連接后障贸,通過卷積層輸出結(jié)果。
這個結(jié)構(gòu)與FCN不同的是吟宦,它通過pyramid的池化層考慮了不同尺寸的全局信息篮洁。而在FCN中只考慮了某一個池化層,如FCN-16s 只考慮pool4殃姓。
下圖為PSPNet解決前面提出的三個問題的結(jié)果袁波。
results
更多參考:【總結(jié)】圖像語義分割之特征整合和結(jié)構(gòu)預(yù)測 by ycszen