摘要:
??最近的工作通過使用空洞卷積班利、多尺度特征還有調(diào)整邊界的全卷積神經(jīng)網(wǎng)絡(luò)(FCN)對像素分類,有效的提升了空間分辨率眯娱。在這篇論文中铣墨,我們引入了上下文編碼模塊來探索全局上下文信息對于語義分割的影響。上下文編碼模塊可以獲取場景的語義上下文還有選擇性的高光依賴圖嗽上。提出的上下文編碼模塊相比于全卷積神經(jīng)網(wǎng)絡(luò)(FCN)只計算邊緣額外成本在語義分割結(jié)果上有一個顯著提升次舌。
介紹:
??語義分割對給定的目標(biāo)類目的每個像素進行預(yù)測,它提供了全面的場景描述兽愤,包括對象類別彼念、位置和形狀的信息。效果好的語義分割方法傳統(tǒng)都是基于全卷積神經(jīng)網(wǎng)絡(luò)(FCN)浅萧。深度卷積神經(jīng)網(wǎng)絡(luò)的自適應(yīng)性得益于從各種不同的圖像集合中學(xué)習(xí)到的豐富的對象類別和場景語義信息逐沙。深度卷積神經(jīng)網(wǎng)絡(luò)可以通過疊加非線性和下采樣卷積層來得到全局感受野進一步獲取信息表示。為了克服下采樣造成的空間分辨率損失問題洼畅,最近的工作使用空洞/多孔卷積策略從預(yù)訓(xùn)練的網(wǎng)絡(luò)中產(chǎn)生密集預(yù)測吩案。然而,這種策略還是會把像素從全局的上下文中割離開來帝簇,導(dǎo)致了像素的錯誤分類徘郭。對于圖像四的第三行靠益,基礎(chǔ)的分類方法把一些窗戶中的像素分成了門。
??最近的方法通過使用多分辨率空間金字塔來擴大感受野從而獲得了一個很好的效果崎岂。例如:空間金字塔網(wǎng)絡(luò)采用空間金字塔池化來把特征圖池化成不同大小捆毫,并且經(jīng)過上采樣后把他們組合在一起,Deeplab提出一個多孔空間金字塔池化可以采用更高比率的擴張卷積冲甘。這些方法確實提升了效果绩卤,但是上下文表示還是不明確的,這引起了一系列問題江醇。比如:獲取上下文信息是否等同于提高感受野的大小濒憋。考慮為大型數(shù)據(jù)集(比如 ADE20K陶夜,包含150個類目)標(biāo)記新 圖像凛驮,如圖一所示。假設(shè)我們有一個工具条辟,允許注釋器去首先選擇圖像的語義信息(例如:臥室)黔夭。然后,這個工具可以提供一個更小的相關(guān)的類目(比如臥室中的床羽嫡,椅子等)本姥,這樣就會有效的降低類目的可選擇性。同樣的杭棵,如果我們設(shè)計一個方法去有效的使用場景與可能存在的類目的關(guān)系后婚惫,語義分割就會變的相對簡單。
??經(jīng)典的計算機視覺方法在獲取場景的語義上下文中有優(yōu)勢魂爪。對于一個給定的輸入圖像先舷,SIFT還有濾波器被用來提取手工設(shè)計的特征。然后通過學(xué)習(xí)視覺詞典滓侍,并通過經(jīng)典的編碼器(BoW)蒋川、VALD、Fisher vector來描述全局特征撩笆。經(jīng)典的表示方法通過捕獲特征統(tǒng)計信息對全局上下文信息進行編碼尔破。雖然CNN方法大大改善了手工制作的特征,但是傳統(tǒng)方法的整體編碼過程方便而強大浇衬。我們能否通過深度學(xué)習(xí)強大的能力來改善經(jīng)典的上下文編碼方法?最近的工作通過使用CNN框架在傳統(tǒng)的編碼器上獲得了一個有效的提升餐济。Zhang等人提出了一個編碼層去將整個字典學(xué)習(xí)和剩余編碼流水線集成到單個CNN層以捕獲無序表示耘擂。
該方法在紋理分類上取得了最好的研究成果。在本文中絮姆,我們擴展了編碼層以捕獲用于理解語義上下文的全局特征統(tǒng)計數(shù)據(jù)醉冤。