論文地址:https://arxiv.org/pdf/1802.07934.pdf
代碼地址:https://github.com/hfslyc/AdvSemiSeg
1. Introduction
??本文用對(duì)抗性學(xué)習(xí)方案赊级,并提出了一種完全卷積鑒別器,它可以學(xué)習(xí)區(qū)分地面真值標(biāo)簽圖與分割預(yù)測的概率圖晨另。結(jié)合空間交叉熵?fù)p失凉倚,本文使用對(duì)抗性損失,鼓勵(lì)分割網(wǎng)絡(luò)在高階結(jié)構(gòu)中產(chǎn)生接近真實(shí)標(biāo)簽地圖的預(yù)測概率圖。這個(gè)想法與使用概率圖模型如條件隨機(jī)場(CRF)(Zheng等失都,2015; Chen等,2017; Lin等幸冻,2016)類似粹庞,但沒有額外的后處理模塊在測試階段。另外洽损,在推理過程中不需要鑒別器庞溜,因此本文提出的框架不會(huì)增加任何測試的計(jì)算能力。通過采用對(duì)抗學(xué)習(xí)碑定,進(jìn)一步利用了在半監(jiān)督環(huán)境下提出的完全卷積鑒別器流码。
??這項(xiàng)工作的貢獻(xiàn)如下:首先,我們開發(fā)了一個(gè)對(duì)抗框架延刘,可以在推理過程中提高語義分割的準(zhǔn)確性漫试,而無需額外的計(jì)算負(fù)擔(dān)。其次碘赖,我們通過利用未標(biāo)記圖像的鑒別網(wǎng)絡(luò)響應(yīng)來幫助訓(xùn)練分割網(wǎng)絡(luò)驾荣,從而促進(jìn)半監(jiān)督學(xué)習(xí).
2.Related Work
Semantic Segmentation
??最近的最先進(jìn)的語義分割方法是基于CNN的快速發(fā)展。正如Long等人(2015年)提出的那樣普泡,人們可以轉(zhuǎn)換CNN的分類AlexNet(Krizhevsky et al播掷。,2012)撼班,VGG(Simonyan&Zisserman叮趴,2015)或ResNet(He et al。权烧,2016)到解決語義分割任務(wù)的全卷積網(wǎng)絡(luò)(FCN)眯亦。但是,像素級(jí)注釋通常很昂貴且難以收集般码。為了減少標(biāo)簽分割基礎(chǔ)事實(shí)的繁重工作妻率,近年來提出了許多弱監(jiān)督的方法。在弱監(jiān)督環(huán)境中板祝,分割網(wǎng)絡(luò)未在像素級(jí)進(jìn)行訓(xùn)練宫静,并且有完全注釋的基本事實(shí)。相反券时,網(wǎng)絡(luò)是用各種更容易獲得的弱監(jiān)控信號(hào)進(jìn)行訓(xùn)練的孤里。在大多數(shù)方法中,圖像級(jí)標(biāo)簽被用作監(jiān)控信號(hào)橘洞。 Pinheiro&Collobert(2015)和Pathak等(2015b)使用多重實(shí)例學(xué)習(xí)(MIL)為監(jiān)督訓(xùn)練生成潛在分割標(biāo)簽圖捌袜。另一方面,Papandreou et al炸枣。(2015)提到圖像級(jí)標(biāo)簽會(huì)懲罰不存在對(duì)象類的預(yù)測虏等,而Qi et al。(2016)使用對(duì)象本地化來細(xì)化分割适肠。Hong et al霍衫。(2015)將標(biāo)記圖像稱為分類網(wǎng)絡(luò),作為反卷積的特征提取器侯养。除了圖像級(jí)別的監(jiān)督外敦跌,分割網(wǎng)絡(luò)還可以用邊界框(Dai等,2015; Khoreva等逛揩,2017)柠傍,點(diǎn)監(jiān)督(Bearman等,2016)或網(wǎng)絡(luò)視頻(Hong等)息尺,2017)携兵。
??與前述方法不同,我們的方法可以在模型訓(xùn)練中利用未標(biāo)記的圖像搂誉,從而大大節(jié)省手動(dòng)注釋的成本徐紧。事實(shí)上,我們將完全卷積鑒別器的輸出視為監(jiān)督信號(hào)炭懊,它補(bǔ)償了圖像注釋的缺失并實(shí)現(xiàn)了半監(jiān)督語義分割并级。我們自學(xué)的分割學(xué)習(xí)框架與Pathak et al。(2015a)相關(guān)侮腹,其中未標(biāo)記圖像的預(yù)測圖用作基礎(chǔ)事實(shí)嘲碧。然而,在Pathak等人(2015a)中父阻,預(yù)測圖通過在訓(xùn)練之前由幾個(gè)手工設(shè)計(jì)的約束來完善愈涩,而我們通過鑒別器網(wǎng)絡(luò)學(xué)習(xí)了置信度圖作為自學(xué)教學(xué)的選擇標(biāo)準(zhǔn)望抽。
3. Algrothim Overview
??我們的鑒別器網(wǎng)絡(luò)是一個(gè)基于FCN的網(wǎng)絡(luò),它將分類概率圖作為輸入履婉,從分割網(wǎng)絡(luò)或地面真值標(biāo)簽地圖中輸入煤篙,然后輸出大小為Hx Wx 1的空間概率圖。鑒別器的每個(gè)像素p輸出映射表示該像素是從地面實(shí)況標(biāo)簽(p = 1)還是從分段網(wǎng)絡(luò)(p = 0)采樣毁腿。與采用固定尺寸輸入圖像(大多數(shù)情況下為64×64)并輸出一個(gè)概率值的典型GAN鑒別器相比辑奈,我們將鑒別器轉(zhuǎn)換為可完成任意大小輸入的全卷積網(wǎng)絡(luò)。重要的是已烤,我們發(fā)現(xiàn)這種轉(zhuǎn)變對(duì)建立對(duì)抗性學(xué)習(xí)計(jì)劃至關(guān)重要鸠窗。
??在訓(xùn)練過程中,我們?cè)诎氡O(jiān)督設(shè)置下使用標(biāo)記和未標(biāo)記的圖像胯究。當(dāng)使用帶標(biāo)簽的數(shù)據(jù)時(shí)稍计,分割網(wǎng)絡(luò)受標(biāo)準(zhǔn)交叉熵?fù)p失與地面實(shí)況標(biāo)簽圖以及鑒別器網(wǎng)絡(luò)的對(duì)抗損失的監(jiān)督。請(qǐng)注意唐片,我們僅使用帶標(biāo)簽的數(shù)據(jù)來訓(xùn)練鑒別器網(wǎng)絡(luò)蟋恬。對(duì)于未標(biāo)記的數(shù)據(jù)度硝,我們用所提出的半監(jiān)督方法來訓(xùn)練分割網(wǎng)絡(luò)曙旭。在從分割網(wǎng)絡(luò)獲得未標(biāo)記圖像的初始分割預(yù)測之后涯贞,我們通過將分割預(yù)測通過鑒別器網(wǎng)絡(luò)來獲得置信度圖。我們反過來把這個(gè)置信圖作為監(jiān)督信號(hào)星持,使用“自學(xué)”方案來訓(xùn)練帶有Mask交叉熵?fù)p失的分割網(wǎng)絡(luò)抢埋。直覺是這個(gè)置信度圖表示預(yù)測分割的本地質(zhì)量,以便分割網(wǎng)絡(luò)知道訓(xùn)練期間要信任哪些區(qū)域督暂。
4. Semi-supervised training with adversarial network
4.1 Training objective
Discriminator network training
??如果樣本來自分割網(wǎng)絡(luò)揪垄,則yn = 0,如果樣本來自地面實(shí)況標(biāo)簽逻翁,則yn = 1饥努。鑒別器網(wǎng)絡(luò)將C通道概率圖作為輸入。為了將具有離散標(biāo)簽的地面實(shí)況標(biāo)簽地圖轉(zhuǎn)換為C信道概率圖八回,我們簡單地在地面真值標(biāo)簽地圖上采用一種熱門編碼方案酷愧,其中Yn取值1,如果像素X(i)屬于類別c缠诅,否則為0溶浴。
??Luc等人(2016年)提出鑒別器網(wǎng)絡(luò)可能通過檢測概率來容易地區(qū)分概率圖是否來自真實(shí)值。但是管引,我們?cè)谟?xùn)練階段沒有觀察到這種現(xiàn)象士败。一個(gè)原因是我們使用全卷積方案來預(yù)測空間置信度,這增加了學(xué)習(xí)鑒別器的難度褥伴。此外谅将,我們嘗試Luc et al漾狼。(2016)提出的Scale方案,根據(jù)分割網(wǎng)絡(luò)輸出的分布戏自,將真實(shí)實(shí)際概率信道稍微擴(kuò)散到其他信道邦投。然而,結(jié)果顯示沒有差異擅笔,因此我們?cè)趯?shí)驗(yàn)中不采用這種方案。
Segmentation network training
Training with unlabeled data
??使用未標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練⊥驮現(xiàn)在我們考慮半監(jiān)督環(huán)境下的對(duì)抗訓(xùn)練猛们。對(duì)于未標(biāo)記的數(shù)據(jù),顯然我們不能應(yīng)用Lce狞洋,因?yàn)闆]有可用的地面真實(shí)標(biāo)簽弯淘。對(duì)抗損失Ladv仍然適用,因?yàn)樗恍枰b別器網(wǎng)絡(luò)吉懊。然而庐橙,我們發(fā)現(xiàn),僅僅在沒有Lce的情況下對(duì)未標(biāo)記的數(shù)據(jù)應(yīng)用對(duì)抗性損失時(shí)借嗽,性能會(huì)退化态鳖。這是合理的,因?yàn)殍b別器用作正則化并可能過度糾正預(yù)測以適應(yīng)地面真實(shí)分布恶导。因此浆竭,我們建議使用“自學(xué)”策略來利用帶有未標(biāo)記數(shù)據(jù)的訓(xùn)練過的鑒別器。
??主要思想是訓(xùn)練過的鑒別器可以生成一個(gè)置信圖惨寿,即D(S(Xn))(h邦泄,w),它推斷出預(yù)測結(jié)果足夠接近地面真實(shí)分布的區(qū)域裂垦。然后顺囊,我們用一個(gè)閾值對(duì)這個(gè)置信圖進(jìn)行二值化,以突出顯示可信區(qū)域蕉拢。結(jié)果特碳,我們使用這個(gè)二值化的置信度圖將自學(xué)成的基本事實(shí)定義為掩碼分割預(yù)測Yn = argmax(S(Xn))。由此產(chǎn)生的半監(jiān)督損失定義為:
??I(·)是指示函數(shù)企量,Tsemi;是控制自學(xué)過程靈敏度的閾值测萎。在訓(xùn)練期間,將自學(xué)成的目標(biāo)Yn和指示函數(shù)的值視為常量届巩,因此Lsemi可以簡單地視為掩碼的空間交叉熵?fù)p失硅瞧。在實(shí)踐中,我們發(fā)現(xiàn)這個(gè)策略在Tsemi范圍在0.1到0.3之間穩(wěn)健運(yùn)行恕汇。
4.2 Network Architecture
Segmentation Network
??在ImageNet數(shù)據(jù)集(Deng等腕唧,2009)上預(yù)先訓(xùn)練的ResNet-101(He et al或辖。,2016)模型采用DeepLab-v2(Chen et al枣接。颂暇,2017)框架作為我們的分段基準(zhǔn)網(wǎng)絡(luò)。然而但惶,我們沒有采用Chen等人提出的多尺度融合耳鸯。(2017)由于內(nèi)存問題。根據(jù)最近關(guān)于語義分割的研究(Chen等膀曾,2017; Yu&Koltun县爬,2016),我們刪除了最后一個(gè)分類層添谊,并將最后兩個(gè)卷積層的步幅從2改為1财喳,從而使分辨率的輸出特征有效地映射1/8倍的輸入圖像大小。為了擴(kuò)大接受范圍斩狱,我們?cè)赾onv4和conv5層分別應(yīng)用擴(kuò)張卷積(Yu&Koltun耳高,2016),步長分別為2和4所踊。在最后一層之后泌枪,我們采用Chen等人提出的Atrous Spatial Pyramid Pooling(ASPP)。(2017年)作為最終分類污筷。最后工闺,我們應(yīng)用上采樣層以及softmax輸出來匹配輸入圖像的大小。
Discriminator network.
??對(duì)于鑒別器網(wǎng)絡(luò)瓣蛀,我們遵循Radford等(2016)中使用的結(jié)構(gòu)陆蟆。它由5個(gè)卷積層組成,核心4×4的通道數(shù)為{64,128,256,512,1}惋增,步長為2.每個(gè)卷積層之后是一個(gè)Leaky-ReLU(Maas et al叠殷。,2013)诈皿,參數(shù)為0.2林束,除了最后一層。為了將網(wǎng)絡(luò)轉(zhuǎn)換為完全卷積網(wǎng)絡(luò)稽亏,將上采樣層添加到最后一層以將輸出重新縮放為輸入映射的大小壶冒。我們不使用批處理規(guī)范化圖層。我們發(fā)現(xiàn)批量標(biāo)準(zhǔn)化層的性能和批大小有關(guān)截歉。