Semi-supervised semantic segmentation needs strong, varied perturbations
https://arxiv.org/pdf/1906.01916v5.pdf
摘要:一致性正則化描述了一類在半監(jiān)督分類問題中取得突破性成果的方法。先前的工作已經建立了一個聚類假設沼溜,在這個假設下平挑,數據分布的組成為,樣本的均勻的類別簇盛末,被一些低密度區(qū)域所間隔(the data distribution consists of uniform class clusters of samples separated by low density regions)弹惦,這對它的成功非常重要。我們分析了語義分割的問題悄但,發(fā)現(xiàn)它的分布并沒有表現(xiàn)出低密度的類分離區(qū)域棠隐,這也解釋了為什么半監(jiān)督分割是一個具有挑戰(zhàn)性的問題,只有少數成功的報告檐嚣。然后助泽,我們確定在沒有這種低密度區(qū)域的情況下啰扛,增強的選擇是獲得可靠性能的關鍵。我們發(fā)現(xiàn)最近提出的CutOut和CutMix增強技術的適應性變體(adapted variants)在標準數據集中產生了最先進的半監(jiān)督語義分割結果嗡贺。此外隐解,考慮到語義分割的挑戰(zhàn)性,我們建議語義分割作為評估半監(jiān)督正則化器的有效酸性測試(effective acid test)诫睬。實現(xiàn)在:https://github.com/Britefury/cutmix-semisup-seg
除了官方實現(xiàn)煞茫,MODNet的作者也有其實現(xiàn):https://github.com/ZHKKKe/PixelSSL
1. 引言
半監(jiān)督學習提供了一個誘人的承諾,訓練一個機器學習模型使用的數據集摄凡,只有一小部分樣本有標簽续徽。這些情況經常出現(xiàn)在實際的計算機視覺問題中,大量的圖像很容易獲得亲澡,并且由于所需的成本和勞動力钦扭,真值注釋成為瓶頸。
一致性正則化[23床绪,29客情,30,36]描述了一類半監(jiān)督學習算法癞己,這些算法在半監(jiān)督分類中產生了最新的結果膀斋,同時在概念上很簡單,通常易于實現(xiàn)痹雅。其關鍵思想是鼓勵網絡對以各種方式擾動的未標記輸入給出一致的預測概页。
一致性正則化的有效性通常歸因于平滑假設[27]或聚類假設[6,35练慕,37,42]技掏。平滑假設(smoothness assumption)是指铃将,彼此靠近的樣本可能具有相同的標簽。聚類假設哑梳,其是平滑假設的一個特例劲阎,是指決策面應該位于數據分布的低密度區(qū)域。在分類任務上鸠真,這是成立的悯仙。到目前為止,大多數一致性正則化的成功報告都是在分類任務吠卷。
在較高的層次上锡垄,語義分割就是分類,每個像素都是基于其鄰域進行分類的祭隔。因此货岭,有趣的是,只有兩個報告成功的一致性正則化用于分割,都是醫(yī)學圖像分割[25千贯,32]屯仗,而沒有自然攝影圖像。我們觀察到搔谴,即使中心像素的類別發(fā)生變化魁袜,以相鄰像素為中心的patch之間的像素內容距離也會平滑變化,因此沿著類別邊界不存在低密度區(qū)域敦第。(We make the observation that the L2 pixel content distance between patches centered on neighbouring pixels variessmoothly even when the class of the center pixel changes, and thus there are no low-density regions along class boundaries)這一令人震驚的觀察結果使我們研究了在這些情況下允許一致性正則化操作的條件峰弹。
我們發(fā)現(xiàn)基于掩模的增強策略對于半監(jiān)督語義分割是有效的,CutMix[45]的一個自適應變體實現(xiàn)了顯著的增益申尼。
本文的主要貢獻是分析了語義分割的數據分布垮卓,而且我們的方法是簡單的。我們使用經過試驗和測試的半監(jiān)督學習方法师幕,并采用CutMix(監(jiān)督分類的增強技術)進行半監(jiān)督學習和分割粟按,獲得最先進的結果。(We utilize tried and tested semi-supervised learning approaches, and adapt CutMix – an augmentation technique for supervised classification – for semi-supervised learning and for segmentation, achieving state of the art results.)
2 背景
我們的工作涉及三個領域的現(xiàn)有技術:用于分類的最新正則化技術霹粥、側重于一致性正則化的半監(jiān)督分類和語義分割灭将。
2.1 MixUp, Cutout后控,CutMix
Zhang等人[46]的MixUp算法通過在訓練過程中使用混合樣本來提高有監(jiān)督圖像庙曙、語音和表格數據分類器的性能。使用隨機選擇的因子將兩個隨機選擇的樣本的輸入和目標標簽混合浩淘。
Devries等人[13]的Cutout器通過將矩形區(qū)域屏蔽為零來增強圖像捌朴。Yun等人[45]最近提出的CutMix正則化器結合了MixUp和Cutout的方面,從圖像B中切割出一個矩形區(qū)域张抄,并將其粘貼到圖像A上砂蔽。MixUp、Cutout和CutMix提高了監(jiān)督分類性能署惯,其中CutMix的性能優(yōu)于其他兩種左驾。
2.2 半監(jiān)督分類
文獻中提出了多種基于一致性正則化的半監(jiān)督分類方法。它們通常將標準的有監(jiān)督損失項(如交叉熵損失)與無監(jiān)督一致性損失項相結合极谊,后者鼓勵對應用于無監(jiān)督樣本的擾動進行一致預測诡右。
Laine等人提出的Π模型[23]將每個未標記的樣本通過分類器兩次,分別使用隨機增強過程的兩種實現(xiàn)轻猖,并將得到的類概率預測之間的平方差最小化帆吻。他們的時間模型和Sajjadi等人的模型[36]鼓勵了當前預測和歷史預測之間的一致性。Miyato等人[29]將隨機增強替換為對抗方向咙边,從而將擾動對準決策邊界桅锄。
Tarvainen等人[41]的平均教師(mean teacher)模型鼓勵學生網絡和教師網絡預測之間的一致性琉雳,教師網絡的權重是學生網絡的指數移動平均值[33]。在[15]中友瘤,平均教師被用于域適應翠肘。
無監(jiān)督數據增強(UDA)模型[44]和最先進的FixMatch模型[38]證明了豐富的數據增強的好處,因為兩者都結合了CutOut[13]和RandAugment[12](UDA)或CTAugment[3](FixMatch)辫秧。RandAugment和CTAugment是從14個圖像增強的操作中提取束倍。
Verma等人[42]提出的插值一致性訓練(ICT),與MixMatch[4]一樣盟戏,都是將MixUp[46]與一致性正則化結合起來绪妹。ICT使用平均教師模型,對無監(jiān)督樣本進行MixUp柿究,將輸入圖像與教師網絡類別預測混合邮旷,生成混合輸入和目標,以訓練學生蝇摸。(ICT uses the mean teacher model and applies MixUp to unsupervised samples, blending input images along with teacher class predictions to produce a blended input and target to train the student.)
2.3 語義分割
大多數語義分割網絡將圖像分類器轉換為一個完全卷積的網絡婶肩,該網絡產生一組密集的重疊輸入窗口預測,分割任意大小的輸入圖像[26]貌夕。deeplabv3[8]體系結構通過將atronus卷積與空間金字塔池相結合來提高定位精度律歼。Encoder-Decoder網絡[2,24啡专,34]使用跳連將像編碼器這樣的圖像分類器連接到解碼器险毁。編碼器逐漸地對輸入進行下采樣,而解碼器進行上采樣们童,產生分辨率與輸入匹配的輸出畔况。
許多半監(jiān)督語義分割方法使用額外的數據慧库。Kalluri等人[19]使用來自不同領域的兩個數據集的數據,最大限度地提高了每個數據集的每個類嵌入之間的相似性完沪。Stekovic等人[39]在3D場景的多個視圖之間使用深度圖像和強制幾何約束嵌戈。
在嚴格的半監(jiān)督環(huán)境中操作的方法相對較少覆积。Hung等人[18]和Mittal等人[28]采用基于GAN的對抗式學習,使用區(qū)分真實和預測分割圖的鑒別器網絡來指導學習熟呛。
我們所知的一致性正則化在分割中的唯一成功應用來自醫(yī)學成像界;Perone等人[32]和Li等人[25]分別將一致性正則化應用于MRI體積數據集和皮膚損傷庵朝。兩種方法都使用標準增廣來提供擾動又厉。
3 語義分割的一致性正則化
一致性正則化將一致性損失項添加到訓練期間最小化的損失中[30]。在分類任務中椎瘟,
衡量的是覆致,神經網絡
對一個無監(jiān)督樣本
的預測,以及對該樣本的擾動版本
的預測之間的距離
煌妈,也即
宣羊。用以生成
的擾動取決于使用的一致性正則化的版本。使用的距離度量
有很多種:例如平方距離[23]或交叉熵[29]仇冯。
Athiwaratkun等人[1]的分析支持了聚類假設的好處。他們分析了一個簡化的Π-模型[23]使用加性各向同性高斯噪聲進行擾動比被,發(fā)現(xiàn)
的期望值與神經網絡輸出相對于輸入的雅克比
的平方幅度(Lcons is approximately proportional to the squared magnitude of the Jacobian Jfθ(x) of the networks outputs with respect to its inputs.)近似成正比。因此姐赡,最小化LCON會使無監(jiān)督樣本附近的決策函數變得平坦柠掂,將決策邊界及其周圍的高梯度區(qū)域移動到低樣本密度區(qū)域。
3.1 為什么半監(jiān)督語義分割具有挑戰(zhàn)性
我們將語義分割看做是用滑動窗口做圖塊(patch)分類涯贞,目的是識別圖塊中心像素的類別。鑒于先前的工作[23州疾,29,38]將擾動應用于原始像素(輸入)空間严蓖,我們對數據分布的分析側重于圖像塊的原始像素內容氧急,而不是來自網絡內部的更高級別特征。
我們將一致性正則化在自然圖像語義分割問題中的罕見成功歸因于觀察到:輸入數據中的低密度區(qū)域沒有很好地與類邊界對齊(low density regions in input data do not align well with class boundaries)毒姨。這種低密度區(qū)域的存在表現(xiàn)為局部大于類邊界兩側相鄰像素為中心的斑塊之間的平均L2距離。(The presence of such low density regions would manifest as locally larger than average L2 distances between patches centred on neighbouring pixels that lie either side of a class boundary)弧呐。在圖1中,我們可視化了相鄰圖塊之間的L2距離俘枫。當使用如圖1(c)所示的合理的感受野時,我們可以看到明顯違反了聚類假設:一個像素的感受野的原始像素內容與相鄰像素的感受野內容有多大的不同巡球,與圖像塊的中心像素是否屬于同一類幾乎沒有關聯(lián)(how much the raw pixel content of the receptive field of one pixel differs from the contents of the receptive field of a neighbouring pixel has little correlation with whether the patches’ center pixels belong to the same class)邓嘹。
圖1:在分割任務中,低密度區(qū)域很少對應于類邊界汹押。(a) 來自CITYSCAPES數據集的圖像裁剪。(b) 以像素p為中心的面片的原始像素內容與以像素p的近鄰為中心的四個重疊面片之間的平均L2距離棚贾,使用15×15像素圖塊。(c) 對于225×225像素的更真實的感受野大小也是一樣的铸史。較深的顏色表示圖塊間距離較大怯伊,因此為低密度區(qū)域。紅線表示分割真值邊界耿芹。
從信號處理的角度來看崭篡,沒有出現(xiàn)圖塊級別的距離的變化是很容易解釋的(The lack of variation in the patchwise distances is easy to explain from a signal processing perspective)吧秕。大小為H的補丁×W、 以所有水平相鄰像素對為中心的重疊面片的像素內容之間的l2距離的距離圖可以寫成p(?十一)?2? 1小時×W颠毙,哪里? 表示卷積和?xI是輸入圖像I的水平梯度砂碉。因此,按元素的平方梯度圖像通過H×W box filter1绽淘,它抑制了在圖像的高頻分量中發(fā)現(xiàn)的精細細節(jié)闹伪,從而使整個圖像的樣本密度平滑變化壮池。
我們對CITYSCAPES數據集的分析量化了在兩個相鄰像素之間放置決策邊界所涉及的挑戰(zhàn)杀怠,這兩個像素應該屬于不同的類,同時推廣到其他圖像橙依。我們發(fā)現(xiàn)以類邊界兩側像素為中心的面片之間的L2距離是~ 在不同的圖像中找到的同一類的最近斑塊距離的1/3(見圖2)窗骑。這表明決策邊界的精確定位和定向對于良好的性能至關重要创译。我們將在補充材料中進一步詳細討論我們的分析墙基。
3.2 無聚類假設的一致性正則化
當我們在上面的分析中考慮到一致性正則化成功應用于語義分割的少數報告時残制,尤其是Li等人[25]的工作初茶,使我們得出結論:低密度區(qū)域的存在非常有益纺蛆,但不是必要的。因此温峭,我們提出了另一種機制:使用非各向同性自然擾動(如圖像增強)來約束決策邊界的方向凤藏,使其與擾動方向平行(見Athiwaratkun等人[1]的附錄)揖庄。我們現(xiàn)在將使用一個2D的 toy example來探索這一點欠雌。
圖3a通過一個簡單的2D玩具均值教師實驗說明了聚類假設的好處很澄,在這個實驗中荚孵,聚類假設成立桩蓉,因為存在一個間隙(gap)抒蚜,將屬于兩個不同類的無監(jiān)督樣本分開嗡髓。所使用的擾動是在兩個坐標維度上的各向同性高斯微移(an isotropic Gaussian nudge to both coordinates)饿这,并且如預期的那樣长捧,學習的決策邊界在兩個簇之間整齊地安置串结。在圖3b中,無監(jiān)督樣本均勻分布卧蜓,違反了聚類假設弥奸。在這種情況下其爵,一致性損失弊大于利摩渺;即使它成功地平坦了決策函數的鄰域摇幻,它也跨越了真正的類邊界。
在圖3c中枉侧,我們繪制了到真值類邊界的距離的等高線榨馁。如果我們對樣本的擾動做這樣的約束翼虫,使得擾動版本
位于(或者非常接近)
所在的距離等高線上(such that the perturbed ?x lies on or very close to the distance contour passing through x)珍剑,得到的判定邊界與真實的類邊界對齊招拙,如圖3d所示别凤。當不存在低密度區(qū)域時闻妓,必須仔細選擇擾動由缆,以使穿過類邊界的概率最小化均唉。
我們提出舔箭,只要增廣/擾動機制遵守以下準則层扶,可靠的半監(jiān)督分割是可以實現(xiàn)的:1)擾動必須是變化的和高維的烙荷,以便在自然圖像的高維空間中充分約束決策邊界的方向终抽,2)與其他維度的探索量相比,擾動跨越真實類邊界的概率必須非常小镣屹,3)擾動輸入應該是可信的女蜈;它們不應該嚴重超出實際輸入的范圍鞭光。
1) the perturbations must be varied and high-dimensional in order to sufficiently constrain the orientation of the decision boundary in the high-dimensional space of natural imagery, 2) the probability of a perturbation crossing the true class boundary must be very small compared to the amount of exploration in other dimensions, and3) the perturbed inputs should be plausible; they should not be grossly outside the manifold of real inputs.
經典的基于增強的擾動,如裁剪史辙、縮放聊倔、旋轉和顏色變化耙蔑,混淆輸出類的可能性很低甸陌,并且已經證明在自然圖像分類中是有效的[23钱豁,41]牲尺“迹考慮到這種方法在一些醫(yī)學圖像分割問題上取得了積極的結果[25蜒简,32]臭蚁,令人驚訝的是垮兑,它對自然圖像是無效的系枪。這促使我們尋找更強大和更多樣的增強半監(jiān)督語義分割私爷。
3.3? 用于語義分割的CutOut和CutMix
Cutout[13]在UDA[44]和FixMatch[38]的半監(jiān)督分類中產生了很強的結果衬浑。UDA消融研究表明工秩,CutOut在半監(jiān)督性能中所占份額最大助币,F(xiàn)ixMatch消融研究表明眉菱,CutOut可以匹配CTAugment使用的14種圖像操作組合的效果俭缓。DeVries等人[13]證實华坦,CutOut鼓勵網絡利用更廣泛的各種特征季春,以解決出現(xiàn)的不同部分的不同組合或者是被屏蔽(in order to overcome the varying combinations of parts of an image being present or masked out)载弄。這個由Cutout引入的變體表明它是一個很有前途的用于分割的候選宇攻。
如第2.1節(jié)所述逞刷,CutMix將Cutout與MixUp相結合,使用矩形掩膜混合輸入圖像扔役。鑒于MixUp在ICT[42]和MixMatch[4]中已經成功地應用于半監(jiān)督分類亿胸,我們建議使用CutMix以類似的方式混合無監(jiān)督樣本和相應的預測(we propose using CutMix to blend unsupervised samples and corresponding predictions in a similar fashion)侈玄。
初步實驗比較了Π-模型[23]和mean-teacher模型[41]表明序仙,使用mean-teacher是語義分割獲得好性能的關鍵潘悼,因此本文的所有實驗都使用mean-teacher框架。我們將學生網絡表示為?堤尾,將教師網絡表示為
。
Cutout? ? 和[13]一樣粘室,我們用值1初始化一個掩碼衔统,并將隨機選擇的矩形內的像素設置為0锦爵。為了在語義分割任務中應用CutOut险掀,我們用
屏蔽輸入像素樟氢,忽略被
屏蔽為0的像素的一致性損失埠啃。FixMatch[38]使用了一個弱增強方案霸妹,該方案由crops和flips組成鹃骂,用于預測用作使用強增強方案增強的樣本的目標的偽標簽畏线。同樣寝殴,我們認為CutOut是一種強增廣形式蚣常,因此我們將教師網絡
對原始圖像生成偽目標抵蚊,用于訓練學生
?贞绳。使用平方距離作為度量冈闭,我們得到
,其中⊙ 表示元素乘積躺酒。
CutMix? ? CutMix需要兩個輸入圖像羹应,我們將其表示為和
裸违,我們用掩膜
將兩者混合供汛。和ICT[42]一樣雀久,我們將老師網絡對輸入圖片的預測
進行混合赖捌,以產生學生網絡預測混合圖像的偽標簽(we mix the teacher predictions for the input images gφ(xa),gφ(xb) producing a pseudo target for the student prediction of the mixed image)越庇。為了簡化表示法卤唉,讓我們定義函數
桑驱,其根據掩膜
來混合兩幅圖像。我們現(xiàn)在可以將一致性損失寫為:
? ??
用于分類的CutOut[13]的原始做法是使用了一個具有固定大小和縱橫比的矩形萍聊,其中心是隨機定位的问芬,允許矩形的一部分位于圖像邊界之外。CutMix[45]隨機改變大小此衅,但使用固定的縱橫比。在分割中亭螟,對于CutOut挡鞍,我們通過隨機選擇大小和縱橫比,但固定住矩形位置预烙,使其完全位于圖像中墨微,從而獲得了更好的分割性能。相反扁掸,對于CutMix翘县,通過將矩形的面積固定為圖像面積的一半最域,同時改變縱橫比和位置,CutMix性能得到最大化锈麸。
雖然Cutout和CutMix應用的增強不會出現(xiàn)在真實圖像中镀脂,但從視覺角度來看,它們是合理的忘伞。分割網絡經常使用圖像裁剪而不是完整的圖像來訓練薄翅,因此用CutOut來分割圖像的一部分可以看作是逆操作。應用CutMix實際上是將一個矩形區(qū)域從一個圖像粘貼到另一個圖像上氓奈,類似地產生一個合理的分割任務翘魄。
基于Cutout和CutMix的一致性損失在我們的補充材料中進行了說明。
4個實驗
我們現(xiàn)在將描述我們的實驗和主要結果探颈。我們將首先介紹培訓設置熟丸,然后介紹PASCAL VOC 2012、CITYSCAPES和ISIC 2017數據集的結果伪节。在PASCAL和ISIC的半監(jiān)督語義切分中光羞,我們比較了各種擾動方法。
4.1培訓設置
我們在實驗中使用了兩種分割網絡:1)基于ImageNet預訓練的ResNet-101的DeepLab v2網絡[7]怀大,如[28]所用纱兑;2)基于DensetNet-161的密集U網絡[24],如[25]所用化借。我們還在補充材料中使用deeplabv3+[9]和PSPNet進行評估潜慎。
我們使用交叉熵作為有監(jiān)督損失Lsup,并使用Mean-teacher算法計算一致性損失lcon[41]蓖康。對類維度上的LCON求和铐炫,對其他維度求平均,這樣我們就可以用相等的權重最小化Lsup和LCON蒜焊。補充材料中提供了更多詳細信息和超參數設置倒信。我們用教師網絡的閾值置信度的平均值來代替[23,41]中調節(jié)LCON的sigmoidal ramp up泳梆,它隨著培訓的進行而增加[15鳖悠,20,38]优妙。
4.2城市景觀和增強Pascal VOC結果
在這里乘综,我們展示了我們在兩個自然圖像數據集上的結果,并將它們與半監(jiān)督語義分割的最新技術進行了對比套硼,半監(jiān)督語義分割是Mittal等人的對抗性訓練方法[28]卡辰。我們在實驗中使用了兩個自然圖像數據集。城市景觀由城市景觀組成,其訓練集中有2975幅圖像九妈。PASCAL VOC 2012[14]更為多樣朴恳,但僅包含1464個訓練圖像,因此我們遵循Hung等人[18]的研究允蚣,并使用語義邊界[16]對其進行擴充于颖,得到10582個訓練圖像。我們采用了與[28]相同的種植和擴大計劃嚷兔。
除了ImageNet預先訓練的DeepLab v2之外森渐,Hung[18]和Mittal等人[28]還使用預先訓練的DeepLabv2網絡對COCO數據集進行語義分割,其自然圖像內容與PASCAL相似冒晰。他們的研究結果證實了特定任務預訓練的好處同衣。從一個預訓練的ImageNet分類器開始,它代表了一些實際問題壶运,對于這些問題耐齐,類似的分割數據集是不可用于預訓練的,因此我們選擇只使用這些更具挑戰(zhàn)性的條件蒋情。
我們的城市景觀結果如表1所示埠况,為平均聯(lián)合交叉口(mIoU)百分比,越高越好棵癣。我們對城市景觀的監(jiān)督基線結果與[28]相似辕翰。我們將小的差異歸因于訓練機制的選擇,比如優(yōu)化器的選擇狈谊。Cutout和CutMix都實現(xiàn)了對監(jiān)督基線的改進喜命,CutMix在對抗性[18]和s4GAN[28]方法上取得了領先和改進。我們注意到河劝,當使用全尺寸圖像裁剪獲得58.75%的mIoU分數時壁榕,CutMix性能略有下降±372個標記圖像為0.75。使用由三個小盒子組成的混合掩模(見補充材料)赎瞎,其比例與圖像內容更匹配牌里,可緩解這一問題,獲得60.41%±1.12.
我們的PASCAL結果如表2所示煎娇。我們的基線比[28]的基線要弱得多二庵;我們承認我們無法與他們匹敵贪染。Cutout和CutMix的產量比我們的基線有所提高缓呛,CutMix——盡管基線較弱——領先于對手和s4GAN的結果。虛擬對抗訓練[29]產生了顯著的改進杭隙,但無法與競爭方法相匹敵哟绊。從ICT[42]中獲得的改進是顯而易見的,而標準增強幾乎沒有任何區(qū)別痰憎。有關使用DeepLab v3+[9]和PSPNet[47]網絡的結果票髓,請參閱我們的補充資料攀涵。
4.3 ISIC 2017結果
ISIC皮膚病變分割數據集[11]由皮膚鏡圖像組成,聚焦于針對皮膚的病變洽沟。它的訓練集中有2000幅圖像以故,是一個兩類(皮膚和病變)分割問題,其特點是變化遠小于城市景觀和PASCAL裆操。
我們遵循Li等人[25]的預處理和增強方案怒详;所有的圖像被縮放到248×我們的增廣方案由隨機224組成×224個裁剪、翻轉踪区、旋轉和均勻縮放昆烁,范圍為0.9到1.1。
我們在表3中給出了我們的結果缎岗。我們必須首先注意静尼,我們的監(jiān)督基線結果明顯比Li等人的結果差[25]。鑒于這一局限性传泊,我們使用我們的結果來對比不同增強方案的效果鼠渺。我們最強的半監(jiān)督結果是使用CutMix,其次是標準增強眷细,然后是VAT和CutOut系冗。我們發(fā)現(xiàn)CutMix是最可靠的,因為其他方法需要更多的超參數調整工作來獲得積極的結果薪鹦。我們無法從信息和通信技術中獲得可靠的性能掌敬,因此其結果比基線更差。
我們認為池磁,標準增廣的良好性能(與PASCAL相比幾乎沒有任何區(qū)別)是由于數據集缺乏變化奔害。無監(jiān)督樣本的增廣變體足以與數據集中的其他樣本相似,從而成功地傳播標簽地熄,盡管標準增廣引入了有限的變量华临。
4.4討論
我們最初假設,CutMix在城市景觀和PASCAL數據集上的強大性能是由于增強了“模擬遮擋”端考,使網絡暴露在更廣泛的遮擋下雅潭,從而提高了在自然圖像上的性能心傀。這就是我們使用ISIC 2017數據集的動機奏甫;它的圖像不具有來自皮膚的閉塞和軟邊緣雙線病變[31]。CutMix的強大性能表明捏顺,遮擋的存在不是必需的裂明。
虛擬對抗訓練的成功表明椿浓,在語義分割所帶來的挑戰(zhàn)性條件下,探索對抗性例子的空間提供了足夠的變異,可以作為有效的半監(jiān)督正則化器扳碍。相比之下提岔,從信息通信技術中獲得的微小改進和標準增強對PASCAL數據集產生的幾乎不明顯的差異表明,這些方法不適合這一領域笋敞;我們建議使用更多樣化的源或擾動碱蒙,如CutMix。
5 結論
我們已經證明了一致性正則化是半監(jiān)督語義分割的一個可行的解決方案夯巷,只要使用適當的增廣源振亮。它的數據分布缺乏類之間的低密度區(qū)域,妨礙了仿射變換和ICT等增強方案的有效性鞭莽。我們證明了更豐富的方法是成功的坊秸,并提出了一種自適應的CutMix正則化器,它提供了足夠多的擾動澎怒,以實現(xiàn)最新的結果褒搔,并在自然圖像數據集上可靠地工作。我們的方法比以前基于GAN風格訓練的方法更易于實現(xiàn)和使用喷面。
我們假設星瘾,在給定滑動窗口輸入的情況下,涉及分割連續(xù)信號的其他問題域(如音頻處理)可能具有類似的挑戰(zhàn)性分布惧辈。這表明基于掩模的正則化是一種潛在的途徑琳状。
最后,我們提出盒齿,在語義分割中存在的數據分布的挑戰(zhàn)性性質表明念逞,它是一個有效的酸性測試,以評估未來的半監(jiān)督正則化边翁。
補充材料
Pascal VOC 2012跨網絡體系結構的性能分析
我們在表4中的PASCAL數據集上使用了多種體系結構翎承,證明了我們的方法的有效性。使用ImageNet預訓練的deeplabv3+我們的基線和半監(jiān)督結果比[28]的結果更強符匾。
B平滑變化的語義切分樣本密度
B.1信號處理說明的推導
在這一節(jié)中叨咖,我們將解釋我們推導的基于信號處理的語義分割中缺乏低密度區(qū)域的解釋問題。
為了分析圖像上斑塊分布的平滑度啊胶,我們需要計算以相鄰像素為中心的斑塊之間的l2像素內容距離甸各。讓我們從兩個面片A和B開始——見圖4(A,B)——從圖像I中提取焰坪,以水平相鄰像素為中心趣倾,在B的左側有一個像素。L2距離是| B?A |琳彩。假設B中的每個像素? A是水平相鄰像素之間的差值誊酌,B?因此,A是從水平梯度圖像中提取的面片?十一(見圖4(c))露乏。平方距離是B元素的平方和? 一個碧浊;它是從中提取的面片中元素的總和(?十一)?2 . 計算所有大小為H的面片的和×以滑動窗口的方式穿過(?十一)?2相當于將它與一個box內核卷積1h×因此,所有水平相鄰面片之間的距離可以用p(?十一)?2? 1小時×W瘟仿。盒式濾波器或密切相關的均勻濾波器是一種低通濾波器箱锐,它將抑制高頻細節(jié),從而產生平滑的輸出劳较。這是在Jupyter筆記本[22]中實現(xiàn)的驹止,它與我們的代碼一起分發(fā)。
B.2城市景觀內的斑塊間距離分析
我們對城市景觀的分析表明观蜗,語義分割問題表現(xiàn)出較高的類內方差和較低的類間方差臊恋。我們選擇了1000個圖像貼片三胞胎,每個三胞胎由一個錨定貼片Ai和正Pi以及負Ni貼片組成墓捻,它們分別具有與Ai相同和不同的基本真值類別抖仅。我們使用了l2像素內容類內距離| Pi? Ai | 2和類間距離| Ni? Ai | 2作為方差的代理。假設分割模型必須在圖像中不同類別的相鄰像素之間放置決策邊界砖第,我們選擇Ai和Ni作為類別邊界兩側的近鄰撤卢。由于該模型還必須從標記圖像推廣到未標記圖像,因此我們搜索了所有圖像梧兼,除了包含Ai的圖像放吩,尋找屬于使Pi最小化的同一類的Pi? Ai | 2。最小化距離選擇模型必須推廣的最佳類內距離羽杰。圖2左側的類間與類內距離比率直方圖位于右側的插圖下方渡紫,其中藍色的類內距離約為3× 那紅色的班際距離。該模型必須學會將決策邊界放置在以相鄰像素為中心的面片之間考赛,同時對其進行足夠精確的定位腻惠,使其在正確的點與其他圖像相交。
C設置:2D玩具實驗
在我們的2D玩具實驗中使用的神經網絡是簡單的分類器欲虚,其中樣本是從-1到1的2D x集灌,y點。我們的網絡是多層感知器复哆,由3個512個單元的隱藏層組成欣喧,每個層后面跟著一個ReLU非線性。最后一層是2單元分類層梯找。我們使用mean-teacher[41]半監(jiān)督學習算法唆阿,以二進制交叉熵作為一致性損失函數,一致性損失權為10锈锤,置信閾值為0.97驯鳖。地面真值決策邊界是由手繪的512×512像素圖像闲询。圖3(c)所示的距離圖是使用scipy.ndimage計算的。SciPy[43]中的morphomatics.distance_transform_edt函數浅辙,對于指定給類0的區(qū)域,距離取反记舆。因此距離圖中的每個像素到地面真值類邊界都有一個有符號距離鸽捻。該距離圖用于生成圖3(c)中的直線數,并用于支持圖3(d)中所示的約束一致性正則化實驗泽腮。第3.2節(jié)中描述的約束一致性正則化實驗要求對樣本x進行擾動?使它們與地面真值判定邊界處于相同或相似的距離御蒲。這是通過從正態(tài)分布中提取各向同性擾動來實現(xiàn)的?x=x+h,其中h~ N(0,0.117)(0.117)≈ 源圖像中的30個像素)诊赊,確定距離m(x)和m(x?) 從x和?x到地面真值邊界(使用預先計算的距離圖)并通過掩蓋x到0的一致性損失(如果| m(x?) ? m(x)|>0.016(0.016)≈ 源圖像中的4像素)厚满。
三維語義切分實驗裝置
D.1采用半監(jiān)督分類算法進行分割
在主要的論文中,我們解釋了我們是如何將Cutout[13]和CutMix[45]用于分割的碧磅。在這里痰滋,我們將討論我們的方法來適應標準增強,插值一致性訓練(ICT)和虛擬對抗訓練(VAT)续崖。我們注意到所有這些方法的實現(xiàn)都隨源代碼一起提供敲街。
D.1.1標準擴充
我們的標準基于增強的一致性損失使用仿射變換來修改無監(jiān)督圖像。在教師和學生路徑中應用不同的仿射變換會導致預測不一致严望。必須使用適當的仿射變換使它們對齊多艇。為此,我們遵循Perone等人[32]和Li等人[25]的方法像吻;原始的未分段圖像x被傳遞到教師網絡gφ 生產預測gφ (x) 峻黍,與原始圖像對齊。用仿射變換a(·)增強圖像:?x=a(x)拨匆,傳遞給學生網絡fθ 生產預測fθ (a(x))姆涩。同樣的變換也適用于教師預測:a(g)φ (x) )。這兩個預測現(xiàn)在幾何對齊惭每,允許計算一致性損失骨饿。
在這一點上,我們要指出執(zhí)行工作中涉及的一些挑戰(zhàn)台腥。一種自然的方法是使用單個系統(tǒng)應用仿射變換宏赘,例如PyTorch提供的仿射網格功能[10];這樣黎侈,輸入圖像和預測都可以使用相同的變換矩陣進行擴充察署。然而,我們希望精確匹配Hung等人[18]和Mittal等人[28]使用的增強系統(tǒng)峻汉,這兩個系統(tǒng)都使用OpenCV[5]提供的功能贴汪。這需要對OpenCV中的相關函數如何生成和應用仿射變換矩陣有一個準確的了解脐往,以便使用PyTorch的仿射網格功能(必須用于變換預測)來匹配它們。
D.1.2插值一致性訓練
信息和通信技術是最簡單的適應辦法扳埂。我們遵循[42]中的過程业簿,只是我們的網絡生成像素級概率向量。它們是混合的聂喇,損失是以與[42]相同的方式計算的辖源;唯一不同的是數組/張量有額外的維數蔚携。
D.1.3虛擬對抗訓練
按照Oliver等人[30]的注釋希太,在分類方案中,VAT將對抗性擾動radv計算為:
我們采用完全相同的方法酝蜒,計算最大化輸出所有像素類預測變化平均值的對抗性擾動誊辉。
我們擴大了作戰(zhàn)半徑ε 通過將其乘以輸入圖像的梯度大小,自適應地基于每個圖像亡脑。我們發(fā)現(xiàn)1的比例很好地工作堕澄,并在我們的實驗中使用了這一點。我們還嘗試使用一個固定值ε – 正如通常在增值稅中使用的那樣——并發(fā)現(xiàn)這樣做會導致輕微但在統(tǒng)計上不顯著的績效下降霉咨。因此蛙紫,基于易用性,我們建議使用自適應半徑途戒。它是在我們的源代碼中實現(xiàn)的坑傅。
D.2 CutMix和Cutout計算說明
我們在圖5和圖6中分別說明了基于CutMix的一致性損失lcon和Cutout一致性損失的計算。
D.3城市景觀上全尺寸作物的切割混合
正如我們在正文中所述喷斋,當使用CITYSCAPES數據集時唁毒,使用全尺寸圖像裁剪–1024×512而不是通常的512×256–使用CutMix正則化削弱半監(jiān)督學習的性能,將mIoU分數從60.34%降低± 1.24至58.75%±0.75. 我們相信星爪,當混合掩模中元素的尺度與圖像內容的尺度適當匹配時浆西,可以獲得最佳性能。我們可以通過隨機選擇三個面積為一個盒子的1/3的小盒子(正常情況)來構建我們的混合掩模顽腾,從而緩解perofmnace的這種減少近零。假設由單個框組成的CutMix遮罩使用的框覆蓋了50%的圖像區(qū)域(但具有隨機的縱橫比和位置),則三個框分別覆蓋圖像區(qū)域的1/6抄肖。三個框的掩碼使用異或操作組合秒赤。圖7一盒和三盒掩模的對比混合。
D.4培訓細節(jié)
D.4.1為城市景觀和Pascal VOC 2012使用ImageNet預先培訓的DeepLab v2體系結構
我們使用Adam[21]優(yōu)化算法憎瘸,學習率為3× 10?5 . 根據mean-teacher算法[41]入篮,在每次迭代之后,教師網絡的權重wt被更新為學生權重ws的指數移動平均值:wt=α行波管+(1)?αt) ws幌甘,哪里αt=0.99潮售。
城市景觀圖像被降采樣到半分辨率(1024)× 512)使用前痊项,如[18]所述。我們提取了512個× 256種隨機作物酥诽,采用隨機水平翻轉鞍泉,批次大小為4,符合[28]肮帐。
對于PASCAL VOC實驗咖驮,我們提取了321× 321種隨機作物,應用0.5到1.5之間的隨機尺度训枢,四舍五入到最接近的0.1托修,并應用隨機水平翻轉。我們使用的批量大小為10恒界,符合[18]睦刃。
我們對所有實驗都使用了0.97的置信閾值。我們對CutOut和CutMix使用了1的一致性損失權重十酣,0.003表示標準增強涩拙,0.01表示ICT,0.1表示增值稅耸采。
超參數調整是通過評估一個保持驗證集的性能來執(zhí)行的兴泥,該驗證集的樣本來自PASCAL訓練集。
我們?yōu)檫@兩個數據集訓練了40000次迭代虾宇。我們還發(fā)現(xiàn)搓彻,使用deeplabv2時,相同的超參數對這兩種方法都很有效文留。
D.4.2為ISIC 2017使用ImageNet預先培訓的DensueNet
所有的圖像被縮放到248×248使用面積插值作為預處理步驟好唯。我們的增廣方案包括隨機224×224裁剪、翻轉燥翅、旋轉和均勻縮放
在0.9到1.1之間骑篙。
與[25]不同的是,我們標準的基于增強的實驗允許通過教師和學生路徑的樣本彼此任意旋轉和縮放(在上面指定的范圍內)森书,其中[25]使用90度整數倍的旋轉和翻轉靶端。
我們所有的ISIC 2017實驗都使用具有Nesterov動量[40]的SGD(動量值為0.9),學習率為0.05凛膏,權重衰減為5× 10?4 . 對于剪切和剪切混合杨名,我們使用的一致性權重為1,標準增強為0.1猖毫,增值稅為0.1台谍。
我們要注意的是,將每個圖像的最短尺寸縮放到248像素吁断,同時保持縱橫比會降低性能趁蕊;預處理步驟中的非均勻尺度作為數據擴充的一種形式坞生。
D.4.3增強Pascal VOC 2012的不同體系結構
我們發(fā)現(xiàn)使用不同的學習率,不同的網絡架構可以提供最佳的性能掷伙,如表5所示是己。
我們使用了基于ResNet-101的PSPNet的MIT CSAIL實現(xiàn)[47]。為了使用損失函數任柜,我們不得不修改他們的代碼卒废。我們注意到,我們沒有使用[47]中的輔助損失宙地,即MIT CSAIL GitHUb存儲庫中的深度監(jiān)管技巧摔认。
D.4.4置信閾值
[15] 應用置信度閾值法,對教師網絡預測的置信度低于閾值0.968的樣本绸栅,將一致性損失掩蓋為0级野。在分割的上下文中页屠,我們發(fā)現(xiàn)這種方法會屏蔽接近類邊界的像素粹胯,因為它們通常具有較低的置信度。這些區(qū)域通常足夠大辰企,足以容納小對象风纠,防止學習和降低性能。相反牢贸,我們用置信度高于閾值的像素比例來調節(jié)一致性損失竹观。這個值在整個訓練過程中不斷增長,取代了[23,41]中使用的乙狀結腸斜坡潜索。
D.4.5平方誤差一致性損失
大多數使用平方誤差的一致性損失實現(xiàn)(例如[41])計算所有維度上平方誤差的平均值臭增。相反,我們在類概率維度上求和竹习,在空間維度和批量維度上計算平均值誊抛。這與交叉熵和KL散度等概率向量使用的其他損失函數的定義更為一致。我們還發(fā)現(xiàn)整陌,這減少了根據類數縮放一致性權重的必要性拗窃;按照要求,然后取類概率維的平均值[41]泌辫。
Available at https://github.com/CSAILVision/semantic-segmentation-pytorch.
3Our modified version can be found in the logits-from-models branch of https://github.com/Britefury/semantic-segmentation-pytorch