視頻分割后處理從兩個(gè)方面入手诸蚕,一個(gè)是從視頻的歷史幀掩膜,一個(gè)是從圖像分割的角度自赔,例如這篇論文
Probabilistic Semantic Segmentation Refinement by Monte Carlo Region Growing
具有細(xì)粒度像素級(jí)精度的語義分割是各種計(jì)算機(jī)視覺應(yīng)用的基本組成部分妈嘹。然而,盡管卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)最近有了很大的改進(jìn)绍妨,但現(xiàn)代最先進(jìn)的方法所提供的分割仍然顯示出有限的邊界依從性润脸。我們提出了一種完全無監(jiān)督的后處理算法,利用蒙特卡羅抽樣和像素相似度將高置信度像素標(biāo)簽傳播到低置信度分類區(qū)域他去。我們的算法毙驯,我們稱之為概率區(qū)域生長(zhǎng)細(xì)化(PRGR),是基于一個(gè)嚴(yán)格的數(shù)學(xué)基礎(chǔ)灾测,其中集群被建模為多元正態(tài)分布的像素集爆价。pRGR利用貝葉斯估計(jì)和方差減少技術(shù)的概念,在不同的接收?qǐng)龃笮∠逻M(jìn)行多次求精迭代媳搪,同時(shí)更新聚類統(tǒng)計(jì)以適應(yīng)局部圖像特征铭段。使用多個(gè)現(xiàn)代語義分割網(wǎng)絡(luò)和基準(zhǔn)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)證明了我們的方法在不同粗糙度下細(xì)化分割預(yù)測(cè)的有效性,以及在蒙特卡羅迭代中獲得的方差估計(jì)作為與分割精度高度相關(guān)的不確定性度量的適用性秦爆。
https://arxiv.org/pdf/2005.05856.pdf
SUBMITTED TO IEEE TRANSACTIONS ON IMAGE PROCESSING (UNDER REVIEW), APR 2020
作者:Marquette University
將要開源序愚,實(shí)時(shí)性不確定,計(jì)算量不確定等限,需要評(píng)估和測(cè)試
作者2018年的另一篇論文似乎是這篇論文的前身(2018.2)
https://arxiv.org/pdf/1802.07789.pdf?
作者還有個(gè)工作是自動(dòng)標(biāo)注的:
https://arxiv.org/pdf/1902.06806.pdf
http://www.coviss.org/%20%20freelabel/
摘要具有細(xì)粒度像素級(jí)精度的語義分割是各種計(jì)算機(jī)視覺應(yīng)用的基本組成部分爸吮。然而,盡管卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)最近有了很大的改進(jìn)望门,但現(xiàn)代最先進(jìn)的方法所提供的分割仍然顯示出有限的邊界依從性形娇。我們提出了一種完全無監(jiān)督的后處理算法,利用蒙特卡羅抽樣和像素相似度將高置信度像素標(biāo)簽傳播到低置信度分類區(qū)域怒允。我們的算法埂软,我們稱之為概率區(qū)域生長(zhǎng)細(xì)化(PRGR)锈遥,是基于一個(gè)嚴(yán)格的數(shù)學(xué)基礎(chǔ)纫事,其中集群被建模為多元正態(tài)分布的像素集。pRGR利用貝葉斯估計(jì)和方差減少技術(shù)的概念所灸,在不同的接收?qǐng)龃笮∠逻M(jìn)行多次求精迭代丽惶,同時(shí)更新聚類統(tǒng)計(jì)以適應(yīng)局部圖像特征。使用多個(gè)現(xiàn)代語義分割網(wǎng)絡(luò)作品和基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)證明了我們的方法在不同粗糙度下細(xì)化分割預(yù)測(cè)的有效性爬立,以及在蒙特卡羅迭代中獲得的方差估計(jì)作為與分割精度高度相關(guān)的不確定性度量的適用性钾唬。索引項(xiàng)分割;像素分類;區(qū)域生長(zhǎng)抡秆;隨機(jī)方法奕巍;不確定性與概率推理。在計(jì)算機(jī)視覺的許多應(yīng)用中儒士,像素級(jí)的高精度圖像分割是一個(gè)關(guān)鍵要求的止。在動(dòng)作和活動(dòng)識(shí)別中,人-人和人-物交互的相關(guān)視覺線索包括主體和客體之間的接觸着撩、特定的身體輪廓和零件位置[1]-[3]诅福。自動(dòng)化任務(wù)通常需要對(duì)物體或儀器進(jìn)行操作,其中物體姿態(tài)和形態(tài)估計(jì)的質(zhì)量直接影響成功率[4]拖叙,[5]氓润。農(nóng)業(yè)領(lǐng)域是一個(gè)例子[6]-[8],其中圖像分割作為感知模塊的一部分被開發(fā)出來薯鳍,目標(biāo)是在園藝場(chǎng)景中授粉咖气、果園管理和收獲。廣泛的圖像分割應(yīng)用包括圖像編輯辐啄、自動(dòng)駕駛車輛[9]采章、網(wǎng)上購物的虛擬服裝試穿[10]和醫(yī)學(xué)成像。醫(yī)學(xué)分段十項(xiàng)全能挑戰(zhàn)[11]就是一個(gè)例子壶辜,器官和結(jié)構(gòu)(如腫瘤)的精確定位對(duì)于最終指導(dǎo)醫(yī)療干預(yù)至關(guān)重要悯舟。基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)模型極大地提高了圖像理解的技術(shù)水平砸民。然而抵怎,傳統(tǒng)的基于CNN的分割模型受到了用于學(xué)習(xí)層次特征的典型下采樣的限制。在這個(gè)過程中岭参,像素級(jí)的細(xì)節(jié)會(huì)丟失反惕,從而導(dǎo)致分割遮罩很難與對(duì)象邊界結(jié)合。為了減輕這些限制演侯,現(xiàn)代圖像分割模型采用了諸如阿托羅斯卷積[12]姿染、具有跳躍連接的編碼器-解碼器體系結(jié)構(gòu)[13]–[15]、金字塔縮放[16]等策略秒际。與傳統(tǒng)的CNN結(jié)構(gòu)相比悬赏,這些策略已經(jīng)取得了很大的改進(jìn),但是它們產(chǎn)生的分割仍然沒有很好地與對(duì)象的邊界對(duì)齊娄徊。后處理方法闽颇,如條件隨機(jī)場(chǎng)(crf)[16],[17]已經(jīng)在分割細(xì)化方面取得了成功寄锐,但它們的性能取決于對(duì)每個(gè)特定數(shù)據(jù)集和所使用的預(yù)測(cè)模塊的參數(shù)進(jìn)行適當(dāng)優(yōu)化兵多。
在[18]中尖啡,我們引入了區(qū)域增長(zhǎng)細(xì)化(Region Growing refinence,RGR)算法剩膘,這是一種無監(jiān)督且易于推廣的后處理模塊衅斩,它通過基于外觀的區(qū)域增長(zhǎng)來細(xì)化語義分割模板。在Monte Carlo框架中怠褐,初始像素作為高質(zhì)量種子從高置信度標(biāo)記的區(qū)域中進(jìn)行采樣矛渴,并成長(zhǎng)為用于分割細(xì)化的簇。在此背景下惫搏,我們提出了概率區(qū)域增長(zhǎng)求精(pRGR)算法具温,這是RGR的一個(gè)擴(kuò)展,它提供了以下貢獻(xiàn):
一個(gè)堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)筐赔,利用概率框架來指導(dǎo)算法的所有步驟铣猩;
?結(jié)合來自貝葉斯估計(jì)的技術(shù),許多先前以臨時(shí)方式確定的參數(shù)現(xiàn)在使用貝葉斯共軛先驗(yàn)初始化茴丰,并隨著像素到簇的分配而更新达皿。此外,在蒙特卡羅精化迭代中利用方差減少技術(shù)來優(yōu)化采樣步驟贿肩;
?通過一種新的參數(shù)化峦椰,允許對(duì)不同的感受野大小進(jìn)行em 計(jì)算,pRGR通過恢復(fù)更精細(xì)的邊界細(xì)節(jié)和減弱假陽性像素標(biāo)簽的影響汰规,進(jìn)一步提高了分割細(xì)化性能汤功;
?我們通過實(shí)驗(yàn)證明了pRGR在各種場(chǎng)景中的適用性,包括最先進(jìn)的模型溜哮,如DeepLabV3+[19]滔金。這些實(shí)驗(yàn)也表明DenseCRF[17]和pRGR的結(jié)合是一種有效的分割細(xì)化策略;
我們觀察到茂嗓,pRGR的Monte Carlo估計(jì)的方差可以作為一種不確定性估計(jì)機(jī)制餐茵,實(shí)驗(yàn)證明了它與最終分割精度值之間的高相關(guān)關(guān)系;一旦發(fā)布述吸,代碼將在covis上提供承桥。組織/代碼纽窟。我們報(bào)告了使用不同CNN桥嗤、數(shù)據(jù)集和基線的實(shí)驗(yàn)柜思。為了便于與CRF和RGR基線進(jìn)行比較沃饶,我們首先報(bào)告了DeepLab[12]和DeepLabV2[16]為PASCAL VOC 2012[20]驗(yàn)證集提供的細(xì)分預(yù)測(cè)改進(jìn)實(shí)驗(yàn)缕探。然后似踱,我們報(bào)告了在PASCAL val集和DAVIS數(shù)據(jù)集的選定序列上使用最先進(jìn)的DeepLabV3+[19]分割模型進(jìn)行的實(shí)驗(yàn)捍靠。與PASCAL數(shù)據(jù)集相比走趋,DAVIS數(shù)據(jù)集包含的注釋更細(xì)粒度衅金,邊界更緊密。論文的結(jié)構(gòu)如下。在第二節(jié)中氮唯,我們概述了相關(guān)的工作鉴吹,包括現(xiàn)代語義分割模型、分割細(xì)化策略和使用相似概率概念的聚類算法惩琉。第三節(jié)對(duì)pRGR模型的完整公式進(jìn)行了說明豆励,第四節(jié)詳細(xì)介紹了實(shí)現(xiàn)pRGR的算法。在第五節(jié)中瞒渠,我們報(bào)告了將pRGR與RGR良蒸、CRF和CRF+pRGR的組合進(jìn)行比較以改進(jìn)由多個(gè)CNN模型提供的預(yù)測(cè)的實(shí)驗(yàn)。最后伍玖,在第六節(jié)中嫩痰,我們強(qiáng)調(diào)了這項(xiàng)工作的主要收獲,無論是在取得的成果方面窍箍,還是在未來的方向串纺,pRGR可以開發(fā)。
二椰棘》墓祝基于deep-CNNs的相關(guān)工作模型在圖像分類和目標(biāo)檢測(cè)等計(jì)算機(jī)視覺任務(wù)中都取得了顯著的進(jìn)展。然而邪狞,對(duì)于基于CNN的系統(tǒng)來說祷蝌,需要像素級(jí)圖像標(biāo)記的任務(wù)尤其具有挑戰(zhàn)性。雖然對(duì)于評(píng)估不同級(jí)別的上下文并因此學(xué)習(xí)分層特征至關(guān)重要帆卓,但池操作和跨行操作的組合會(huì)導(dǎo)致下采樣效果杆逗,從而影響像素密集分類任務(wù)中cnn的性能。這一點(diǎn)通過由諸如Eigen&Fergus[22]和早期的完全卷積網(wǎng)絡(luò)(FCNs)[13]所引入的模型所產(chǎn)生的分割預(yù)測(cè)得到了清楚的證明鳞疲,這些模型的結(jié)構(gòu)基本上由圖像分類CNN模型組成罪郊,其完全連接的層被進(jìn)一步卷積所代替。這些模型產(chǎn)生了邊界粘連有限的粗分割掩模尚洽,這是一個(gè)開放性問題悔橄,推動(dòng)了該領(lǐng)域的許多進(jìn)展。目前許多語義分割方法都側(cè)重于開發(fā)更好的上采樣策略腺毫,以提高分割精度癣疟。Noh等人。[23]專注于學(xué)習(xí)反褶積網(wǎng)絡(luò)潮酒,而諸如U-Net[14]和SegNet[24]的工作則專注于編碼器-解碼器體系結(jié)構(gòu)睛挚,其中解碼器路徑包括跳過連接以從編碼器層傳輸信息以更好地指導(dǎo)上采樣。為了獲得更精細(xì)的分段而研究的另一個(gè)方向集中在減少通過下采樣丟失的細(xì)節(jié)數(shù)量上急黎。為此扎狱,DeepLab模型家族[12]侧到、[16]、[19]利用了擴(kuò)張卷積(或阿托拉斯卷積)的思想淤击,其中卷積濾波器用零填充匠抗,作為增加接收?qǐng)龅牧硪环N方法。此外污抬,像PSPNet[25]這樣的作品重新審視了早期的策略[26]汞贸,這些策略側(cè)重于在多個(gè)尺度上評(píng)估圖像,以便更好地結(jié)合不同層次的場(chǎng)景上下文印机。在這種情況下矢腻,DeepLabV2[16]采用了atrus空間金字塔池(ASPP),其中atros卷積與空間金字塔池的概念相結(jié)合[27]射赛。最近踏堡,最新的DeepLabV3+模型[19]被引入,結(jié)合了調(diào)整后的ASPP策略以利用圖像級(jí)特征和解碼器模塊來優(yōu)化沿邊界的分割咒劲。
除了對(duì)CNN結(jié)構(gòu)的調(diào)整外顷蟆,一些研究集中在研究利用低層圖像特征來幫助基于CNN的模型完成圖像分割任務(wù)的技術(shù)。Girschick等人利用了選擇性搜索的概念[28]腐魂。[29]構(gòu)思用于目標(biāo)檢測(cè)的RCNN族的第一個(gè)模型帐偎。基于相似度合并小區(qū)域集合[30]蛔屹,生成區(qū)域建議削樊,然后使用深度學(xué)習(xí)模型對(duì)其進(jìn)行評(píng)估。類似的想法利用超級(jí)像素[31]作為預(yù)處理步驟兔毒,其中像素基于低級(jí)屬性(例如顏色相似性)分組漫贞,每個(gè)組使用手工設(shè)計(jì)的層次特征[32]或CNNs[33],[34]進(jìn)行評(píng)估育叁。同樣迅脐,局部外觀技術(shù),如超混合和條件隨機(jī)場(chǎng)(crf)也被用于深CNN模型產(chǎn)生的分割的后處理豪嗽。DeepLab論文[12]提出將其新穎的體系結(jié)構(gòu)與[17]中的DenseCRF模型相結(jié)合谴蔑,以改進(jìn)分割掩模,特別是沿邊界的分割掩模龟梦。與傳統(tǒng)的全連接CRFs實(shí)現(xiàn)相比隐锭,DenseCRF通過一種近似推理算法提高了計(jì)算效率,該算法將成對(duì)勢(shì)建模為高斯核的組合计贰。然而钦睡,使用DenseCRF模型對(duì)分割掩模進(jìn)行后處理細(xì)化需要通過網(wǎng)格搜索優(yōu)化超參數(shù),每當(dāng)CNN模型和/或數(shù)據(jù)集發(fā)生變化時(shí)躁倒,都必須執(zhí)行此過程荞怒。
在[18]中洒琢,我們引入了區(qū)域增長(zhǎng)細(xì)化(RGR)算法,該算法通過將高置信度標(biāo)簽傳播到不確定像素分類區(qū)域來細(xì)化分割預(yù)測(cè)挣输。在不同的數(shù)據(jù)集和CNN模型組合上的實(shí)驗(yàn)表明:一)RGR對(duì)分割細(xì)化的有效性;二)它的高泛化能力福贞,不需要對(duì)數(shù)據(jù)集或模型進(jìn)行特定的調(diào)整撩嚼。除了分割細(xì)化[7],RGR的實(shí)際相關(guān)性也在FreeLabel[35]中得到了說明挖帘,F(xiàn)reeLabel[35]是一個(gè)開源的注釋工具完丽,可以從用戶提供的手繪軌跡中獲得高質(zhì)量的分割遮罩。雖然在某些方面類似于SLIC[36]等超級(jí)混合算法拇舀,但RGR基于從高置信區(qū)域隨機(jī)采樣的種子初始化允許具有靈活大小的簇逻族,并強(qiáng)制從高置信區(qū)域?qū)С龈卟淮_定區(qū)域的分類。傳統(tǒng)的超像素算法也有一些局限性骄崩,如對(duì)局部特征的調(diào)整缺乏自適應(yīng)性聘鳞,以及對(duì)參數(shù)初始化錯(cuò)誤的魯棒性差。引入了利用貝葉斯估計(jì)的模型來克服超級(jí)像素算法的這些局限性要拂,其策略范圍從像素相關(guān)高斯混合模型(GMMs)[37]抠璃、[38]到非參數(shù)混合模型[39]。在這種方法中脱惰,將先前固定的歸一化超參數(shù)替換為貝葉斯先驗(yàn)搏嗡,當(dāng)像素被分配給簇時(shí),貝葉斯先驗(yàn)與其他簇統(tǒng)計(jì)信息一起以協(xié)方差的形式更新拉一。III.提出的方法在本節(jié)中采盒,我們首先簡(jiǎn)要回顧構(gòu)成RGR算法的主要操作。然后蔚润,我們描述了構(gòu)成概率區(qū)域增長(zhǎng)求精(pRGR)方法的步驟序列和相應(yīng)的數(shù)學(xué)公式磅氨。區(qū)域增長(zhǎng)細(xì)化(RGR):基于語義分割檢測(cè)器(如現(xiàn)代CNN)提供的像素分類分?jǐn)?shù),RGR識(shí)別圖像中的三個(gè)區(qū)域:高置信度背景嫡纠、高置信度對(duì)象和不確定性區(qū)域悍赢。這是通過使用極值對(duì)記分圖進(jìn)行閾值化來實(shí)現(xiàn)的,即對(duì)于高置信度前景接近1.0货徙,對(duì)于高置信度背景識(shí)別接近0.0左权。然后基于像素顏色和位置相似性進(jìn)行區(qū)域生長(zhǎng),從從高置信度區(qū)域采樣的初始種子開始痴颊。RGR使用Monte Carlo方法多次執(zhí)行此過程:為每個(gè)生長(zhǎng)迭代隨機(jī)采樣不同的種子集赏迟,以便將最終采樣假陽性像素作為種子的總體影響降到最低。一旦簇形成蠢棱,RGR在每個(gè)簇內(nèi)進(jìn)行基于像素的多數(shù)投票锌杀,以獲得對(duì)的精確估計(jì)
每個(gè)區(qū)域的分段分?jǐn)?shù)甩栈。最后,對(duì)每個(gè)Monte Carlo迭代所得的細(xì)化分?jǐn)?shù)進(jìn)行平均糕再,以獲得最終的細(xì)化分割預(yù)測(cè)量没。與RGR算法相似,pRGR算法是一種通用的無監(jiān)督后處理模塊突想,用于細(xì)化分割邊界殴蹄,可與任何CNN或類似語義分割模型的輸出耦合。在共享相似概念的同時(shí)猾担,pRGR通過使用概率公式來推進(jìn)RGR袭灯,在該公式中,算法的所有步驟都是使用數(shù)學(xué)相干框架導(dǎo)出的绑嘹。此外稽荧,在參數(shù)的初始化和更新過程中,采用了方差歸約和貝葉斯估計(jì)的概念工腋。
組成pRGR的主要操作如圖1所示姨丈。在較高層次上,RGR和pRGR所執(zhí)行的步驟可以概括為:1)識(shí)別高置信分類區(qū)域擅腰;2)從高置信區(qū)域進(jìn)行蒙特卡羅種子采樣构挤;3)種子區(qū)域生長(zhǎng)成簇;4)簇內(nèi)像素得分平均惕鼓;5)通過多次蒙特卡羅迭代進(jìn)行平均筋现。在多類分割的情況下,RGR和pRGR都在與每個(gè)類相關(guān)聯(lián)的記分圖上執(zhí)行這些步驟箱歧,并且通過計(jì)算跨類的最大似然來定義最終分類矾飞。在本節(jié)的其余部分中,我們將證明這些操作的合理性呀邢,并導(dǎo)出指導(dǎo)構(gòu)成我們的方法的步驟的一組方程洒沦。來自高置信區(qū)域的概率種子抽樣
我們的求精算法的輸入被表示為觀察圖像I∈Rw×h和相應(yīng)的置信映射C∈Rw×h×C。這里价淌,w×h是輸入圖像I的維數(shù)申眼,C是集合C中每個(gè)類的分?jǐn)?shù)映射,由任何現(xiàn)代分割CNN生成蝉衣。為了簡(jiǎn)單起見括尸,我們首先介紹二進(jìn)制情況下的方法,其中| C |=1病毡,因?yàn)樵诙囝悎?chǎng)景中濒翻,所有步驟都是在每個(gè)類scoremap上獨(dú)立執(zhí)行的。
讓
其中Fb(·)和Ff(·)分別是tb和tf分布對(duì)應(yīng)的累積密度函數(shù)(CDFs)。如[18]所述有送,種子之間間隔γ的取樣確保了它們?cè)谡麄€(gè)不確定區(qū)域生長(zhǎng)的路徑的可用性淌喻。也就是說,在高置信區(qū)域內(nèi)的γ×γ點(diǎn)之間均勻地采樣種子雀摘,使得裸删,給定閾值tf、tb和種子間距γ阵赠,在具有置信分?jǐn)?shù)ci的像素處采樣種子si的概率是
而在RGR中涯塔,所有樣本生長(zhǎng)迭代的種子間距γ是固定的,對(duì)于pRGR豌注,我們采用一種策略伤塌,其中γ以分層方式從均勻分布的γ~U(γl灯萍,γh)中采樣轧铁,其中γl和γh是最小和最大間距值。如(2)所示旦棉,參數(shù)γ直接影響待采樣種子的數(shù)量齿风,與通過種子生長(zhǎng)形成的簇的預(yù)期大小成反比。因此绑洛,使用分層方法采樣γ允許在多個(gè)接收野大小下模擬細(xì)化過程救斑,這是許多現(xiàn)代分割體系結(jié)構(gòu)中使用的常見做法[19],[25]真屯。
其中脸候,第二個(gè)方程基于種子僅從高置信區(qū)域采樣的事實(shí),即P(si | IH绑蔫,γ)=0运沦。設(shè)m=1,…配深,ns表示Monte Carlo生長(zhǎng)迭代的指數(shù)携添,使得s(m)i表示迭代m中的第i種子,并設(shè)γ(m)為對(duì)應(yīng)的種子間距篓叶×衣樱基于(3)和(4),種子樣本按分布
閾值分布:基于深度學(xué)習(xí)模型的語義分割方法通常包括三個(gè)主要步驟缸托。首先左敌,CNN計(jì)算每個(gè)類的每個(gè)像素的激活的無限分?jǐn)?shù)圖。通過對(duì)每個(gè)像素的所有類應(yīng)用softmax函數(shù)俐镐,這些記分圖隨后被規(guī)范化為范圍[0母谎,1]。最后京革,通過對(duì)規(guī)范化記分圖的arg max操作奇唤,將類標(biāo)簽分配給每個(gè)像素幸斥。因此,沒有單一的固定閾值應(yīng)用于分類的類記分圖咬扇。因此甲葬,為了估計(jì)(3)中所要求的CDFs F b,F(xiàn) F懈贺,我們使用兩個(gè)非參數(shù)分布F●b和F●F來近似它們经窖。如圖2所示,從arg max步驟的輸出中梭灿,我們識(shí)別標(biāo)記為前景的像素pf∈F和標(biāo)記為背景的像素pb∈B画侣。對(duì)于如圖2所示的多個(gè)類別的場(chǎng)景,前景對(duì)應(yīng)于標(biāo)記為被評(píng)估類別的一部分的像素(例如人)堡妒,而背景對(duì)應(yīng)于所有剩余類別(例如非人)的并集配乱。然后,我們分別估計(jì)由CNN計(jì)算的前景F和背景b內(nèi)預(yù)測(cè)像素的分?jǐn)?shù)cf和cb的CDFs F∮F≈F(cf)和F∮b≈F(cb)皮迟。為此搬泥,我們使用
核函數(shù),在每個(gè)區(qū)域的標(biāo)準(zhǔn)化分?jǐn)?shù)[0伏尼,1]范圍內(nèi)的等距點(diǎn)上計(jì)算忿檩。
相似性度量
一旦擁有了高置信度的種子,pRGR就開始基于空間和顏色相似性將這些初始像素生長(zhǎng)成簇爆阶。讓每個(gè)像素pj由5D特征向量zj=[xj燥透,cj]T來描述,其中xj=[xj辨图,yj]T是其2D空間特征班套,cj=[lj,aj徒役,bj]T是其3D顏色(CIELab)特征孽尽。類似地,讓xk忧勿,ck表示簇Ψk的質(zhì)心特征杉女。然后,根據(jù)[18]中的公式(基于SLIC超混合算法[36])鸳吸,pj和簇Ψk之間的相似性由
方程(6)可以推廣到 我們假設(shè)對(duì)于每個(gè)分區(qū)π熏挎,每個(gè)具有特征zj的像素pj最好由一個(gè)且只有一個(gè)簇Ψk來描述,該簇Ψk正態(tài)分布具有平均(質(zhì)心)zk和協(xié)方差∑k1晌砾。因此坎拐,zj的分布由 給出,其中d(zj,zk)=(zj zk)T∑k1(zj zk)和α=ln?2π5/2 |∑k | 1/2 |哼勇。因此都伪,對(duì)于zj~N(zk,∑k1)积担,(9)中的距離等于點(diǎn)zj的對(duì)數(shù)似然(沒有對(duì)應(yīng)于歸一化因子的常數(shù)偏移)陨晶。因此,最小距離d(pj帝璧,Ψk)等于最大距離l(zj | zk)先誉。
像素pj被分配給簇Ψi的概率由 給出,其中∏zk=E[z |Ψk]是簇Ψk內(nèi)z的期望值的烁,也就是說褐耳,像素pj被分配給簇Ψi的概率由zj和質(zhì)心∏zi之間的距離是所有簇質(zhì)心∏zk之間的最小距離的概率給出。由于d(zj渴庆,∏z i)服從n自由度的卡方分布铃芦,其中n是z的維數(shù),因此聚類分配概率是樣本d(zj把曼,∏zi)~x2n是i.i.d.樣本d(zj杨帽,∏zk)~x2n漓穿,?Ψk∈π中最小的概率嗤军。
CDF(·)分布的最小過η樣本的分布由 給出,其中Γ(·)是伽瑪函數(shù)晃危,γ(·叙赚,·)是下不完全伽瑪函數(shù)。對(duì)于我們的方案F(1)(x)僚饭,方程(12)變?yōu)閤=d(zj震叮,'-zi)和n=5,因此對(duì)應(yīng)于另一個(gè)簇比Ψi更接近像素pj的概率鳍鸵。因此苇瓣,這就是指導(dǎo)像素簇為區(qū)域生長(zhǎng)過程分配的方程。像素概率估計(jì)
給出了群π(m)=nΨ(m)1偿乖,Ψ(m)2击罪。,Ψ(m)| S | o在算法的第m次迭代中生成贪薪,每個(gè)簇Ψ(m)i內(nèi)的期望類似然c |(m)i值被估計(jì)為與其像素pj∈Ψ(m)k相關(guān)聯(lián)的分?jǐn)?shù)cj的平均值媳禁,根據(jù)像素簇分配的概率P(pj∈Ψ(m)i | S(m))加權(quán)。也就是說画切,
那么竣稽,c′i(m)是所有像素pj∈Ψ(m)i的精煉類概率,即在沒有種子與給定像素足夠相似的情況下,將該像素分配給任何簇的概率
將是低的毫别,增長(zhǎng)過程將結(jié)束娃弓,沒有任何分配這個(gè)像素。我們將這些元素稱為孤立像素岛宦。在像素P o保持孤立的迭代中忘闻,即po∈/Ψ(m)i,?Ψi∈π(m)恋博,我們保持其最初的預(yù)測(cè)分?jǐn)?shù)co為c(m)o=P(po∈F |π(m))齐佳。設(shè)∏={π(1),…债沮,π(ns)}表示多重蒙特卡羅迭代生成的所有分區(qū)集炼吴。通過足夠的迭代,我們可以逼近分布疫衩,其中δπ(π)是狄拉克三角函數(shù)硅蹦,如果π∈π等于1,否則為零闷煤。在分割集∏上的邊緣化童芹,我們有 ,使得每個(gè)像素P j的最終精細(xì)類概率由c∮j=P(pj∈F)給出鲤拿。方差估計(jì):
除了在(19)中計(jì)算出的平均值外假褪,還可以為每個(gè)像素計(jì)算由多次蒙特卡羅迭代提供的估計(jì)的方差。與計(jì)算平均c∮j類似近顷,分區(qū)之間的方差σ∮2j可以計(jì)算為 生音,如第五節(jié)所示,方差可以用作與分段精度高度相關(guān)的不確定性度量窒升。在實(shí)際應(yīng)用中缀遍,我們觀察到對(duì)于顯著的粗預(yù)測(cè),有利于將整個(gè)pRGR算法運(yùn)行一次以上饱须,以進(jìn)一步提高分割質(zhì)量域醇。讓r表示一組運(yùn)行r={1,…蓉媳,| r |}中每個(gè)完整運(yùn)行的序號(hào)索引譬挚。然后,包括(19)中的索引r督怜,每一次運(yùn)行提供像素P j的估計(jì)c∏j(r)=P(pj∈F∏(r))殴瘦。為了得到最終的估計(jì)P(pj∈F),我們利用逆方差加權(quán)來結(jié)合每次運(yùn)行提供的估計(jì)号杠。即集群統(tǒng)計(jì)的初始化與更新
如上所述蚪腋,我們假設(shè)簇是按N(zk丰歌,∑k1)正態(tài)分布的,這意味著一個(gè)正態(tài)分布的似然函數(shù)屉凯。此外立帖,為了允許類似于[38]、[39]的靈活的簇來適應(yīng)局部圖像和預(yù)測(cè)特性悠砚,我們分別更新(8)中的空間和顏色協(xié)方差項(xiàng)晓勇,即。灌旧,
式中绑咱,σx,σy是沿水平和垂直坐標(biāo)的方差枢泰,σl
是L色通道的方差描融,σa,σb分別是a和b通道的方差衡蚂。
初始化:
為了保證正態(tài)分布的后驗(yàn)概率窿克,便于更新過程,我們使用共軛先驗(yàn)分布初始化每個(gè)簇的平均zk和協(xié)方差∑k[40]毛甲,[41]年叮。由于空間和顏色的方差假設(shè)是獨(dú)立的,我們可以定義形式的正態(tài)逆卡方(NI-x2)先驗(yàn)分布玻募,其中μ和σ2是(zk只损,σk)的五個(gè)維度的均值和方差,為了簡(jiǎn)單起見补箍,下標(biāo)被刪除改执。正態(tài)分布的平均值μ0根據(jù)對(duì)應(yīng)種子的位置和顏色進(jìn)行初始化啸蜜,而k 0固定為1坑雅,因?yàn)榉N子值值得方差σ2的一次觀測(cè)。
空間方差:初始化與方差相關(guān)的逆卡方參數(shù)(vo衬横,σ20)更為復(fù)雜裹粤。在正態(tài)分布的簇假設(shè)下,簇的期望大小與其空間方差的期望值成正比蜂林。由于種子間距以采樣參數(shù)γ的形式已知遥诉,我們期望平均簇大小與γ×γ成正比。因此噪叙,空間方差可以初始化為
式中矮锈,λ是經(jīng)驗(yàn)定義的比例常數(shù)。為了使聚類在沒有鄰近種子的情況下變得更大并達(dá)到更低的置信區(qū)域睁蕾,基于對(duì)來自PASCAL數(shù)據(jù)集的350個(gè)隨機(jī)采樣圖像的子集執(zhí)行的網(wǎng)格搜索苞笨,我們?cè)谒袑?shí)驗(yàn)中使用了λ=27的固定值债朵,不管CNN模型用于生成分割掩碼還是正在考慮的數(shù)據(jù)集。如[40]所述瀑凝,v0參數(shù)給出了相應(yīng)先驗(yàn)知識(shí)值的觀測(cè)值序芦。基于這一直覺粤咪,我們?cè)俅卫闷骄谕卮笮∨cγ×γ成正比的事實(shí)谚中,使得v0 ~×γ2。此外寥枝,我們注意到樣本方差估計(jì)的可靠性與相應(yīng)初始種子的質(zhì)量成正比宪塔,因?yàn)樗x了初始平均值。因此囊拜,在質(zhì)量較低的種子的情況下蝌麸,對(duì)于隨后的樣本方差估計(jì),必須給予先驗(yàn)更多的權(quán)重艾疟。結(jié)合這兩個(gè)特征来吩,其中P(sk∈IH)對(duì)應(yīng)于從(4)得到的種子在高置信域內(nèi)的概率。顏色差異:確定一個(gè)期望的聚類顏色差異并不是那么簡(jiǎn)單蔽莱。因此弟疆,我們首先檢查了使用傳統(tǒng)的形成的簇的顏色統(tǒng)計(jì)
PASCAL數(shù)據(jù)集的同一子集上的超級(jí)像素算法(SLIC[36])。具有不同數(shù)量的超級(jí)混合料和壓實(shí)度值的多次運(yùn)行表明盗冷,約σ2l=850和σ2a=σ2b=260的方差覆蓋了超級(jí)混合料中99%的樣品∫翘牵基于這些觀測(cè)值柑司,我們進(jìn)行了網(wǎng)格搜索,得到了在所有實(shí)驗(yàn)中使用的最優(yōu)初始化值σ20锅劝,l=1000和σ20攒驰,a=σ20,b=300故爵。
由于顏色相似性的分布可以從一幅圖像到另一幅圖像發(fā)生變化玻粪,我們采用了一種對(duì)偶抽樣方差減少策略[42],其中初始顏色方差值乘以1±ρ诬垂。在[0.1:0.1:0.9]上進(jìn)行網(wǎng)格搜索后劲室,使用上述相同的PASCAL子集,為所有實(shí)驗(yàn)定義了一個(gè)p=0.6的值结窘。也就是說很洋,我們初始化σ20,l=1000×[1±ρ]和σ20隧枫,a=σ20喉磁,b=300×[1±ρ]棺克。使用與(25)中給出的用于空間方差的方法相同的方法計(jì)算顏色方差的等效樣本大小v0,{lab}线定。最后娜谊,如第。四斤讥、 在區(qū)域生長(zhǎng)過程中纱皆,所有的簇都是從中心向外生長(zhǎng)的,因?yàn)榉峙涞牡谝粋€(gè)像素是對(duì)應(yīng)的種子鄰域芭商,隨后的暫定像素分配是與剛剛分配的像素相鄰的派草。就樣本統(tǒng)計(jì)而言,這意味著初始空間樣本方差嚴(yán)重偏向于較小的值铛楣,因?yàn)橹付ǖ牡谝粋€(gè)像素是最接近相應(yīng)簇的質(zhì)心的像素近迁。為了補(bǔ)償這種偏差,我們將先驗(yàn)方差知識(shí)的v0權(quán)與一個(gè)常數(shù)相乘簸州,即對(duì)于所有實(shí)驗(yàn)鉴竭,我們?cè)O(shè)置v0=α[γ/P(sk∈IH)]2。我們使用α=5表示空間方差岸浑,由于顏色統(tǒng)計(jì)的這種偏差要低得多搏存,因此我們經(jīng)驗(yàn)地將α=0.1設(shè)置為顏色方差。更新:如[40]矢洲、[43]中所述璧眠,根據(jù)n i∏2先驗(yàn)和相應(yīng)的正態(tài)似然的組合,給出相應(yīng)的后驗(yàn)參數(shù)读虏,其中x∏表示樣本均值责静,n表示樣本總數(shù),對(duì)應(yīng)于簇大小盖桥,即n=|Ψk |灾螃。如果樣本量不夠大,估計(jì)樣本方差時(shí)可能會(huì)出現(xiàn)偏差葱轩,從而導(dǎo)致大小不正確的聚類睦焕。因此,我們應(yīng)用了一種更新策略靴拱,其中樣本方差估計(jì)僅在達(dá)到期望的簇大小后計(jì)算,即|Ψk |≥[γ/P(sk∈IH)]2猾普。
后部:
為了計(jì)算像素到簇的距離和相應(yīng)的分配概率袜炕,用具有vn自由度的t-student分布給出后驗(yàn)預(yù)測(cè)分布。因?yàn)閷?duì)于絕大多數(shù)迭代v0≥30初家,該后驗(yàn)可以根據(jù)N(μN(yùn)偎窘,σN)近似為正態(tài)分布乌助。
四、 算法實(shí)現(xiàn)
我們通過調(diào)用Alg的主函數(shù)來實(shí)現(xiàn)pRGR陌知。1他托,總結(jié)了將像素分配給簇的區(qū)域增長(zhǎng)過程。首先仆葡,主腳本執(zhí)行閾值分布的非參數(shù)估計(jì)和隨后的種子采樣概率計(jì)算赏参。然后,該腳本對(duì)種子的初始集進(jìn)行采樣并調(diào)用Alg沿盅。1個(gè)用于區(qū)域生長(zhǎng)把篓。從圖像特征Z和對(duì)應(yīng)的種子集S作為輸入,Alg腰涧。1返回?cái)?shù)組L韧掩,其中每個(gè)像素通過索引映射到其對(duì)應(yīng)的簇。
設(shè)元素ej=[j窖铡,k疗锐,Pjk]表示像素pj到簇Ψk的暫定賦值,相應(yīng)的概率Pjk=P(pj∈Ψk | S)(15)费彼。對(duì)于作為種子采樣的像素窒悔,創(chuàng)建的元素Pjk設(shè)置為1.0。受SNIC[44]實(shí)現(xiàn)的啟發(fā)敌买,這些臨時(shí)分配元素被推送到優(yōu)先級(jí)隊(duì)列Q1中简珠,根據(jù)分配概率Pjk按降序排序。分配是通過從Q1中彈出元素并根據(jù)相應(yīng)的概率進(jìn)行采樣來實(shí)現(xiàn)的虹钮。從對(duì)應(yīng)的種子開始聋庵,當(dāng)像素pj被有效地分配給簇Ψk時(shí),對(duì)其所有pn 8-連通鄰域進(jìn)行評(píng)估:如果它們還沒有被聚類芙粱,則元素en=[n祭玉,k,Pnk]被推到Q1中春畔,作為這些像素對(duì)它們現(xiàn)在相鄰的簇Ψk的暫定分配脱货。
在增長(zhǎng)過程中,通過這樣的8連接性強(qiáng)制律姨,我們確保一個(gè)像素最多被訪問(采樣)8次振峻。但是,由于這只是一個(gè)上限择份,我們選擇一個(gè)實(shí)現(xiàn)扣孟,確保每個(gè)像素在被視為孤立像素之前至少被訪問8次。這是通過使用回收隊(duì)列Q2的回收過程實(shí)現(xiàn)的荣赶。當(dāng)從Q1彈出一個(gè)元素但沒有發(fā)生賦值時(shí)凤价,如果對(duì)應(yīng)像素的采樣次數(shù)小于8次鸽斟,則將該元素推入回收隊(duì)列Q2。每當(dāng)Q1被清空時(shí)利诺,Q2中的所有元素都會(huì)根據(jù)最新的集群統(tǒng)計(jì)數(shù)據(jù)進(jìn)行更新宵晚,并重新推送到Q1中進(jìn)行處理育苟。利用這個(gè)策略鼻种,我們確保在(15)中使用固定的η=8草姻。因此,一旦所有像素被分配到一個(gè)簇或訪問最多8次氛改,算法就會(huì)收斂帐萎。一旦擁有Alg返回的像素到簇的對(duì)應(yīng)映射。1胜卤,主函數(shù)繼續(xù)根據(jù)(16-21)計(jì)算像素概率估計(jì)疆导。高斯濾波:由于我們必須使用有限數(shù)量的蒙特卡羅迭代來近似后驗(yàn)分布,因此具有高不確定性的像素可能需要額外的細(xì)化步驟來產(chǎn)生準(zhǔn)確的結(jié)果葛躏。為了避免執(zhí)行會(huì)影響相對(duì)較少像素的大量迭代澈段,我們?cè)谑褂茫?9)獲得的精制分?jǐn)?shù)圖的基礎(chǔ)上,使用3×3卷積和高斯核來平滑虛假的像素激活舰攒。
五败富、 實(shí)驗(yàn)
我們?cè)u(píng)估了pRGR的性能:i)構(gòu)成PASCAL VOC 2012數(shù)據(jù)集的val集的1449個(gè)圖像[20];ii)DAVIS數(shù)據(jù)集的選定視頻序列[21]摩窃,[45]兽叮。雖然PASCAL數(shù)據(jù)集可以說是最廣泛使用的語義分割基準(zhǔn),但其評(píng)估指標(biāo)忽略了每個(gè)對(duì)象邊界周圍5像素寬的區(qū)域猾愿。因此鹦聪,通常在邊界附著方面的明顯改善不會(huì)反映在總體平均精度(mAP)中。因此蒂秘,我們還包括使用DAVIS數(shù)據(jù)集[21]的結(jié)果泽本,該數(shù)據(jù)集由高質(zhì)量視頻序列組成,每個(gè)幀具有像素精確的地面真值分割姻僧。 基線:我們將pRGR與其前信元RGR進(jìn)行比較规丽,并與CRF進(jìn)行比較,CRF可以說是語義分割中使用最廣泛的后處理模塊撇贺。我們還評(píng)估了CRF+pRGR的組合赌莺,其中我們的求精算法是在使用CRF求精的預(yù)測(cè)之上運(yùn)行的。網(wǎng)絡(luò):
為了評(píng)估我們對(duì)不同質(zhì)量輸入預(yù)測(cè)的方法显熏,我們考慮了四種不同的預(yù)先訓(xùn)練的雄嚣、可公開使用的語義分割模型。首先喘蟆,DeepLab COCO LargeFOV(此處DeepLab LargeFOV用于簡(jiǎn)潔)模型[12]缓升,一個(gè)使用大視場(chǎng)的DeepLab模型,在[18]中也用于評(píng)估RGR蕴轨。我們還評(píng)估了兩個(gè)DeepLabV2模型(一個(gè)使用VGG[46]主干網(wǎng)港谊,另一個(gè)使用ResNet主干網(wǎng)[47])生成的預(yù)測(cè)的精化。最后橙弱,我們使用Exception主干網(wǎng)[48]評(píng)估了DeepLabV3+模型[19]
如第歧寺。二、 這些模型代表了語義最新發(fā)展的不同階段
分割棘脐。從他們的體系結(jié)構(gòu)來看斜筐,當(dāng)一個(gè)人從DeepLab移動(dòng)到DeepLabV2,最后是DeepLabV3時(shí)蛀缝,無論是在整體精度還是邊界附著方面顷链,都需要更精細(xì)的分段。訓(xùn)練這些模型所用的數(shù)據(jù)集對(duì)它們的性能也起著重要的作用屈梁。我們注意到嗤练,在預(yù)培訓(xùn)方面,DeepLab LargeFOV模型利用了MS-COCO數(shù)據(jù)集在讶、PASCAL VOC 2012的trainaug子集以及執(zhí)行評(píng)估的PASCAL VOC 2012的val集的注釋煞抬。相反,我們?cè)谠u(píng)估中使用的DeepLabV2和DeepLabV3+模型都只在VOC的trainaug子集上訓(xùn)練构哺。在這四款機(jī)型中革答,只有DeepLabV2(VGG)沒有接受COCO的預(yù)先培訓(xùn)。參數(shù)化: 由于CRF依賴于對(duì)其超參數(shù)的網(wǎng)格搜索以獲得最佳性能曙强,如下文所述残拐,我們選擇了還提供了最佳CRF配置的公共可用模型。關(guān)于RGR旗扑,對(duì)于所有實(shí)驗(yàn)蹦骑,如文獻(xiàn)[18]所述進(jìn)行參數(shù)化,其中在每個(gè)區(qū)域生長(zhǎng)迭代中從分布U(0.5臀防,0.9)中采樣不同的高置信前景閾值τF眠菇。對(duì)于上述所有情況,pRGR被配置為對(duì)每個(gè)類記分圖執(zhí)行20次蒙特卡羅迭代袱衷。在[2捎废,γh]范圍內(nèi),采用系統(tǒng)分層抽樣法致燥,共對(duì)種子間距參數(shù)γ的10個(gè)不同值進(jìn)行抽樣登疗。對(duì)于每一個(gè)γ,用反義顏色配置進(jìn)行兩次迭代,其中ρ=0.6辐益,如第2節(jié)所述断傲。III-E.根據(jù)它們的輸出跨步,所考慮的不同網(wǎng)絡(luò)在接收野大小方面需要不同程度的細(xì)化智政。對(duì)于pRGR认罩,這對(duì)應(yīng)于改變上限γh,因?yàn)樗x了最大預(yù)期簇大小续捂。因此垦垂,γh是pRGR的唯一參數(shù),根據(jù)具體情況進(jìn)行了經(jīng)驗(yàn)調(diào)整牙瓢。為我們的實(shí)驗(yàn)選擇的值列在表一中劫拗。對(duì)于所有使用CRF+pRGR的實(shí)驗(yàn),γh設(shè)為16矾克。
如圖3所示页慷,由DeepLab LargeFOV和DeepLabV2(VGG)提供的分段相當(dāng)粗糙,因此對(duì)于這些情況聂渊,我們使用逆方差加權(quán)來執(zhí)行兩個(gè)pRGR細(xì)化步驟差购,以合并每個(gè)步驟的估計(jì)結(jié)果,如(21)中所述汉嗽。
與帕斯卡基線的比較
表二總結(jié)了每種細(xì)化方法與對(duì)應(yīng)的語義分割網(wǎng)絡(luò)的四種變體的組合所提供的量化結(jié)果欲逃。由于邊界只占圖像總像素的一小部分,為了更好地量化邊界依從性饼暑,我們遵循了[49]中提出的策略稳析,并且還評(píng)估了在更靠近邊界的較窄區(qū)域上的分割精度。圖3示出了由每個(gè)提供的分割遮罩的定性示例
方法的組合弓叛,而圖4示出了每種方法獲得的地圖值作為評(píng)估中考慮的對(duì)象邊界寬度的函數(shù)彰居。最后,圖5根據(jù)PASCAL數(shù)據(jù)集的每個(gè)類別詳細(xì)說明了每個(gè)方法的性能撰筷。
邊界依從性:圖4中的結(jié)果強(qiáng)調(diào)了所考慮的所有方法如何提高分割精度陈惰,特別是在邊界附近的區(qū)域。與表二所示的結(jié)果相比毕籽,即使在諸如DeepLabV2(ResNet)這樣的場(chǎng)景中抬闯,總體地圖改進(jìn)略高于+1.0%,使用pRGR在邊界附近小于5px的區(qū)域中的分割精度也提高了大約+3.5%关筒。
RGR與pRGR的比較:總體而言溶握,我們的結(jié)果表明pRGR在考慮的所有場(chǎng)景中始終優(yōu)于RGR。與它的前身RGR相比蒸播,pRGR的概率公式結(jié)合不同接收?qǐng)龃笮〉募?xì)化迭代睡榆,減少了噪聲預(yù)測(cè)的發(fā)生萍肆,并將錯(cuò)誤的影響降到最低
積極的。這在圖3所示的鳥的翅膀和喙附近胀屿,也在馬的頂部附近塘揣。
CRF與pRGR:就總體準(zhǔn)確性而言,pRGR提供的mAP值略低于用CRF獲得的mAP值碉纳。然而勿负,圖4中總結(jié)的結(jié)果表明:
對(duì)于邊界附近小于5px的區(qū)域馏艾,使用pRGR改進(jìn)的預(yù)測(cè)稍好于使用CRF的預(yù)測(cè)(FOV:+0.33%劳曹,VGG:+0.14%,ResNet:+0.43%)琅摩。這在圖3中的鳥翅膀附近也是一個(gè)例子铁孵。另一方面,圖5中自行車和椅子等類別的詳細(xì)結(jié)果表明房资,pRGR的主要故障情況對(duì)應(yīng)于具有大量誤報(bào)的封閉區(qū)域蜕劝,例如自行車車輪和椅子主軸的內(nèi)部區(qū)域。定性地轰异,這在圖3的最后一個(gè)示例中示出岖沛。由于區(qū)域生長(zhǎng)過程是基于8連通性的,它不能糾正這種包含大量誤報(bào)的封閉區(qū)域搭独。相反婴削,CRF能夠從這些錯(cuò)誤中恢復(fù)過來,這反映在總體較高的mAP值中牙肝。然而唉俗,必須再次指出,pRGR是完全無監(jiān)督的配椭,而CRF必須根據(jù)所考慮的數(shù)據(jù)集和分割網(wǎng)絡(luò)進(jìn)行微調(diào)虫溜。
CRF+pRGR: 我們的分析表明,盡管CRF和pRGR提供相似的總體性能股缸,但它們有不同的成功/失敗案例衡楞。因此,結(jié)合CRF和pRGR是進(jìn)一步細(xì)化分割掩模的潛在策略敦姻,這一點(diǎn)已被表II和圖2中報(bào)告為CRF+pRGR的結(jié)果所證實(shí)瘾境。3和4。在所有評(píng)估的場(chǎng)景中替劈,這種組合明顯優(yōu)于單獨(dú)的CRF寄雀,特別是在圖4定量顯示的邊界附近區(qū)域,并且可以在圖3的椅子和鳥的細(xì)節(jié)中注意到陨献。此外盒犹,圖3中的第四個(gè)例子說明了pRGR如何還可以減輕CRF部分減弱的一些假陽性,例如馬鞍和馬膝附近的錯(cuò)誤檢測(cè)。最后急膀,結(jié)合CRF+pRGR的結(jié)果也表明沮协,如果減少假陽性的數(shù)量,并且有足夠的優(yōu)質(zhì)種子卓嫂,pRGR
DeepLabV3+預(yù)測(cè)的改進(jìn) 表三總結(jié)了使用RGR和pRGR進(jìn)行改進(jìn)前后DeepLabV3+的性能慷暂,用于PASCAL和DAVIS數(shù)據(jù)集的實(shí)驗(yàn)。與之前的實(shí)驗(yàn)不同晨雳,這里不考慮CRF基線行瑞,因?yàn)槟壳皼]有針對(duì)DeepLabV3+優(yōu)化的CRF實(shí)現(xiàn)。
從表三和圖4右下角的結(jié)果來看餐禁,使用DeepLabV3+在PASCAL數(shù)據(jù)集上的實(shí)驗(yàn)再次表明血久,盡管總體mAP的增益相對(duì)較小(≈0.36%)帮非,但RGR和pRGR在邊界依從性方面提供了不可忽略的改進(jìn)氧吐,即使是最先進(jìn)的語義分割網(wǎng)絡(luò)(對(duì)于邊界附近小于5px的區(qū)域,約為1.0%)末盔。為了進(jìn)一步驗(yàn)證這一觀察結(jié)果筑舅,我們從DAVIS 2016[21]和2017[45]數(shù)據(jù)集中選擇了圖6中列出的53個(gè)視頻序列,以便使用相同的DeepLabV3+模型進(jìn)行進(jìn)一步實(shí)驗(yàn)陨舱。由于該模型是為21個(gè)PASCAL類別訓(xùn)練的翠拣,因此我們只選擇目標(biāo)對(duì)象在該類別集中的序列。
如前所述隅忿,DAVIS評(píng)估指標(biāo)既包括union(或Jaccard index)J上的總交集心剥,也包括輪廓精度指標(biāo)F,它專門評(píng)估對(duì)象邊界附近的精度背桐。表三包含了在RGR和pRGR求精前后使用兩種預(yù)測(cè)指標(biāo)得到的結(jié)果优烧。由于DAVIS注釋考慮了構(gòu)成對(duì)象邊界的所有像素,因此在該數(shù)據(jù)集中链峭,與在PASCAL數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)相比畦娄,邊界依從性方面的改進(jìn)對(duì)最終性能指標(biāo)的影響更大。結(jié)果表明弊仪,兩種改進(jìn)方法的改進(jìn)程度都在≈4.0%左右熙卡,pRGR在兩個(gè)指標(biāo)上都略優(yōu)于其前測(cè)者。F度量的結(jié)果表明励饵,pRGR在邊界附著方面提供了很大的改進(jìn)驳癌,平均F增加了3.9%。圖7顯示了此類改進(jìn)的定性示例役听。在所有的例子中颓鲜,我們觀察到細(xì)化的分割遮罩如何包含更少的像素組成周圍的背景表窘。在前兩張圖片中,人們的頭發(fā)和腳等細(xì)節(jié)被恢復(fù)甜滨。在最后一幅圖像中乐严,精細(xì)的分割正確地貼附在狗的皮毛上,并正確地將人與狗分開衣摩。根據(jù)圖6中詳述的單個(gè)戴維斯序列的結(jié)果昂验,觀察到一些包含車輛和動(dòng)物作為目標(biāo)的序列的性能較低。在第一種情況下艾扮,故障主要是由車輛下陰影的誤報(bào)檢測(cè)傳播引起的既琴。對(duì)于動(dòng)物來說,當(dāng)這種細(xì)長(zhǎng)的結(jié)構(gòu)被低置信度檢測(cè)到栏渺,遠(yuǎn)離動(dòng)物的身體呛梆,并且與周圍的背景顏色相似時(shí),四肢可能會(huì)失去磕诊。然而,我們強(qiáng)調(diào)纹腌,對(duì)于大多數(shù)評(píng)估的場(chǎng)景霎终,都觀察到了顯著的改進(jìn)。
不確定度估計(jì)
正如Kendall&Gal[50]所指出的升薯,CNNs提供的標(biāo)準(zhǔn)化得分并不一定反映這些分類模型的不確定性莱褒。在文[51]中,利用蒙特卡羅輟學(xué)和具體輟學(xué)來捕獲DeepLabV3+語義分割模型的不確定性涎劈。在我們的pRGR框架中广凸,多個(gè)Monte Carlo精化項(xiàng)(使用(20)計(jì)算)的估計(jì)方差可以作為分類不確定性的度量。為了驗(yàn)證這一說法蛛枚,我們對(duì)PASCAL數(shù)據(jù)集上的mAP值進(jìn)行了評(píng)估谅海,以確定方差值的閾值越來越高。同樣蹦浦,我們通過計(jì)算原始網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性來建立一個(gè)比較基線扭吁,預(yù)測(cè)的班級(jí)分?jǐn)?shù)的閾值越來越高。圖8顯示了使用DeepLab LargeFOV預(yù)測(cè)進(jìn)行實(shí)驗(yàn)的結(jié)果盲镶。對(duì)于這兩種情況侥袜,最上面一行的曲線表明預(yù)測(cè)得分(對(duì)于CNN預(yù)測(cè))和估計(jì)方差(來自pRGR輸出)與實(shí)際分割精度之間存在顯著相關(guān)性。
然而溉贿,對(duì)于CNN的預(yù)測(cè)枫吧,在地圖曲線的起點(diǎn)和終點(diǎn)都觀察到了更尖銳的斜率變化。由于在這兩種情況下宇色,覆蓋的樣本分?jǐn)?shù)隨閾值的增加而非線性變化九杂,因此我們也
分析樣本的精確度與分?jǐn)?shù)闽寡,以評(píng)估分割質(zhì)量與不確定性估計(jì)之間的相關(guān)性。更具體地說尼酿,圖8的底行中的圖是通過繪制從頂行開始的每個(gè)對(duì)應(yīng)圖的左y軸與右y軸來獲得的爷狈。此分析對(duì)應(yīng)于評(píng)估當(dāng)考慮具有越來越高不確定性的較大樣本分?jǐn)?shù)時(shí),分割精度如何衰減裳擎。這一分析清楚地表明了pRGR方差估計(jì)與分割不確定性之間的線性關(guān)系涎永。右列圖顯示pRGR估計(jì)方差與最終分割精度之間的相關(guān)性很強(qiáng),相關(guān)系數(shù)R2≥0.99鹿响。為了簡(jiǎn)潔起見羡微,我們只提供使用DeepLab LargeFOV的圖,但是DeepLabV2(VGG)惶我、DeepLabV2(ResNet)和DeepLabV3+網(wǎng)絡(luò)配置的系數(shù)R2≥0.99妈倔。VI.結(jié)論我們提出了pRGR,一種用于語義分割細(xì)化的完全無監(jiān)督RGR算法的更新版本绸贡。通過結(jié)合概率論盯蝴、貝葉斯估計(jì)和方差約簡(jiǎn)的概念,PRGR不僅為RGR提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)听怕,而且進(jìn)一步提高了細(xì)化后得到的分割的質(zhì)量捧挺。通過以分層方式采樣種子間距參數(shù)的蒙特卡羅公式,pRGR在其高置信種子的多區(qū)域生長(zhǎng)迭代中評(píng)估不同的接收?qǐng)龃笮∧虿t。結(jié)合使用共軛先驗(yàn)初始化簇協(xié)方差并隨著像素簇分配發(fā)生而更新的策略闽烙,這些新特性允許pRGR優(yōu)化分割遮罩以顯著提高像素精度級(jí)別。通過在PASCAL和DAVIS數(shù)據(jù)集上使用DeepLab系列的四種不同配置進(jìn)行的實(shí)驗(yàn)表明声搁,用pRGR改進(jìn)的分割預(yù)測(cè)得到了改進(jìn)黑竞,特別是在邊界附著和去除假陽性像素標(biāo)簽方面。
此外疏旨,該算法的實(shí)用性還包括與DenseCRF模型的可能結(jié)合很魂,以進(jìn)一步提高這些方法單獨(dú)提供的分割質(zhì)量,我們的實(shí)驗(yàn)結(jié)果證明了這一點(diǎn)充石。最后莫换,由于其Monte Carlo估計(jì)框架,pRGR還生成方差估計(jì)骤铃,與最終的分割精度值顯示出強(qiáng)的反向相關(guān)性拉岁。換言之,pRGR方差值可用于分割預(yù)測(cè)的不確定性估計(jì)惰爬,這將其應(yīng)用范圍擴(kuò)展到諸如主動(dòng)學(xué)習(xí)[52]喊暖、用于圖像標(biāo)記的人在環(huán)系統(tǒng)[53]和用于圖像分割的半監(jiān)督或弱監(jiān)督方法[54]、[55]等場(chǎng)景撕瞧。