圖像分割是我大二2019年做的東西,這篇文章用來(lái)總結(jié)形用。
一就轧、什么是圖像分割
分語(yǔ)義【像素級(jí)別圖像】,實(shí)例【分割物體有進(jìn)一步分類】田度。
二、常用圖像分割算法:
(一)解愤、傳統(tǒng)
1镇饺、基于閾值的分割方法
基于圖像的灰度特征來(lái)計(jì)算一個(gè)或多個(gè)灰度閾值,并將圖像中每個(gè)像素的灰度值與閾值作比較送讲,最后將像素根據(jù)比較結(jié)果分到合適的類別中奸笤。
確定某個(gè)準(zhǔn)則函數(shù)來(lái)求解最佳灰度閾值『喵蓿【閾值法特別適用于目標(biāo)和背景占據(jù)不同灰度級(jí)范圍的圖监右。】
值得一提的是:特征點(diǎn)檢測(cè)也有此方法
2异希、基于區(qū)域的分割方法
直接尋找區(qū)域健盒。有兩種基本形式:一種是區(qū)域生長(zhǎng),從單個(gè)像素出發(fā)称簿,逐步合并以形成所需要的分割區(qū)域扣癣;另一種是從全局出發(fā),逐步切割至所需的分割區(qū)域憨降。
3父虑、基于邊緣檢測(cè)的分割方法
基于邊緣檢測(cè)的圖像分割算法試圖通過(guò)檢測(cè)包含不同區(qū)域的邊緣來(lái)解決分割問(wèn)題。它可以說(shuō)是人們最先想到也是研究最多的方法之一授药。通常不同區(qū)域的邊界上像素的灰度值變化比較劇烈士嚎,如果將圖片從空間域通過(guò)傅里葉變換到頻率域,邊緣就對(duì)應(yīng)著高頻部分悔叽,這是一種非常簡(jiǎn)單的邊緣檢測(cè)算法莱衩。
(二)、深度學(xué)習(xí)
1骄蝇、基于特征編碼(feature encoder based)【暴力編碼】
(1)VGGNet
常規(guī)卷積
(2)ResNet
常規(guī)卷積+殘差【解決梯度消失膳殷,網(wǎng)絡(luò)變深】
Efficient Neural Network(ENet)
ResNet-38
full-resolution residual network(FRRN)
AdapNey
2、基于區(qū)域選擇(regional proposal based)
由目標(biāo)檢測(cè)發(fā)展而來(lái)(R-CNN、Fast R-CNN)
(1)Mask R-CNN【R-CNN用到圖像分割】
在Faster R-CNN的結(jié)構(gòu)基礎(chǔ)上加上了Mask預(yù)測(cè)分支赚窃,并且改良了ROI Pooling册招,提出了ROI Align。
(2)Mask Scoring R-CNN
評(píng)價(jià)函數(shù)只對(duì)目標(biāo)檢測(cè)的候選框進(jìn)行打分勒极,而不是分割模板
3是掰、基于RNN
(1)ReSeg模型【FCN改進(jìn)】
FCN的不足:沒(méi)有考慮到局部或者全局的上下文依賴關(guān)系,而在語(yǔ)義分割中這種依賴關(guān)系是非常有用的辱匿。所以在ReSeg中作者使用RNN去檢索上下文信息键痛,以此作為分割的一部分依據(jù)。
4匾七、基于上采樣/反卷積的分割方法
卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行采樣的時(shí)候會(huì)丟失部分細(xì)節(jié)信息絮短,這樣的目的是得到更具特征的價(jià)值。但是這個(gè)過(guò)程是不可逆的昨忆,有的時(shí)候會(huì)導(dǎo)致后面進(jìn)行操作的時(shí)候圖像的分辨率太低丁频,出現(xiàn)細(xì)節(jié)丟失等問(wèn)題。因此我們通過(guò)上采樣在一定程度上可以不全一些丟失的信息邑贴,從而得到更加準(zhǔn)確的分割邊界席里。
(1)、FCN
卷積后進(jìn)行一次上采樣拢驾,得到segment map奖磁。
優(yōu)點(diǎn):
FCN對(duì)圖像進(jìn)行了像素級(jí)的分類,從而解決了語(yǔ)義級(jí)別的圖像分割問(wèn)題繁疤;
FCN可以接受任意尺寸的輸入圖像咖为,可以保留下原始輸入圖像中的空間信息;
缺點(diǎn):
得到的結(jié)果由于上采樣的原因比較模糊和平滑嵌洼,對(duì)圖像中的細(xì)節(jié)不敏感案疲;
對(duì)各個(gè)像素分別進(jìn)行分類,沒(méi)有充分考慮像素與像素的關(guān)系麻养,缺乏空間一致性褐啡。
(2)U-net
5、基于提高特征分辨率的分割方法
(1)DeepLab
恢復(fù)在深度卷積神經(jīng)網(wǎng)絡(luò)中下降的分辨率鳖昌,從而獲取更多的上下文信息备畦。
DeepLab是結(jié)合了深度卷積神經(jīng)網(wǎng)絡(luò)和概率圖模型的方法,應(yīng)用在語(yǔ)義分割的任務(wù)上许昨,目的是做逐像素分類懂盐,其先進(jìn)性體現(xiàn)在DenseCRFs(概率圖模型)和DCNN的結(jié)合。是將每個(gè)像素視為CRF節(jié)點(diǎn)糕档,利用遠(yuǎn)程依賴關(guān)系并使用CRF推理直接優(yōu)化DCNN的損失函數(shù)莉恼。
在圖像分割領(lǐng)域,F(xiàn)CN的一個(gè)眾所周知的操作就是平滑以后再填充,就是先進(jìn)行卷積再進(jìn)行pooling,這樣在降低圖像尺寸的同時(shí)增大感受野俐银,但是在先減小圖片尺寸(卷積)再增大尺寸(上采樣)的過(guò)程中一定有一些信息損失掉了尿背,所以這里就有可以提高的空間。
DeepLab提出空洞卷積解決這一問(wèn)題
三捶惜、圖像分割實(shí)現(xiàn)時(shí)具體細(xì)節(jié)問(wèn)題
1田藐、常用Loss(特指語(yǔ)義分割)
(1)常規(guī)圖像分割
交叉熵Loss
Focal Loss【解決難易樣本不均衡】
(2)醫(yī)療影像分割
Dice Loss(該損失函數(shù)的提出有一個(gè)背景,直接優(yōu)化性能度量吱七,涉及到我的另一個(gè)課題非凸優(yōu)化)
IOU(常做為評(píng)價(jià)指標(biāo))
基于以上幾個(gè)基本的Loss還有各種各樣的改進(jìn)
四汽久、圖像分割的難點(diǎn)在哪里?【https://zhuanlan.zhihu.com/p/72743589】
1踊餐、分割邊緣不準(zhǔn)的問(wèn)題景醇。
因?yàn)橄噜徟R的像素對(duì)應(yīng)感受野內(nèi)的圖像信息太過(guò)相似了,如果臨近的像素都屬于所需分割區(qū)域的內(nèi)部市袖,那么這種‘相似’是有利的啡直,但是如果相鄰 像素剛好處在所需分割區(qū)域的邊界上,那么這種相似就是有害的了苍碟。
2、在同一副圖像中不同類別或?qū)嵗南袼夭痪獾膯?wèn)題撮执。不同物體分割的難度也并不一樣微峰。
3、標(biāo)注費(fèi)事費(fèi)力抒钱,且標(biāo)注中是可能存在噪聲的蜓肆。
4、如何對(duì)遮擋區(qū)域進(jìn)行建模谋币?
5仗扬、CNN的分割網(wǎng)絡(luò)耗顯存的問(wèn)題。
6蕾额、如何定義圖像的上下文問(wèn)題早芭。
上下文特征是很常見的,其實(shí)上下文大概去理解就是圖像中的每一個(gè)像素點(diǎn)不可能是孤立的诅蝶,一個(gè)像素一定和周圍像素是有一定的關(guān)系的退个,大量像素的互相聯(lián)系才產(chǎn)生了圖像中的各種物體,所以上下文特征就指像素以及周邊像素的某種聯(lián)系调炬。
7语盈、模型的設(shè)計(jì)上缺少顯示的不同圖像中語(yǔ)義相同區(qū)域特征的交互。
8缰泡、如何簡(jiǎn)單有效區(qū)分同一類物體的不同實(shí)例刀荒?
五、針對(duì)圖像分割難點(diǎn)有哪些可能有效的的解決方法?【來(lái)源同上】
1缠借、對(duì)網(wǎng)絡(luò)輸出的分割的邊界增加額外的損失干毅,或者讓網(wǎng)絡(luò)對(duì)邊界的特征和區(qū)域內(nèi)部的特征分開建模學(xué)習(xí)。其本質(zhì)上的思想還是讓網(wǎng)絡(luò)同時(shí)做兩個(gè)任務(wù):分割和邊緣檢測(cè)烈炭。另外溶锭,提高輸入圖像的輸入分辨率和中間層特征圖的分辨率同樣也是簡(jiǎn)單有效的。
2符隙、利用loss動(dòng)態(tài)加權(quán)或者在圖像二維空間上采樣來(lái)解決同一張圖像中不同語(yǔ)義的像素個(gè)數(shù)不均衡以及學(xué)習(xí)的難易程度不同的問(wèn)題趴捅。
3、利用半監(jiān)督或者弱監(jiān)督學(xué)習(xí)的方法減少標(biāo)注昂貴的問(wèn)題霹疫。利用多個(gè)標(biāo)簽有噪聲的樣本或其特征構(gòu)建虛擬的標(biāo)簽干凈的虛擬樣本或特征來(lái)減少標(biāo)簽的噪聲拱绑。
4、利用合理的上下文的建模機(jī)制丽蝎,幫助網(wǎng)絡(luò)猜測(cè)遮擋部分的語(yǔ)義信息猎拨。
5、在網(wǎng)絡(luò)中構(gòu)建不同圖像之間損失或者特征交互模塊屠阻。