第六類:空洞卷積和DeepLab系列
空洞卷積髓考,為卷積層引入了另一個(gè)參數(shù)—擴(kuò)張率割择。
感受野:CNN中,某一層輸出結(jié)果中一個(gè)元素所對應(yīng)的輸入層的區(qū)域大小.难咕。越大的感受野包含越多的上下文關(guān)系泛烙。
空洞卷積理卑,在標(biāo)準(zhǔn)的的卷積核里注入空洞,正常的卷積核中dialate rate=1
背景:FCN都是通過pooling和upsample蔽氨,會(huì)損失一些信息藐唠,就在想能不能不通過pooling也可以獲得較大的感受野看到更多的信息,因此答案就是dialate conv
最大的好處:(ex:dialate=2是每隔一個(gè)像素位置應(yīng)用一個(gè)卷積元素鹉究,雖然可以看到卷積內(nèi)核大小只有3*3宇立,實(shí)際上這個(gè)卷積感受野已經(jīng)增大到7*7。僅僅使用9個(gè)參數(shù)自赔,不做pooling的情況下妈嘹,讓每個(gè)卷積輸出都包含較大范圍的信息,這樣及降低了成本同時(shí)還擴(kuò)大了感受野)
DeepLab 系列
主要針對深度卷積神經(jīng)網(wǎng)絡(luò)的兩個(gè)問題:1.pooling操作使圖片尺寸變小绍妨,2.pooling輸入小變化的不變性润脸。
DeepLab系列是結(jié)合了深度卷積網(wǎng)絡(luò)(DCNNS)和概率圖模型(DenseCRFS)
空洞卷積擴(kuò)大感受野+CRF嘗試找到圖像像素之間的關(guān)系 : 相近的像素大概率為同一標(biāo)簽柬脸。(簡單來說,對一個(gè)像素進(jìn)行分類的時(shí)候毙驯,不僅考慮DCNN的輸出倒堕,而且考慮該像素點(diǎn)周圍像素點(diǎn)的值,這樣語言分割結(jié)果邊界更清楚)
v2:提出了空洞空間金字塔池化(atrous spatial pyramid pooling, ASPP)爆价,使用多個(gè)采樣率采樣得到的多尺度分割對象獲得了更好的分割效果垦巴。
? ? ? (由于DCNN連續(xù)的池化和下采樣造成的分辨率降低)最后的兩個(gè)池化層去掉了下采樣并且后續(xù)卷積層的卷積核改為了空洞卷積,拓展了感受野,獲取更多的語境信息铭段。
基礎(chǔ)層使用了resnet骤宣。使用不同的學(xué)習(xí)率策略。
v3:增強(qiáng)ASPP模塊(1個(gè)1*1conv,3個(gè)3*3conv,包含全劇平均池化)序愚。
復(fù)制resnet最后的block級聯(lián)起來憔披,加入BN。沒有使用CRFs
所有分支得到的結(jié)果concate起來通過1×1卷積之后得到最終結(jié)果展运。
v3+:ASPP方法的優(yōu)點(diǎn)是該種結(jié)構(gòu)可以提取比較dense的特征活逆,因?yàn)閰⒖剂瞬煌叨鹊膄eature精刷,并且atrous convolution的使用加強(qiáng)了提取dense特征的能力拗胜。
但是在該種方法中由于pooling和有stride的conv的存在,使得分割目標(biāo)的邊界信息丟失嚴(yán)重怒允。
Encoder-Decoder方法的decoder中就可以起到修復(fù)尖銳物體邊界的作用埂软。
第七類:基于遞歸神經(jīng)網(wǎng)路的模型
盡管cnn在處理計(jì)算機(jī)視覺問題時(shí)是非常有優(yōu)秀的解決方案,但是并不是唯一的纫事,引出了以rnn為基礎(chǔ)的DL模型勘畔。
renet
因?yàn)樽髡哒J(rèn)為cnn當(dāng)中的conv+pooling會(huì)使圖像信息丟失嚴(yán)重,因此作者使用rnn來避免這種操作丽惶。
每個(gè)renet層含有四個(gè)rnn他們在兩個(gè)方向上水平和垂直來掃描圖像炫七,用這個(gè)renet層替換掉pooling+conv,通過前一層的fp钾唬,進(jìn)行這四個(gè)方向的掃描完成特征學(xué)習(xí)的過程万哪。
reseg model
第一步:從網(wǎng)絡(luò)的結(jié)構(gòu)我們可以看出來,reseg應(yīng)用了3次串聯(lián)的renet模塊抡秆,空間分辨率在不斷減小奕巍,為了將vgg16提取出來的特征進(jìn)一步處理,從而得到對輸入圖像更復(fù)雜的特征描述儒士。
第二部:在特征提取后的止,fp的空間分辨率下降到八分之一,采用了由若干層反卷積組成的上采樣層着撩,恢復(fù)分辨率
第三步:最后簡單的應(yīng)用softmax來實(shí)現(xiàn)segmentation
第八類:注意力機(jī)制
深度學(xué)習(xí)的注意力機(jī)制和人類的注意力本質(zhì)上是一個(gè)意思诅福,核心目標(biāo)也是從公眾信息中選擇出對當(dāng)前任務(wù)更加關(guān)鍵的信息匾委;在數(shù)學(xué)公式和代碼實(shí)現(xiàn)就是attention可以理解為加權(quán)求和
chen提出了一種多尺度圖像和注意力機(jī)制相結(jié)合(學(xué)習(xí)在每個(gè)像素位置對多尺度特征進(jìn)行加權(quán)求和)。注意力機(jī)制是要優(yōu)于平均和最大池化氓润,該模型能夠評估不同位置和尺度特征的重要性剩檀。
RAN(反向注意力機(jī)制)框架:本文提出了一種使用反向注意機(jī)制的語義分割方法。RAN是一個(gè)三分支的網(wǎng)絡(luò)旺芽,它同時(shí)執(zhí)行直接注意和反向注意學(xué)習(xí)過程沪猴。最上分支,學(xué)習(xí)的是像素不屬于各個(gè)類別的概率分布采章;最下分支运嗜,學(xué)習(xí)的是pixel屬于各個(gè)類別的概率分布;中間reverse attention 分支悯舟,學(xué)習(xí)的是某個(gè)類別和不是某個(gè)類別概率的Feature之間結(jié)合的權(quán)重(從原始預(yù)測中直接減去反向預(yù)測)担租。最終下分支與reverse attention 分支融合后的Feature進(jìn)行預(yù)測分割
主要作用:為了提高對類別混合區(qū)域的目標(biāo)分割精度,提高混合區(qū)域分割 的準(zhǔn)確率抵怎。
Li提出將注意力機(jī)制與空間金字塔相結(jié)合奋救,來提取精確的密集特征進(jìn)行像素標(biāo)記,而不是復(fù)雜的放大卷板機(jī)換個(gè)人工設(shè)計(jì)的解碼器網(wǎng)絡(luò)反惕。
Fu提出了用于場景分割的雙注意網(wǎng)絡(luò)尝艘,基于自注意力機(jī)制,能夠捕捉豐富的上下文信息姿染,添加了兩個(gè)注意力模塊(position attention moudle和channel attention moudle)
OCNet EMANet CCNet DFN
第九類:基于GAN的模型
CNN的分割網(wǎng)絡(luò)可以用于GAN的生成器背亥,所以只需要設(shè)計(jì)對抗網(wǎng)絡(luò),設(shè)計(jì)Loss悬赏。對抗網(wǎng)絡(luò)也可以用于來源于已經(jīng)提出的卷積網(wǎng)絡(luò)模型狡汉。
框架:生成器輸入RGB圖像,生成器是分割網(wǎng)絡(luò)闽颇,用于逐像素分類預(yù)測盾戴,輸出分類預(yù)測圖。對抗網(wǎng)絡(luò)將分割結(jié)果 / GroundTruth二值圖 和原圖進(jìn)行了相乘兵多,得到的結(jié)果做為輸入尖啡,最終輸出sigmoid二分類結(jié)果。
第十類:卷積模型于活動(dòng)輪廓模型
近年來中鼠,F(xiàn)CNs與活動(dòng)輪廓模型(ACMs)[7]之間協(xié)同作用的探索引起了人們的廣泛關(guān)注可婶。一種方法是根據(jù)ACM原理建立新的損失函數(shù)。一種不同的方法最初只是試圖利用ACM作為FCN輸出的后處理器援雇,一些努力試圖通過預(yù)先訓(xùn)練FCN來進(jìn)行適度的協(xié)同學(xué)習(xí)矛渴。