姓名:寇世文
學(xué)號(hào):21011110234
【嵌牛導(dǎo)讀】:隨著人工智能技術(shù)的不斷發(fā)展睦刃,智能機(jī)器人領(lǐng)域也得到了空前的發(fā)展赤套。尤其是深度神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于視覺系統(tǒng)中后侧到,取得了許多很明顯的成效恰梢。對于自主移動(dòng)機(jī)器人來說般卑,視覺系統(tǒng)有著十分重要的作用,而圖像分割技術(shù)更是在這個(gè)系統(tǒng)中擔(dān)任著十分重要的角色策肝。傳統(tǒng)的圖像分割技術(shù)基本上已經(jīng)能夠?qū)D像的前景和后景分隔開來肛捍,但是近年來隨著深度學(xué)習(xí)算法的發(fā)展隐绵,人們開始將其應(yīng)用到圖像分割中之众,提出了很多分割網(wǎng)絡(luò)拙毫,也達(dá)到了很好的分割效果。在實(shí)現(xiàn)圖像分割的基礎(chǔ)上棺禾,人們還使得分割具有了語義類別和標(biāo)簽缀蹄,就是現(xiàn)在的語義分割。本文在介紹了語義分割的基礎(chǔ)上又引出了新的任務(wù)分割場景膘婶,實(shí)例分割和全景分割缺前。并且介紹了最近研究的熱點(diǎn)三維點(diǎn)云的語義分割問題,闡述了其實(shí)現(xiàn)的必要性悬襟。
【嵌牛鼻子】智能機(jī)器人衅码,圖像分割、語義分割脊岳、計(jì)算機(jī)視覺
【嵌牛提問】圖像分割技術(shù)的深度方法
【嵌牛正文】
一逝段、引言
????????在深度學(xué)習(xí)算法出來之后,卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于計(jì)算機(jī)視覺技術(shù)中割捅,也因此衍生出了很多的研究方向奶躯。深度學(xué)習(xí)主要是以特征為基礎(chǔ)來進(jìn)行比對,如在人臉識(shí)別方面亿驾,使用卷積神經(jīng)網(wǎng)絡(luò)分別對兩張人臉進(jìn)行不同位置的特征提取嘹黔,然后再進(jìn)行相互比對,最后得到比對結(jié)果莫瞬。目前的計(jì)算機(jī)視覺的主要研究方向有圖像分類儡蔓、目標(biāo)檢測、圖像分割疼邀、目標(biāo)跟蹤喂江、圖像濾波與降噪、圖像增強(qiáng)檩小、風(fēng)格化开呐、三維重建、圖像檢索规求、GAN等筐付。本文主要是針對圖像分割這一領(lǐng)域,進(jìn)行簡要的概述阻肿。
二瓦戚、發(fā)展現(xiàn)狀
????????在深度學(xué)習(xí)算法出來之后,圖像的分割效果得到了很大的提升丛塌,并且人們也提出了很多種方法來實(shí)現(xiàn)分割较解。有基于特征編碼的實(shí)現(xiàn)方法畜疾,VGGNet和ResNet在特征提取領(lǐng)域有著非常好的效果。由于VGGNet大部分的參數(shù)主要在全連接層上印衔,所以網(wǎng)絡(luò)的加深并不會(huì)造成參數(shù)爆炸啡捶。在使用多個(gè)小核卷積層時(shí),其感受野能夠等同于一個(gè)大核卷積層(大概是三個(gè)3×3的感受野等同于一個(gè)7×7的)奸焙,但是經(jīng)過如此操作后瞎暑,其參數(shù)量遠(yuǎn)遠(yuǎn)少于大核卷積層,而且由于小核的非線性操作多于大核的与帆,也就使得其學(xué)習(xí)能力較強(qiáng)了赌。但是小核本身具有較多的網(wǎng)絡(luò)層數(shù),也會(huì)使得最后的全連接層的參數(shù)多玄糟,最終就會(huì)占用更多的內(nèi)存空間勿她。對于ResNet,它的出現(xiàn)解決了深度學(xué)習(xí)網(wǎng)絡(luò)堆疊到一定深度的時(shí)候會(huì)出現(xiàn)梯度消失的問題阵翎,也是深度學(xué)習(xí)發(fā)展歷程中的一個(gè)重要的轉(zhuǎn)折點(diǎn)逢并。這個(gè)網(wǎng)絡(luò)實(shí)際上引入了一個(gè)殘差學(xué)習(xí)模塊,這個(gè)模塊的加入使得網(wǎng)絡(luò)能夠盡可能地加深贮喧。在此基礎(chǔ)上還可以保證前饋筒狠、反饋傳播的順利進(jìn)行,同時(shí)還可以簡化網(wǎng)絡(luò)結(jié)構(gòu)箱沦。
????????除了可以基于特征編碼來實(shí)現(xiàn)辩恼,還可以基于區(qū)域進(jìn)行選擇。這種方法是計(jì)算機(jī)視覺里一種常用的算法谓形,尤其是在目標(biāo)檢測領(lǐng)域灶伊。其主要思想是根據(jù)顏色空間和相似矩陣來檢測待檢測區(qū)域,之后根據(jù)檢測結(jié)果來進(jìn)行分類預(yù)測寒跳。
????????我們都知道RNN在手寫和語音識(shí)別方面有著很好的表現(xiàn)聘萨,但是近來也有一些學(xué)者試圖將它應(yīng)用到計(jì)算機(jī)視覺中,這就是所謂的基于RNN的圖像分割方法童太。和其他分割方法不同的是米辐,這種方法能利用其自身的特點(diǎn)來結(jié)合上下文的關(guān)系來重新加權(quán)類的預(yù)測。為了解決時(shí)間會(huì)隨著數(shù)據(jù)樣本的增加而出現(xiàn)指數(shù)增長的問題书释,可以用多個(gè)遞歸連接來替換單個(gè)遞歸連接翘贮。
????????基于上采樣、反卷積的分割方法在圖像分割領(lǐng)域幾乎已經(jīng)成為一個(gè)標(biāo)桿爆惧,F(xiàn)CN主要是對圖像進(jìn)行了像素級的分類狸页,進(jìn)而解決了語義級別的圖像分割問題。對于FCN扯再,其可以保留原始輸入圖像的空間信息芍耘。但是由于其是對各個(gè)像素分別進(jìn)行分類址遇,并沒有將像素與像素之間的關(guān)系考慮進(jìn)去,也就導(dǎo)致其缺乏空間的一致性斋竞。
????????我們都知道圖像在深度卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行處理時(shí)會(huì)使得其分辨率產(chǎn)生一些下降倔约,這個(gè)時(shí)候一種提高特征分辨率的分割方法就產(chǎn)生了。它采用帶有空洞的采樣窃页,在使用空洞卷積的情況下跺株,感受野會(huì)增大复濒,使得每個(gè)卷積輸出都包含了較大范圍的信息脖卖。這樣就解決了關(guān)于分辨率的內(nèi)部數(shù)據(jù)結(jié)構(gòu)丟失和空間層計(jì)劃信息丟失等問題。
????????基于特征增強(qiáng)的分割方法包括:提取多尺度特征巧颈。當(dāng)神經(jīng)網(wǎng)絡(luò)用于圖像分割時(shí)畦木,CNN經(jīng)常被用在圖像的小方塊上,這個(gè)小方塊是具有固定大小的以每個(gè)像素為中心的卷積核砸泛。我們可以觀察卷積核周圍的小區(qū)域來標(biāo)記具體的每個(gè)像素的分類十籍。很明顯,當(dāng)我們盡可能地覆蓋到更大部分的上下文信息時(shí)唇礁,這個(gè)網(wǎng)絡(luò)的分割效果也就更好勾栗。