姓名:劉一婷蘑险;學(xué)號:20021210599;學(xué)院:電子工程學(xué)院
轉(zhuǎn)載于 :https://blog.geohey.com/ji-suan-ji-shi-jue-zhi-yu-yi-fen-ge/
【嵌牛導(dǎo)讀】隨著機器學(xué)習(xí)的發(fā)展鬓催,對計算機的理解能力要求也慢慢提高,語義分割實現(xiàn)了計算機對物體真正含義的學(xué)習(xí)和理解单匣,那么語義分割究竟是什么呢矮冬?
【嵌牛鼻子】語義分割
【嵌牛提問】語義分割的方法稠茂?
【嵌牛正文】
人工智能被認為是第四次工業(yè)革命柠偶,google,facebook等全球頂尖睬关、最有影響力的技術(shù)公司都將目光轉(zhuǎn)向AI诱担,雖然免不了存在泡沫,被部分媒體夸大宣傳电爹,神經(jīng)網(wǎng)絡(luò)在圖像識別蔫仙,語音識別,自然語言處理丐箩,無人車等方面的貢獻是毋庸置疑的摇邦,隨著算法的不斷完善,部分垂直領(lǐng)域的研究已經(jīng)落地應(yīng)用屎勘。
在計算機視覺領(lǐng)域施籍,目前神經(jīng)網(wǎng)絡(luò)的應(yīng)用主要有圖像識別,目標(biāo)定位與檢測概漱,語義分割丑慎。圖像識別就是告訴你圖像是什么,目標(biāo)定位與檢測告訴你圖像中目標(biāo)在哪里,語義分割則是從像素級別回答上面兩個問題竿裂。因為項目需要對衛(wèi)星遙感影像中的小麥和玉米進行語義分割玉吁,這幾天在做相關(guān)方向的研究,下面給大家簡單介紹下語義分割的相關(guān)知識铛绰。
語義分割是什么
圖像語義分割(semantic segmentation)诈茧,從字面意思上理解就是讓計算機根據(jù)圖像的語義來進行分割,例如讓計算機在輸入下面左圖的情況下捂掰,能夠輸出右圖。語義在語音識別中指的是語音的意思曾沈,在圖像領(lǐng)域这嚣,語義指的是圖像的內(nèi)容,對圖片意思的理解塞俱,比如左圖的語義就是三個人騎著三輛自行車姐帚;分割的意思是從像素的角度分割出圖片中的不同對象,對原圖中的每個像素都進行標(biāo)注障涯,比如右圖中粉紅色代表人罐旗,綠色代表自行車。
語義分割當(dāng)前應(yīng)用
目前語義分割的應(yīng)用領(lǐng)域主要有:
地理信息系統(tǒng)
無人車駕駛
醫(yī)療影像分析
機器人等領(lǐng)域
地理信息系統(tǒng):可以通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)讓機器輸入衛(wèi)星遙感影像唯蝶,自動識別道路九秀,河流,莊稼粘我,建筑物等鼓蜒,并且對圖像中每個像素進行標(biāo)注。(下圖左邊為衛(wèi)星遙感影像征字,中間為真實的標(biāo)簽都弹,右邊為神經(jīng)網(wǎng)絡(luò)預(yù)測的標(biāo)簽結(jié)果,可以看到匙姜,隨著訓(xùn)練加深畅厢,預(yù)測準(zhǔn)確率不斷提升。使用ResNet FCN網(wǎng)絡(luò)進行訓(xùn)練)
無人車駕駛:語義分割也是無人車駕駛的核心算法技術(shù)氮昧,車載攝像頭框杜,或者激光雷達探查到圖像后輸入到神經(jīng)網(wǎng)絡(luò)中,后臺計算機可以自動將圖像分割歸類郭计,以避讓行人和車輛等障礙霸琴。
醫(yī)療影像分析:隨著人工智能的崛起,將神經(jīng)網(wǎng)絡(luò)與醫(yī)療診斷結(jié)合也成為研究熱點昭伸,智能醫(yī)療研究逐漸成熟梧乘。在智能醫(yī)療領(lǐng)域,語義分割主要應(yīng)用有腫瘤圖像分割,齲齒診斷等选调。(下圖分別是齲齒診斷夹供,頭部CT掃描緊急護理診斷輔助和肺癌診斷輔助)
語義分割數(shù)據(jù)集
在“數(shù)據(jù),算法仁堪,計算力”這AI發(fā)展的三大驅(qū)動力中哮洽,眼下最重要的就是數(shù)據(jù),數(shù)據(jù)集在人工智能中有著舉足輕重的地位弦聂,具體根據(jù)不同的應(yīng)用領(lǐng)域鸟辅,目前的數(shù)據(jù)集主要有:
Pascal VOC系列:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/通常采用PASCAL VOC 2012,最開始有1464 張具有標(biāo)注信息的訓(xùn)練圖片莺葫,2014 年增加到10582張訓(xùn)練圖片匪凉。主要涉及了日常生活中常見的物體,包括汽車捺檬,狗再层,船等20個分類。
Microsoft COCO:http://link.zhihu.com/?target=http%3A//mscoco.org/explore/一共有80個類別堡纬。這個數(shù)據(jù)集主要用于實例級別的分割(Instance-level Segmentation)以及圖片描述Image Caption)聂受。
Cityscapes:?https://www.cityscapes-dataset.com/?適用于汽車自動駕駛的訓(xùn)練數(shù)據(jù)集椭符,包括19種都市街道場景:road颂龙、side-walk刻诊、building幽钢、wal渣叛、fence蜡吧、pole峦失、traficlight坯沪、trafic sign悴灵、vegetation扛芽、terain、sky积瞒、person川尖、rider、car茫孔、truck叮喳、bus、train缰贝、motorcycle 和 bicycle馍悟。該數(shù)據(jù)庫中用于訓(xùn)練和校驗的精細標(biāo)注的圖片數(shù)量為3475,同時也包含了 2 萬張粗糙的標(biāo)記圖片剩晴。
語義分割中的深度學(xué)習(xí)技術(shù)
全卷積神經(jīng)網(wǎng)絡(luò) FCN(2015)
論文:Fully Convolutional Networks for Semantic SegmentationFCN 所追求的是锣咒,輸入是一張圖片是侵状,輸出也是一張圖片,學(xué)習(xí)像素到像素的映射毅整,端到端的映射趣兄,網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:
全卷積神經(jīng)網(wǎng)絡(luò)主要使用了三種技術(shù):
卷積化(Convolutional)
上采樣(Upsample)
跳躍結(jié)構(gòu)(Skip Layer)
卷積化(Convolutional)
卷積化即是將普通的分類網(wǎng)絡(luò),比如VGG16悼嫉,ResNet50/101等網(wǎng)絡(luò)丟棄全連接層艇潭,換上對應(yīng)的卷積層即可。
上采樣(Upsample)
有的說叫conv_transpose更為合適戏蔑。因為普通的池化會縮小圖片的尺寸蹋凝,比如VGG16 五次池化后圖片被縮小了32倍。為了得到和原圖等大的分割圖辛臊,我們需要上采樣/反卷積仙粱。反卷積和卷積類似,都是相乘相加的運算彻舰。只不過后者是多對一,前者是一對多候味。而反卷積的前向和后向傳播刃唤,只用顛倒卷積的前后向傳播即可。圖解如下:
跳躍結(jié)構(gòu)(Skip Layer)
這個結(jié)構(gòu)的作用就在于優(yōu)化結(jié)果白群,因為如果將全卷積之后的結(jié)果直接上采樣得到的結(jié)果是很粗糙的尚胞,所以作者將不同池化層的結(jié)果進行上采樣之后來優(yōu)化輸出。具體結(jié)構(gòu)如下:
而不同上采樣結(jié)構(gòu)得到的結(jié)果對比如下:
這是第一種結(jié)構(gòu)帜慢,也是深度學(xué)習(xí)應(yīng)用于圖像語義分割的開山之作笼裳,獲得了CVPR2015的最佳論文。但還是無法避免有很多問題粱玲,比如躬柬,精度問題,對細節(jié)不敏感抽减,以及像素與像素之間的關(guān)系允青,忽略空間的一致性等,后面的研究極大的改善了這些問題卵沉。
SegNet(2015)
論文:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
主要貢獻:將最大池化指數(shù)轉(zhuǎn)移至解碼器中颠锉,改善了分割分辨率。
空洞卷積(2015)
論文:Multi-Scale Context Aggregation by Dilated Convolutions
主要貢獻:使用了空洞卷積史汗,這是一種可用于密集預(yù)測的卷積層琼掠;提出在多尺度聚集條件下使用空洞卷積的“背景模塊”。
DeepLab(2016)
主要貢獻:使用了空洞卷積停撞;提出了在空間維度上實現(xiàn)金字塔型的空洞池化atrous spatial pyramid pooling(ASPP)瓷蛙;使用了全連接條件隨機場。
參考:
https://www.azavea.com/blog/2017/05/30/deep-learning-on-aerial-imagery/