什么是語(yǔ)義分割
對(duì)圖片的每個(gè)像素都做分類心傀。
較為重要的語(yǔ)義分割數(shù)據(jù)集有:VOC2012 以及 MSCOCO 。
深度學(xué)習(xí)最初流行的分割方法是绑谣,打補(bǔ)丁式的分類方法 ( patch classification ) 夜焦。逐像素地抽取周圍像素對(duì)中心像素進(jìn)行分類捞稿。由于當(dāng)時(shí)的卷積網(wǎng)絡(luò)末端都使用全連接層 ( full connected layers ) 鳄厌,所以只能使用這種逐像素的分割方法荞胡。
2014年,來(lái)自伯克利的 Fully Convolutional Networks(FCN) 卷積網(wǎng)絡(luò)了嚎,去掉了末端的全連接層泪漂。隨后的語(yǔ)義分割模型基本上都采用了這種結(jié)構(gòu)。除了全連接層新思,語(yǔ)義分割另一個(gè)重要的問(wèn)題是池化層窖梁。池化層能進(jìn)一步提取抽象特征增加感受域,但是丟棄了像素的位置信息夹囚。但是語(yǔ)義分割需要類別標(biāo)簽和原圖像對(duì)齊纵刘,因此需要從新引入像素的位置信息。有兩種不同的架構(gòu)可以解決此像素定位問(wèn)題荸哟。
第一種是編碼-譯碼架構(gòu)假哎。編碼過(guò)程通過(guò)池化層逐漸減少位置信息、抽取抽象特征鞍历;譯碼過(guò)程逐漸恢復(fù)位置信息舵抹。一般譯碼與編碼間有直接的連接。該類架構(gòu)中U-net 是最流行的劣砍。
第二種架構(gòu)是膨脹卷積 ( dilated convolutions ) 惧蛹,拋棄了池化層。
條件隨機(jī)場(chǎng)的后處理 經(jīng)常用來(lái)提高分割的精確度刑枝。后處理利用圖像的光感強(qiáng)度(可理解為亮度)香嗓,將周圍強(qiáng)度相近的像素分為同一類。能提高 1-2 個(gè)百分點(diǎn)装畅。
語(yǔ)意分割的演變https://blog.csdn.net/u013580397/article/details/78508392
U-net網(wǎng)絡(luò)
上圖展示了網(wǎng)絡(luò)結(jié)構(gòu)靠娱,它由contracting path 和 expansive path組成。contracting path是典型的卷積網(wǎng)絡(luò)架構(gòu)掠兄。它的架構(gòu)是一種重復(fù)結(jié)構(gòu)像云,每次重復(fù)中都有2個(gè)卷積層和一個(gè)pooling層,卷積層中卷積核大小均為33蚂夕,激活函數(shù)使用ReLU迅诬,兩個(gè)卷積層之后是一個(gè)22的步長(zhǎng)為2的max pooling層。每一次下采樣后我們都把特征通道的數(shù)量加倍婿牍。contracting path中的每一步都首先使用反卷積(up-convolution)侈贷,每次使用反卷積都將特征通道數(shù)量減半,特征圖大小加倍牍汹。反卷積過(guò)后铐维,將反卷積的結(jié)果與contracting path中對(duì)應(yīng)步驟的特征圖拼接起來(lái)。contracting path中的特征圖尺寸稍大慎菲,將其修剪過(guò)后進(jìn)行拼接嫁蛇。對(duì)拼接后的map進(jìn)行2次33的卷積。最后一層的卷積核大小為11露该,將64通道的特征圖轉(zhuǎn)化為特定深度(分類數(shù)量睬棚,二分類為2)的結(jié)果。網(wǎng)絡(luò)總共23層解幼。
反卷積就是轉(zhuǎn)置卷積抑党,也是一種卷積,這個(gè)就是轉(zhuǎn)置卷積撵摆,由小尺寸到大尺寸的過(guò)程底靠。也就是說(shuō)反卷積也可以表示為兩個(gè)矩陣乘積,很顯然轉(zhuǎn)置卷積的反向傳播就是也是可進(jìn)行的特铝。所以說(shuō)整體是Unet是可以反向傳播的暑中。
通過(guò)將編碼器的每層結(jié)果拼接到譯碼器中得到更好的結(jié)果。
所有的卷積過(guò)程都是沒(méi)有加pad的鲫剿,這樣就會(huì)導(dǎo)致每做一次卷積鳄逾,特征的長(zhǎng)寬就會(huì)減少兩個(gè)像素,最后網(wǎng)絡(luò)的輸出和輸入大小不一樣灵莲。因?yàn)閡-net作者只有30張影像,為了數(shù)據(jù)增強(qiáng)沒(méi)有加pad.
可以實(shí)現(xiàn)端到端,輸入一張圖像,輸出一張圖像.
注: 部分文章提到,u-net適用于少樣本的數(shù)據(jù)集.