《TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation》論文筆記
論文鏈接
TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation
論文概述
像素級分割在計算機(jī)視覺中是一項艱巨的任務(wù)秩霍,經(jīng)典的UNet網(wǎng)絡(luò)結(jié)構(gòu)在醫(yī)學(xué)影像和衛(wèi)星圖像中非常流行编曼。一般來說神經(jīng)網(wǎng)權(quán)重由一些大型數(shù)據(jù)集如ImageNet進(jìn)行初始化后會有更好的效果岛请。在一些實(shí)際應(yīng)用中秕硝,尤其是在醫(yī)學(xué)和交通安全方面,模型的精確是至關(guān)重要的捷枯,本文演示如何使用預(yù)訓(xùn)練編碼器來改善UNet網(wǎng)絡(luò)結(jié)構(gòu)滚秩,代碼見此:https://github.com/ternaus/TernausNet
論文要點(diǎn)概括
- 經(jīng)典的UNet網(wǎng)絡(luò)權(quán)重采用隨機(jī)初始化方式來完成,眾所周知訓(xùn)練一個未過擬合的網(wǎng)絡(luò)需要大量的數(shù)據(jù)來完成淮捆。因此采用經(jīng)過Imagenet訓(xùn)練后的權(quán)重來進(jìn)行初始化這一方法被廣泛應(yīng)用郁油。通過這種方式來加速學(xué)習(xí)過程。
-
此網(wǎng)絡(luò)編碼器部分采用VGG11(VGG11包含7個3x3卷積層攀痊,每個層后加一個ReLU桐腌,同時進(jìn)行5次最大池化操作,具體如下圖)
-
為構(gòu)造編碼器苟径,這里移除了全連接層替換其為一個512通道的單卷積層來分離編碼器和解碼器案站。為構(gòu)造解碼器這里采用轉(zhuǎn)置卷積層放大特征圖尺寸并且減少一半原通道數(shù)。同時將轉(zhuǎn)置卷積的輸出與解碼器的相應(yīng)部分的輸出串聯(lián)棘街。特征圖的結(jié)果通過卷積操作使得其通道數(shù)與對應(yīng)編碼器部分相同蟆盐。這一上采樣過程重復(fù)5次對應(yīng)5次池化操作。傳統(tǒng)全連接層可接受任意大小圖片輸入蹬碧,但因為此處有5個池化層舱禽,每次圖像縮小到原來一半,即縮小$2^5=32$倍恩沽,因此當(dāng)前網(wǎng)絡(luò)要求輸入圖像大小需要能被32整除誊稚。下圖為UNet結(jié)構(gòu)與本文網(wǎng)絡(luò)結(jié)構(gòu)圖對比。
- 結(jié)果與評價
- LeCun uniform initializer: IoU = 0.593
- The Encoder is pre-trained on ImageNet: IoU = 0.686
- Fully pre-trained U-Net on Carvana: IoU = 0.687