一 CVPR 2018 衛(wèi)星圖像道路檢測冠軍(IoU 0.6342)
A. 參考資料
B. Take home message
1. 問題特點
- 道路細長狹窄
- 背景復雜,道路本身也錯綜復雜
- 道路跨度大壮韭,圖像本身大:1024*1024
- 連通性,有些道路被樹木遮擋
需要網(wǎng)絡保留更多的紋理結(jié)構(gòu)以及較大的感受野
2. 預處理
- 6226訓練井赌,1243驗證蜀细,1101測試
- Image: uint8 [0, 255]→float [-1.0, 1.0]
- Mask: uint8 (0/255) → float (0/1)
- Data Augmentation: color transfer(HSV空間處理), spatial transfer舟铜。提升了1個點
Note:
i) 將原圖resize到512或者256會丟失分辨率信息,而道路像素點本身就比較少奠衔,因此這樣resize會嚴重損失道路信息谆刨,實驗證明性能也不好。
ii) H和S的變換對應不同天氣下拍出來的圖像涣觉,V對應陽光好/壞的情況痴荐。
3. 網(wǎng)絡
- Unet作為baseline(0.6294)發(fā)現(xiàn)預測的結(jié)果準確性不高,容易把河流也誤認為道路官册∩祝→使用預訓練的模型替代編碼部分
- Dice+BinaryCE
BinaryCE 在預測結(jié)果接近0和1的時候會出現(xiàn)loss截斷的情況,導致沒有梯度反傳膝宁。
- 優(yōu)化器采用Adam鸦难,RMSProp會過擬合,收斂也沒Adam快员淫。
- LinkUnet, (0.630)預測結(jié)果竟然沒有比Unet有明顯提升合蔽,觀看結(jié)果發(fā)現(xiàn)有連通性問題,通過計算其感受野發(fā)現(xiàn)只有700多(遠低于原圖的1024)
LinkNet的創(chuàng)新點是將每個編碼器與解碼器相連接介返,編碼器的輸入鏈接到對應的解碼器的輸出上拴事,然后求和。(Our methods directly use the output of their encoder and feed it into the decoder to perform segmentation.)此外用卷積下采樣圣蝎,沒有用池化刃宵。而Unet采用的是Concate,pooling下采樣徘公。
- 提出D-LinkNet牲证,通過引入擴張卷積金字塔模塊,提升感受野
-
沒采用類似CRF的后處理
-
kaggle獲勝者的solution
4. 重要的點
- test time augmentation (ver-flip, hor-flip, diag-flip)关面,然后對輸出的結(jié)果平均坦袍。+3%
- transfer learning
- 0.25Unet + 0.25 LinkNet34 + 0.5*D-LinkNet34 +2%
- 用前人驗證過的方法,自己造輪子很容易掉坑里等太。