曾經(jīng)Kitti道路分割排名第一的方案软瞎, 現(xiàn)為Kitti上UM-road 排名35的方案。
main contribution:
1.將分類、檢測闲询、分割三個任務(wù)結(jié)合起來,共用encoder框架浅辙。
2.簡單扭弧,效果還好。
3.效率高记舆,23 fps (沒說在什么環(huán)境下)
architecture:
共享一個encoder鸽捻,對不同的任務(wù)設(shè)計不同的decoder
encoder:
用于提取特征 ,文中主要用了vgg16 和resnet泽腮,用的都是在imageNet 上預(yù)訓(xùn)練的模型進行微調(diào)御蒲。其中vgg16分為vgg16-fc7和vgg16-pool5。就是用的層不一樣诊赊,一個取到pool5一個取到fc7(這里fc都被換成了1*1 conv 以適應(yīng)不同大小的輸入)删咱。resnet為resnet50與resnet101,去除了最后的fc層豪筝。
由于自己主要關(guān)注seg部分
classification decoder:兩種痰滋,一種就是原始的全連接, 一種是卷積
detection decoder: 與yolo 相似续崖,沒有proposal生成步驟敲街。 這樣才可能實時 采用了rescaling layer 來提升性能。rescaling layer 包含RoI align严望。
segmentation decoder:
主要就是FCN架構(gòu) 多艇,先用1*1卷積獲取一個粗粒度分割結(jié)果。然后添加3層轉(zhuǎn)置卷積像吻。
training details:
主要是fine-tune
針對多任務(wù)峻黍,Loss不盡相同 。 分類與分割為交叉熵 檢測loss較為復(fù)雜拨匆,按cell來分姆涩。
experiments results:
聯(lián)合推斷得到的結(jié)果和單個任務(wù)得到的結(jié)果差不太多。
針對分割:(為當(dāng)時的第一)
不同encoder的效果:
分類與檢測的效果就不一一列出惭每。