寫(xiě)在前面:因?yàn)槭枪P記所以省略了大量?jī)?nèi)容廓潜,初看建議請(qǐng)直接看論文或翻譯。
本文也發(fā)布在:https://www.zybuluo.com/isfansiming/note/1281873
論文鏈接:https://arxiv.org/abs/1704.06857
有人翻譯過(guò)讽坏,翻譯得很好,這里給出鏈接:https://www.cnblogs.com/Jie-Liang/p/6902375.html posted on 2017-06-29 16:29 求索ljj
1.Abstract
- 本文是第一篇對(duì)利用深度學(xué)習(xí)技術(shù)的語(yǔ)義分割技術(shù)的綜述
相比Beyond pixels:A comprehensive survey from bottom-up to semantic
image segmentation and cosegmentation, 2016
以及A survey of semantic segmentation食零,2016 - 應(yīng)用: autonomous driving ,human-machine interaction , computational photography , image search engines , augmented reality
- Section 2.術(shù)語(yǔ),背景知識(shí)
- Section 3.數(shù)據(jù)集寂屏、挑戰(zhàn)和基準(zhǔn)
- Section 4.現(xiàn)有方法及其貢獻(xiàn)的綜述(定性分析,從簡(jiǎn)單到復(fù)雜)
- Section 5.這些方法的結(jié)果和討論(定量分析)
2.術(shù)語(yǔ)贰谣,背景知識(shí)
![場(chǎng)景理解的演變(粗粒度->細(xì)粒度)](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/Fig1.jpg)
場(chǎng)景理解的演變(粗粒度->細(xì)粒度)
2.1 常見(jiàn)架構(gòu)
AlexNet\VGG\GoogLeNet\ResNet\ReNet,如下圖
2.2 遷移學(xué)習(xí) 略
2.3 數(shù)據(jù)預(yù)處理和數(shù)據(jù)增強(qiáng) 略
![AlexNet](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/Fig2.jpg)
AlexNet
![VGG](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/fig3.jpg)
VGG
![GoogLeNet的Inception](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/Fig4.jpg)
GoogLeNet的Inception
![ResNet](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/Fig5.jpg)
ResNet
![ReNet](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/Fig6.jpg)
ReNet
3.數(shù)據(jù)集及競(jìng)賽
![常見(jiàn)數(shù)據(jù)集](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/Tabel1.jpg)
常見(jiàn)數(shù)據(jù)集
表 1 常見(jiàn)的大規(guī)模分割數(shù)據(jù)集
詳細(xì)參見(jiàn)論文或綜述論文翻譯- 求索ljj
4.方法(定性分析)
盡管FCN模型強(qiáng)大且靈活迁霎,它仍然有許多缺點(diǎn)從而限制其對(duì)于某些問(wèn)題和情況的應(yīng)用:
- FCN的空間不變性導(dǎo)致其沒(méi)有考慮到全局上下文信息
- FCN沒(méi)有默認(rèn)考慮instance-awareness
- FCN的效率在高分辨率場(chǎng)景下遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)時(shí)操作
- FCN不完全適合非結(jié)構(gòu)性數(shù)據(jù),如3D點(diǎn)云或模型吱抚。
這些問(wèn)題和相應(yīng)目前最優(yōu)解決方法的綜述總結(jié)如下表,方法的關(guān)系如下圖
![表 2 基于深度學(xué)習(xí)的語(yǔ)義分割方法總結(jié)](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/Tabel2.jpg)
表 2 基于深度學(xué)習(xí)的語(yǔ)義分割方法總結(jié)
![圖 8 所提及方法的形象化展示](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/Fig8.jpg)
圖 8 所提及方法的形象化展示
詳細(xì)參見(jiàn)論文或綜述論文翻譯- 求索ljj
5.討論(定量分析)
5.1評(píng)價(jià)指標(biāo)
5.1 Execution Time
提供運(yùn)行時(shí)間的同時(shí)給出系統(tǒng)運(yùn)行的硬件信息考廉,以及基準(zhǔn)方法的配置
5.2 Memory Footprint
分割問(wèn)題的重要指標(biāo)(如應(yīng)用在自動(dòng)駕駛汽車秘豹、無(wú)人機(jī)、機(jī)器人)
5.3 Accuracy
假設(shè)有k+1類芝此,p_ij表示將第i類分割為第j類的像素?cái)?shù)量
-
像素準(zhǔn)確率(PA):最簡(jiǎn)單的指標(biāo)
-
像素準(zhǔn)確率平均值(MPA):改進(jìn)PA憋肖,按類取平均
-
平均交并比(MIoU):分割問(wèn)題的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)因痛,按類取平均
-
頻率加權(quán)交并比(FWIoU):改進(jìn)MIoU,每個(gè)類按重要性加權(quán)
5.2結(jié)果
5.1 RGB
5.2 2.5D
5.3 3D
5.4 Sequences
![](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/TABLE3.jpg)
![](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/TABLE4.jpg)
![](https://raw.githubusercontent.com/isfansiming/paper_images/master/semantic_segmentation_review/TABLE5.jpg)
TABLE 6~16 見(jiàn)論文或綜述論文翻譯- 求索ljj
5.3總結(jié)
- 幾乎沒(méi)有論文報(bào)告運(yùn)行時(shí)間與占用內(nèi)存岸更,多數(shù)方法關(guān)注準(zhǔn)確率而忽視時(shí)間空間效率
- DeepLab是最可靠的方法鸵膏,在幾乎每個(gè)RGB圖像數(shù)據(jù)集上都遠(yuǎn)遠(yuǎn)超過(guò)了其他方法。
- RNN如LSTM-CF在2.5維和多模態(tài)數(shù)據(jù)集上占主導(dǎo)怎炊。
- 三維數(shù)據(jù)的分割問(wèn)題仍有很長(zhǎng)的路要走
- 處理視頻序列只有clockwise Convnet
5.4未來(lái)研究方向
- 三維數(shù)據(jù)集
- 序列數(shù)據(jù)集
- 使用圖卷積網(wǎng)絡(luò)(GCN)對(duì)點(diǎn)云進(jìn)行分割
- 上下文知識(shí)
- 實(shí)時(shí)分割
- 存儲(chǔ)空間
- 序列數(shù)據(jù)的時(shí)間一致性
- 多視角整合