1.論文地址:https://arxiv.org/abs/1908.05612
2.論文代碼:https://github.com/Thinklab-SJTU/R3Det_Tensorflow
3.論文動機:在文本檢測和遙感目標檢測領(lǐng)域的三個挑戰(zhàn):
? ? 1.長寬比例大:對角度變化十分敏感。
? ? 2.密集排列:例如停車場噪沙。
? ? 3.類別不平衡:現(xiàn)存數(shù)據(jù)集類別極度不平衡。
4.論文創(chuàng)新:主要有三個貢獻:
? ? 1.我們提出可推導(dǎo)的近似SkewIoU損失饺鹃,解決傾斜交并比分數(shù)(SkewIoU)對角度敏感而造成的輕度偏移就會導(dǎo)致SkewIoU快速下降。
? ? 2.提出旋轉(zhuǎn)錨框和水平錨框組合的有粗到細的單階段端到端檢測器翔曲,來適應(yīng)目標密集場景扮叨。
? ? 3.設(shè)計了特征精煉模塊,使用特征插值來獲取Anchor的位置信息并重建特征圖實現(xiàn)特征對齊谢鹊,解決了單級檢測器存在的特征未對齊問題。并且減少了精煉邊界框的數(shù)量留凭,加速了模型佃扼。
5.論文骨架網(wǎng)絡(luò)和數(shù)據(jù)集:基于RetinaNet網(wǎng)絡(luò),三個流行的遙感公共數(shù)據(jù)集DOTA,HRSC2016,UCAS-AOD和一個文本數(shù)據(jù)集ICDAR2015.
6.實驗算法比較和總結(jié)
實驗結(jié)果明顯蔼夜,如下圖:
解決特征偏移的FRM模塊的核心是特征重構(gòu)兼耀,與雙階段目標檢測中的ROIAlign相比,精度和速度都有提升求冷。原因是FRM僅僅采樣5個特征點瘤运,比ROIAlign默認的7*7*4=196個采樣點少了很多,這是速度優(yōu)勢所在匠题;在進行分類和回歸之前拯坟,是需要獲得與特征點對應(yīng)的特征(實例級別)和重建整個特征圖(圖像級別),而ROIAlign僅獲取與ROI對應(yīng)的特征韭山。