文章:D2-Net: A Trainable CNN for Joint Description and Detection of Local Features
鏈接:https://arxiv.org/abs/1905.03561
作者:Mihai Dusmanu胸嘁,……,Marc Pollefeys
機構:ETH,Microsoft,JSPS KAKENHI
摘要的摘要:傳統(tǒng)的特征方法是先檢測關鍵點再提取描述子(detect-then-describe)夺鲜,本文則是使用一個CNN網(wǎng)絡赎败,輸入原始圖片,尺寸為
吝沫,輸出Feature Map呻澜,為3D張量
,
惨险,
為channel數(shù)羹幸,再從Feature Map里同時提取關鍵點和描述子(detect-and-describe)。并且在一些場景看著效果不錯辫愉,如下圖栅受。
圖1
1. 描述子
實際上,本文使用歸一化的描述子:.
2. 特征點
定義2D響應:
Hard feature detection. 判斷是一個detection:在
中找到響應最大的那一層
恭朗,再判斷在
層
是否是一個局域響應最大屏镊,如是,則
是一個detection痰腮,如圖2而芥。
圖2
Soft feature detection. Hard feature detection是一個非0即1的判斷,因此只適用于Testing階段膀值,在Training階段需要soft一下來做back-propagation棍丐。思路就是給各個點定義score值(感覺有點類似于分類中的概率值)。
3. 聯(lián)合訓練
ground truth為給定的匹配點對集合虫腋,損失函數(shù)為:
具體詳見paper骄酗,大意就是最小化正確匹配距離,最大化錯誤匹配距離悦冀,同時提高關鍵點的得分趋翻。
4. 其他
使用VGG16,fine-tuning盒蟆。
項目在Github上開源踏烙,https://github.com/mihaidusmanu/d2-net。