Abstract
本文主要做了兩件事:
- 用深度學(xué)習(xí)方法模擬經(jīng)典的圖像相似度估計(jì)問(wèn)題
- 用深度學(xué)習(xí)方法估計(jì)仿射變換參數(shù)疹味,以及更為復(fù)雜的thin-plate spline transformation
CNN
handle large changes of appearance between the matched images
經(jīng)典的相似度估計(jì)方法寥袭,比如使用SIFT獲取局部特征丟棄不正確的匹配進(jìn)行模糊匹配台妆,然后將模糊匹配的結(jié)果輸入到RANSAC或者Hough transform中進(jìn)行精確匹配昆雀,雖然效果不錯(cuò)但是無(wú)法應(yīng)對(duì)場(chǎng)景變換較大以及復(fù)雜的幾何形變的情況词身。本文使用CNN提取特征以應(yīng)對(duì)這兩點(diǎn)不足冶匹。
- 用CNN特征替換原有經(jīng)典特征,即使場(chǎng)景變換很大叙谨,也能夠很好的提取特征;
- 設(shè)計(jì)一個(gè)匹配和變換估計(jì)層保屯,加強(qiáng)模型魯棒性手负。
Architecture
end-to-end
輸入:兩幅圖片
輸出:仿射變換的6個(gè)參數(shù)
這里的思路如下:先用雙路CNN提取兩幅圖片的特征,然后用correlation-layer進(jìn)行融合姑尺,這個(gè)過(guò)程可以視為模糊匹配竟终,然后進(jìn)入回歸層得到具體預(yù)測(cè)出的仿射變換的6個(gè)參數(shù)。
特征提惹畜:
使用雙路CNN统捶,輸入兩幅圖像,權(quán)值共享柄粹。
CNN采用VGG-16喘鸟,L2-norm,fine-tuning ImageNet驻右。
Matching:
我們通過(guò)雙路CNN獲取兩幅圖片的feature map:
w什黑,h,d:分別為feature map的長(zhǎng)旺入、寬兑凿、深度(通道)
在進(jìn)入matching階段前,要把兩路CNN提取到的特征融合為一個(gè)向量茵瘾,這里使用的方法是correlation-layer礼华。
correlation-layer
fA與fB進(jìn)行點(diǎn)乘得到correlation map ()
原來(lái)兩個(gè)w×h的feature map ,每個(gè)1×1×d的向量通過(guò)點(diǎn)乘得到w×h×(w×h)這樣一個(gè)立方體拗秘。立方體當(dāng)中的每一個(gè)位置(i圣絮,j)表示fB中的(i,j)位置的點(diǎn)對(duì)應(yīng)fA中所有點(diǎn)的相似度雕旨。這里correlation map的深度(w×h)即fA中所有點(diǎn)被展開(kāi)成k扮匠,表示fA中點(diǎn)的索引。
歸一化:
得到correlation map 后對(duì)相似度進(jìn)行歸一化凡涩,以凸顯相似度高的點(diǎn)棒搜。我們使用ReLU+L2Norm進(jìn)行歸一化。為什么選用ReLU呢活箕?考慮這兩種情況:
- 假設(shè)只有一個(gè)匹配點(diǎn)時(shí)力麸,會(huì)直接將匹配值增大為1
- 假設(shè)有多個(gè)噪聲匹配點(diǎn),使用ReLU會(huì)對(duì)除了最匹配的點(diǎn)之外的噪聲點(diǎn)降權(quán),提高了模型的魯棒性克蚂。
對(duì)correlation map歸一化后闺鲸,我們得到了在進(jìn)入回歸層之前所需要的correspondence map。
使用correlation-layer的原因如下:
- 兩幅圖像的相似度只需要保留其相似性以及空間位置埃叭,圖像本身的特征不應(yīng)該被考慮摸恍。
假設(shè)有兩對(duì)圖像的仿射變換參數(shù)相同,只是圖像內(nèi)容不同赤屋,如果考慮feature map的像素信息立镶,那么兩幅圖像進(jìn)入模型后輸出的參數(shù)也將不同; - 如果只是簡(jiǎn)單的對(duì)兩幅圖中每一個(gè)通道的feature進(jìn)行相加或者相減益缎,如果匹配點(diǎn)相差很遠(yuǎn)谜慌,這種方法無(wú)法獲取正確的相似度。如果使用correlation map+Norm莺奔,即使匹配點(diǎn)相差很遠(yuǎn)欣范,也能夠凸顯出最為匹配的點(diǎn)。所以這種方法無(wú)法應(yīng)對(duì)場(chǎng)景大范圍變化的匹配問(wèn)題令哟;
Regression network
這里要注意的是恼琼,進(jìn)入回歸層中要使用卷積層而不是全連接層。因?yàn)閏orrelation map的參數(shù)個(gè)數(shù)是feature map大小的平方屏富,直接用全連接參數(shù)過(guò)多將會(huì)造成梯度爆炸晴竞。
Loss function
使用每個(gè)柵格點(diǎn)經(jīng)過(guò)使用預(yù)測(cè)參數(shù)和真實(shí)參數(shù)進(jìn)行仿射變換后得到的值之間的距離作為L(zhǎng)oss。
Dataset
人工生成數(shù)據(jù)集:
為了避免仿射變換后帶來(lái)的圖像的邊界問(wèn)題狠半,在原始圖中央截取Padded image噩死。
在padded image的中央截取ImageA
對(duì)padded image進(jìn)行仿射變換,在中央截取相同大小神年,獲得ImageB