論文翻譯及筆記:QATM: Quality-Aware Template Matching For Deep Learning

論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Cheng_QATM_Quality-Aware_Template_Matching_for_Deep_Learning_CVPR_2019_paper.pdf
QATM是CVPR2019的一篇論文,方向是模板匹配,作者是Jiaxin Cheng, Yue Wu腺劣, Wael Abd-Almageed 以及 Premkumar Natarajan滋恬。

翻譯如下:

Abstract

在搜索圖像中找到模板是許多計算機視覺的核心問題之一券勺,例如語義圖像語義振惰,圖像到GPS驗證等。我們提出了一種新穎的質(zhì)量感知模板匹配方法QATM(quality-aware template matching)娃闲,該方法不僅作為獨立的模板匹配算法,同時也是可輕松嵌入任何深度神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練層匾浪。 在這里皇帮,我們的Quality可以解釋為匹配對的獨特性。 具體來說蛋辈,我們使用所有匹配對之間的軟排名(softranking)來評估匹配對的quality属拾,因此不同的匹配方案(例如一對一将谊,一對多和多對多)將反映不同的值 。 我們對經(jīng)典模板匹配benchmark和深度學(xué)習(xí)任務(wù)的廣泛評估證明了QATM的有效性渐白。 當(dāng)單獨使用時尊浓,它不僅優(yōu)于最新的模板匹配方法,而且還大大改善了現(xiàn)有的深度網(wǎng)絡(luò)解決方案纯衍。

1. Introduction and Review

模板匹配是計算機視覺應(yīng)用中最常用的技術(shù)之一栋齿,可以應(yīng)用在視頻跟蹤兔毙,圖像拼接撮弧,目標(biāo)檢測,字符識別和3D重建等方向上嗅蔬。 傳統(tǒng)的模板匹配方法通常使用平方差和(SSD歌亲,sum-of-squared-differences)或歸一化積相關(guān)(NCC谷丸,normalized cross-correlation)來計算模板與基礎(chǔ)圖像之間的相似度得分。

SSD

在搜索圖S中应结,以(i,j)為左上角刨疼,取MxN大小的子圖,計算其與模板的相似度鹅龄;遍歷整個搜索圖揩慕,在所有能夠取到的子圖中,找到與模板圖最相似的子圖作為最終匹配結(jié)果扮休。數(shù)值越大相似度越小迎卤。


SSD.png

NCC

利用子圖與模板圖的灰度,通過歸一化的相關(guān)性度量公式來計算二者之間的匹配程度玷坠。


NCC.png

傳統(tǒng)算法評價:

  • 優(yōu)點:
    ①思路簡單蜗搔,容易理解。
    ②運算過程簡單八堡,匹配精度高樟凄。
  • 缺點:
    ①運算量偏大。
    ②對噪聲非常敏感兄渺。

當(dāng)模板和目標(biāo)搜索圖像之間的轉(zhuǎn)換很簡單時缝龄,這些方法效果很好。 但是挂谍,當(dāng)轉(zhuǎn)換復(fù)雜或非剛性時(stretching or shrinking)叔壤,這些方法的成功率會大幅下降。 另外口叙,其他因素(例如遮擋和顏色偏移)也會對這些方法造成很大影響炼绘。

為了克服使用標(biāo)準(zhǔn)模板匹配的這些缺陷,目前已經(jīng)提出了很多辦法:

  • Dekel等人提出了Best- Buddies-Similarity(BBS)妄田,該措施側(cè)重于nearest-neighbor(NN)匹配俺亮,以排除由背景像素引起的潛在和不良匹配仗哨。(詳見此篇https://zhuanlan.zhihu.com/p/59348003

  • 文獻[26]中介紹了Deformable Diversity Similarity(DDIS),它明確考慮了可能的模板變形铅辞,并使用了模板和搜索圖像中潛在匹配區(qū)域之間的NN特征匹配的多樣性厌漂。

  • 在[14]中引入了基于共現(xiàn)的模板匹配(CoTM),以量化模板和搜索圖像中潛在匹配區(qū)域之間的差異斟珊。

這些方法確實提高了模板匹配的性能苇倡。但是,由于兩個局限性囤踩,這些方法無法用于深度神經(jīng)網(wǎng)絡(luò)(DNN)中:

  • (1)使用不可微分的運算(例如閾值旨椒,計數(shù)等)
  • (2)使用對DNN無效的運算,例如作為循環(huán)和其他非批處理操作堵漱。

現(xiàn)有的基于DNN的方法使用簡單的方法來模擬模板匹配的功能[15综慎、30、28勤庐、27示惊、4],例如計算兩個batch tensor(大小為B×H×W×L和 B×H′×W′×L)沿著特征維(即此處的L)的點積愉镰,生成一個包含所有成對特征點積結(jié)果的B×H×W×H′×W′大小的batch tensor米罚。 當(dāng)然,也可以應(yīng)用諸如最大池化之類的其他操作[30丈探、31录择、18、7]碗降。

在本文中隘竭,我們提出了質(zhì)量感知模板匹配(QATM)方法,該方法可用作獨立的模板匹配算法讼渊,或在深度神經(jīng)網(wǎng)絡(luò)中用作具有可學(xué)習(xí)參數(shù)的可訓(xùn)練層动看。它考慮了配對的唯一性,而不是簡單地評估匹配分?jǐn)?shù)精偿。 QATM由可區(qū)分且批次友好的操作組成弧圆,因此在DNN培訓(xùn)期間非常有效赋兵。更重要的是笔咽,QATM的靈感來自評估源模板和目標(biāo)模板的匹配質(zhì)量,因此能夠處理不同的匹配方案霹期,包括一對一叶组,一對多,多對多和不匹配历造。在不同的匹配案例中甩十,只有一對一匹配才被認(rèn)為是高質(zhì)量的船庇,因為它比一對多和多對多案例更具特色。

在本文的其余部分安排如下侣监。 第2節(jié)討論動機并介紹QATM鸭轮。 在第3節(jié)中,將在經(jīng)典模板匹配設(shè)置中研究QATM的性能橄霉。 在第4節(jié)中對QATM進行了語義圖像對齊和圖像至GPS驗證問題的評估窃爷。我們在第5節(jié)中對本文進行了總結(jié)并討論了未來的工作。

2 Quality-Aware Template Matching

2.1 Motivation

在計算機視覺中姓蜂,盡管有該應(yīng)用程序的應(yīng)用按厘,但許多方法都隱式地嘗試解決以下問題的某些變體:給定典型圖像(或圖像補丁)钱慢,以查找目標(biāo)圖像中最感興趣的相似區(qū)域逮京。 經(jīng)典模板匹配[11、26束莫、14]懒棉,約束模板匹配[31],圖像到GPS匹配[7]和語義對齊[18览绿、19漓藕、8、13]方法都包括對模板匹配的某些排序挟裂,盡管算法們在細(xì)節(jié)上有一些差異享钞, 在不損失一般性的前提下,我們將重點討論基本模板匹配問題诀蓉,并說明在以后的部分中適用于其他問題栗竖。

大多數(shù)現(xiàn)有模板匹配方法中的一個已知問題是,通常在測量模板相似性時會考慮模板以及目標(biāo)圖像中的候選窗口中的所有像素(或特征)渠啤。在許多情況下狐肢,例如在目標(biāo)對象后面的背景在模板和目標(biāo)圖像之間變化時,這樣會對結(jié)果造成影響沥曹。為了解決這個問題份名,BBS [11]方法依賴于模板和目標(biāo)之間的最近鄰居(NN)匹配,因此它可以排除大多數(shù)背景像素進行匹配妓美。 在BBS之上僵腺,DDIS [26]方法使用NN字段中的附加變形信息,以進一步提高匹配性能壶栋。

表1.png

如表1所示辰如,t和s分別是模板T和搜索圖像S中的補丁。
“一對一”表示精確匹配贵试,即兩個匹配的對象琉兜。
“一對多”和“ 多對一”表示s或t是導(dǎo)致多個匹配項的均勻或有圖案的補犊(例如天空或地毯補丁)豌蟋。
“多對多“表示S和T中都有許多均勻或有規(guī)律的補丁廊散。
在四種匹配情況中,只有一對一匹配才被認(rèn)為是高質(zhì)量的梧疲。這是由于以下事實:在其他三個匹配情況下奸汇,即使對可能非常相似,由于多個匹配的候選對象往声,匹配的區(qū)別性也較小擂找。原來這降低了該對的可靠性『葡可以發(fā)現(xiàn)S中的最佳匹配區(qū)域是使整體匹配質(zhì)量最大化的地方贯涎。 因此,我們可以對等式進行定量評估慢洋。

公式(1)

這樣塘雳,S中使整體匹配質(zhì)量最大化的區(qū)域R將成為最佳匹配區(qū)域。 R是固定大小的候選窗口普筹,我們在實驗中將對象的大小用作窗口大小败明。

2.2 Methodology

為了使等式 (1)適用于模板匹配,我們需要定義Quality(s太防,t)妻顶,即評估(s,t)之間的匹配質(zhì)量的得分蜒车。 在本節(jié)的其余部分讳嘱,我們導(dǎo)出quality-aware template matching(QATM)度量,它是理想質(zhì)量評估Quality(s酿愧,t)的代理函數(shù)沥潭。

設(shè)我們有待測圖像S和模板T,從中得到圖像補丁s和模板補丁t嬉挡,令fs和ft為s和t的特征表示钝鸽,ρ(·)是s和t之間的預(yù)定義相似性度量(例如余弦相似度)。L(t|s)為與模板圖像中的所有其他補丁相比當(dāng)前補丁t的軟排名庞钢,也可以將其視為具有可學(xué)習(xí)溫度參數(shù)(即α——將在后文討論)的SoftMax激活層(heated-up SoftMax embedding)拔恰。


公式(2).png

定義QATM(s,t)為s在T中匹配的似然函數(shù)值與t在S中匹配的似然函數(shù)值的乘積焊夸。


公式(3).png

當(dāng)ft和fs相似時仁连,ρ(·)會得出較高的值, 當(dāng)t和s真正匹配時阱穗,ρ(ft饭冬,fs)應(yīng)該大于那些不匹配的情況ρ(),即最高得分ρ( )是最佳匹配揪阶。選擇適當(dāng)?shù)摩羺?shù)( 作用:匹配的補丁將具有盡可能接近1的排名得分昌抠,不匹配的補丁的排名得分應(yīng)盡可能接近0。)并用softmax激活后鲁僚,理想的一對一情況下該分?jǐn)?shù)應(yīng)為1炊苫,同樣,當(dāng)t匹配s個補丁中的N個時冰沙,我們應(yīng)該具有N個同樣高的匹配分?jǐn)?shù)侨艾, L(s | t)= 1 / N。
表2.png

表2總結(jié)了所有五個案例的理想分?jǐn)?shù)拓挥,其值與表1所示的個別案例的主觀質(zhì)量評估相符唠梨。一旦我們得到S和T之間的成對QATM結(jié)果,就可以發(fā)現(xiàn)ROI的匹配質(zhì)量為 如(4)所示侥啤。


公式(4).png

其中q(·)表示匹配質(zhì)量函數(shù)当叭。 最終,我們可以找到最匹配的區(qū)域R *盖灸,從而使整體匹配質(zhì)量最大化蚁鳖,如(5)。


公式(5).png

2.3 QATM As An Algorithmic DNN Layer

QATM會連續(xù)評估匹配質(zhì)量赁炎。 因此醉箕,可以通過單個函數(shù)的鏈規(guī)則輕松計算其梯度(所有這些都可以通過標(biāo)準(zhǔn)DNN層(例如softmax激活)或大多數(shù)DNN框架中提供的基本數(shù)學(xué)運算符來實現(xiàn))。

在Alg.1中徙垫,我們演示了如何計算QATM和兩張圖片的匹配程度(使用諸如Tensorflow和Pytorch之類的深度學(xué)習(xí)庫琅攘,可以輕松地在大約30行Python代碼中將其實現(xiàn)到DNN中。 ):我們以余弦相似度為例來評估原始的逐段相似度松邪,tf.einsum(第4行)以批處理方式計算所有逐段相似度得分坞琴。一旦計算了QATM(t,s)逗抑,我們就可以分別計算出模板圖像T和目標(biāo)搜索圖像S的模板匹配映射(第9-10行)剧辐。當(dāng)α參數(shù)是不可訓(xùn)練的固定值時,QATM層降級為經(jīng)典模板匹配算法邮府。


Alg1.png

2.4 Discussion on α

在本節(jié)中荧关,我們討論如何在不涉及訓(xùn)練DNN的直接模板匹配場景中選擇α。 稍后我們將展示QTAM可以輕松地作為可訓(xùn)練層嵌入DNN中褂傀,以執(zhí)行模板匹配忍啤,而無需根據(jù)任務(wù)手動調(diào)整結(jié)構(gòu)。

應(yīng)用公式(2)時,α有兩個作用:


公式(2).png
  • (1)匹配的補丁將具有盡可能接近1的排名得分
  • (2)不匹配的補丁的排名得分應(yīng)盡可能接近0同波。

可以看到鳄梅,隨著α的增加,匹配情況的可能性L(t | s)+也將增加未檩,并且在經(jīng)過一些α后將很快達到其最大值1戴尸。 但是,這并不意味著我們可以輕松地選擇足夠大的α冤狡,因為非常大的α也會使L(t | s)-(不匹配情況的可能性)偏離0孙蒙。因此,一個好的α選擇可以是 被選為提供最大質(zhì)量可辨別性的一種悲雳,如等式(6)


公式(6).png

實際上挎峦,在不知道關(guān)于匹配和不匹配對的相似性得分分布的細(xì)節(jié)的情況下,難以手動地適當(dāng)?shù)卦O(shè)置α合瓢。但是坦胶,如果兩個分布都已知,我們就可以模擬L(t | s)+和L(t | s)-歪玲。在不失一般性的前提下迁央,假設(shè)T中有N個補丁。無論(t滥崩,s)是否為匹配對岖圈,L(t | s)可以通過模擬一個ft特征和N個fs特征來獲得,或者等效地钙皮,通過根據(jù)其定義等式模擬N個ρ(ft蜂科,fs)相似度分?jǐn)?shù)。 (2)短条。匹配和不匹配案例之間的主要區(qū)別在于导匣,對于L(t | s)+,我們需要從匹配對的分?jǐn)?shù)分布中獲得一個分?jǐn)?shù)茸时,而從L(t | s)+的不匹配對的分布中獲得N-1分?jǐn)?shù)贡定,而從L(t | s)?的不匹配對。


圖(1).png

圖1顯示了當(dāng)真實分?jǐn)?shù)和冒名頂替分?jǐn)?shù)遵循正態(tài)分布N(μ +可都,0.01)時缓待,不同α值的E [L(t | s)+]與max {L(t | s)-}之間的差異。對于N = 2200渠牲,則為N(0旋炒,0.05)∏╄荆可以看出瘫镇,差異圖是單峰的,并且最佳α隨著平均μ +的減小而增加。當(dāng)使用的特征來自DNN并且使用的原始相似性度量是余弦相似性時铣除,該數(shù)字更有意義谚咬。 Zhang等提供了不匹配對的理論余弦相似度得分分布,其均值為0通孽,方差為1 / d序宦,其中d為特征維睁壁。我們的經(jīng)驗研究表明背苦,許多DNN特征的μ+值都高于0.3,例如VGG19功能潘明。因此行剂,當(dāng)使用余弦相似度時,DNN特征的合理α大致在[12.5钳降,33.7]中厚宰。

3. QATM Performance in Template Matching

首先評估有關(guān)經(jīng)典模板匹配問題的QATM性能。
代碼:https://github.com/cplusx/QATM.3.1

3.1 Experimental Setup

為了在搜索圖像S中找到匹配區(qū)域遂填,我們通過NeuralNetQATM層(不學(xué)習(xí)α)(請參見alg1)在S上計算匹配質(zhì)量映射铲觉,該層將搜索圖像IS和模板圖像IT作為輸入。 因此吓坚,可以使用公式找到S中最匹配的區(qū)域R ?撵幽。 (5)。


公式(5).png

我們遵循[24]中給出的評估過程礁击,并使用標(biāo)準(zhǔn)的OTB模板匹配數(shù)據(jù)集[32]盐杂,其中包含來自35色視頻的105個模板圖像對。 我們使用來自預(yù)先訓(xùn)練的ImageNet-VGG19哆窿。 將標(biāo)準(zhǔn)的并口交集(IoU)和曲線下面積(AUC)方法用作評估指標(biāo)链烈。 將QTAM與BBS [11],DDIS [26]和CoTM [24]三種最先進的方法進行比較挚躯,再加上使用SSD和NCC進行的經(jīng)典模板匹配强衡。

3.2 Performance On The Standard OTB Dataset

在本實驗中,我們遵循[14]中的所有實驗設(shè)置码荔,并在標(biāo)準(zhǔn)OTB數(shù)據(jù)集上評估了提出的QATM方法漩勤。 α值設(shè)置為28.4,這是VGG曲線的峰值(見圖1)目胡。 QATM性能以及所有基線方法性能如圖2-(a)所示锯七。可以看到誉己,擬議的QATM的性能優(yōu)于最新方法眉尸,并且在AUC評分方面領(lǐng)先第二(CoTM)約2%,與兩者之間1%的性能差距相比,這顯然是明顯的改進BBS及其后續(xù)DDIS噪猾。
由于所提出的QATM方法具有參數(shù)α霉祸,因此我們在變化的α值下評估QATM性能,如圖2-(b)所示袱蜡。顯然丝蹭,當(dāng)α在最佳解附近時,總體QATM性能對值的選擇不是很敏感坪蚁。如圖2-(b)中的水平虛線所示奔穿,α范圍(而不是單個值)比現(xiàn)有方法具有更好的性能。在圖3中可以找到更多定性結(jié)果敏晤。


圖(1).png

圖(2).png

3.3 Performance On The Modified OTB Dataset

標(biāo)準(zhǔn)OTB數(shù)據(jù)集中的一個問題是它不包含任何負(fù)樣本贱田,但是我們不知道在實際應(yīng)用中搜索圖像中是否存在感興趣的模板。因此嘴脾,我們創(chuàng)建了一個修改過的OTB(MOTB)數(shù)據(jù)集男摧。具體來說,對于OTB中的每對搜索圖像S和模板T译打,我們(1)將MOTB中的這對(S耗拓,T)作為正樣本重用,并且(2)在用新模板T'替換T時保持S不變奏司。 T'來自不同的OTB視頻乔询,并將其(S,T')用作否定樣本结澄。負(fù)模板T'選擇為與T相同的大小哥谷,并從視頻幀中隨機裁剪。
這項研究的總體目標(biāo)是在陰性樣品存在的情況下公平地評估模板匹配性能麻献。對于MOTB中的每個樣本(一對们妥,模板,搜索圖像)勉吻,我們將其饋送到模板匹配算法监婶,并在搜索圖像中記錄找到的區(qū)域的平均響應(yīng)。對于提出的QATM方法齿桃,我們再次使用α= 28.4惑惶。然后將這些響應(yīng)以及每對的真實標(biāo)記用于繪制圖2-(c)所示的AUC曲線。憑直覺短纵,良好的模板匹配方法應(yīng)給陰性樣品提供比正樣品低得多的匹配分?jǐn)?shù)带污,從而獲得更高的AUC分?jǐn)?shù)。擬議的QATM方法明顯優(yōu)于三種最新方法香到,其AUC得分約為9%鱼冀。更重要的是报破,所提出的QATM方法在低假陽性率下顯然獲得了更高的真陽性率。由于建議的QATM具有質(zhì)量意識千绪,因此此結(jié)果不足為奇充易。
例如,當(dāng)否定模板是同質(zhì)的時荸型,所有方法都會在搜索圖像中找到同質(zhì)區(qū)域盹靴,因為它是最相似的區(qū)域。 不同之處在于我們的方法具有質(zhì)量意識瑞妇,因此這種類型的匹配分?jǐn)?shù)將比陽性模板低得多稿静,而其他方法則沒有此功能。


圖(3).png

圖3:定性模板匹配性能踪宠。 從左到右的列分別是:模板框架自赔,重疊有預(yù)測邊界框的目標(biāo)搜索框架(不同的顏色表示不同的方法)以及QATM妈嘹,BBS柳琢,DDIS和CoTM的響應(yīng)圖。 從上到下的行:前四個是來自O(shè)TB的正樣本润脸,而下四個是來自MOTB的負(fù)樣本柬脸。 在彩色和放大模式下觀看效果最佳。

3.4 Discussions

圖3從提出的QATM方法和其他最新方法中提供了更定性的結(jié)果毙驯。這些結(jié)果證實了QATM的使用倒堕,它可以賦予一對一,一對多和多對多匹配情況不同的權(quán)重爆价,不僅可以在搜索圖像中找到更準(zhǔn)確的匹配區(qū)域垦巴,還可以在無對應(yīng)的情況下減少響應(yīng)。例如铭段,在最后一行中骤宣,當(dāng)給出接近均質(zhì)的否定模板時,所提出的QATM方法是唯一傾向于給出低分?jǐn)?shù)的方法序愚,而其他方法仍會返回高響應(yīng)憔披。
最后,匹配速度也很重要爸吮。因此芬膝,我們使用整個OTB數(shù)據(jù)集估算每種方法的處理速度(秒/樣本)。所有評估均分別基于Intel Xeon E5-4627 v2 CPU和GeForce GTX 1080 Ti GPU形娇。表3比較了不同方法的估計時間復(fù)雜度锰霜。盡管QATM包含相對昂貴的softmax操作,但其DNN兼容特性使GPU處理成為可能桐早,這顯然是最快的方法癣缅。


表(3).png

4.Learnable QATM performance

在本節(jié)中纫事,我們重點介紹在不同的模板匹配應(yīng)用程序中,將建議的QATM用作具有可學(xué)習(xí)參數(shù)的可區(qū)分層所灸。

用于圖像到GPS驗證的QATM

圖像到GPS驗證(IGV)任務(wù)嘗試通過視覺驗證來驗證給定圖像是否是要求的GPS位置丽惶。 IGV首先使用標(biāo)注的位置在第三方數(shù)據(jù)庫(例如 Google StreetView)中找到參考全景圖像,然后將給定的圖像和參考作為網(wǎng)絡(luò)輸入爬立,以通過模板匹配來驗證視覺內(nèi)容并產(chǎn)生驗證決定钾唬。
與經(jīng)典模板匹配問題相比,IGV任務(wù)的主要挑戰(zhàn)是:

  • (1)在參考圖像中僅可以驗證查詢圖像中的一小部分未知視覺內(nèi)容
  • (2)參考圖像是全景圖侠驯,其中 潛在的匹配ROI可能會失真抡秆。

4.1.1Baseline and QATM Settings

為了理解IGV任務(wù)中的QATM性能,我們使用baseline方法[7]吟策,并重復(fù)其網(wǎng)絡(luò)訓(xùn)練儒士,數(shù)據(jù)增強,評估等操作檩坚,不同之處在于着撩,我們用NeuralNetQATM層代替了原有的Bottom-up Pattern Matching module。


圖(4)[7] 中提出的baseline network匾委,虛線代表了代替順序.png

自下而上的模式匹配模塊首先計算兩個圖像特征之間的余弦相似度拖叙,然后僅匯總出最大響應(yīng)。 更準(zhǔn)確地說赂乐,給定模板T薯鳍,其對補丁s的匹配得分取決于公式(7),而QATM版本則取決于公式(4)挨措。


公式(4).png

公式(7).png

4.1.2 Performance Comparison

為了評估QATM性能挖滤,我們重用了[7]使用的兩個數(shù)據(jù)集,即Shibuya和Wikimedia Common數(shù)據(jù)集浅役,這兩個數(shù)據(jù)集均包含平衡的正樣本和負(fù)樣本斩松。比較結(jié)果在表4中列出。在較困難的Shibuya數(shù)據(jù)集上担租,建議的QATM解決方案優(yōu)于baseline BUMP方法砸民,而在Wikimedia Common數(shù)據(jù)集上,QATM解決方案的性能稍差一些奋救。原因可能為:baseline方法中的Verification(參見圖4)是被提出來優(yōu)化BUMP性能而不是QATM性能岭参,因此使用QATM的優(yōu)勢尚未完全轉(zhuǎn)移到驗證任務(wù)中。

表(4).png

因此尝艘,我們用Wikimedia Common數(shù)據(jù)集的多邊形邊界框注釋匹配區(qū)域演侯,以更好地評估匹配性能。借助這些標(biāo)注背亥,我們僅在定位任務(wù)(預(yù)測全景圖像中的匹配區(qū)域)上就可以公平地比較QATM和BUMP秒际。這些結(jié)果顯示在表5中悬赏,對于F1和IoU測量,QATM分別將BUMP定位性能提高了21%娄徊。 QATM本地化的優(yōu)越性可以在圖5所示的定性結(jié)果中得到進一步證實闽颇,其中QATM改進的版本所產(chǎn)生的響應(yīng)圖比baseline BUMP方法更清晰。
表(5).png

圖(5).png

圖5:定性圖像到GPS的結(jié)果寄锐。 從左到右的列是:查詢圖像兵多,疊加有預(yù)測邊界框的參考全景圖像(GT,擬議的QATM和基線BUPM)以及標(biāo)注層橄仆,QATM和BUPM的響應(yīng)圖剩膘。

4.2 QATM for Semantic Image Alignment

語義圖像對齊(SIA)任務(wù)的總體目標(biāo)是變形給定圖像,以便在變形后將其按照類別級別的對應(yīng)關(guān)系與參考圖像對齊盆顾。 用于語義圖像對齊任務(wù)的典型DNN解決方案需要兩個輸入圖像怠褐,一個用于變形,另一個用于參考您宪,并且通常輸出一組參數(shù)用于圖像變形奈懒。 有關(guān)問題的更詳細(xì)說明,請參見[18蚕涤,19筐赔,13] .234

4.2.1 Baseline and QATM Settings

要了解SIA任務(wù)中的QATM性能,我們選擇baseline方法GeoCNN [18]揖铜,并模擬所有與網(wǎng)絡(luò)相關(guān)的設(shè)置,包括網(wǎng)絡(luò)架構(gòu)达皿,訓(xùn)練數(shù)據(jù)集天吓,損失函數(shù),學(xué)習(xí)率等峦椰,除了我們使用 NeuralNetQATM層(圖6中的黃色框)替換了方法的匹配模塊(圖6中的橙色框)
與模板匹配不同龄寞,SIA任務(wù)依賴于所有模板和搜索圖像補丁之間的原始匹配分?jǐn)?shù)(這樣就隱式保留了幾何信息)來回歸變形參數(shù)。 [18]中的匹配模塊僅計算兩個patch之間的余弦相似度汤功,即ρ(S物邑,T)(參見圖1中第4行的ρst),并使用該tensor作為回歸的輸入滔金。 結(jié)果色解,除了匹配質(zhì)量映射之外,我們還進行了相應(yīng)的更改餐茵,使NeuralNetQATM產(chǎn)生原始QATM匹配分?jǐn)?shù)科阎,即QATM(S,T)(請參見圖1第8行中的QATM)忿族。


圖(6).png

4.2.2 Performance Comparisons

為了公平地比較SIA性能锣笨,我們遵循[13]中提出的評估協(xié)議蝌矛,該協(xié)議將標(biāo)準(zhǔn)PF-PASCAL benchmark分為訓(xùn)練,驗證和測試三個子集错英,分別包含700入撒、300和300個樣本。以正確關(guān)鍵點(correct key points PCK)的百分比表示系統(tǒng)性能[33椭岩,13]衅金,該百分比計算了轉(zhuǎn)換后與ground truth的距離低于閾值的關(guān)鍵點的百分比。
在實驗中簿煌,閾值設(shè)置為圖像大小的τ= 0.1氮唯。


表(6).png

表6比較了此數(shù)據(jù)集上的不同方法。QATM方法明顯優(yōu)于所有baseline方法姨伟,并且是20個子類中的7個子類中排名最高的方法惩琉。此外,與我們的baseline GeoCNN方法相比夺荒,SCNet [13]使用更高級的功能和匹配機制瞒渠。 [19]使用PF-PASCAL的訓(xùn)練子集在GeoCNN上以很小的學(xué)習(xí)率進行了微調(diào)。
但是技扼,我們的結(jié)果證實伍玖,與使用更復(fù)雜的網(wǎng)絡(luò)而不對PF-PASCAL子集進行微調(diào)相比,僅用那些quality aware的得分代替原始匹配得分會帶來更大的收獲剿吻。[20]采用了類似的想法窍箍,通過softmax函數(shù)作為QATM重新對匹配分?jǐn)?shù)進行排名。他們通過找到一個soft mutual nearest neighbor來重新分配匹配分?jǐn)?shù)丽旅,當(dāng)在PF-PASCAL子集上進行訓(xùn)練時椰棘,效果優(yōu)于QATM。更多定性結(jié)果可以在圖7中找到榄笙。


圖(7).png

圖7:PF-PASCAL數(shù)據(jù)集的定性結(jié)果邪狞。 從左到右的列代表源圖像,目標(biāo)圖像茅撞,QATM的轉(zhuǎn)換結(jié)果帆卓,GoeCNN [18]和[19]。 圓圈和十字表示源圖像和目標(biāo)圖像上的關(guān)鍵點米丘。

5 Conclusion

我們介紹了一種新穎的質(zhì)量感知模板匹配方法QTAM剑令。 QTAM受到不同匹配案例之間自然質(zhì)量差異這一事實的啟發(fā)。 還以使其匹配分?jǐn)?shù)準(zhǔn)確反映當(dāng)前匹配對與其他匹配對的相對匹配性的方式進行設(shè)計蠕蚜。 更重要的是尚洽,QTAM可以通過可學(xué)習(xí)的參數(shù)來區(qū)分,并且可以輕松地通過現(xiàn)有的通用深度學(xué)習(xí)層來實現(xiàn)靶累。 QTAM可以直接嵌入DNN模型中腺毫,以實現(xiàn)模板匹配的目標(biāo)卦方。
我們廣泛的實驗表明深寥,單獨使用時庇忌,它的性能優(yōu)于最新的模板匹配方法磨镶,并在GPU的幫助下產(chǎn)生更準(zhǔn)確的匹配性能,更少的錯誤警報以及至少10倍的加速急黎。 當(dāng)插入用于模板匹配相關(guān)任務(wù)的現(xiàn)有DNN解決方案時扎狱,我們證明了它可以顯著提高圖像語義對齊任務(wù)和圖像至GPS驗證任務(wù)的得分。

參考文獻

詳見論文

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末勃教,一起剝皮案震驚了整個濱河市淤击,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌故源,老刑警劉巖污抬,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異绳军,居然都是意外死亡印机,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進店門门驾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來射赛,“玉大人,你說我怎么就攤上這事奶是¢乖穑” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵诫隅,是天一觀的道長腐魂。 經(jīng)常有香客問我,道長逐纬,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任削樊,我火速辦了婚禮豁生,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘漫贞。我一直安慰自己甸箱,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布迅脐。 她就那樣靜靜地躺著芍殖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪谴蔑。 梳的紋絲不亂的頭發(fā)上豌骏,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天龟梦,我揣著相機與錄音,去河邊找鬼窃躲。 笑死计贰,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蒂窒。 我是一名探鬼主播躁倒,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼洒琢!你這毒婦竟也來了秧秉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤衰抑,失蹤者是張志新(化名)和其女友劉穎象迎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體停士,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡挖帘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了恋技。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拇舀。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蜻底,靈堂內(nèi)的尸體忽然破棺而出骄崩,到底是詐尸還是另有隱情,我是刑警寧澤薄辅,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布要拂,位于F島的核電站,受9級特大地震影響站楚,放射性物質(zhì)發(fā)生泄漏脱惰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一窿春、第九天 我趴在偏房一處隱蔽的房頂上張望拉一。 院中可真熱鬧,春花似錦旧乞、人聲如沸蔚润。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽嫡纠。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間除盏,已是汗流浹背叉橱。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留痴颊,地道東北人赏迟。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像蠢棱,于是被迫代替她去往敵國和親锌杀。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,044評論 2 355