Large-Scale Image Retrieval with Attentive Deep Local Features

摘要

提出了一種適合于大規(guī)模圖像檢索的局部特征描述器，稱為Deep-local-feature衍慎。新的特征是基于卷積神經(jīng)網(wǎng)絡(luò)转唉，它只在地標(biāo)圖像數(shù)據(jù)集上使用圖像級(jí)注釋進(jìn)行訓(xùn)練。為了識(shí)別在語義上有用的圖像檢索局部特征西饵，我們還提出了一種用于關(guān)鍵點(diǎn)選擇的注意機(jī)制酝掩，該機(jī)制與描述符共享大部分網(wǎng)絡(luò)層鳞芙。該框架可用于圖像檢索眷柔，作為其他關(guān)鍵點(diǎn)檢測(cè)器和描述符的替代品，實(shí)現(xiàn)更精確的特征匹配和幾何匹配驗(yàn)證原朝。我們的系統(tǒng)產(chǎn)生可信的分?jǐn)?shù)拒絕誤報(bào)(FP)驯嘱，尤其是它的健壯性針對(duì)數(shù)據(jù)庫中沒有正確匹配的查詢。為了評(píng)估所提出的描述符喳坠，我們引入了一個(gè)新的大規(guī)模數(shù)據(jù)集鞠评，被稱為谷歌地標(biāo)(GLD)數(shù)據(jù)集，包括數(shù)據(jù)庫和查詢搜索作為背景雜波壕鹉，部分遮擋剃幌，多個(gè)地標(biāo)、可變尺度的物體等DELF的成績(jī)超過了全球和當(dāng)?shù)刈钕冗M(jìn)的水平(SOTA)在大范圍數(shù)據(jù)集中的描述符晾浴「合纾可在以下網(wǎng)頁找到項(xiàng)目代碼：https://github.com/tensorflow/models/tree/master/research/delf。

1. 介紹

大規(guī)模圖像檢索是計(jì)算機(jī)視覺中的一項(xiàng)基本任務(wù)脊凰，它直接關(guān)系到目標(biāo)檢測(cè)抖棘、視覺位置識(shí)別、產(chǎn)品識(shí)別等各種實(shí)際應(yīng)用狸涌。在過去的幾十年里切省，圖像檢索系統(tǒng)取得了巨大的進(jìn)步，從手工制作的特征和索引算法[22,33,27,16]到最近的基于卷積神經(jīng)網(wǎng)絡(luò)（CNNs）的全局描述符學(xué)習(xí)方法[2,29,11]帕胆。

盡管基于CNN的全局描述符在中小型數(shù)據(jù)集中的圖像檢索方面取得了最新進(jìn)展[27,28]朝捆，但在大規(guī)模數(shù)據(jù)集中觀察到的各種具有挑戰(zhàn)性的條件（如雜波<背景雜波>、遮擋和視點(diǎn)和照明的變化）可能會(huì)阻礙其性能懒豹。全局描述符缺乏在圖像之間查找補(bǔ)丁級(jí)別匹配的能力芙盘。因此，在存在遮擋和背景雜波的情況下歼捐，基于部分匹配的圖像檢索非常困難何陆。在最近的一個(gè)趨勢(shì)中，基于CNN的局部特征被提出用于斑塊級(jí)匹配[12,42,40]豹储。然而贷盲，這些技術(shù)并沒有特別針對(duì)圖像檢索進(jìn)行優(yōu)化厕诡，因?yàn)樗鼈內(nèi)狈z測(cè)語義上有意義的特征的能力杠氢，并且在實(shí)際應(yīng)用中顯示出有限的準(zhǔn)確性。

大多數(shù)現(xiàn)有的圖像檢索算法都是在查詢圖像較少的中小型數(shù)據(jù)集中進(jìn)行評(píng)估的，即[27,28]中只有55張和[16]中只有500張鹦马，并且數(shù)據(jù)集中的圖像在地標(biāo)位置和類型方面的多樣性有限。因此悼凑，我們認(rèn)為罚屋，通過大規(guī)模的數(shù)據(jù)集來提高檢索結(jié)果的綜合性和有效性，可以使我們從中得到更具挑戰(zhàn)性的大規(guī)模圖像檢索方法論鞠鲜。

本文的主要目標(biāo)是開發(fā)一個(gè)基于CNN的特征描述子的大規(guī)模圖像檢索系統(tǒng)宁脊。為此，我們首先引入一個(gè)新的大規(guī)模數(shù)據(jù)集Google Landmarks(GLD)贤姆，它包含了來自近13K個(gè)獨(dú)特地標(biāo)的超過100萬個(gè)地標(biāo)圖像榆苞。這個(gè)數(shù)據(jù)集覆蓋了世界范圍，因此比現(xiàn)有的數(shù)據(jù)集更加多樣化和全面霞捡。查詢集由額外的100K個(gè)具有各種特性的圖像組成坐漏；特別是，我們?cè)跀?shù)據(jù)庫中包含了不匹配(可能指數(shù)據(jù)庫中不存在查詢結(jié)果)的圖像碧信，這使得我們的數(shù)據(jù)集更具挑戰(zhàn)性赊琳。這允許評(píng)估檢索系統(tǒng)的健壯性通過查詢不必要的地標(biāo)描述。

然后砰碴，我們提出了一種基于CNN的有注意力機(jī)制的局部特征躏筏，它只使用圖像級(jí)的類標(biāo)簽進(jìn)行弱監(jiān)督訓(xùn)練，而不需要對(duì)象級(jí)和補(bǔ)丁級(jí)的標(biāo)注衣式。這種新的特征描述符被稱為DELF（Deep Local feature）寸士，圖1說明了特征提取和圖像檢索的總體過程。在我們的方法中碴卧，注意力模型與所提取的描述符緊密耦合弱卡；它采用相同的CNN架構(gòu)，并且只需很少的額外計(jì)算就可以生成特征分?jǐn)?shù)（符合對(duì)象檢測(cè)的最新進(jìn)展[30]）住册。這使得本地描述符和關(guān)鍵點(diǎn)的提取都可以通過一個(gè)前向通道網(wǎng)絡(luò)婶博。結(jié)果表明，與基于全局和局部描述子的方法相比荧飞，基于DELF的圖像檢索系統(tǒng)具有更高的檢索效率凡人。

2. 相關(guān)工作

有標(biāo)準(zhǔn)的數(shù)據(jù)集通常用于評(píng)價(jià)圖像檢索技術(shù)。Oxford5K[27]有5062個(gè)在牛津拍攝的建筑圖像叹阔，其中55個(gè)查詢圖像挠轴。Paris6k[28]由6412幅巴黎地標(biāo)圖片組成，也有55幅查詢圖片耳幢。這兩個(gè)數(shù)據(jù)集通常使用來自Flickr100k數(shù)據(jù)集[27]的Flickr100k圖像進(jìn)行擴(kuò)充岸晦，后者分別構(gòu)建Oxford105k和Paris106k數(shù)據(jù)集欧啤。另一方面，Holidays dataset數(shù)據(jù)集[16]提供了1491張圖片启上，包括500張查詢圖片邢隧，這些圖片來自個(gè)人假日照片。這三個(gè)數(shù)據(jù)集都非常小冈在，尤其是查詢圖像的數(shù)量非常少倒慧，這使得在這些數(shù)據(jù)集中測(cè)試的性能很難通用化。雖然Pitts250k[35]比較大包券，但它專門用于具有重復(fù)圖案的視覺區(qū)域纫谅，可能不適合一般的圖像檢索任務(wù)。

實(shí)例檢索是近十年來研究的熱點(diǎn)問題兴使。最近的調(diào)查見[43]系宜。早期的系統(tǒng)依賴于手工制作的局部特征[22,5,8]照激，再加上使用KD樹或詞匯樹的近似最近鄰搜索方法[6,25]发魄。時(shí)至今日，這種基于特征的技術(shù)與幾何重排序相結(jié)合俩垃，在檢索系統(tǒng)需要高精度操作時(shí)提供了強(qiáng)大的性能励幼。

最近，許多研究集中在局部特征的聚集方法上(應(yīng)該指使用局部描述符聚合成全局描述符)口柳，其中包括一些流行的技術(shù)苹粟，如VLAD[18]和Fisher Vector（FV）[19]。這種全局描述符的主要優(yōu)點(diǎn)是能夠以緊湊的索引提供高性能的圖像檢索跃闹。

在過去的幾年中嵌削，一些基于cnn的全局描述符被提出使用預(yù)先訓(xùn)練的[4,34]或?qū)W習(xí)網(wǎng)絡(luò)[2,29,11]。為了保持相關(guān)圖像和無關(guān)圖像之間的排序望艺，這些全局描述符最常用三元組損失進(jìn)行訓(xùn)練苛秕。一些使用這些基于CNN的全局描述符的檢索算法利用深度局部特征作為傳統(tǒng)聚集技術(shù)（如VLAD或FV）中手工構(gòu)建的特征的替代品[24,36]。其他的工作已經(jīng)重新評(píng)估和提出了不同的特征聚合方法使用這些深的局部特征[3找默，21]艇劫。

CNN也被用來檢測(cè)、表示和比較局部圖像特征惩激。Verdie等人[37]學(xué)習(xí)了可重復(fù)關(guān)鍵點(diǎn)檢測(cè)的回歸函數(shù)店煞。Yi等人[41]提出了一種基于CNN的通用技術(shù)來估計(jì)局部特征的典型方向，并成功地將其應(yīng)用到多個(gè)不同的描述符上风钻。MatchNet[12]和Deep Compare[42]提出聯(lián)合學(xué)習(xí)塊表達(dá)和相關(guān)的指標(biāo)顷蟀。最近，LIFT[40]提出了一個(gè)端到端的框架來檢測(cè)關(guān)鍵點(diǎn)骡技、估計(jì)方向和計(jì)算描述符鸣个。與我們的工作不同的是，這些技術(shù)不是為圖像檢索應(yīng)用而設(shè)計(jì)的，因?yàn)樗鼈儧]有學(xué)習(xí)選擇語義上有意義的特征毛萌。

許多視覺識(shí)別問題都采用了基于深層神經(jīng)網(wǎng)絡(luò)的視覺注意力苟弛，包括目標(biāo)檢測(cè)[45]、語義分割[14]阁将、圖像捕獲[38]膏秫、視覺問題回答[39]等。然而做盅，視覺注意力在圖像檢索應(yīng)用中的學(xué)習(xí)視覺特征還沒有被積極探索缤削。

3. 谷歌地標(biāo)數(shù)據(jù)集

我們的數(shù)據(jù)集是基于[44]中描述的算法構(gòu)造的。與現(xiàn)有的用于圖像檢索的數(shù)據(jù)集[27,28,16]相比吹榴，新的數(shù)據(jù)集要大得多亭敢，包含多個(gè)地標(biāo)，并且涉及大量挑戰(zhàn)图筹。它包含來自12894個(gè)地標(biāo)的1 060 709個(gè)圖像帅刀，以及111 036個(gè)其他查詢圖像。數(shù)據(jù)集中的圖像被捕捉到世界上不同的位置远剩，每個(gè)圖像都與一個(gè)GPS坐標(biāo)相關(guān)聯(lián)扣溺。圖2和圖3分別示出了示例圖像及其地理分布。雖然現(xiàn)有數(shù)據(jù)集中的大多數(shù)圖像都是以地標(biāo)為中心的瓜晤，這使得全局特征描述子工作得很好锥余，但是我們的數(shù)據(jù)集包含了更真實(shí)的圖像，包括前景/背景雜波痢掠、遮擋驱犹、部分視野外的對(duì)象等。由于我們的查詢圖像是從個(gè)人照片庫中收集的足画，其中一些可能不包含任何地標(biāo)雄驹，因此不應(yīng)該從數(shù)據(jù)庫中檢索任何圖像。我們稱這些查詢圖像為distractors分心器锌云，它在評(píng)估算法對(duì)無關(guān)和噪聲查詢的魯棒性方面起著至關(guān)重要的作用荠医。

我們使用視覺特征和GPS坐標(biāo)來構(gòu)建地面真相。數(shù)據(jù)庫中的所有圖像都使用這兩種信息進(jìn)行聚類桑涎，并為每個(gè)簇分配一個(gè)地標(biāo)標(biāo)識(shí)符彬向。如果查詢圖像的位置與與檢索到的圖像相關(guān)聯(lián)的簇中心之間的物理距離小于閾值，我們假設(shè)這兩個(gè)圖像屬于同一個(gè)地標(biāo)攻冷。請(qǐng)注意娃胆，地面真實(shí)性注釋非常具有挑戰(zhàn)性，特別是考慮到很難預(yù)先定義什么是地標(biāo)等曼，地標(biāo)有時(shí)不明顯里烦，并且在一個(gè)圖像中可能有多個(gè)實(shí)例凿蒜。顯然，由于GPS誤差的影響胁黑，這種地面真相構(gòu)建方法存在噪聲废封。另外，一些地標(biāo)（如埃菲爾鐵塔丧蘸、金門大橋）的照片可以從很遠(yuǎn)的地方拍攝到漂洋，因此照片位置可能與實(shí)際地標(biāo)位置相對(duì)較遠(yuǎn)。然而力喷，在手工檢查數(shù)據(jù)子集時(shí)刽漂，我們發(fā)現(xiàn)很少出現(xiàn)閾值為25km的錯(cuò)誤注釋。即使有很少的小錯(cuò)誤弟孟，它也不成問題贝咙，特別是在相對(duì)評(píng)估中，因?yàn)樗惴ú惶赡茉诘貥?biāo)之間混淆拂募，如果它們的視覺外觀足夠歧視的話庭猩。

4. 使用DELF圖像檢索

我們的大規(guī)模檢索系統(tǒng)可以分解為四個(gè)主要模塊：

（i）密集的局部特征提取没讲；

（ii）關(guān)鍵點(diǎn)選擇眯娱；

（iii）降維；

（iv）索引和檢索爬凑。

這一部分詳細(xì)介紹了DELF特征提取和學(xué)習(xí)算法以及我們的索引和檢索過程。

4.1 密集局部特征提取

我們采用一個(gè)完全卷積網(wǎng)絡(luò)（FCN）從圖像中提取密集特征试伙，該網(wǎng)絡(luò)是利用訓(xùn)練后的CNN的特征提取層構(gòu)造的嘁信。我們使用一個(gè)取自ResNet50[13]模型的FCN，使用conv4x卷積塊的輸出疏叨。為了處理尺度的變化潘靖，我們顯式地構(gòu)造了一個(gè)圖像金字塔，并對(duì)每個(gè)層次獨(dú)立地應(yīng)用FCN蚤蔓。將得到的特征映射視為局部描述子的密集網(wǎng)格卦溢。基于接收?qǐng)鰧?duì)特征進(jìn)行局部定位秀又，可通過考慮FCN卷積層和池層的結(jié)構(gòu)來計(jì)算特征单寂。我們使用感受野中心的像素坐標(biāo)作為特征定位。圖像在原始尺度下的感受野大小為291×291吐辙。利用圖像金字塔宣决，我們得到了描述不同大小圖像區(qū)域的特征。

我們使用在ImageNet[31]上訓(xùn)練的原始ResNet50模型作為基線昏苏，并對(duì)其進(jìn)行微調(diào)尊沸，以增強(qiáng)我們的局部描述符的辨別力威沫。由于我們考慮了一個(gè)地標(biāo)識(shí)別應(yīng)用，我們使用地標(biāo)圖像的注釋數(shù)據(jù)集[4]洼专，并使用標(biāo)準(zhǔn)交叉熵?fù)p失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練棒掠，以便進(jìn)行圖像分類，如圖4（a）所示屁商。輸入圖像最初被中心裁剪以生成方形圖像句柠，然后重新縮放到250 x 250。然后隨機(jī)使用224 x 224部分進(jìn)行訓(xùn)練棒假。作為訓(xùn)練的結(jié)果溯职，局部描述符隱式學(xué)習(xí)與地標(biāo)檢索問題更相關(guān)的表示。以這種方式帽哑，對(duì)象級(jí)和補(bǔ)丁級(jí)的標(biāo)簽都不需要即可獲得改進(jìn)的局部描述符谜酒。

4.2 基于注意力的關(guān)鍵點(diǎn)選擇

與直接使用密集提取的特征進(jìn)行圖像檢索不同，我們?cè)O(shè)計(jì)了一種有效地選擇特征子集的技術(shù)妻枕。由于密集提取的特征中有相當(dāng)一部分與我們的識(shí)別任務(wù)無關(guān)僻族，并且可能會(huì)增加雜波(背景雜波)，分散檢索過程的注意力屡谐，因此關(guān)鍵點(diǎn)的選擇對(duì)于檢索系統(tǒng)的準(zhǔn)確性和計(jì)算效率都非常重要述么。

4.2.1 弱監(jiān)督學(xué)習(xí)

我們建議訓(xùn)練一個(gè)地標(biāo)分類器來顯式地測(cè)量局部特征描述子的相關(guān)性分?jǐn)?shù)。為了訓(xùn)練函數(shù)愕掏，特征一個(gè)加權(quán)和池化度秘，其中權(quán)重由注意力網(wǎng)絡(luò)預(yù)測(cè)。培訓(xùn)程序與第4.1描述的損失函數(shù)和數(shù)據(jù)集相似饵撑，如圖4（b）所示剑梳，其中注意力網(wǎng)絡(luò)以黃色突出顯示。這將生成整個(gè)輸入圖像的嵌入滑潘，然后用于訓(xùn)練基于softmax的地標(biāo)分類器垢乙。

更確切地說，我們制定如下訓(xùn)練計(jì)劃语卤。用 $f_n\in R^d, n=1,...,N$ 追逮，這d維特征與注意模型聯(lián)合學(xué)習(xí)。我們的目標(biāo)是學(xué)習(xí)每個(gè)特征的得分函數(shù) $\alpha(f_n ;\theta )$ 粹舵，其中 $\theta$ 表示函數(shù) $\alpha(\cdot)$ 的參數(shù)钮孵。網(wǎng)絡(luò)的輸出邏輯y由特征向量的加權(quán)和生成，該加權(quán)和由

(1) $y=W(\sum_n\alpha(f_n;\theta)\cdot f_n)$

式中 $W\in R^{M\times d}$ 表示訓(xùn)練用于預(yù)測(cè)M類的CNN最終完全連接層的權(quán)重齐婴。

對(duì)于訓(xùn)練油猫，我們使用交叉熵?fù)p失，它由

$L=-y^* \cdot log(\frac{exp(y)}{1^T exp(y)})$

式中 $y^*$ 是one-hot之后的ground-truth向量柠偶，1是一向量[N維1向量]情妖。分?jǐn)?shù)函數(shù) $\alpha(\cdot)$ 中的參數(shù)通過反向傳播進(jìn)行訓(xùn)練睬关，其中梯度由

$\frac{\partial L}{\partial\theta}=\frac{\partial L}{\partial y}\sum_n \frac{\partial y}{\partial\alpha_n}\frac{\partial \alpha_n}{\partial\theta}=\frac{\partial L}{\partial y}\sum_n Wf_n \frac{\partial \alpha_n}{\partial\theta}$

式中反向傳播的輸出分?jǐn)?shù) $\alpha_n==\alpha(f_n;\theta)$ 相對(duì)于 $\theta$ 與標(biāo)準(zhǔn)多層感知器相同。

我們將 $\alpha(\cdot )$ 限制為非負(fù)毡证，以防止它學(xué)習(xí)負(fù)權(quán)重电爹。score函數(shù)使用2層CNN設(shè)計(jì)，頂部使用softplus[9]激活（限制為非負(fù)）料睛。為了簡(jiǎn)單起見丐箩，我們采用了尺寸為1 x 1的卷積濾波器，這在實(shí)踐中效果良好恤煞。一旦注意力模型被訓(xùn)練出來屎勘，就可以用來評(píng)估模型所提取特征的相關(guān)性。

4.2.2 訓(xùn)練注意力

在該框架中居扒，描述子和注意模型都是通過圖像級(jí)標(biāo)簽進(jìn)行隱式學(xué)習(xí)的概漱。不幸的是，這給學(xué)習(xí)過程帶來了一些挑戰(zhàn)喜喂。當(dāng)特征表示和分?jǐn)?shù)函數(shù)可以通過反向傳播聯(lián)合訓(xùn)練時(shí)瓤摧，我們發(fā)現(xiàn)這種方法在實(shí)際應(yīng)用中產(chǎn)生了弱模型。因此玉吁，我們采用兩步訓(xùn)練策略照弥。首先，我們通過微調(diào)學(xué)習(xí)描述符进副，如第4.1節(jié)所述这揣。在給定固定的描述子的情況下，學(xué)習(xí)得分函數(shù)敢会。

另一個(gè)改進(jìn)是在注意力訓(xùn)練過程中通過隨機(jī)圖像重縮放來實(shí)現(xiàn)的曾沈。這是直觀的，因?yàn)樽⒁饬δＰ蛻?yīng)該能夠?yàn)椴煌叨鹊奶卣魃捎行У姆謹(jǐn)?shù)鸥昏。在這種情況下，輸入圖像最初被中心裁剪以產(chǎn)生方形圖像姐帚，然后重新縮放到900 x 900吏垮。然后隨機(jī)抽取720 x 720個(gè)輸出，最后用系數(shù) $\gamma<=1$ 隨機(jī)縮放罐旗。

4.2.3 特點(diǎn)

我們系統(tǒng)的一個(gè)非傳統(tǒng)的方面是膳汪，關(guān)鍵點(diǎn)選擇是在描述符提取之后進(jìn)行的，這與現(xiàn)有的技術(shù)（例如SIFT[22]和LIFT[40]）不同九秀，后者首先檢測(cè)到關(guān)鍵點(diǎn)遗嗽，然后再進(jìn)行描述。傳統(tǒng)的關(guān)鍵點(diǎn)檢測(cè)器只根據(jù)關(guān)鍵點(diǎn)的低電平特性鼓蜒，在不同成像條件下對(duì)關(guān)鍵點(diǎn)進(jìn)行重復(fù)檢測(cè)痹换。然而征字，對(duì)于像圖像檢索這樣的高級(jí)識(shí)別任務(wù)，選擇能夠區(qū)分不同對(duì)象實(shí)例的關(guān)鍵點(diǎn)也是至關(guān)重要的娇豫。該流程通過訓(xùn)練一個(gè)在特征映射中編碼高級(jí)語義的模型匙姜，以及學(xué)習(xí)如何為分類任務(wù)選擇有區(qū)別的特征來達(dá)到這兩個(gè)目的。這與最近提出的學(xué)習(xí)關(guān)鍵點(diǎn)檢測(cè)器的技術(shù)（即LIFT[40]）相反冯痢，后者根據(jù)SIFT匹配收集訓(xùn)練數(shù)據(jù)氮昧。雖然我們的模型不受約束地學(xué)習(xí)姿勢(shì)和視點(diǎn)的不變性，但它隱含地學(xué)習(xí)這樣做浦楣，類似于基于CNN的圖像分類技術(shù)袖肥。

4.3 降維

我們降低所選特征的維數(shù)以提高檢索精度，這是常見的做法[15]振劳。首先椎组，對(duì)選取的特征進(jìn)行L2標(biāo)準(zhǔn)化，通過PCA將其維數(shù)降到40澎迎，在緊湊性和區(qū)分性之間取得了很好的折衷庐杨。最后，這些特征再次經(jīng)過L2標(biāo)準(zhǔn)化夹供。

4.4 圖片檢索系統(tǒng)

我們從查詢圖像和數(shù)據(jù)庫圖像中提取特征描述子灵份，從中選擇每個(gè)圖像中具有最高關(guān)注分?jǐn)?shù)的預(yù)定義數(shù)量的局部特征。我們的圖像檢索系統(tǒng)是基于最近鄰搜索的哮洽，它是由KD樹[7]和乘積量化（PQ）[17]相結(jié)合來實(shí)現(xiàn)的填渠。我們使用PQ將每個(gè)描述子編碼成50位編碼，每個(gè)40D特征描述子被分成10個(gè)子向量鸟辅，每個(gè)子向量用k均值聚類法識(shí)別25個(gè)聚類中心氛什，實(shí)現(xiàn)50位編碼。我們執(zhí)行非對(duì)稱距離計(jì)算匪凉，其中查詢描述符不進(jìn)行編碼枪眉，以提高最近鄰檢索的準(zhǔn)確性。為了加快最近鄰搜索的速度再层，我們使用8K碼本構(gòu)造了一個(gè)描述符的倒排索引贸铜，為了減少編碼錯(cuò)誤，我們使用KD樹對(duì)每個(gè)Voronoi(類似VLAD的聚類中心范圍)單元進(jìn)行劃分聂受，并對(duì)每個(gè)特征小于30K的子樹使用局部?jī)?yōu)化的乘積量化器[20]蒿秦。

當(dāng)給定一個(gè)查詢時(shí)，我們對(duì)從查詢圖像中提取的每個(gè)局部描述符執(zhí)行近似近鄰搜索蛋济。然后棍鳖，對(duì)于從索引中檢索到的前K個(gè)最近的局部描述符，我們將每個(gè)數(shù)據(jù)庫圖片的所有匹配項(xiàng)集合起來碗旅。最后渡处，我們使用RANSAC[10]進(jìn)行幾何驗(yàn)證镜悉，并使用inliner(樣本點(diǎn))的數(shù)量作為檢索圖像的分?jǐn)?shù)。這個(gè)幾何驗(yàn)證步驟拒絕了許多分心器查詢骂蓖，因?yàn)榉中钠鞯奶卣骺赡芘c地標(biāo)圖像的特征不一致积瞒。

這個(gè)流程索引10億個(gè)描述符需要的內(nèi)存少于8GB，這足以處理我們的大型地標(biāo)數(shù)據(jù)集登下。在我們的實(shí)驗(yàn)設(shè)置下茫孔，使用單個(gè)CPU，最近鄰搜索的延遲小于2秒被芳，我們?cè)诿總€(gè)查詢中軟分配5個(gè)聚類中心缰贝，并在每個(gè)倒排索引樹中搜索多達(dá)10K個(gè)葉節(jié)點(diǎn)。

5 實(shí)驗(yàn)

本節(jié)主要討論與我們數(shù)據(jù)集中現(xiàn)有的全局和局部特征描述符相比畔濒，DELF的性能剩晴。此外，我們還展示了如何使用DELF在現(xiàn)有數(shù)據(jù)集中獲得良好的精度侵状。

5.1 實(shí)施細(xì)節(jié)

多尺度描述子提取 我們使用相距 $\sqrt2$ 倍的尺度來構(gòu)造圖像金字塔赞弥。對(duì)于范圍從0.25到2.0的一組比例尺，使用7種不同的比例尺趣兄。感受野的大小與尺度成反比绽左；例如，對(duì)于2.0尺度艇潭，網(wǎng)絡(luò)的感受野覆蓋146 x 146像素拼窥。

訓(xùn)練 我們使用landmarks數(shù)據(jù)集[4]來微調(diào)描述符和訓(xùn)練關(guān)鍵點(diǎn)選擇。在數(shù)據(jù)集中蹋凝，有“完整”版本鲁纠，稱為L(zhǎng)F（在刪除了Oxf5k / Par6k的重疊類之后，通過[11]）鳍寂，包含586個(gè)地標(biāo)的140372個(gè)圖像改含，以及通過基于SIFT的匹配過程[11]獲得的“干凈”版本(LC)，包含586個(gè)地標(biāo)的35382個(gè)圖像迄汛。我們使用LF訓(xùn)練我們的注意模型候味，并使用LC對(duì)圖像檢索的網(wǎng)絡(luò)進(jìn)行微調(diào)。

參數(shù) 我們?yōu)橐粋€(gè)查詢中的每個(gè)特征確定最接近的K（=60）個(gè)近鄰隔心，并從每個(gè)圖像中提取多達(dá)1000個(gè)局部特征，每個(gè)特征是40維的尚胞。

5.2 算法比較

DELF與最近的幾個(gè)全局和局部描述符進(jìn)行了比較硬霍。雖然有各種與圖像檢索相關(guān)的研究成果，但我們相信以下方法要么與我們的算法相關(guān)笼裳，要么由于其良好的性能而對(duì)評(píng)估至關(guān)重要唯卖。

深度圖像檢索(DIR) 這是一個(gè)最新的全局描述符粱玲，它在多個(gè)現(xiàn)有數(shù)據(jù)集中達(dá)到了最先進(jìn)的性能。DIR特征描述符為2048維拜轨，所有情況下都使用多分辨率描述符抽减。我們還使用查詢擴(kuò)展（QE）進(jìn)行評(píng)估，這通抽夏耄可以提高標(biāo)準(zhǔn)數(shù)據(jù)集的準(zhǔn)確性卵沉。我們使用發(fā)布的源代碼來實(shí)現(xiàn)ResNet101[13]版本。在檢索方面法牲，采用了暴力搜索的并行實(shí)現(xiàn)史汗，避免了近似近鄰搜索的錯(cuò)誤造成的懲罰。

siaMAC 這是一個(gè)最新的全局描述符拒垃，可以在現(xiàn)有數(shù)據(jù)集中獲得高性能停撞。我們使用發(fā)布的源代碼與暴力搜索的并行實(shí)現(xiàn)〉课停基于VGG16[32]的CNN提取512維全局描述子戈毒。我們還對(duì)DIR中的查詢擴(kuò)展（QE）進(jìn)行了實(shí)驗(yàn)。

CONGAS CONGAS是一個(gè)40D的手工構(gòu)建的局部特征横堡，已被廣泛應(yīng)用于實(shí)例級(jí)圖像匹配和檢索[1,44]埋市。該特征描述子是通過在檢測(cè)到的關(guān)鍵點(diǎn)的尺度和方向上采集Gabor小波響應(yīng)來提取的，并且與SIFT等基于梯度的局部描述子具有非常相似的性能和特性翅萤。采用拉普拉斯高斯關(guān)鍵點(diǎn)檢測(cè)器

LIFT LIFT[40]是最近提出的一種特征匹配流程恐疲，它將關(guān)鍵點(diǎn)檢測(cè)、方向估計(jì)和關(guān)鍵點(diǎn)描述結(jié)合起來學(xué)習(xí)套么。特征是128維的培己。我們使用公開的源代碼。

5.3 評(píng)估

圖像檢索系統(tǒng)通常是基于平均平均精度（mAP）來評(píng)估的胚泌，平均平均精度是通過按每個(gè)查詢的相關(guān)性降序?qū)D像進(jìn)行排序并平均每個(gè)查詢的AP來計(jì)算的省咨。然而，對(duì)于帶有干擾查詢的數(shù)據(jù)集玷室，這種評(píng)估方法并不具有代表性零蓉，因?yàn)榇_定每個(gè)圖像是否與查詢相關(guān)很重要。在我們的例子中穷缤，使用絕對(duì)檢索分?jǐn)?shù)來估計(jì)每個(gè)圖像的相關(guān)性讶舰。對(duì)于性能評(píng)估，我們使用了一個(gè)改進(jìn)版本的精度（PRE）和召回（REC）薇溃，方法是同時(shí)考慮所有查詢圖像搜锰，由

$P_{RE}=\frac{|R_q^{TP}|}{|R_q|} 和 R_{EC}=\sum_q |R_q^{TP}|$

式中 $R_q$ 表示給定閾值的查詢q的一組檢索圖像， $R_q^{TP}(\subseteq R_q)$ 是一組真正類。這與[26]中引入的micro-AP指標(biāo)類似秸脱。請(qǐng)注意落包，在我們的例子中，在最終評(píng)分中只考慮每個(gè)地標(biāo)的最高得分圖像摊唇。我們更喜歡非標(biāo)準(zhǔn)化的回調(diào)值咐蝇，它表示檢索到的真陽性數(shù)。

5.4 定量結(jié)果

圖5顯示了與其他方法相比巷查，DELF（用DELF+FT+ATT表示）的精確召回曲線有序。由于特征提取速度非常慢，無法進(jìn)行大規(guī)模實(shí)驗(yàn)吮便，因此無法顯示LIFT的結(jié)果笔呀。DELF明顯優(yōu)于所有其他技術(shù)。全局特征描述符髓需，比如DIR许师，在我們富有挑戰(zhàn)性的數(shù)據(jù)集中受到了影響。特別是僚匆，由于查詢集中存在大量干擾因素微渠，使用QE的DIR會(huì)顯著降低準(zhǔn)確性。CONGAS做得相當(dāng)不錯(cuò)咧擂，但仍然比DELF差很多逞盆。

為了分析精細(xì)調(diào)整和注意力對(duì)圖像檢索的好處，我們比較了我們的完整模型（DELF+FT+ATT）及其變體：DELF-noFT松申、DELF+FT和DELFnoFT+ATT云芦。DELF-noFT是指提取的特征基于ImageNet上預(yù)訓(xùn)練的CNN，而不需要精細(xì)調(diào)整和注意力學(xué)習(xí)贸桶。DELF+FT表示有微調(diào)但沒有注意建模的模型舅逸，DELFnoFT+ATT對(duì)應(yīng)于未經(jīng)微調(diào)但使用注意力的模型。如圖5所示皇筛，微調(diào)和注意力建模都對(duì)性能改進(jìn)做出了重大貢獻(xiàn)琉历。特別要注意的是，注意力的使用比微調(diào)更重要水醋。這表明旗笔，所提出的注意層可以有效地學(xué)習(xí)為檢索任務(wù)選擇最有區(qū)別的特征，即使這些特征只是在ImageNet上預(yù)先訓(xùn)練過的拄踪。

在內(nèi)存需求方面蝇恶，DELF、CONGAS和DIR幾乎同樣復(fù)雜惶桐。DELF和CONGAS采用相同的特征維數(shù)和每個(gè)圖像的最大特征數(shù)艘包；它們需要大約8GB的內(nèi)存的猛。DIR描述符需要每個(gè)圖像8KB，加起來大約8GB來索引整個(gè)數(shù)據(jù)集想虎。

5.5 定量結(jié)果

我們給出定性的結(jié)果來說明DELF與兩種基于全局和局部特征的競(jìng)爭(zhēng)算法DIR和CONGAS的性能比較。同時(shí)叛拷，通過可視化分析了基于注意力的關(guān)鍵點(diǎn)檢測(cè)算法舌厨。

DELF vs. DIR 圖6顯示了檢索結(jié)果，其中DELF的性能優(yōu)于DIR忿薇。DELF得到圖像中特定局部區(qū)域之間的匹配裙椭，這對(duì)于在不同成像條件下找到同一目標(biāo)具有重要意義。DIR的常見故障案例發(fā)生在數(shù)據(jù)庫包含類似的對(duì)象或場(chǎng)景時(shí)署浩，例如方尖碑揉燃、山脈、港口筋栋，如圖6所示炊汤。在許多情況下，DIR無法區(qū)分這些特定的對(duì)象或場(chǎng)景弊攘；盡管它發(fā)現(xiàn)語義上相似的圖像抢腐，但它們通常與感興趣的實(shí)例不對(duì)應(yīng)。DIR和其他全局描述符的另一個(gè)缺點(diǎn)是它們不善于識(shí)別感興趣的小對(duì)象襟交。圖7顯示了DIR優(yōu)于DELF的情況迈倍。雖然DELF能夠在不同的圖像上匹配局部模式，但當(dāng)不同地標(biāo)的地板磚或植被相似時(shí)捣域，這會(huì)導(dǎo)致錯(cuò)誤啼染。

DELF vs. CONGAS 與CONGAS相比，DELF的主要優(yōu)勢(shì)在于它的召回率焕梅；它比CONGAS檢索到更多相關(guān)的地標(biāo)迹鹅，這表明DELF描述符更具辨別力。我們沒有觀察到CONGAS優(yōu)于DELF的顯著例子丘侠。圖8顯示了來自查詢和數(shù)據(jù)庫的成對(duì)圖像徒欣，這些圖像通過DELF成功匹配，但被CONGAS忽略蜗字，其中特征對(duì)應(yīng)通過連接用于匹配特征的接收字段的中心來呈現(xiàn)打肝。由于感受野可能相當(dāng)大，一些特征似乎局限于無差別的區(qū)域挪捕，例如海洋或天空粗梭。然而，在這些情況下级零，這些特征會(huì)考慮到鄰近區(qū)域中更具歧視性的區(qū)域断医。

關(guān)鍵點(diǎn)檢測(cè)方法分析 圖9顯示了關(guān)鍵點(diǎn)檢測(cè)的三種變化滞乙，其中我們的注意模型的好處被清楚地定性地說明，而微調(diào)特征的L2范數(shù)與未經(jīng)微調(diào)的L2范數(shù)略有不同鉴嗤。

5.6 現(xiàn)有數(shù)據(jù)集中的結(jié)果

為了完整性斩启，我們展示了DELF在現(xiàn)有數(shù)據(jù)集中的性能，比如Oxf5k醉锅、Par6k及其擴(kuò)展Oxf105k和Par106k兔簇。對(duì)于這個(gè)實(shí)驗(yàn)，我們簡(jiǎn)單地使用所提出的方法來獲得每幅圖像的分?jǐn)?shù)硬耍，并通過計(jì)算兩個(gè)標(biāo)準(zhǔn)化分?jǐn)?shù)的加權(quán)平均值來與DIR的分?jǐn)?shù)進(jìn)行后期融合垄琐，其中DELF的權(quán)重設(shè)置為0.25经柴。結(jié)果顯示在表1中狸窘，我們提出了現(xiàn)有方法的準(zhǔn)確性在他們的原始論文和我們的復(fù)制使用公共源代碼，這是非常接近坯认。當(dāng)與DIR結(jié)合使用時(shí)翻擒，DELF顯著地提高了數(shù)據(jù)集中的準(zhǔn)確性，盡管它本身并沒有顯示出最好的性能鹃操。這一事實(shí)表明韭寸，DELF能夠?qū)θ痔卣髅枋龇胁豢捎玫难a(bǔ)充信息進(jìn)行編碼。

6 結(jié)論

本文提出了一種新的局部特征描述子DELF荆隘，它是專門為大規(guī)模圖像檢索應(yīng)用而設(shè)計(jì)的恩伺。DELF是在弱監(jiān)督下學(xué)習(xí)的，只使用圖像級(jí)別的標(biāo)簽椰拒，并與我們的新的注意機(jī)制的語義特征選擇相結(jié)合晶渠。在所提出的基于CNN的模型中，一次前向傳遞就足以獲得關(guān)鍵點(diǎn)和描述符燃观。為了正確評(píng)估大規(guī)模圖像檢索算法的性能褒脯，我們引入了Google Landmarks數(shù)據(jù)集，該數(shù)據(jù)集由超過1M個(gè)數(shù)據(jù)庫圖像缆毁、13K個(gè)唯一路標(biāo)和100K個(gè)查詢圖像組成番川。在這樣一個(gè)大規(guī)模的環(huán)境下的評(píng)估表明，DELF的性能遠(yuǎn)遠(yuǎn)超過現(xiàn)有的全局和局部描述符脊框。在已有的數(shù)據(jù)集上颁督，我們也給出了結(jié)果，并表明當(dāng)與全局描述符相結(jié)合時(shí)浇雹，DELF具有良好的性能沉御。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市昭灵，隨后出現(xiàn)的幾起案子吠裆，更是在濱河造成了極大的恐慌伐谈，老刑警劉巖，帶你破解...
沈念sama閱讀 212,884評(píng)論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件试疙，死亡現(xiàn)場(chǎng)離奇詭異诵棵，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)效斑，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,755評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門非春，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人缓屠，你說我怎么就攤上這事』の辏” “怎么了敌完？”我有些...
開封第一講書人閱讀 158,369評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)羊初。經(jīng)常有香客問我滨溉，道長(zhǎng)，這世上最難降的妖魔是什么长赞？我笑而不...
開封第一講書人閱讀 56,799評(píng)論 1贊 285
?港島之戀（遺憾婚禮）
正文為了忘掉前任晦攒，我火速辦了婚禮，結(jié)果婚禮上得哆，老公的妹妹穿的比我還像新娘脯颜。我一直安慰自己，他們只是感情好贩据，可當(dāng)我...
茶點(diǎn)故事閱讀 65,910評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布栋操。她就那樣靜靜地躺著，像睡著了一般饱亮。火紅的嫁衣襯著肌膚如雪矾芙。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 50,096評(píng)論 1贊 291
城市分裂傳說
那天近上，我揣著相機(jī)與錄音剔宪，去河邊找鬼。笑死壹无，一個(gè)胖子當(dāng)著我的面吹牛葱绒，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播格遭，決...
沈念sama閱讀 39,159評(píng)論 3贊 411
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼哈街，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了拒迅？” 一聲冷哼從身側(cè)響起骚秦，我...
開封第一講書人閱讀 37,917評(píng)論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤她倘，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后作箍，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體硬梁，經(jīng)...
沈念sama閱讀 44,360評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,673評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年胞得，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荧止。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,814評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡阶剑，死狀恐怖跃巡，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情牧愁，我是刑警寧澤素邪，帶...
沈念sama閱讀 34,509評(píng)論 4贊 334
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站猪半，受9級(jí)特大地震影響兔朦，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜磨确，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,156評(píng)論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一沽甥、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧乏奥，春花似錦摆舟、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,882評(píng)論 0贊 21
一樁弒父案盏檐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至驶悟，卻和暖如春胡野，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背痕鳍。一陣腳步聲響...
開封第一講書人閱讀 32,123評(píng)論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工硫豆，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人笼呆。一個(gè)月前我還...
沈念sama閱讀 46,641評(píng)論 2贊 362
代替公主和親
正文我出身青樓熊响，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國和親诗赌。傳聞我的和親對(duì)象是個(gè)殘疾皇子汗茄，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,728評(píng)論 2贊 351