摘要
提出了一種適合于大規(guī)模圖像檢索的局部特征描述器,稱為Deep-local-feature衍慎。新的特征是基于卷積神經(jīng)網(wǎng)絡(luò)转唉,它只在地標(biāo)圖像數(shù)據(jù)集上使用圖像級(jí)注釋進(jìn)行訓(xùn)練。為了識(shí)別在語義上有用的圖像檢索局部特征西饵,我們還提出了一種用于關(guān)鍵點(diǎn)選擇的注意機(jī)制酝掩,該機(jī)制與描述符共享大部分網(wǎng)絡(luò)層鳞芙。該框架可用于圖像檢索眷柔,作為其他關(guān)鍵點(diǎn)檢測(cè)器和描述符的替代品,實(shí)現(xiàn)更精確的特征匹配和幾何匹配驗(yàn)證原朝。我們的系統(tǒng)產(chǎn)生可信的分?jǐn)?shù)拒絕誤報(bào)(FP)驯嘱,尤其是它的健壯性針對(duì)數(shù)據(jù)庫中沒有正確匹配的查詢。為了評(píng)估所提出的描述符喳坠,我們引入了一個(gè)新的大規(guī)模數(shù)據(jù)集鞠评,被稱為谷歌地標(biāo)(GLD)數(shù)據(jù)集,包括數(shù)據(jù)庫和 查詢搜索作為背景雜波壕鹉,部分遮擋剃幌,多個(gè)地標(biāo)、可變尺度的物體等DELF的成績(jī)超過了全球和當(dāng)?shù)刈钕冗M(jìn)的水平(SOTA)在大范圍數(shù)據(jù)集中的描述符晾浴「合纾可在以下網(wǎng)頁找到項(xiàng)目代碼:https://github.com/tensorflow/models/tree/master/research/delf。
1. 介紹
大規(guī)模圖像檢索是計(jì)算機(jī)視覺中的一項(xiàng)基本任務(wù)脊凰,它直接關(guān)系到目標(biāo)檢測(cè)抖棘、視覺位置識(shí)別、產(chǎn)品識(shí)別等各種實(shí)際應(yīng)用狸涌。在過去的幾十年里切省,圖像檢索系統(tǒng)取得了巨大的進(jìn)步,從手工制作的特征和索引算法[22,33,27,16]到最近的基于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的全局描述符學(xué)習(xí)方法[2,29,11]帕胆。
盡管基于CNN的全局描述符在中小型數(shù)據(jù)集中的圖像檢索方面取得了最新進(jìn)展[27,28]朝捆,但在大規(guī)模數(shù)據(jù)集中觀察到的各種具有挑戰(zhàn)性的條件(如雜波<背景雜波>、遮擋和視點(diǎn)和照明的變化)可能會(huì)阻礙其性能懒豹。全局描述符缺乏在圖像之間查找補(bǔ)丁級(jí)別匹配的能力芙盘。因此,在存在遮擋和背景雜波的情況下歼捐,基于部分匹配的圖像檢索非常困難何陆。在最近的一個(gè)趨勢(shì)中,基于CNN的局部特征被提出用于斑塊級(jí)匹配[12,42,40]豹储。然而贷盲,這些技術(shù)并沒有特別針對(duì)圖像檢索進(jìn)行優(yōu)化厕诡,因?yàn)樗鼈內(nèi)狈z測(cè)語義上有意義的特征的能力杠氢,并且在實(shí)際應(yīng)用中顯示出有限的準(zhǔn)確性。
大多數(shù)現(xiàn)有的圖像檢索算法都是在查詢圖像較少的中小型數(shù)據(jù)集中進(jìn)行評(píng)估的,即[27,28]中只有55張和[16]中只有500張鹦马,并且數(shù)據(jù)集中的圖像在地標(biāo)位置和類型方面的多樣性有限。因此悼凑,我們認(rèn)為罚屋,通過大規(guī)模的數(shù)據(jù)集來提高檢索結(jié)果的綜合性和有效性,可以使我們從中得到更具挑戰(zhàn)性的大規(guī)模圖像檢索方法論鞠鲜。
本文的主要目標(biāo)是開發(fā)一個(gè)基于CNN的特征描述子的大規(guī)模圖像檢索系統(tǒng)宁脊。為此,我們首先引入一個(gè)新的大規(guī)模數(shù)據(jù)集Google Landmarks(GLD)贤姆,它包含了來自近13K個(gè)獨(dú)特地標(biāo)的超過100萬個(gè)地標(biāo)圖像榆苞。這個(gè)數(shù)據(jù)集覆蓋了世界范圍,因此比現(xiàn)有的數(shù)據(jù)集更加多樣化和全面霞捡。查詢集由額外的100K個(gè)具有各種特性的圖像組成坐漏;特別是,我們?cè)跀?shù)據(jù)庫中包含了不匹配(可能指數(shù)據(jù)庫中不存在查詢結(jié)果)的圖像碧信,這使得我們的數(shù)據(jù)集更具挑戰(zhàn)性赊琳。這允許評(píng)估檢索系統(tǒng)的健壯性通過查詢不必要的地標(biāo)描述。
然后砰碴,我們提出了一種基于CNN的有注意力機(jī)制的局部特征躏筏,它只使用圖像級(jí)的類標(biāo)簽進(jìn)行弱監(jiān)督訓(xùn)練,而不需要對(duì)象級(jí)和補(bǔ)丁級(jí)的標(biāo)注衣式。這種新的特征描述符被稱為DELF(Deep Local feature)寸士,圖1說明了特征提取和圖像檢索的總體過程。在我們的方法中碴卧,注意力模型與所提取的描述符緊密耦合弱卡;它采用相同的CNN架構(gòu),并且只需很少的額外計(jì)算就可以生成特征分?jǐn)?shù)(符合對(duì)象檢測(cè)的最新進(jìn)展[30])住册。這使得本地描述符和關(guān)鍵點(diǎn)的提取都可以通過一個(gè)前向通道網(wǎng)絡(luò)婶博。結(jié)果表明,與基于全局和局部描述子的方法相比荧飞,基于DELF的圖像檢索系統(tǒng)具有更高的檢索效率凡人。
2. 相關(guān)工作
有標(biāo)準(zhǔn)的數(shù)據(jù)集通常用于評(píng)價(jià)圖像檢索技術(shù)。Oxford5K[27]有5062個(gè)在牛津拍攝的建筑圖像叹阔,其中55個(gè)查詢圖像挠轴。Paris6k[28]由6412幅巴黎地標(biāo)圖片組成,也有55幅查詢圖片耳幢。這兩個(gè)數(shù)據(jù)集通常使用來自Flickr100k數(shù)據(jù)集[27]的Flickr100k圖像進(jìn)行擴(kuò)充岸晦,后者分別構(gòu)建Oxford105k和Paris106k數(shù)據(jù)集欧啤。另一方面,Holidays dataset數(shù)據(jù)集[16]提供了1491張圖片启上,包括500張查詢圖片邢隧,這些圖片來自個(gè)人假日照片。這三個(gè)數(shù)據(jù)集都非常小冈在,尤其是查詢圖像的數(shù)量非常少倒慧,這使得在這些數(shù)據(jù)集中測(cè)試的性能很難通用化。雖然Pitts250k[35]比較大包券,但它專門用于具有重復(fù)圖案的視覺區(qū)域纫谅,可能不適合一般的圖像檢索任務(wù)。
實(shí)例檢索是近十年來研究的熱點(diǎn)問題兴使。最近的調(diào)查見[43]系宜。早期的系統(tǒng)依賴于手工制作的局部特征[22,5,8]照激,再加上使用KD樹或詞匯樹的近似最近鄰搜索方法[6,25]发魄。時(shí)至今日,這種基于特征的技術(shù)與幾何重排序相結(jié)合俩垃,在檢索系統(tǒng)需要高精度操作時(shí)提供了強(qiáng)大的性能励幼。
最近,許多研究集中在局部特征的聚集方法上(應(yīng)該指使用局部描述符聚合成全局描述符)口柳,其中包括一些流行的技術(shù)苹粟,如VLAD[18]和Fisher Vector(FV)[19]。這種全局描述符的主要優(yōu)點(diǎn)是能夠以緊湊的索引提供高性能的圖像檢索跃闹。
在過去的幾年中嵌削,一些基于cnn的全局描述符被提出使用預(yù)先訓(xùn)練的[4,34]或?qū)W習(xí)網(wǎng)絡(luò)[2,29,11]。為了保持相關(guān)圖像和無關(guān)圖像之間的排序望艺,這些全局描述符最常用三元組損失進(jìn)行訓(xùn)練苛秕。一些使用這些基于CNN的全局描述符的檢索算法利用深度局部特征作為傳統(tǒng)聚集技術(shù)(如VLAD或FV)中手工構(gòu)建的特征的替代品[24,36]。其他的工作已經(jīng)重新評(píng)估和提出了不同的特征聚合方法使用這些深的局部特征[3找默,21]艇劫。
CNN也被用來檢測(cè)、表示和比較局部圖像特征惩激。Verdie等人[37]學(xué)習(xí)了可重復(fù)關(guān)鍵點(diǎn)檢測(cè)的回歸函數(shù)店煞。Yi等人[41]提出了一種基于CNN的通用技術(shù)來估計(jì)局部特征的典型方向,并成功地將其應(yīng)用到多個(gè)不同的描述符上风钻。MatchNet[12]和Deep Compare[42]提出聯(lián)合學(xué)習(xí)塊表達(dá)和相關(guān)的指標(biāo)顷蟀。最近,LIFT[40]提出了一個(gè)端到端的框架來檢測(cè)關(guān)鍵點(diǎn)骡技、估計(jì)方向和計(jì)算描述符鸣个。與我們的工作不同的是,這些技術(shù)不是為圖像檢索應(yīng)用而設(shè)計(jì)的,因?yàn)樗鼈儧]有學(xué)習(xí)選擇語義上有意義的特征毛萌。
許多視覺識(shí)別問題都采用了基于深層神經(jīng)網(wǎng)絡(luò)的視覺注意力苟弛,包括目標(biāo)檢測(cè)[45]、語義分割[14]阁将、圖像捕獲[38]膏秫、視覺問題回答[39]等。然而做盅,視覺注意力在圖像檢索應(yīng)用中的學(xué)習(xí)視覺特征還沒有被積極探索缤削。
3. 谷歌地標(biāo)數(shù)據(jù)集
我們的數(shù)據(jù)集是基于[44]中描述的算法構(gòu)造的。與現(xiàn)有的用于圖像檢索的數(shù)據(jù)集[27,28,16]相比吹榴,新的數(shù)據(jù)集要大得多亭敢,包含多個(gè)地標(biāo),并且涉及大量挑戰(zhàn)图筹。它包含來自12894個(gè)地標(biāo)的1 060 709個(gè)圖像帅刀,以及111 036個(gè)其他查詢圖像。數(shù)據(jù)集中的圖像被捕捉到世界上不同的位置远剩,每個(gè)圖像都與一個(gè)GPS坐標(biāo)相關(guān)聯(lián)扣溺。圖2和圖3分別示出了示例圖像及其地理分布。雖然現(xiàn)有數(shù)據(jù)集中的大多數(shù)圖像都是以地標(biāo)為中心的瓜晤,這使得全局特征描述子工作得很好锥余,但是我們的數(shù)據(jù)集包含了更真實(shí)的圖像,包括前景/背景雜波痢掠、遮擋驱犹、部分視野外的對(duì)象等。由于我們的查詢圖像是從個(gè)人照片庫中收集的足画,其中一些可能不包含任何地標(biāo)雄驹,因此不應(yīng)該從數(shù)據(jù)庫中檢索任何圖像。我們稱這些查詢圖像為distractors分心器锌云,它在評(píng)估算法對(duì)無關(guān)和噪聲查詢的魯棒性方面起著至關(guān)重要的作用荠医。
我們使用視覺特征和GPS坐標(biāo)來構(gòu)建 地面真相 。數(shù)據(jù)庫中的所有圖像都使用這兩種信息進(jìn)行聚類桑涎,并為每個(gè)簇分配一個(gè)地標(biāo)標(biāo)識(shí)符彬向。如果查詢圖像的位置與與檢索到的圖像相關(guān)聯(lián)的簇中心之間的物理距離小于閾值,我們假設(shè)這兩個(gè)圖像屬于同一個(gè)地標(biāo)攻冷。請(qǐng)注意娃胆,地面真實(shí)性注釋非常具有挑戰(zhàn)性,特別是考慮到很難預(yù)先定義什么是地標(biāo)等曼,地標(biāo)有時(shí)不明顯里烦,并且在一個(gè)圖像中可能有多個(gè)實(shí)例凿蒜。顯然,由于GPS誤差的影響胁黑,這種地面真相構(gòu)建方法存在噪聲废封。另外,一些地標(biāo)(如埃菲爾鐵塔丧蘸、金門大橋)的照片可以從很遠(yuǎn)的地方拍攝到漂洋,因此照片位置可能與實(shí)際地標(biāo)位置相對(duì)較遠(yuǎn)。然而力喷,在手工檢查數(shù)據(jù)子集時(shí)刽漂,我們發(fā)現(xiàn)很少出現(xiàn)閾值為25km的錯(cuò)誤注釋。即使有很少的小錯(cuò)誤弟孟,它也不成問題贝咙,特別是在相對(duì)評(píng)估中,因?yàn)樗惴ú惶赡茉诘貥?biāo)之間混淆拂募,如果它們的視覺外觀足夠歧視的話庭猩。
4. 使用DELF圖像檢索
我們的大規(guī)模檢索系統(tǒng)可以分解為四個(gè)主要模塊:
(i)密集的局部特征提取没讲;
(ii)關(guān)鍵點(diǎn)選擇眯娱;
(iii)降維;
(iv)索引和檢索爬凑。
這一部分詳細(xì)介紹了DELF特征提取和學(xué)習(xí)算法以及我們的索引和檢索過程。
4.1 密集局部特征提取
我們采用一個(gè)完全卷積網(wǎng)絡(luò)(FCN)從圖像中提取密集特征试伙,該網(wǎng)絡(luò)是利用訓(xùn)練后的CNN的特征提取層構(gòu)造的嘁信。我們使用一個(gè)取自ResNet50[13]模型的FCN,使用conv4x卷積塊的輸出疏叨。為了處理尺度的變化潘靖,我們顯式地構(gòu)造了一個(gè)圖像金字塔,并對(duì)每個(gè)層次獨(dú)立地應(yīng)用FCN蚤蔓。將得到的特征映射視為局部描述子的密集網(wǎng)格卦溢。基于接收?qǐng)鰧?duì)特征進(jìn)行局部定位秀又,可通過考慮FCN卷積層和池層的結(jié)構(gòu)來計(jì)算特征单寂。我們使用感受野中心的像素坐標(biāo)作為特征定位。圖像在原始尺度下的感受野大小為291×291吐辙。利用圖像金字塔宣决,我們得到了描述不同大小圖像區(qū)域的特征。
我們使用在ImageNet[31]上訓(xùn)練的原始ResNet50模型作為基線昏苏,并對(duì)其進(jìn)行微調(diào)尊沸,以增強(qiáng)我們的局部描述符的辨別力威沫。由于我們考慮了一個(gè)地標(biāo)識(shí)別應(yīng)用,我們使用地標(biāo)圖像的注釋數(shù)據(jù)集[4]洼专,并使用標(biāo)準(zhǔn)交叉熵?fù)p失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練棒掠,以便進(jìn)行圖像分類,如圖4(a)所示屁商。輸入圖像最初被中心裁剪以生成方形圖像句柠,然后重新縮放到250 x 250。然后隨機(jī)使用224 x 224部分進(jìn)行訓(xùn)練棒假。作為訓(xùn)練的結(jié)果溯职,局部描述符隱式學(xué)習(xí)與地標(biāo)檢索問題更相關(guān)的表示。以這種方式帽哑,對(duì)象級(jí)和補(bǔ)丁級(jí)的標(biāo)簽都不需要即可獲得改進(jìn)的局部描述符谜酒。
4.2 基于注意力的關(guān)鍵點(diǎn)選擇
與直接使用密集提取的特征進(jìn)行圖像檢索不同,我們?cè)O(shè)計(jì)了一種有效地選擇特征子集的技術(shù)妻枕。由于密集提取的特征中有相當(dāng)一部分與我們的識(shí)別任務(wù)無關(guān)僻族,并且可能會(huì)增加雜波(背景雜波),分散檢索過程的注意力屡谐,因此關(guān)鍵點(diǎn)的選擇對(duì)于檢索系統(tǒng)的準(zhǔn)確性和計(jì)算效率都非常重要述么。
4.2.1 弱監(jiān)督學(xué)習(xí)
我們建議訓(xùn)練一個(gè)地標(biāo)分類器來顯式地測(cè)量局部特征描述子的相關(guān)性分?jǐn)?shù)。為了訓(xùn)練函數(shù)愕掏,特征一個(gè)加權(quán)和池化度秘,其中權(quán)重由注意力網(wǎng)絡(luò)預(yù)測(cè)。培訓(xùn)程序與第4.1描述的損失函數(shù)和數(shù)據(jù)集相似饵撑,如圖4(b)所示剑梳,其中注意力網(wǎng)絡(luò)以黃色突出顯示。這將生成整個(gè)輸入圖像的嵌入滑潘,然后用于訓(xùn)練基于softmax的地標(biāo)分類器垢乙。
更確切地說,我們制定如下訓(xùn)練計(jì)劃语卤。用追逮,這d維特征與注意模型聯(lián)合學(xué)習(xí)。我們的目標(biāo)是學(xué)習(xí)每個(gè)特征的得分函數(shù)粹舵,其中表示函數(shù)的參數(shù)钮孵。網(wǎng)絡(luò)的輸出邏輯y由特征向量的加權(quán)和生成,該加權(quán)和由
(1)
式中表示訓(xùn)練用于預(yù)測(cè)M類的CNN最終完全連接層的權(quán)重齐婴。
對(duì)于訓(xùn)練油猫,我們使用交叉熵?fù)p失,它由
式中 是one-hot之后的ground-truth向量柠偶,1是一向量[N維1向量]情妖。分?jǐn)?shù)函數(shù)中的參數(shù)通過反向傳播進(jìn)行訓(xùn)練睬关,其中梯度由
式中反向傳播的輸出分?jǐn)?shù) 相對(duì)于與標(biāo)準(zhǔn)多層感知器相同。
我們將限制為非負(fù)毡证,以防止它學(xué)習(xí)負(fù)權(quán)重电爹。score函數(shù)使用2層CNN設(shè)計(jì),頂部使用softplus[9]激活(限制為非負(fù))料睛。為了簡(jiǎn)單起見丐箩,我們采用了尺寸為1 x 1的卷積濾波器,這在實(shí)踐中效果良好恤煞。一旦注意力模型被訓(xùn)練出來屎勘,就可以用來評(píng)估模型所提取特征的相關(guān)性。
4.2.2 訓(xùn)練注意力
在該框架中居扒,描述子和注意模型都是通過圖像級(jí)標(biāo)簽進(jìn)行隱式學(xué)習(xí)的概漱。不幸的是,這給學(xué)習(xí)過程帶來了一些挑戰(zhàn)喜喂。當(dāng)特征表示和分?jǐn)?shù)函數(shù)可以通過反向傳播聯(lián)合訓(xùn)練時(shí)瓤摧,我們發(fā)現(xiàn)這種方法在實(shí)際應(yīng)用中產(chǎn)生了弱模型。因此玉吁,我們采用兩步訓(xùn)練策略照弥。首先,我們通過微調(diào)學(xué)習(xí)描述符进副,如第4.1節(jié)所述这揣。在給定固定的描述子的情況下,學(xué)習(xí)得分函數(shù)敢会。
另一個(gè)改進(jìn)是在注意力訓(xùn)練過程中通過隨機(jī)圖像重縮放來實(shí)現(xiàn)的曾沈。這是直觀的,因?yàn)樽⒁饬δP蛻?yīng)該能夠?yàn)椴煌叨鹊奶卣魃捎行У姆謹(jǐn)?shù)鸥昏。在這種情況下,輸入圖像最初被中心裁剪以產(chǎn)生方形圖像姐帚,然后重新縮放到900 x 900吏垮。然后隨機(jī)抽取720 x 720個(gè)輸出,最后用系數(shù)隨機(jī)縮放罐旗。
4.2.3 特點(diǎn)
我們系統(tǒng)的一個(gè)非傳統(tǒng)的方面是膳汪,關(guān)鍵點(diǎn)選擇是在描述符提取之后進(jìn)行的,這與現(xiàn)有的技術(shù)(例如SIFT[22]和LIFT[40])不同九秀,后者首先檢測(cè)到關(guān)鍵點(diǎn)遗嗽,然后再進(jìn)行描述。傳統(tǒng)的關(guān)鍵點(diǎn)檢測(cè)器只根據(jù)關(guān)鍵點(diǎn)的低電平特性鼓蜒,在不同成像條件下對(duì)關(guān)鍵點(diǎn)進(jìn)行重復(fù)檢測(cè)痹换。然而征字,對(duì)于像圖像檢索這樣的高級(jí)識(shí)別任務(wù),選擇能夠區(qū)分不同對(duì)象實(shí)例的關(guān)鍵點(diǎn)也是至關(guān)重要的娇豫。該流程通過訓(xùn)練一個(gè)在特征映射中編碼高級(jí)語義的模型匙姜,以及學(xué)習(xí)如何為分類任務(wù)選擇有區(qū)別的特征來達(dá)到這兩個(gè)目的。這與最近提出的學(xué)習(xí)關(guān)鍵點(diǎn)檢測(cè)器的技術(shù)(即LIFT[40])相反冯痢,后者根據(jù)SIFT匹配收集訓(xùn)練數(shù)據(jù)氮昧。雖然我們的模型不受約束地學(xué)習(xí)姿勢(shì)和視點(diǎn)的不變性,但它隱含地學(xué)習(xí)這樣做浦楣,類似于基于CNN的圖像分類技術(shù)袖肥。
4.3 降維
我們降低所選特征的維數(shù)以提高檢索精度,這是常見的做法[15]振劳。首先椎组,對(duì)選取的特征進(jìn)行L2標(biāo)準(zhǔn)化,通過PCA將其維數(shù)降到40澎迎,在緊湊性和區(qū)分性之間取得了很好的折衷庐杨。最后,這些特征再次經(jīng)過L2標(biāo)準(zhǔn)化夹供。
4.4 圖片檢索系統(tǒng)
我們從查詢圖像和數(shù)據(jù)庫圖像中提取特征描述子灵份,從中選擇每個(gè)圖像中具有最高關(guān)注分?jǐn)?shù)的預(yù)定義數(shù)量的局部特征。我們的圖像檢索系統(tǒng)是基于最近鄰搜索的哮洽,它是由KD樹[7]和乘積量化(PQ)[17]相結(jié)合來實(shí)現(xiàn)的填渠。我們使用PQ將每個(gè)描述子編碼成50位編碼,每個(gè)40D特征描述子被分成10個(gè)子向量鸟辅,每個(gè)子向量用k均值聚類法識(shí)別25個(gè)聚類中心氛什,實(shí)現(xiàn)50位編碼。我們執(zhí)行非對(duì)稱距離計(jì)算匪凉,其中查詢描述符不進(jìn)行編碼枪眉,以提高最近鄰檢索的準(zhǔn)確性。為了加快最近鄰搜索的速度再层,我們使用8K碼本構(gòu)造了一個(gè)描述符的倒排索引贸铜,為了減少編碼錯(cuò)誤,我們使用KD樹對(duì)每個(gè)Voronoi(類似VLAD的聚類中心范圍)單元進(jìn)行劃分聂受,并對(duì)每個(gè)特征小于30K的子樹使用局部?jī)?yōu)化的乘積量化器[20]蒿秦。
當(dāng)給定一個(gè)查詢時(shí),我們對(duì)從查詢圖像中提取的每個(gè)局部描述符執(zhí)行近似近鄰搜索蛋济。然后棍鳖,對(duì)于從索引中檢索到的前K個(gè)最近的局部描述符,我們將每個(gè)數(shù)據(jù)庫圖片的所有匹配項(xiàng)集合起來碗旅。最后渡处,我們使用RANSAC[10]進(jìn)行幾何驗(yàn)證镜悉,并使用inliner(樣本點(diǎn))的數(shù)量作為檢索圖像的分?jǐn)?shù)。這個(gè)幾何驗(yàn)證步驟拒絕了許多分心器查詢骂蓖,因?yàn)榉中钠鞯奶卣骺赡芘c地標(biāo)圖像的特征不一致积瞒。
這個(gè)流程索引10億個(gè)描述符需要的內(nèi)存少于8GB,這足以處理我們的大型地標(biāo)數(shù)據(jù)集登下。在我們的實(shí)驗(yàn)設(shè)置下茫孔,使用單個(gè)CPU,最近鄰搜索的延遲小于2秒被芳,我們?cè)诿總€(gè)查詢中軟分配5個(gè)聚類中心缰贝,并在每個(gè)倒排索引樹中搜索多達(dá)10K個(gè)葉節(jié)點(diǎn)。
5 實(shí)驗(yàn)
本節(jié)主要討論與我們數(shù)據(jù)集中現(xiàn)有的全局和局部特征描述符相比畔濒,DELF的性能剩晴。此外,我們還展示了如何使用DELF在現(xiàn)有數(shù)據(jù)集中獲得良好的精度侵状。
5.1 實(shí)施細(xì)節(jié)
多尺度描述子提取 我們使用相距倍的尺度來構(gòu)造圖像金字塔赞弥。對(duì)于范圍從0.25到2.0的一組比例尺,使用7種不同的比例尺趣兄。感受野的大小與尺度成反比绽左;例如,對(duì)于2.0尺度艇潭,網(wǎng)絡(luò)的感受野覆蓋146 x 146像素拼窥。
訓(xùn)練 我們使用landmarks數(shù)據(jù)集[4]來微調(diào)描述符和訓(xùn)練關(guān)鍵點(diǎn)選擇。在數(shù)據(jù)集中蹋凝,有“完整”版本鲁纠,稱為L(zhǎng)F(在刪除了Oxf5k / Par6k的重疊類之后,通過[11])鳍寂,包含586個(gè)地標(biāo)的140372個(gè)圖像改含,以及通過基于SIFT的匹配過程[11]獲得的“干凈”版本(LC),包含586個(gè)地標(biāo)的35382個(gè)圖像迄汛。我們使用LF訓(xùn)練我們的注意模型候味,并使用LC對(duì)圖像檢索的網(wǎng)絡(luò)進(jìn)行微調(diào)。
參數(shù) 我們?yōu)橐粋€(gè)查詢中的每個(gè)特征確定最接近的K(=60)個(gè)近鄰隔心,并從每個(gè)圖像中提取多達(dá)1000個(gè)局部特征,每個(gè)特征是40維的尚胞。
5.2 算法比較
DELF與最近的幾個(gè)全局和局部描述符進(jìn)行了比較硬霍。雖然有各種與圖像檢索相關(guān)的研究成果,但我們相信以下方法要么與我們的算法相關(guān)笼裳,要么由于其良好的性能而對(duì)評(píng)估至關(guān)重要唯卖。
深度圖像檢索(DIR) 這是一個(gè)最新的全局描述符粱玲,它在多個(gè)現(xiàn)有數(shù)據(jù)集中達(dá)到了最先進(jìn)的性能。DIR特征描述符為2048維拜轨,所有情況下都使用多分辨率描述符抽减。我們還使用查詢擴(kuò)展(QE)進(jìn)行評(píng)估,這通抽夏耄可以提高標(biāo)準(zhǔn)數(shù)據(jù)集的準(zhǔn)確性卵沉。我們使用發(fā)布的源代碼來實(shí)現(xiàn)ResNet101[13]版本。在檢索方面法牲,采用了暴力搜索的并行實(shí)現(xiàn)史汗,避免了近似近鄰搜索的錯(cuò)誤造成的懲罰。
siaMAC 這是一個(gè)最新的全局描述符拒垃,可以在現(xiàn)有數(shù)據(jù)集中獲得高性能停撞。我們使用發(fā)布的源代碼與暴力搜索的并行實(shí)現(xiàn)〉课停基于VGG16[32]的CNN提取512維全局描述子戈毒。我們還對(duì)DIR中的查詢擴(kuò)展(QE)進(jìn)行了實(shí)驗(yàn)。
CONGAS CONGAS是一個(gè)40D的手工構(gòu)建的局部特征横堡,已被廣泛應(yīng)用于實(shí)例級(jí)圖像匹配和檢索[1,44]埋市。該特征描述子是通過在檢測(cè)到的關(guān)鍵點(diǎn)的尺度和方向上采集Gabor小波響應(yīng)來提取的,并且與SIFT等基于梯度的局部描述子具有非常相似的性能和特性翅萤。采用拉普拉斯高斯關(guān)鍵點(diǎn)檢測(cè)器
LIFT LIFT[40]是最近提出的一種特征匹配流程恐疲,它將關(guān)鍵點(diǎn)檢測(cè)、方向估計(jì)和關(guān)鍵點(diǎn)描述結(jié)合起來學(xué)習(xí)套么。特征是128維的培己。我們使用公開的源代碼。
5.3 評(píng)估
圖像檢索系統(tǒng)通常是基于平均平均精度(mAP)來評(píng)估的胚泌,平均平均精度是通過按每個(gè)查詢的相關(guān)性降序?qū)D像進(jìn)行排序并平均每個(gè)查詢的AP來計(jì)算的省咨。然而,對(duì)于帶有干擾查詢的數(shù)據(jù)集玷室,這種評(píng)估方法并不具有代表性零蓉,因?yàn)榇_定每個(gè)圖像是否與查詢相關(guān)很重要。在我們的例子中穷缤,使用絕對(duì)檢索分?jǐn)?shù)來估計(jì)每個(gè)圖像的相關(guān)性讶舰。對(duì)于性能評(píng)估,我們使用了一個(gè)改進(jìn)版本的精度(PRE)和召回(REC)薇溃,方法是同時(shí)考慮所有查詢圖像搜锰,由
式中表示給定閾值的查詢q的一組檢索圖像,是一組真正類。這與[26]中引入的micro-AP指標(biāo)類似秸脱。請(qǐng)注意落包,在我們的例子中,在最終評(píng)分中只考慮每個(gè)地標(biāo)的最高得分圖像摊唇。我們更喜歡非標(biāo)準(zhǔn)化的回調(diào)值咐蝇,它表示檢索到的真陽性數(shù)。
5.4 定量結(jié)果
圖5顯示了與其他方法相比巷查,DELF(用DELF+FT+ATT表示)的精確召回曲線有序。由于特征提取速度非常慢,無法進(jìn)行大規(guī)模實(shí)驗(yàn)吮便,因此無法顯示LIFT的結(jié)果笔呀。DELF明顯優(yōu)于所有其他技術(shù)。全局特征描述符髓需,比如DIR许师,在我們富有挑戰(zhàn)性的數(shù)據(jù)集中受到了影響。特別是僚匆,由于查詢集中存在大量干擾因素微渠,使用QE的DIR會(huì)顯著降低準(zhǔn)確性。CONGAS做得相當(dāng)不錯(cuò)咧擂,但仍然比DELF差很多逞盆。
為了分析精細(xì)調(diào)整和注意力對(duì)圖像檢索的好處,我們比較了我們的完整模型(DELF+FT+ATT)及其變體:DELF-noFT松申、DELF+FT和DELFnoFT+ATT云芦。DELF-noFT是指提取的特征基于ImageNet上預(yù)訓(xùn)練的CNN,而不需要精細(xì)調(diào)整和注意力學(xué)習(xí)贸桶。DELF+FT表示有微調(diào)但沒有注意建模的模型舅逸,DELFnoFT+ATT對(duì)應(yīng)于未經(jīng)微調(diào)但使用注意力的模型。如圖5所示皇筛,微調(diào)和注意力建模都對(duì)性能改進(jìn)做出了重大貢獻(xiàn)琉历。特別要注意的是,注意力的使用比微調(diào)更重要水醋。這表明旗笔,所提出的注意層可以有效地學(xué)習(xí)為檢索任務(wù)選擇最有區(qū)別的特征,即使這些特征只是在ImageNet上預(yù)先訓(xùn)練過的拄踪。
在內(nèi)存需求方面蝇恶,DELF、CONGAS和DIR幾乎同樣復(fù)雜惶桐。DELF和CONGAS采用相同的特征維數(shù)和每個(gè)圖像的最大特征數(shù)艘包;它們需要大約8GB的內(nèi)存的猛。DIR描述符需要每個(gè)圖像8KB,加起來大約8GB來索引整個(gè)數(shù)據(jù)集想虎。
5.5 定量結(jié)果
我們給出定性的結(jié)果來說明DELF與兩種基于全局和局部特征的競(jìng)爭(zhēng)算法DIR和CONGAS的性能比較。同時(shí)叛拷,通過可視化分析了基于注意力的關(guān)鍵點(diǎn)檢測(cè)算法舌厨。
DELF vs. DIR 圖6顯示了檢索結(jié)果,其中DELF的性能優(yōu)于DIR忿薇。DELF得到圖像中特定局部區(qū)域之間的匹配裙椭,這對(duì)于在不同成像條件下找到同一目標(biāo)具有重要意義。DIR的常見故障案例發(fā)生在數(shù)據(jù)庫包含類似的對(duì)象或場(chǎng)景時(shí)署浩,例如方尖碑揉燃、山脈、港口筋栋,如圖6所示炊汤。在許多情況下,DIR無法區(qū)分這些特定的對(duì)象或場(chǎng)景弊攘;盡管它發(fā)現(xiàn)語義上相似的圖像抢腐,但它們通常與感興趣的實(shí)例不對(duì)應(yīng)。DIR和其他全局描述符的另一個(gè)缺點(diǎn)是它們不善于識(shí)別感興趣的小對(duì)象襟交。圖7顯示了DIR優(yōu)于DELF的情況迈倍。雖然DELF能夠在不同的圖像上匹配局部模式,但當(dāng)不同地標(biāo)的地板磚或植被相似時(shí)捣域,這會(huì)導(dǎo)致錯(cuò)誤啼染。
DELF vs. CONGAS 與CONGAS相比,DELF的主要優(yōu)勢(shì)在于它的召回率焕梅;它比CONGAS檢索到更多相關(guān)的地標(biāo)迹鹅,這表明DELF描述符更具辨別力。我們沒有觀察到CONGAS優(yōu)于DELF的顯著例子丘侠。圖8顯示了來自查詢和數(shù)據(jù)庫的成對(duì)圖像徒欣,這些圖像通過DELF成功匹配,但被CONGAS忽略蜗字,其中特征對(duì)應(yīng)通過連接用于匹配特征的接收字段的中心來呈現(xiàn)打肝。由于感受野可能相當(dāng)大,一些特征似乎局限于無差別的區(qū)域挪捕,例如海洋或天空粗梭。然而,在這些情況下级零,這些特征會(huì)考慮到鄰近區(qū)域中更具歧視性的區(qū)域断医。
關(guān)鍵點(diǎn)檢測(cè)方法分析 圖9顯示了關(guān)鍵點(diǎn)檢測(cè)的三種變化滞乙,其中我們的注意模型的好處被清楚地定性地說明,而微調(diào)特征的L2范數(shù)與未經(jīng)微調(diào)的L2范數(shù)略有不同鉴嗤。
5.6 現(xiàn)有數(shù)據(jù)集中的結(jié)果
為了完整性斩启,我們展示了DELF在現(xiàn)有數(shù)據(jù)集中的性能,比如Oxf5k醉锅、Par6k及其擴(kuò)展Oxf105k和Par106k兔簇。對(duì)于這個(gè)實(shí)驗(yàn),我們簡(jiǎn)單地使用所提出的方法來獲得每幅圖像的分?jǐn)?shù)硬耍,并通過計(jì)算兩個(gè)標(biāo)準(zhǔn)化分?jǐn)?shù)的加權(quán)平均值來與DIR的分?jǐn)?shù)進(jìn)行后期融合垄琐,其中DELF的權(quán)重設(shè)置為0.25经柴。結(jié)果顯示在表1中狸窘,我們提出了現(xiàn)有方法的準(zhǔn)確性在他們的原始論文和我們的復(fù)制使用公共源代碼,這是非常接近坯认。當(dāng)與DIR結(jié)合使用時(shí)翻擒,DELF顯著地提高了數(shù)據(jù)集中的準(zhǔn)確性,盡管它本身并沒有顯示出最好的性能鹃操。這一事實(shí)表明韭寸,DELF能夠?qū)θ痔卣髅枋龇胁豢捎玫难a(bǔ)充信息進(jìn)行編碼。
6 結(jié)論
本文提出了一種新的局部特征描述子DELF荆隘,它是專門為大規(guī)模圖像檢索應(yīng)用而設(shè)計(jì)的恩伺。DELF是在弱監(jiān)督下學(xué)習(xí)的,只使用圖像級(jí)別的標(biāo)簽椰拒,并與我們的新的注意機(jī)制的語義特征選擇相結(jié)合晶渠。在所提出的基于CNN的模型中,一次前向傳遞就足以獲得關(guān)鍵點(diǎn)和描述符燃观。為了正確評(píng)估大規(guī)模圖像檢索算法的性能褒脯,我們引入了Google Landmarks數(shù)據(jù)集,該數(shù)據(jù)集由超過1M個(gè)數(shù)據(jù)庫圖像缆毁、13K個(gè)唯一路標(biāo)和100K個(gè)查詢圖像組成番川。在這樣一個(gè)大規(guī)模的環(huán)境下的評(píng)估表明,DELF的性能遠(yuǎn)遠(yuǎn)超過現(xiàn)有的全局和局部描述符脊框。在已有的數(shù)據(jù)集上颁督,我們也給出了結(jié)果,并表明當(dāng)與全局描述符相結(jié)合時(shí)浇雹,DELF具有良好的性能沉御。