由于簡(jiǎn)書(shū)對(duì)latex公式支持不太友好自阱,因此為了更好的閱讀體驗(yàn)平窘,你可以移步至:
- 【TPAMI重磅綜述】 SIFT與CNN的碰撞:萬(wàn)字長(zhǎng)文回顧圖像檢索任務(wù)十年探索歷程(上篇)
- 【TPAMI重磅綜述】 SIFT與CNN的碰撞:萬(wàn)字長(zhǎng)文回顧圖像檢索任務(wù)十年探索歷程(下篇)
進(jìn)行閱讀
前言
基于內(nèi)容的圖像檢索任務(wù)(CBIR)長(zhǎng)期以來(lái)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域重要的研究課題,自20世紀(jì)90年代早期,研究人員先后采用了圖像的全局特征窥摄,局部特征,卷積特征的方法對(duì)CBIR任務(wù)進(jìn)行研究和探索础淤,并取得了卓越的成果崭放。
這篇刊登在 TPAMI 上的綜述《SIFT Meets CNN: A Decade Survey of Instance Retrieval》全面調(diào)研了十多年來(lái)圖像檢索任務(wù)中所使用的圖像編碼哨苛、檢索算法,并對(duì)比了各種方法在各大數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果币砂,旁征博引建峭,內(nèi)容詳實(shí)。如果您剛接觸圖像檢索領(lǐng)域决摧,可以通過(guò)本篇文章摸清其概貌亿蒸;如果您在領(lǐng)域內(nèi)深耕多年,也可以在本文中查漏補(bǔ)缺蜜徽,裨益良多祝懂。
TPAMI是計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)期刊,此文的質(zhì)量也不必多言拘鞋,我在此斗膽將這篇綜述加以整理砚蓬,翻譯成文,若有不當(dāng)之處還望指出盆色。
標(biāo)題
當(dāng)SIFT邂逅CNN:圖像檢索任務(wù)跨越十年的探索歷程
作者
Liang Zheng, Yi Yang, and Qi Tian
摘要
在基于內(nèi)容的圖像檢索技術(shù)(CBIR)發(fā)展早期灰蛙,研究人員大多基于圖像的全局特征進(jìn)行研究。自2003年開(kāi)始隔躲,由于SIFT特征在圖像變換(譯者注:尺度摩梧、方向變化)問(wèn)題中的優(yōu)異表現(xiàn),十多年來(lái)基于局部描述算子(如SIFT描述算子)的圖像檢索方法一直被廣泛研究宣旱。最近仅父,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像表示方法吸引了社區(qū)越來(lái)越多的關(guān)注,同時(shí)這種方法也展現(xiàn)出了令人贊嘆的性能浑吟。我們領(lǐng)域正處于快速發(fā)展時(shí)期笙纤,本文對(duì)實(shí)例檢索近十多年來(lái)的進(jìn)展進(jìn)行了綜合且全面的調(diào)查研究,主要展示了基于SIFT和CNN特征的兩類主要方法组力。對(duì)SIFT一類的方法省容,我們根據(jù)字典本大小,將相關(guān)文獻(xiàn)按照字典的大/中/小規(guī)模進(jìn)行組織燎字。對(duì)CNN一類的方法腥椒,我們主要依據(jù)預(yù)訓(xùn)練模型,微調(diào)模型和混合模型進(jìn)行分類和討論候衍。預(yù)訓(xùn)練模型和微調(diào)模型方法采用了單通道的圖像輸入方法而混合模型則采用了基于塊的特征提取策略笼蛛。本篇綜述選取了在現(xiàn)代實(shí)例檢索任務(wù)中先前的各類工作,展現(xiàn)了該任務(wù)中的里程碑時(shí)刻蛉鹿,并提出了關(guān)于SIFT與CNN的內(nèi)在聯(lián)系的見(jiàn)解伐弹。在分析與比較了各種方法在幾個(gè)數(shù)據(jù)集上的檢索性能后,我們分別討論了通用實(shí)例檢索和專用實(shí)例檢索任務(wù)未來(lái)的發(fā)展前景。
1 介紹
基于內(nèi)容的圖像檢索任務(wù)(CBIR)是計(jì)算機(jī)視覺(jué)領(lǐng)域一項(xiàng)由來(lái)已久的研究課題惨好。CBIR研究在20世紀(jì)90年代早期正式開(kāi)始煌茴,研究人員根據(jù)諸如紋理、顏色這樣的視覺(jué)特征對(duì)圖像建立索引日川,在這一時(shí)期大量的算法和圖像檢索系統(tǒng)被提出蔓腐。其中一種簡(jiǎn)單明了的策略就是提取出圖像的全局描述符,這種策略在1990s和2000s早期是圖像檢索社區(qū)研究的重點(diǎn)龄句。然而回论,眾所周知,全局描述符這種方法在諸如光照分歇,形變傀蓉,遮擋和裁剪這種情況下難以達(dá)到預(yù)想的效果。這些缺陷也導(dǎo)致了圖像檢索準(zhǔn)確率的低下职抡,也局限了全局描述符算法的應(yīng)用范圍葬燎。恰在這時(shí),基于局部特征的圖像檢索算法給解決這一問(wèn)題帶來(lái)了曙光缚甩。
本篇綜述主要關(guān)注于實(shí)例級(jí)的圖像檢索任務(wù)谱净。在這個(gè)任務(wù)中,給定一張物體/場(chǎng)景/建筑類型的待查詢圖片擅威,查詢出包含拍攝自不同角度壕探、光照或有遮擋的,含有相同物體/場(chǎng)景/建筑的圖片郊丛。實(shí)例檢索不同于類別檢索任務(wù)裂允,因?yàn)楹笳叩哪繕?biāo)是檢索出同類別的圖片坊夫。接下來(lái)硝枉,如果沒(méi)有特別指出的話貌嫡,“圖像檢索”和“實(shí)例檢索”兩個(gè)名詞可以相互替代。
在圖1中我們展示了多年來(lái)實(shí)例檢索任務(wù)中的里程碑時(shí)刻庆猫,并且在圖中著重標(biāo)出了基于SIFT特征和CNN特征算法的提出的時(shí)間。2000年可以認(rèn)為是大部分傳統(tǒng)方法結(jié)束的時(shí)間绅络,當(dāng)時(shí)Smeulders等撰寫(xiě)了“早期的終結(jié)”這篇綜述月培。三年后(2003),詞袋模型(BoW)進(jìn)入圖像檢索社區(qū)的視野恩急,并在2004年結(jié)合了SIFT方法符被應(yīng)用于圖像分類任務(wù)杉畜。這后來(lái)的近10年時(shí)間里,社區(qū)見(jiàn)證了BoW模型的優(yōu)越性衷恭,它給圖像檢索任務(wù)帶來(lái)了各種提升此叠。在2012年,Krizhevsky等人使用AlexNet在ILSRVC 2012上取得了當(dāng)時(shí)世界上最高的識(shí)別準(zhǔn)確率随珠。從那以后灭袁,研究的重心開(kāi)始向基于深度學(xué)習(xí)特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法轉(zhuǎn)移猬错。
基于SIFT特征的方法大多依賴于BoW模型。BoW方法最初是為解決文檔建模問(wèn)題而提出的茸歧,因?yàn)槲谋颈旧砭褪怯蓡卧~組成的倦炒。它通過(guò)累加單詞響應(yīng)到一個(gè)全局向量來(lái)給文檔建立單詞直方圖。在圖像領(lǐng)域软瞎,尺度不變(SIFT)特征的引入使得BoW模型變得可行逢唤。最初,SIFT由檢測(cè)器和描述符組成涤浇,但現(xiàn)在描述符被單獨(dú)提取出來(lái)使用鳖藕。在這篇綜述中,如果沒(méi)有特別指明的話只锭,SIFT往往是指128維的描述符著恩,這也是社區(qū)的慣例。通過(guò)一個(gè)預(yù)訓(xùn)練的字典(譯者注:補(bǔ)充說(shuō)明一下纹烹,在工業(yè)屆的項(xiàng)目中页滚,待檢索的圖像往往有特定的范圍,使用范圍內(nèi)的有代表性的圖片構(gòu)建出預(yù)訓(xùn)練字典可以取得比較好的效果)铺呵,局部特征被量化表示為視覺(jué)詞匯裹驰。一張圖片能夠被表示成類似文檔的格式,這樣就可以使用經(jīng)典的權(quán)重索引方案片挂。
近幾年幻林,CNN這種層次結(jié)構(gòu)模型在許多視頻相關(guān)的任務(wù)上取得的成績(jī)遠(yuǎn)好于手工特征,基于SIFT特征的模型的風(fēng)頭似乎被CNN蓋過(guò)了音念』龋基于CNN的檢索模型通常計(jì)算出緊密的圖像表示向量,并使用歐氏距離或ANN(approximate nearest neighbor)查找算法進(jìn)行檢索闷愤。最近的文獻(xiàn)可能會(huì)直接使用預(yù)訓(xùn)練好的CNN模型或微調(diào)后應(yīng)用于特定的檢索任務(wù)整葡。這些方法大多只將圖像輸入到網(wǎng)絡(luò)中一次來(lái)獲取描述符。一些基于圖像塊的方法則是將圖像多次輸入到網(wǎng)絡(luò)中讥脐,這和SIFT方法的習(xí)慣有些類似遭居。在這篇綜述中,我們將這些方法稱為混合型方法旬渠。
2 分類方法
根據(jù)不同的視覺(jué)表示方法俱萍,本文將檢索文獻(xiàn)大致分為兩類:基于SIFT特征的和基于CNN特征的。進(jìn)一步地告丢,基于SIFT的方法根據(jù)編碼本大小又分為大枪蘑,中,小編碼本三類。我們注意到岳颇,編碼本的大小與所選取的編碼方法緊密相關(guān)照捡。基于CNN的方法分為使用預(yù)訓(xùn)練的模型赦役,微調(diào)的模型以及混合模型方法麻敌。他們的異同點(diǎn)列于表1。
基于SIFT的方法在2012年之前一直是研究的重點(diǎn)(當(dāng)然近年來(lái)也有不少相關(guān)的杰出工作)掂摔。這一類方法通常使用如Hessian-Affine這種探測(cè)器术羔,同時(shí)也使用SIFT這種描述符。編碼本將局部特征映射到一組向量中乙漓〖独基于編碼本大小,我們將基于SIFT的方法分為如下三類叭披。
- 使用小型編碼本寥殖。視覺(jué)詞匯少于幾千個(gè),緊湊向量在降維和編碼之前生成涩蜘。
- 使用中型編碼本嚼贡。鑒于BoW的稀疏性和視覺(jué)詞匯的低區(qū)分度,使用倒排索引和二進(jìn)制簽名方法同诫。準(zhǔn)確率和效率間的權(quán)衡是算法的主要影響因素粤策。
- 使用大型編碼本。鑒于BoW直方圖的稀疏性和視覺(jué)詞匯的高區(qū)分度误窖,在算法中使用了倒排索引和存儲(chǔ)友好型的簽名方式叮盘。在編碼本的生成和編碼中使用了類似的方法。
基于CNN的方法使用CNN模型提取特征霹俺,建立緊湊向量(固定長(zhǎng)度)柔吼。它們也分為三類:
- 混合型方法。圖像塊被多次輸入進(jìn)CNN用于特征提取丙唧。編碼與索引方法和基于SIFT的檢索方法近似愈魏。
- 使用預(yù)訓(xùn)練的模型。通過(guò)在大規(guī)模圖像集(例如ImageNet)上預(yù)訓(xùn)練的CNN模型進(jìn)行單通道傳播提取特征想际。使用緊湊編碼/池化技術(shù)進(jìn)行檢索培漏。
- 使用微調(diào)的模型。在圖像與目標(biāo)數(shù)據(jù)庫(kù)具有相似的分布的訓(xùn)練集上沼琉,對(duì)CNN模型進(jìn)行微調(diào)北苟。通過(guò)單通道CNN模型桩匪,運(yùn)用端到端的方法提取出CNN特征打瘪。這種視覺(jué)表示方法提升了模型的區(qū)分能力。
3 基于SIFT特征的圖像檢索系統(tǒng)
3.1 基本流程
基于SIFT特征與CNN特征的圖像檢索流程如圖2所示。
局部特征提取闺骚。假設(shè)我們有一個(gè)含張圖片的畫(huà)廊彩扔。指定一個(gè)特征檢測(cè)器,我們從稀疏的感興趣點(diǎn)或密集的圖像塊中提取局部描述符僻爽。我們用來(lái)表示局部描述符虫碉,用表示圖像中被檢測(cè)的區(qū)域。
編碼本的訓(xùn)練胸梆。基于SIFT的方法你先訓(xùn)練編碼本敦捧。編碼本中的每一個(gè)視覺(jué)詞匯位于子空間的中心,這稱為“沃羅諾伊單元”碰镜。更大的碼本對(duì)應(yīng)于更精細(xì)的劃分兢卵,從而產(chǎn)生更多區(qū)分性的視覺(jué)詞,反之亦然绪颖。假設(shè)已有一些局部描述符從無(wú)標(biāo)簽的訓(xùn)練集中計(jì)算出秽荤。例如k-means這樣的基準(zhǔn)方法就是將個(gè)點(diǎn)聚類成簇,得到的個(gè)視覺(jué)詞匯即編碼本的大小柠横。
特征編碼窃款。一個(gè)局部描述符通過(guò)特征編碼過(guò)程被映射到嵌入特征。在使用k-means方法時(shí)牍氛,可以根據(jù)到視覺(jué)詞匯的距離進(jìn)行編碼晨继。對(duì)于大規(guī)模的編碼本,硬量化和軟量化方法都是很好的選擇糜俗。前者量化得到只有一個(gè)非零條目的嵌入特征踱稍,后者則是將量化表示為少量的視覺(jué)詞匯。在匯總所有的局部嵌入特征后就得到了一個(gè)全局簽名悠抹。對(duì)于中等規(guī)模的編碼本來(lái)說(shuō)珠月,可以通過(guò)額外的二值簽名拉埃保護(hù)原始信息。當(dāng)使用小規(guī)模編碼本時(shí)楔敌,大多使用VLAD啤挎,F(xiàn)V之類的編碼方法(譯者注:VLAD可以理解為是BOF和FV的折中,BOF是把特征點(diǎn)做kmeans聚類卵凑,然后用離特征點(diǎn)最近的一個(gè)聚類中心去代替該特征點(diǎn)庆聘,損失較多信息;FV是對(duì)特征點(diǎn)用GMM建模勺卢,GMM實(shí)際上也是一種聚類伙判,只不過(guò)它是考慮了特征點(diǎn)到每個(gè)聚類中心的距離,也就是用所有聚類中心的線性組合去表示該特征點(diǎn)黑忱,在GMM建模的過(guò)程中也有損失信息宴抚;VLAD像BOF那樣勒魔,只考慮離特征點(diǎn)最近的聚類中心,同時(shí)保存了每個(gè)特征點(diǎn)到離它最近的聚類中心的距離菇曲;像FV那樣冠绢,VLAD考慮了特征點(diǎn)的每一維的值,對(duì)圖像局部信息有更細(xì)致的刻畫(huà))常潮。
3.2 局部特征提取
局部不變特征針對(duì)精準(zhǔn)匹配圖像局部結(jié)構(gòu)而提出弟胀。基于SIFT的方法和大多特征提取步驟類似喊式,都是由特征檢測(cè)器和描述符組成孵户。
局部檢測(cè)器。感興趣點(diǎn)檢測(cè)器旨在于在多樣的圖像場(chǎng)景中定位出一系列特征穩(wěn)定的局部區(qū)域岔留。在檢索社區(qū)中延届,尋找圖像的仿射協(xié)變區(qū)域(affine-covariant regions)一直是首選方法。它之所以稱之為“協(xié)變的”是因?yàn)闄z測(cè)區(qū)域隨著仿射變化而改變贸诚,因此區(qū)域描述符具有不變性方庭。這種仿射協(xié)變區(qū)域檢測(cè)器和以關(guān)鍵點(diǎn)為中心的海森檢測(cè)器(Hessian detector)不同,當(dāng)然也和以尋找尺度不變區(qū)域?yàn)槟繕?biāo)的高斯差分檢測(cè)器(DoG detector)酱固。適應(yīng)于局部強(qiáng)度模式的橢圓區(qū)域由仿射檢測(cè)器探測(cè)到械念。這就確保了相同的圖像局部結(jié)構(gòu)即使是因?yàn)橐暯亲兓a(chǎn)生形變時(shí)也能被檢測(cè)到,視角形變問(wèn)題也是圖像檢索任務(wù)中的常見(jiàn)問(wèn)題运悲。在里程碑事件中龄减,我們也提到了最穩(wěn)定連通域(MSER)檢測(cè)器和仿射拓展的海爾-拉普拉斯檢測(cè)器( affine extended Harris-Laplace detector)這兩種具有仿射不變性的區(qū)域檢測(cè)器。鑒于海森仿射檢測(cè)器在解決視角變化問(wèn)題中的優(yōu)異性能班眯,社區(qū)認(rèn)為它是要優(yōu)于DoG檢測(cè)器的希停。為了解決這些仿射協(xié)變區(qū)域方向模糊的問(wèn)題,重力假設(shè)方法應(yīng)運(yùn)而生署隘。這種方法拋棄了方向估計(jì)的思路宠能,并在建筑物數(shù)據(jù)集上的效果不斷改善。在圖像檢索中也嘗試了其他的非仿射檢測(cè)器磁餐,例如拉普拉斯-高斯(LOG)和海爾檢測(cè)器违崇。對(duì)于表明光滑的物體,僅有少量的關(guān)鍵點(diǎn)會(huì)產(chǎn)生響應(yīng)诊霹,因此可以用物體邊緣作為局部特征描述羞延。
另一方面,針對(duì)密集區(qū)域檢測(cè)器也有不少研究脾还。在對(duì)比了密集采樣圖像塊和探測(cè)圖像塊兩種方法后伴箩,Sicre等指出前者表現(xiàn)更優(yōu)。為了恢復(fù)密集采樣圖像塊的旋轉(zhuǎn)不變性鄙漏,提出了圖像塊主旋轉(zhuǎn)角方法嗤谚。各種密集采樣策略以及關(guān)鍵點(diǎn)檢測(cè)器的綜合比較可以在《A comparison of dense region detectors for image search and fine-grained classification》這篇文獻(xiàn)中查閱到砂客。
局部描述符。局部描述符使用一系列檢測(cè)區(qū)域?qū)植繄D像內(nèi)容進(jìn)行編碼呵恢。SIFT描述符一直以來(lái)都是大家默認(rèn)使用的描述符。這種128維的向量在匹配準(zhǔn)確率上從眾多描述符中脫穎而出媚创。更進(jìn)一步地渗钉,PCA-SIFT描述符將特征向量的維度從128維減少到36維,通過(guò)增加特征建立計(jì)算量和降低區(qū)分度來(lái)加快匹配速度钞钙。另一種改進(jìn)方法是RootSIFT鳄橘,它首先將SIFT描述符進(jìn)行歸一化,隨后對(duì)每個(gè)元素開(kāi)方芒炼。RootSIFT現(xiàn)在是基于SIFT的檢索方法慣用方法瘫怜。除了SIFT之外,SURF描述符也被廣泛應(yīng)用本刽。SURF描述符結(jié)合了海森-拉普拉斯檢測(cè)器和局部梯度直方圖鲸湃。積分圖技巧可以用于加速特征的計(jì)算(譯者注:積分圖技巧會(huì)對(duì)原圖像首先生成一張積分圖,這種通過(guò)空間換取時(shí)間的策略子寓,在計(jì)算圖像的諸如海爾特征時(shí)可以大幅提高計(jì)算速度)暗挑。SURF可以取得和SIFT近乎一樣的準(zhǔn)確率,同時(shí)SURF計(jì)算速度更快斜友。文獻(xiàn)《A comparison of sift, pca-sift and surf》對(duì)SIFT炸裆,PCA-SIFT和SURFF進(jìn)行了比較。為了進(jìn)一步加快匹配速度鲜屏,二值描述符用漢明距離替代了歐氏距離烹看。
除了手工特征,一些研究人員也提出了學(xué)習(xí)式的方案來(lái)提高局部描述符特征的區(qū)分度洛史。例如惯殊,Philbin等提出了一種非線性的變換使得投影SIFT描述符為真實(shí)匹配產(chǎn)生更小的差異。Simoyan等更進(jìn)一步地設(shè)計(jì)了學(xué)習(xí)池化區(qū)域和線性描述符投影的方案來(lái)改進(jìn)Philbin等的方案也殖。
3.3 使用小規(guī)模編碼本進(jìn)行檢索
小規(guī)模編碼本一般包含幾千靠胜、幾百甚至更少的視覺(jué)詞匯,因此編碼本生成以及編碼算法的時(shí)間復(fù)雜度不高毕源。這方面一些有代表性的工作包括BoW浪漠、VLAD和FV。我們主要討論了VLAD和FV模型霎褐,同時(shí)根據(jù)《Multiple measurements
and joint dimensionality reduction for large scale image search
with short vectors》這篇文獻(xiàn)綜合評(píng)價(jià)了BoW壓縮向量址愿。
3.3.1 生成編碼本
聚類時(shí)的算法復(fù)雜度很大程度上依賴于編碼本的大小。用VLAD或FV生成打的編碼本通常很小冻璃,一般是64,128,256响谓。在VLAD中使用平面k-means聚類算法生成編碼本损合。在FV中使用GMM算法,例如娘纷,式中表示高斯混合曲線的數(shù)目嫁审,通過(guò)極大似然估計(jì)算法訓(xùn)練得到。GMM用個(gè)混合高斯分布曲線描述特征空間赖晶,這同時(shí)也可以表示為律适,其中,和分別表示混合權(quán)重遏插,均值向量和高斯曲線的協(xié)方差矩陣捂贿。
3.3.1 編碼方法
因?yàn)樾∫?guī)模編碼本尺寸小的緣故,相對(duì)復(fù)雜的和存儲(chǔ)信息的方法可以在這上面使用胳嘲。我們?cè)谶@個(gè)小節(jié)中主要調(diào)研了FV厂僧,VLAD方法及其發(fā)展。使用預(yù)先訓(xùn)練的GMM模型了牛,F(xiàn)V描述局部特征和GMM中心之間的平均一階和二階差異颜屠。它的維度是,其中是局部描述符的維度鹰祸,是GMM編碼本的長(zhǎng)度汽纤。FV通常進(jìn)行指數(shù)歸一化(power normalization)以抑制突發(fā)性問(wèn)題。在這一步福荸,F(xiàn)V的每一部分在的非線性變換由參數(shù)表征蕴坪。接下來(lái)使用歸一化,這樣FV就從各方面得到提升敬锐。例如背传,Koniusz等人用每個(gè)描述符的空間坐標(biāo)和相關(guān)的可調(diào)權(quán)重來(lái)對(duì)其進(jìn)行擴(kuò)充。在《Revisiting the fisher vector for fine-grained classification》這篇文獻(xiàn)中台夺,更大的編碼本(將近4096)表現(xiàn)出比小編碼本更好的分類準(zhǔn)確率径玖,當(dāng)然計(jì)算花費(fèi)同時(shí)也增大了。為了修正局部區(qū)域獨(dú)立同分布這一假設(shè)颤介,Cinbis等人提出了非獨(dú)立同分布模型梳星,這個(gè)工作抑制了突發(fā)事件的影響,同時(shí)也改進(jìn)了指數(shù)歸一化的效果滚朵。
VLAD編碼方案由Jégou提出冤灾,可以認(rèn)為VLAD是FV的簡(jiǎn)化版本。VLAD量化將局部特征量化為最近鄰視覺(jué)詞匯辕近,同時(shí)記錄下兩者的距離韵吨。由于編碼本規(guī)模小,因此最近鄰檢索方案可行移宅。在殘差向量被總和池化聚合后進(jìn)行歸一化归粉。VLAD的維度是椿疗。同樣,研究人員對(duì)VLAD在多方面進(jìn)行了改進(jìn)糠悼。Jégou和Chum提出使用PCA和白化(在表5中表示為PCA)去消除視覺(jué)詞語(yǔ)共現(xiàn)現(xiàn)象届榄,并且訓(xùn)練多個(gè)編碼本以減少量化帶來(lái)的損失古劲。Arandjelovi等從三個(gè)方面拓展了VLAD:1)歸一化每個(gè)粗糙聚類中的殘差和俊嗽,稱為內(nèi)部歸一化葫哗,2)通過(guò)詞匯自適應(yīng)來(lái)解決數(shù)據(jù)集遷移問(wèn)題申尤,3)用多VLAD模型(multi-VLAD)來(lái)解決小目標(biāo)發(fā)掘問(wèn)題。Delhumeau等提出應(yīng)該將殘差向量歸一化裕便,而不是求殘差和;他們還提倡在每個(gè)Voronoi格內(nèi)進(jìn)行PCA降維,而不是像《Aggregating local image descriptors into compact codes》中所提出的降維方案班挖。《Improving large-scale image retrieval
through robust aggregation of local descriptors》中提出應(yīng)該使用軟任務(wù)和經(jīng)驗(yàn)性地為每個(gè)等級(jí)學(xué)習(xí)最佳權(quán)重來(lái)改進(jìn)硬量化方案芯砸。
注意到許多常規(guī)的方法對(duì)VLAD萧芙,F(xiàn)V,BoW假丧,局部約束線性編碼(LLC)以及單項(xiàng)嵌入這些嵌入方法有益双揪。Tolias等人提出結(jié)合SIFT描述符,用方向協(xié)變嵌入的方法來(lái)對(duì)SIFT特征主方向進(jìn)行編碼包帚。它通過(guò)在感興趣的區(qū)域內(nèi)使用幾何線索來(lái)實(shí)現(xiàn)與弱幾何一致性(WGC)相似的協(xié)方差屬性渔期,使得與主方向相似的匹配點(diǎn)被加權(quán),反之亦然渴邦。三角嵌入方法只考慮了輸入向量的方向而沒(méi)有考慮其大小疯趟。Jégou等人同樣也提出了一種限制映射向量之間干擾的民主聚合的方法。除了類似民主聚合的思想谋梭,Murray和Perronnin提出信峻,通過(guò)均衡池化向量和每個(gè)編碼表示之間的相似性優(yōu)化廣義最大池化(GMP)方法。
BoW瓮床,VLAD和FV的復(fù)雜度基本一致盹舞。我們忽視線下訓(xùn)練時(shí)間和SIFT特征提取時(shí)間。在視覺(jué)詞匯分配這一步中隘庄,VLAD(FV)模型中每一個(gè)特征(高斯曲線)需要計(jì)算和每一個(gè)視覺(jué)詞匯的距離(soft assignment coefficient)踢步,因此這一步的計(jì)算復(fù)雜度為。并且其他步驟的計(jì)算復(fù)雜度都要小于丑掺〖炙洌考慮到是以求和池化方式進(jìn)行的嵌入,因此編碼過(guò)程總的計(jì)算復(fù)雜度為吼鱼,其中表示圖像中提取的特征的數(shù)目蓬豁。三角嵌入式VLAD的一個(gè)變異體绰咽,它和VLAD的計(jì)算復(fù)雜度相似,都是地粪。及multi-VLAD的計(jì)算復(fù)雜度也是取募,但是它匹配過(guò)程的復(fù)雜度過(guò)大。分層的VLAD的計(jì)算復(fù)雜度是蟆技,其中表示第二個(gè)編碼本的大小玩敏。在特征聚類這一步,GMP和民主聚合方案都有很高的計(jì)算復(fù)雜度质礼。GMP的復(fù)雜度是旺聚,式中是特征嵌入的維度, 民主聚類方法的計(jì)算復(fù)雜度主要來(lái)源于Sinkhorn算法眶蕉。
3.3.3 最似最近鄰檢索
由于VLAD/FV嵌入的維度相當(dāng)高砰粹,因此研究人員提出了高效的壓縮和最似最近鄰檢索(ANN)算法。例如造挽,主成分分析(PCA)算法常適用于降維任務(wù)碱璃,特別是使用PCA降維后檢索的準(zhǔn)確度甚至?xí)岣摺?duì)于基于哈希的最似最近鄰方法饭入,Perronnin等人使用標(biāo)準(zhǔn)二值編碼方法嵌器,如局部敏感哈希(LSH)和譜哈希(spectral hashing)。然而谐丢,在使用SIFT和GIST特征數(shù)據(jù)庫(kù)進(jìn)行測(cè)試時(shí)爽航,譜哈希方法被證明要優(yōu)于乘積量化方法。在這些基于量化的最似最近鄰算法中乾忱,PQ算法表現(xiàn)得最為出色岳掐。關(guān)于VLAD和PQ算法的詳細(xì)研究可以參見(jiàn)《A comprehensive study over vlad
and product quantization in large-scale image retrieval》。同樣饭耳,PQ算法后來(lái)也被不斷改進(jìn)串述。Douze等人提出對(duì)聚類中心重新排序,使得相鄰的中心具有較小的漢明距離寞肖。該方法與基于漢明距離的最似最近鄰檢索相兼容纲酗,這為PQ算法提供了顯著的加速。我們參閱了《A survey on learning to hash》作為ANN方法的調(diào)研報(bào)告新蟆。
我們還提到一種新興的ANN算法觅赊,群組測(cè)試算法。簡(jiǎn)要地說(shuō)琼稻,該算法將數(shù)據(jù)庫(kù)分組吮螺,每組都由一個(gè)組向量表示。通過(guò)查詢和組向量之間的比較計(jì)算出一個(gè)組包含正確匹配的可能性。因?yàn)榻M向量數(shù)目遠(yuǎn)少于數(shù)據(jù)庫(kù)向量鸠补,因此檢索時(shí)間大大縮短萝风。Iscen等提出直接找出數(shù)據(jù)庫(kù)中最優(yōu)組向量,而不用精確地分組紫岩,這個(gè)方案減少了內(nèi)存的消耗规惰。
3.4 使用大規(guī)模編碼本進(jìn)行檢索
一個(gè)大規(guī)模編碼本可能含有1百萬(wàn)個(gè)甚至更多的視覺(jué)詞匯。其中一些步驟和小編碼本方案比起來(lái)有很大的差異泉蝌。
3.4.1 生成編碼本
在將數(shù)據(jù)分配到大量集群中,近似方法是至關(guān)重要的歇万。在檢索社區(qū)中,兩個(gè)有代表性的工作是:分層k-means(HKM)和近似k-means(AKM)勋陪,如圖1和圖3所示贪磺。HKM方法在2006年提出,HKM分層次地應(yīng)用標(biāo)準(zhǔn)k-means方法進(jìn)行特征訓(xùn)練诅愚。HKM首先將特征空間中的點(diǎn)劃分為幾個(gè)簇寒锚,接著遞歸地將每個(gè)簇劃分為更多的群集。在每次遞歸時(shí)呻粹,每個(gè)點(diǎn)都要被歸類為個(gè)簇中的某一個(gè)壕曼,聚類樹(shù)的深度為苏研,其中是期望得到的聚類簇?cái)?shù)目等浊。HKM的計(jì)算復(fù)雜度是,其中是訓(xùn)練樣本數(shù)摹蘑。當(dāng)很大的時(shí)候筹燕,HKM的計(jì)算復(fù)雜度遠(yuǎn)小于扁平k-means(flat k-means)的計(jì)算復(fù)雜度(譯者注:顯然大規(guī)模編碼本的要遠(yuǎn)小于)。
另一個(gè)里程碑式的大規(guī)模編碼本生成算法是AKM衅鹿。該方法利用隨機(jī)K-D樹(shù)對(duì)K聚類中心進(jìn)行索引撒踪,使得在分配步驟中能夠高效地使用ANN搜索。
在AMK算法中大渤,分配步驟的花費(fèi)可以表示為制妄,其中是K-D樹(shù)中要訪問(wèn)的最近簇的候選數(shù)。因此AKM的計(jì)算復(fù)雜度與HKM相當(dāng)泵三,并且當(dāng)K較大時(shí)耕捞,明顯小于扁平k-means算法。實(shí)驗(yàn)表明AKM的量化誤差要低于HKM烫幕,因此它要要優(yōu)于HKM算法俺抽。在大多數(shù)基于AKM的方法中,最似最近鄰檢索算法選用FLANN较曼。
3.4.2 特征編碼(量化)
特征編碼與編碼本聚類是相互交錯(cuò)的磷斧,ANN檢索對(duì)兩者都至關(guān)重要。在AKM和HKM等一些經(jīng)典方法中應(yīng)用的ANN技術(shù)可用于聚類和編碼中。在大規(guī)模編碼本中弛饭,關(guān)鍵是要平衡量化誤差和計(jì)算復(fù)雜度兩者冕末。在編碼步驟中,諸如FV孩哑,稀疏編碼的信息存留式編碼方法大都不可行栓霜,因?yàn)樗鼈兊挠?jì)算復(fù)雜度過(guò)高。因此横蜒,如何在保證量化效率的同時(shí)減少量化誤差仍是一個(gè)極具挑戰(zhàn)的問(wèn)題胳蛮。
對(duì)ANN方法來(lái)說(shuō),最早的解決方案是沿著分層樹(shù)結(jié)構(gòu)量化局部特征丛晌。不同級(jí)別的量化樹(shù)節(jié)點(diǎn)被賦予不同的權(quán)重仅炊。然而,由于高度不平衡的樹(shù)結(jié)構(gòu)澎蛛,該方法優(yōu)于基于k-d樹(shù)的量化方法:一個(gè)視覺(jué)詞被分配給每個(gè)局部特征抚垄,使用從碼書(shū)構(gòu)建的k-d樹(shù)來(lái)進(jìn)行快速ANN搜索。對(duì)這種硬量化方案的一種改進(jìn)是Philbin等人提出的軟量化方案谋逻,這種方案將一個(gè)特征量化為幾個(gè)最近的視覺(jué)詞匯呆馁。由式指出,每個(gè)指定的視覺(jué)單詞的權(quán)重與它到特征的距離呈負(fù)相關(guān)毁兆,其中d是描述符和聚類中心之間的距離浙滤。雖然軟量化是基于歐幾里得距離,但Mikulik等人提出通過(guò)無(wú)監(jiān)督的匹配特征集為每個(gè)視覺(jué)單詞找到相關(guān)的視覺(jué)單詞气堕》睦埃基于概率模型,這些備選詞往往包含匹配特征的描述符茎芭。為了減少軟量化的存儲(chǔ)成本和查詢視覺(jué)詞匯的數(shù)量揖膜,Cai等提出當(dāng)局部特征離最近的視覺(jué)詞匯距離很遠(yuǎn)時(shí),該特征可以被丟棄而且不會(huì)帶來(lái)性能的下降梅桩。為了進(jìn)一步加速量化壹粟,標(biāo)量量化提出局部特征在沒(méi)有明確訓(xùn)練的編碼本的情況下被量化。浮點(diǎn)向量是二值化的宿百,并且所得的二進(jìn)制向量的第一維直接轉(zhuǎn)換為十進(jìn)制數(shù)作為視覺(jué)詞匯趁仙。在高量化誤差和低召回率的情況下,標(biāo)量量化使用位翻轉(zhuǎn)(bit-flop)來(lái)為局部特征生成數(shù)百個(gè)視覺(jué)詞匯犀呼。
3.4.3 特征加權(quán)
TF-IDF. 視覺(jué)詞匯在編碼本 中往往被分配給指定的權(quán)重幸撕。稱為頻率與逆文檔頻率(TF-IDF),這種策略被集成在BoW編碼中外臂。TF定義如下:
式中是視覺(jué)詞匯在圖像中出現(xiàn)的次數(shù)坐儿。另一方面,IDF通過(guò)全局統(tǒng)計(jì)來(lái)表明給定視覺(jué)詞匯(對(duì)文檔)的貢獻(xiàn)。視覺(jué)詞匯經(jīng)典的IDF計(jì)算公式如下:
式中是圖像數(shù)目炭菌,表示視覺(jué)詞匯出現(xiàn)的圖像編號(hào)。視覺(jué)詞匯出現(xiàn)在圖像的的TF-IDF值為:
改進(jìn)方案逛漫。與視覺(jué)單詞加權(quán)相關(guān)的一個(gè)主要問(wèn)題是突變性黑低。它指的是圖像中出現(xiàn)重復(fù)結(jié)構(gòu)的現(xiàn)象。這個(gè)問(wèn)題往往在圖像相似度中占主要位置酌毡。Jégou等人提出了幾個(gè)TF的變種來(lái)解決突變問(wèn)題克握。一個(gè)有效的策略是在TF上進(jìn)行平方運(yùn)算。Revaud等人提出了檢測(cè)在不相關(guān)圖像中頻繁出現(xiàn)的關(guān)鍵點(diǎn)組來(lái)降低評(píng)分函數(shù)的計(jì)算值枷踏,而不是用相同的單詞索引來(lái)分組特征菩暗。盡管上述兩種方法都提出在量化后檢測(cè)突變組,Shi等人提出在描述符階段檢測(cè)它們旭蠕。檢測(cè)到的突變描述符經(jīng)過(guò)平均池化并且送往BoW結(jié)構(gòu)中停团。在改進(jìn)IDF方面,Zheng等人提出了-norm IDF方法來(lái)處理突變情況掏熬,同時(shí)Murata等人設(shè)計(jì)了后來(lái)被并入到BM25公式的指數(shù)IDF佑稠。在大多數(shù)方案都以抑制突變性為目的時(shí),Torii等人將這個(gè)問(wèn)題視為體系結(jié)構(gòu)的一個(gè)顯著特征旗芬,并在突發(fā)性檢測(cè)后設(shè)計(jì)新的相似性度量方法舌胶。
另一個(gè)特征加權(quán)策略是數(shù)據(jù)庫(kù)端的特征增強(qiáng),《Better matching with fewer features: The selection of useful features in large database recognition problems》和《Three things everyone should know to improve object retrieval》在這方面進(jìn)行了研究岗屏。兩篇文獻(xiàn)中的方法都離線構(gòu)建圖像的圖結(jié)構(gòu)辆琅,通過(guò)邊緣指示兩個(gè)圖像是否共享同一對(duì)象漱办。對(duì)第一種方案來(lái)說(shuō)这刷,只有通過(guò)幾何驗(yàn)證的特征才會(huì)被被保留,這降低了存儲(chǔ)成本娩井。然后暇屋,利用其連接圖像的所有視覺(jué)字來(lái)增強(qiáng)基礎(chǔ)圖像的特征。第二種方案進(jìn)一步進(jìn)行對(duì)其進(jìn)行改進(jìn)洞辣,通過(guò)只添加那些被認(rèn)為在增強(qiáng)圖像中可見(jiàn)的視覺(jué)詞匯咐刨,從而干擾性的視覺(jué)詞被排除。
3.4.4 倒排
倒排是一種提高存儲(chǔ)和檢索效率的算法扬霜,它常被用于大/中等規(guī)模的編碼本中定鸟,結(jié)構(gòu)如圖4所示。
倒排是一種單一尺寸的結(jié)構(gòu)著瓶,其中每一個(gè)條目對(duì)應(yīng)編碼本中低的一個(gè)視覺(jué)詞匯联予。每一個(gè)視覺(jué)詞匯都包含一個(gè)倒排表,每個(gè)倒排表中的索引被稱為索引特征或者記錄。倒排索引很好地發(fā)揮了大規(guī)模編碼本詞匯直方圖稀疏性的特點(diǎn)沸久。新的文獻(xiàn)提出新的檢索方法來(lái)適應(yīng)倒排算法季眷。在基準(zhǔn)方案中,圖像ID和TF值都被存儲(chǔ)在一條記錄中卷胯。但其他的信息被整合進(jìn)來(lái)時(shí)子刮,它們的尺寸應(yīng)該足夠小。例如窑睁,在《Contextual weighting for vocabulary tree based image retrieval》中,原始數(shù)據(jù)在一條記錄中被描述符上下文挺峡,描述符密度,平均關(guān)聯(lián)日志規(guī)模和平均方向差異等屬性量化担钮。相似地沙郭,方向等空間信息也會(huì)被量化。在聯(lián)合檢索的方法中裳朋,當(dāng)?shù)古潘饕S著全局一直近鄰增長(zhǎng)是病线,單獨(dú)分割的圖片將會(huì)被刪除以減少內(nèi)存消耗。在《The inverted multi-index》中提出鲤嫡,原始的單一尺寸倒排索引可以拓展為二維結(jié)構(gòu)來(lái)進(jìn)行替代了SITF特征向量的ANN檢索送挑。后來(lái),這種方法被《Packing and padding: Coupled multi-index for accurate image retrieval》改進(jìn)暖眼,融合局部顏色和SIFT描述符進(jìn)行實(shí)例檢索惕耕。
3.5 使用中等規(guī)模編碼本進(jìn)行檢索
中等規(guī)模編碼本一般含有10——200k個(gè)視覺(jué)詞匯。視覺(jué)詞匯展現(xiàn)了中等區(qū)分能力诫肠,同時(shí)檢索時(shí)也使用了倒排索引司澎。
3.5.1 編碼本的生成與量化
考慮到中等規(guī)模編碼本和大規(guī)模編碼本相比,計(jì)算成本較低栋豫,扁平k-means可以在中等規(guī)模編碼本的生成中使用挤安。同樣也有文獻(xiàn)指出使用AKM算法可以在聚類中取得很好的效果。
在量化過(guò)程中丧鸯,最近鄰檢索用來(lái)搜索最近的視覺(jué)詞匯蛤铜。實(shí)踐表明使用高精度的ANN算法可以得到更好的檢索效果。和大規(guī)模編碼本下量化算法的研究熱度比起來(lái)丛肢,中等規(guī)模編碼本的研究明顯低了很多围肥。
3.5.2 漢明嵌入算法及其改進(jìn)
在中等規(guī)模編碼本下視覺(jué)詞匯的區(qū)分度介于小規(guī)模編碼本和大規(guī)模編碼本之間。因此蜂怎,對(duì)量化過(guò)程中帶來(lái)的信息損失需要進(jìn)行補(bǔ)償穆刻。最終,漢明嵌入(HE)這個(gè)里程碑式的工作成為實(shí)踐中的主流算法杠步。
HE算法由Jégou等人在論文《Hamming embedding and weak geometric consistency for large scale image search》中提出氢伟,它提升了中等規(guī)模編碼本下視覺(jué)詞匯的區(qū)分能力撰洗,也是首次將一個(gè)SIFT描述符從維空間映射到維空間:
式中差导,是一個(gè)投影矩陣猪勇,是一個(gè)低維向量设褐。通過(guò)創(chuàng)建一個(gè)高斯隨機(jī)矩陣同時(shí)對(duì)它使用分解,矩陣作為最后正交陣的前行助析。對(duì)于二值化,Jegou等人提出在每個(gè)Voronoi單元中使用描述符下降法來(lái)計(jì)算低維向量的中值向量外冀。給定描述符和它的投影向量,HE計(jì)算它的視覺(jué)詞匯掀泳,HE二值向量計(jì)算公式如下:
其中是第維的HE向量計(jì)算結(jié)果员舵。二值特征作為特征匹配的第二重校驗(yàn)脑沿。當(dāng)滿足以下兩個(gè)標(biāo)準(zhǔn)時(shí),一對(duì)局部特征可以認(rèn)為是匹配的:1) 它們是同一個(gè)視覺(jué)詞匯马僻;2) 它們的HE哈希值距離很小庄拇。HE的擴(kuò)展方法通過(guò)指數(shù)函數(shù)估計(jì)特征和與Hamming距離的匹配強(qiáng)度:
其中,和分別代表特征和的二值向量韭邓,計(jì)算兩個(gè)二值向量的漢明距離措近,是權(quán)重參數(shù)。如圖6所示女淑,HE及其加權(quán)版本在2008和2010年準(zhǔn)確率大大提高瞭郑。
HE的應(yīng)用于視頻拷貝檢測(cè)、圖像分類和重排序等場(chǎng)合诗力。例如凰浮,在圖像分類中我抠,例如苇本,在圖像分類中,將HE集成到基于線性核的SVM中菜拓,有效地提高了了圖像塊匹配相似度的速度瓣窄。在圖像重排序任務(wù)中,Tolias等人使用更低的HE閾值來(lái)找到類似于RANSAC得到的(圖像局部特征)嚴(yán)格對(duì)應(yīng)關(guān)系纳鼎,并且得到的圖像子集更可能包含真正應(yīng)查得的圖像俺夕。
有很多工作都對(duì)HE提升裳凸,特別是從匹配核的角度對(duì)HE進(jìn)行改進(jìn)。為了減少查詢上的信息損失劝贸,Jain等人提出一種矢量二值距離比較法姨谷。它利用向量到超平面距離,同時(shí)保持倒排索引的效率映九。更進(jìn)一步地梦湘,Qin等人在概率框架內(nèi)設(shè)計(jì)一個(gè)高階匹配核函數(shù),并通過(guò)假匹配的距離分布自適應(yīng)地標(biāo)準(zhǔn)化局部特征距離件甥。該方法的思想類似于《Accurate image search using the contextual dissimilarity measure》捌议,其中,根據(jù)每個(gè)視覺(jué)詞匯的鄰域分布渊跋,將字-字距離而不是特征-特征距離歸一化羡铲。雖然在《Accurate image search using the contextual dissimilarity measure》中化撕,一個(gè)詞與它的鄰居之間的平均距離被規(guī)范為幾乎為恒定值,但后來(lái)在《Triangulation embedding and democratic aggregation for image search》中采用了將單個(gè)嵌入向量的貢獻(xiàn)民主化的想法宫补。在《To aggregate or not to aggregate: Selective match kernels for image search》中,Tolias等人表明VLAD和HE向量具有相似的性質(zhì)曾我,并提出了一種新的匹配核函數(shù)守谓,它在局部特征聚合和特征到特征匹配之間進(jìn)行折衷,使用和《Query adaptive similarity for large scale object retrieval》相似的匹配函數(shù)您单。他們還證明了在HE中使用更多比特位(例如128bit)優(yōu)于原始64比特方案斋荞,代價(jià)是效率的降低。在《Scalar quantization for large scale image search》中使用了更多的位(256)虐秦,但是這種方法可能使得結(jié)果的召回率相對(duì)較低平酿。
3.6 其他重要問(wèn)題
3.6.1 特征融合
局部-局部特征融合。 SIFT特征的一個(gè)問(wèn)題就是它只提供了局部梯度描述悦陋,在圖像中編碼的其他判別信息仍然沒(méi)有被利用蜈彼。在圖5(B)中,由于一對(duì)錯(cuò)誤匹配在SIFT空間中的相似性俺驶,因此這對(duì)匹配沒(méi)有被HE編碼拒絕幸逆,但是其他局部(或區(qū)域)特征的融合可以糾正這個(gè)問(wèn)題。
將SIFT與顏色描述符耦合是局部-局部特征融合的一個(gè)好選擇暮现。顏色-SIFT描述符融合特征的使用可以部分地解決不變性和辨別能力之間的權(quán)衡問(wèn)題还绘。在幾個(gè)基準(zhǔn)識(shí)別測(cè)試集上已經(jīng)對(duì)幾個(gè)諸如HSV-SIFT,HueSIFT和OpponentSIFT幾個(gè)融合特征進(jìn)行了評(píng)估栖袋。HSV-SIFT和HueSIFT特征都屬于尺度拍顷,平移不變性特征。OpponentSIFT使用SIFT描述符描述對(duì)立的顏色空間中的所有通道塘幅,并且對(duì)光照顏色變化大的圖像具有很強(qiáng)的魯棒性昔案。在《Evaluating color descriptors for object and scene recognition》中認(rèn)為OpponentSIFT是當(dāng)有關(guān)數(shù)據(jù)沒(méi)有先驗(yàn)知識(shí)時(shí)的優(yōu)先選擇尿贫。在最近的工作中,二進(jìn)制顏色簽名都存儲(chǔ)在倒排索引中踏揣。盡管現(xiàn)有的圖像檢索方法在一些數(shù)據(jù)集上取得了很好的檢索精度庆亡,但一個(gè)潛在不容忽視:照明的密集變化可能會(huì)有損顏色特征檢索的有效性。
局部-全局特征融合捞稿。 局部特征和全局特征從不同的角度來(lái)描述圖像并互為補(bǔ)充身冀。在圖5(C)中,但局部(以及區(qū)域)信息不足以判斷出一個(gè)錯(cuò)誤的匹配對(duì)時(shí)括享,進(jìn)一步整合更廣的上下文尺度視覺(jué)信息是有效的搂根。前期和后期融合是兩種可能的方式。在前期融合中铃辖,圖像鄰域關(guān)系由如AlexNet中的FC8這樣的全局特征挖掘出剩愧,并融合在基于SIFT的倒排索引中。在后期融合中娇斩,Zhang等人為每種類型的特征創(chuàng)建一個(gè)離線圖仁卷,隨后在在線查詢期間進(jìn)行特征融合。在對(duì)《Query specific fusion for image retrieval》中的方法進(jìn)行改進(jìn)時(shí)犬第,Deng等人在《Visual reranking through weakly supervised multi-graph learning》提出增加弱監(jiān)督錨(weakly supervised anchors)來(lái)協(xié)助圖融合锦积。兩個(gè)工作都是在排序方面進(jìn)行研究。對(duì)于分?jǐn)?shù)級(jí)別的融合歉嗓,將自動(dòng)學(xué)習(xí)的類別的特定屬性與預(yù)訓(xùn)練的類級(jí)別信息相結(jié)合丰介。Zheng等人在《Query-adaptive late fusion for image search and person re-identification》中提出通過(guò)提取一些特征(局部或全局特征,好的或壞的特征)進(jìn)行后期特征融合的自適應(yīng)查詢鉴分,并且以自適應(yīng)查詢的方式賦給特征相應(yīng)的權(quán)重哮幢。
3.6.2 幾何學(xué)上的匹配問(wèn)題
BoW模型的一個(gè)常見(jiàn)問(wèn)題是缺乏局部特征間的幾何約束。幾何驗(yàn)證可以用作各種場(chǎng)景的關(guān)鍵預(yù)處理步驟志珍,例如拓展查詢橙垢,特征選擇,數(shù)據(jù)庫(kù)端的特征增強(qiáng)伦糯,大規(guī)墓衲常咯物體挖掘等。著名的全局空間驗(yàn)證方法是RANSAC敛纲。RANSAC它重復(fù)計(jì)算每個(gè)對(duì)應(yīng)的仿射變換喂击,并通過(guò)適合變換的內(nèi)點(diǎn)數(shù)來(lái)驗(yàn)證。RANSAC算法有效地重新排列排名最高的圖像的子集载慈,但存在效率問(wèn)題惭等。最終,如何在SIFT為基礎(chǔ)的框架下有效办铡、準(zhǔn)確地結(jié)合空間信息被廣泛地研究辞做。
一個(gè)好的方法是研究局部特征間的空間上下文。例如寡具,視覺(jué)短語(yǔ)在獨(dú)立的視覺(jué)詞匯中產(chǎn)生以提供更加精準(zhǔn)的匹配規(guī)范秤茅。估計(jì)和聚合整個(gè)圖像中的視覺(jué)詞匯共現(xiàn)是一種研究思路,同時(shí)也有研究員研究視覺(jué)詞匯在局部鄰域中的聚類童叠。視覺(jué)短語(yǔ)也可以通過(guò)臨近圖像塊框喳,隨機(jī)空間分割和局部穩(wěn)定區(qū)域(如MSER)的方式來(lái)組成。
另一種策略使用投票機(jī)制來(lái)檢查幾何一致性厦坛。在投票空間中五垮,具有較大值的容器更可能代表真正的轉(zhuǎn)換。其中一項(xiàng)重要的工作就是弱幾何一致性(WGC)杜秸,這種方法關(guān)注匹配特征在尺度和方向上的差異,不同空間則被量化到容器中放仗。Hough投票方法被用來(lái)定位在規(guī)模或方向上相似或相異的子集撬碟。許多后來(lái)的研究工作可以看作是WGC的擴(kuò)展诞挨。例如,Zhang等人的工作《Image retrieval with geometrypreserving visual phrases》可以被視為使用x呢蛤,y偏移量而不是比例和方向的WGC方法惶傻。該方法具有目標(biāo)平移不變性,但由于采用了剛體坐標(biāo)量化其障,因此對(duì)尺度和旋轉(zhuǎn)變化敏感银室。為了重新獲得目標(biāo)的尺度和旋轉(zhuǎn)的不變性,Shen等人在《Object retrieval and localization with spatially-constrained similarity measure and k-nn re-ranking》中提出在應(yīng)用多個(gè)變換后励翼,量化查詢區(qū)域的角度和尺度粮揉。Shen等人的這個(gè)方法的一個(gè)缺點(diǎn)就是,查詢時(shí)間和存儲(chǔ)效率的降低抚笔。實(shí)現(xiàn)高效的投票方法并減輕量化損失扶认,論文《Hough pyramid matching: Speeded-up geometry re-ranking for large scale image retrieval》提出了霍夫金字塔匹配(HPM)方法,通過(guò)分層劃分變換空間來(lái)分配匹配結(jié)果殊橙。HPM在靈活性和準(zhǔn)確性之間取得了平衡辐宾,非常高效。還可以通過(guò)允許單個(gè)通信對(duì)多個(gè)容器進(jìn)行投票來(lái)減少量化損失膨蛮。HPM和這種方法都在速度上快于RANSAC算法叠纹,同時(shí)也可以被看作是對(duì)和HE一起提出的WGC在旋轉(zhuǎn)和尺度不變性上的拓展。在《Pairwise geometric matching for large-scale object retrieval》中提出了一種基于投票的全局方向和尺度的粗略估計(jì)方法敞葛,以此來(lái)檢驗(yàn)通過(guò)匹配特征得到的變形參數(shù)誉察。《A vote-and-verify strategy for fast spatial verification in image retrieval》結(jié)合了基于假設(shè)的方法(如RANSAC)和基于投票的方法的優(yōu)點(diǎn)惹谐,通過(guò)投票和后續(xù)的驗(yàn)證持偏、精確微調(diào)來(lái)確定可能的假設(shè)驼卖。該方法保有了投票方法的效率,同時(shí)因?yàn)樗妮敵鍪秋@式變換和一組內(nèi)值鸿秆,因此還支持了查詢擴(kuò)展酌畜。
3.6.3 拓展查詢
作為后處理步驟,拓展查詢(QE)對(duì)提高檢索的準(zhǔn)確度很有幫助卿叽。簡(jiǎn)單地說(shuō)桥胞,QE就是采用來(lái)自原始排名列表的多個(gè)排在前列的圖像來(lái)發(fā)布新的查詢,新的查詢用于獲得新的排名列表考婴。QE可以增加額外的有區(qū)分度的特征到原始查詢中贩虾,因此提高了召回率。
在實(shí)例檢索任務(wù)中沥阱,Chum等人是第一個(gè)提出研究這項(xiàng)工作的缎罢。他們提出了平均拓展查詢(AQE)方法,用排名靠前的圖像的平均特征來(lái)發(fā)出新的查詢喳钟。通常屁使,空間驗(yàn)證用于重排序以及局部特征通過(guò)平均池化獲得感興趣區(qū)域。AQE被后來(lái)許多工作作為標(biāo)準(zhǔn)工具來(lái)使用奔则。遞歸AQE和尺度-帶遞歸QE是對(duì)AQE有效的改進(jìn)蛮寂,但它們的計(jì)算成本更大。四年后易茬,Chum等從學(xué)習(xí)背景的混淆酬蹋、擴(kuò)展查詢區(qū)域和增加空間驗(yàn)證的角度來(lái)改進(jìn)QE。在《Three things everyone should know to improve object retrieval》中分別使用最靠前和最靠后圖片作為訓(xùn)練正負(fù)樣本抽莱。在線訓(xùn)練了一個(gè)線性支持向量機(jī)范抓。學(xué)習(xí)到的權(quán)重向量用于計(jì)算平均查詢。其他重要的QE算法的擴(kuò)展包括基于互惠鄰居思想的“hello neighbor”算法食铐,基于排序的權(quán)重QE算法匕垫,漢明QE算法等。
3.6.4 小目標(biāo)檢索
檢索圖像中的一小部分對(duì)象是一項(xiàng)具有挑戰(zhàn)性的任務(wù)由于1) 檢測(cè)到的局部特征數(shù)量少虐呻,2) 背景噪聲過(guò)大象泵。TRECVID活動(dòng)中的實(shí)例檢索任務(wù)和logo檢索任務(wù)都是小目標(biāo)檢索任務(wù)中的重要競(jìng)賽/應(yīng)用。
一般來(lái)數(shù)斟叼,TRECVID任務(wù)和logo檢索都可以用相似的流程來(lái)處理偶惠。對(duì)于基于關(guān)鍵點(diǎn)的檢索方法,局部特征之間的空間上下文對(duì)區(qū)分目標(biāo)是至關(guān)重要的朗涩,特別是對(duì)要求苛刻的小目標(biāo)檢索任務(wù)來(lái)說(shuō)忽孽。其他有效的方法包括突發(fā)性處理,考慮查詢對(duì)象和目標(biāo)對(duì)象之間不同的比率。在第二種方法中兄一,有效的可能區(qū)域或多尺度圖像塊可用作候選對(duì)象區(qū)域厘线。在《Efficient diffusion on region manifolds: Recovering small objects with compact cnn representations》中,提出了一種基于鄰域圖的區(qū)域擴(kuò)散機(jī)制瘾腰,以進(jìn)一步提高小對(duì)象的查全率皆的,達(dá)到了當(dāng)時(shí)最高水平覆履。
4 基于CNN的圖像檢索系統(tǒng)
基于CNN的圖像檢索方法近年來(lái)不斷被提出蹋盆,并且在逐漸取代基于手工檢測(cè)器和描述符的方法。在這篇綜述中硝全,基于CNN的方法被分為三類:使用預(yù)訓(xùn)練的CNN模型栖雾,使用微調(diào)的CNN模型以及使用混合模型。前兩類方法使用單向傳遞網(wǎng)絡(luò)來(lái)提取全局特征伟众,混合模型方法可能需要多個(gè)網(wǎng)絡(luò)傳遞析藕。如圖2所示。
4.1 使用預(yù)訓(xùn)練CNN模型的圖像檢索系統(tǒng)
由于預(yù)訓(xùn)練CNN模型是單通模式凳厢,因此這種方法在特征計(jì)算中非常高效账胧。考慮到傳輸特性先紫,它的成功在于特征提取和編碼步驟治泥。我們將首先描述一些常用的數(shù)據(jù)集和網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后進(jìn)行特征計(jì)算遮精。
4.1.1 預(yù)訓(xùn)練的CNN模型
流行的CNN網(wǎng)絡(luò)結(jié)構(gòu)居夹。 AlexNet,VGGNet本冲,GoogleNet以及ResNet這幾個(gè)CNN網(wǎng)絡(luò)適用于特征提取准脂,詳見(jiàn)表2.簡(jiǎn)單來(lái)說(shuō),CNN網(wǎng)絡(luò)可以視為一系列非線性函數(shù)的集合檬洞,它由如卷積狸膏,池化,非線性等多個(gè)層組成添怔。CNN是一個(gè)分層次的結(jié)構(gòu)湾戳。自網(wǎng)絡(luò)的底層到頂層,圖像經(jīng)過(guò)濾波器的卷積澎灸,同時(shí)這些圖像濾波器的感受野隨增長(zhǎng)而增加院塞。同一層的濾波器尺寸相同但是參數(shù)不同。AlxNet是這些網(wǎng)絡(luò)中最早被提出的的性昭,它有五個(gè)卷積層和三個(gè)全連接(FC)層拦止。它的第一層大小96個(gè)11×11×3的濾波器,在第五層中有256個(gè)大小為3×3×192的濾波器。Zeiler等人觀察到濾波器對(duì)某些視覺(jué)模式十分敏感汹族,這些模式從底層的低級(jí)的圖像紋理演變到頂層的高級(jí)的圖像目標(biāo)萧求。對(duì)于低層次和簡(jiǎn)單的視覺(jué)刺激,CNN濾波器類似局部手工制作的特征中的檢測(cè)器顶瞒,但是對(duì)于高層次和復(fù)雜的刺激夸政,CNN濾波器具有不同于SIFT類檢測(cè)器的特質(zhì)。AlxNET已被證明被新的的如具有最大數(shù)量參數(shù)的VGGNet超越榴徐。ResNet和GoogleNet分別贏得了ILSVRC 2014和2015的挑戰(zhàn)守问,表明CNN網(wǎng)絡(luò)的效果和網(wǎng)絡(luò)層數(shù)成正比。如果要調(diào)研全部這些網(wǎng)絡(luò)超出了本文的范圍坑资,我們建議讀者參閱《Imagenet classification with deep convolutional neural networks》耗帕,《Return of the devil in the details: Delving deep into convolutional nets》和《Very deep convolutional networks for large-scale image recognition》中的細(xì)節(jié)。
用于預(yù)訓(xùn)練模型的數(shù)據(jù)集袱贮。 一些大規(guī)模的識(shí)別數(shù)據(jù)集被用于CNN網(wǎng)絡(luò)的預(yù)訓(xùn)練仿便。在其中,ImageNet數(shù)據(jù)集常被研究員拿來(lái)使用攒巍。它包含1000個(gè)語(yǔ)義類的120萬(wàn)個(gè)圖像嗽仪,并且通常被認(rèn)為是具有普適性的。用于預(yù)訓(xùn)練模型的另一個(gè)數(shù)據(jù)集是PASES-205柒莉,它的數(shù)據(jù)規(guī)模是ImageNet的兩倍但圖像種類卻要比ImageNet少五倍闻坚。它是一個(gè)以場(chǎng)景為主的數(shù)據(jù)集,描繪了各種室內(nèi)場(chǎng)景和室外場(chǎng)景常柄。在《Learning deep features for scene recognition using places database》中鲤氢,混合了ImageNet和PASES-205的數(shù)據(jù)集也同樣會(huì)被拿來(lái)用于模型的預(yù)訓(xùn)練。HybridNet在《Going deeper with convolutions》西潘,《Deep residual learning for image recognition》卷玉,《Factors of transferability for a generic convnet representation》和《A practical guide to cnns and fisher vectors for image instance retrieval》中被用于實(shí)例檢索任務(wù)的評(píng)估。
遷移問(wèn)題喷市。 最近的一些工作綜合評(píng)估了各種CNN網(wǎng)絡(luò)在實(shí)例檢索任務(wù)中的表現(xiàn)相种,遷移問(wèn)題是大家都比較關(guān)心的。在《Factors of transferability for a generic convnet representation》中將實(shí)例檢索任務(wù)認(rèn)為是距離原始數(shù)據(jù)集最遠(yuǎn)的(計(jì)算機(jī)視覺(jué))目標(biāo)品姓。首先寝并,在模型遷移過(guò)程中,從不同層提取的特征表現(xiàn)出不同的檢索性能腹备。實(shí)驗(yàn)表明高層網(wǎng)絡(luò)的泛化能力要低于較低層的網(wǎng)絡(luò)衬潦。例如,在ImageNet上預(yù)訓(xùn)練的網(wǎng)絡(luò)AlexNet表明植酥,F(xiàn)C6镀岛、FC7和FC8在檢索精度上呈遞減順序弦牡。《Particular object retrieval with integral max-pooling of cnn activations》和《Good practice in cnn feature transfer》也指出漂羊,當(dāng)使用適當(dāng)?shù)木幋a技術(shù)時(shí)驾锰,AlexNet和VGGNet的pool5層特征甚至優(yōu)于FC6層特征。其次走越,當(dāng)原始的訓(xùn)練集不同時(shí)椭豫,模型的準(zhǔn)確率也會(huì)受到影響。例如旨指,Azizpour等人指出HybridNet在Holidays數(shù)據(jù)集上展現(xiàn)出的性能要劣于PCA赏酥。他們同樣發(fā)現(xiàn)在ImageNet上預(yù)訓(xùn)練的AlexNet模型在包含常見(jiàn)物體而非建筑場(chǎng)景圖像的Ukbench數(shù)據(jù)集上的表現(xiàn)要好于PlacesNet和HybridNet(譯者注:AlexNet,PlacesNet和HybridNet預(yù)訓(xùn)練模型使用的訓(xùn)練集不同)淤毛。因此今缚,當(dāng)使用預(yù)訓(xùn)練的CNN模型時(shí)算柳,源和目標(biāo)的相似度在實(shí)例檢索中起著至關(guān)重要的作用低淡。
4.1.2 特征提取
FC描述符。 最直接的想法就是網(wǎng)絡(luò)的全連接層(FC layer)提取描述符瞬项,在AlexNet中就是FC6或FC7中的描述符蔗蹋。FC描述符是在與輸入圖像卷積的層之后生成的,具有全局表示性囱淋,因此可以被視為全局特征猪杭。它在歐幾里德距離下產(chǎn)生較好的檢索精度,并且可以使用指數(shù)歸一化來(lái)提高檢索精度妥衣。
中間局部特征皂吮。 許多最新的檢索方法專注于研究中間層的描述符。在這種方法中税手,低層網(wǎng)絡(luò)的卷積核用于檢測(cè)局部視覺(jué)模式蜂筹。作為局部檢測(cè)器,這些濾波器具有較小的感受野并密集地應(yīng)用于整張圖像芦倒。與全局FC特征相比艺挪,局部檢測(cè)器對(duì)于諸如截?cái)嗪驼趽醯膱D像變換更魯棒,其方式類似于局部不變量檢測(cè)器兵扬。
局部描述符與這些中間局部檢測(cè)器緊密耦合麻裳,換而言之,它們是輸入圖像對(duì)這些卷積運(yùn)算的響應(yīng)器钟。另一方面津坑,在卷積運(yùn)算后等到的激活圖層可以看做是特征的集成,在這篇綜述中將其稱為“列特征”傲霸。例如疆瑰,在AlexNet中第一層有個(gè)檢測(cè)器(卷積濾波器)。這些濾波器產(chǎn)生了張大小為熱力圖(在最大池化后)。熱力圖中的每個(gè)像素點(diǎn)具有大小的感受野乃摹,同時(shí)記錄了圖像對(duì)濾波器的響應(yīng)禁漓。因此列特征的大小是,它可以看作是對(duì)原始圖像中某個(gè)圖像塊的描述孵睬。該描述符的每個(gè)維度表示相應(yīng)檢測(cè)器的激活程度播歼,并且在某種程度上類似于SIFT描述符。列特征最早出現(xiàn)在《Visual
instance retrieval with deep convolutional networks》中掰读,Razavian等人首先在分好塊的特征圖上進(jìn)行最大池化秘狞,然后將它們連接在所有過(guò)濾器上,最終生成列特征蹈集。在《Hypercolumns for object segmentation and fine-grained localization》中烁试,來(lái)自多層的列特征被連接形成“超列”(hypercolumn)特征。
4.1.3 特征編碼與池化
當(dāng)提取列特征時(shí)拢肆,圖像由一組描述符表示减响。為了將這些描述符聚合為全局表示,目前采用了兩種策略:編碼和直接池合并(如圖2所示)郭怪。
編碼支示。 一組列特征類似于一組SIFT特征,因此可以直接使用標(biāo)準(zhǔn)編碼方案。常用的方法就是VLAD和FV算法鄙才,兩個(gè)算法的簡(jiǎn)要介紹可以參加本文3.3.2節(jié)颂鸿。一個(gè)里程碑式的工作發(fā)布于《Exploiting local features from deep networks for image retrieval》,文中后首次將列特征用VLAD算法編碼攒庵。這個(gè)想法后來(lái)擴(kuò)展為CNN的微調(diào)嘴纺。BoW編碼同樣也可以使用,具體工作可以參見(jiàn)《Hybrid multi-layer deep cnn/aggregator feature for image classification》浓冒。每個(gè)層內(nèi)的列特征被聚集成一個(gè)BoW向量栽渴,然后跨層連接●烧簦《Bags of local convolutional features for scalable instance search》是固定長(zhǎng)度表示的一個(gè)例外熔萧,這篇文章將列特征用大小為25K的碼本量化,還采用了倒排索引結(jié)構(gòu)來(lái)提升效率僚祷。
池化佛致。 CNN特征與SIFT的主要區(qū)別在于前者在每個(gè)維度上都有明確的含義,也就是對(duì)輸入圖像的特定區(qū)域的濾波器響應(yīng)。因此辙谜,除了上面提到的編碼方案之外俺榆,直接池化技術(shù)也可以產(chǎn)生具有區(qū)分度的特征。
這方面的一項(xiàng)里程碑工作包括Tolias等人提出的最大卷積激活(MAC)装哆。在沒(méi)有扭曲或裁剪圖像的情況下罐脊,MAC用單個(gè)前向傳遞來(lái)計(jì)算全局描述符定嗓。特別地,MAC計(jì)算每個(gè)中間特征映射的最大值萍桌,并將所有這些值串聯(lián)在一個(gè)卷積層內(nèi)宵溅。在其多區(qū)域版本中,使用積分圖算法和最似最大算子進(jìn)行快速計(jì)算上炎。隨后局部的MAC描述符隨著一系列歸一化和PCA白化操作被一起合并恃逻。我們?cè)诒敬握{(diào)研中也注意到了其他一些工作同樣也采用了相似的思想,在中間特征映射上采用最大或平均池化藕施,其中Razavian等人的《Visual instance retrieval with deep convolutional networks》是打開(kāi)先河的工作傲诵。同時(shí)大家也發(fā)現(xiàn)最后一層卷積層(如VGGNet的pool5)在池化后達(dá)到的準(zhǔn)確率要高于FC描述符以及其他卷積層缚够。
除了直接特征池化,在池化之前給每個(gè)層內(nèi)的特征圖分配一些特定的權(quán)重也是有益的邢笙。在《Aggregating local deep features for image retrieval》中挑势,Babenko等人提出“目標(biāo)對(duì)象往往出現(xiàn)在圖像中心”這樣一個(gè)先驗(yàn)知識(shí)薄嫡,并在總池化前對(duì)特征圖施加一個(gè)2-D高斯掩膜封断。Xie等人在《Interactive: Inter-layer activeness propagation》中改進(jìn)了MAC表示法掀序,他們將高層語(yǔ)義和空間上下文傳播到底層神經(jīng)元,以提高這些底層激活神經(jīng)元的描述能力烦绳。Kalantidis等人使用了一個(gè)更常規(guī)的加權(quán)策略卿捎,他們同時(shí)執(zhí)行特征映射和信道加權(quán)以突出高激活的空間響應(yīng),同時(shí)減少異常突發(fā)情況的影響径密。
4.2 使用微調(diào)CNN模型的圖像檢索系統(tǒng)
雖然預(yù)先訓(xùn)練的CNN模型已經(jīng)取得了令人驚嘆的檢索性能,但在指定訓(xùn)練集上對(duì)CNN模型進(jìn)行微調(diào)也是一個(gè)熱門話題躺孝。當(dāng)采用微調(diào)的CNN模型時(shí)享扔,圖像級(jí)的描述符通常以端到端的方式生成,那么網(wǎng)絡(luò)將產(chǎn)生最終的視覺(jué)表示植袍,而不需要額外的顯式編碼或合并步驟惧眠。
4.2.1 用于微調(diào)網(wǎng)絡(luò)的數(shù)據(jù)集
微調(diào)網(wǎng)絡(luò)時(shí)使用的數(shù)據(jù)集對(duì)學(xué)習(xí)高區(qū)分度的CNN特征具有至關(guān)重要的作用。ImageNet僅提供了圖像的類別標(biāo)簽于个,因此預(yù)訓(xùn)練的CNN模型可以對(duì)圖像的類別進(jìn)行分類氛魁,但卻難以區(qū)分同一類的圖像。因此要面向任務(wù)數(shù)據(jù)集進(jìn)行CNN模型微調(diào)厅篓。
近年來(lái)用于微調(diào)網(wǎng)絡(luò)方法數(shù)據(jù)集統(tǒng)計(jì)在表3中秀存。數(shù)據(jù)集主要集中于建筑物和普通物體中。微調(diào)網(wǎng)絡(luò)方向一個(gè)里程碑式的工作是《Neural codes for image retrieva》羽氮。這篇文章通過(guò)一個(gè)半自動(dòng)化的方法收集地標(biāo)數(shù)據(jù)集:在Yandex搜索引擎中自動(dòng)地爬取流行的地標(biāo)或链,然后手動(dòng)估計(jì)排名靠前的相關(guān)圖像的比例。該數(shù)據(jù)集包含672類不同的地標(biāo)建筑档押,微調(diào)網(wǎng)絡(luò)在相關(guān)的地標(biāo)數(shù)據(jù)集澳盐,如Oxford5k和假日數(shù)據(jù)集上表現(xiàn)優(yōu)異祈纯,但是在Ukbench數(shù)據(jù)集(包含有普通物體)上性能降低了。Babenko等人也在含有300個(gè)多角度拍攝的日常物品圖像的多視圖RGB-D數(shù)據(jù)集上對(duì)CNN模型進(jìn)行了精細(xì)調(diào)整叼耙,以提高在Ukbench數(shù)據(jù)集上的性能腕窥。地標(biāo)數(shù)據(jù)集后來(lái)被Gordo等人使用,他們使用基于SIFT匹配的自動(dòng)清洗方法后再微調(diào)網(wǎng)絡(luò)筛婉。在《Cnn image retrieval learns from bow: Unsupervised fine-tuning with hard examples》中油昂,Radenovi等人利用檢索和運(yùn)動(dòng)結(jié)構(gòu)的方法來(lái)構(gòu)建三維地標(biāo)模型,以便將描述相同建筑的圖像進(jìn)行分組倾贰。使用這個(gè)標(biāo)記的數(shù)據(jù)集冕碟,線性判別投影方法(在表5中表示為)優(yōu)于先前的白化方法。另一個(gè)名為** Tokyo Time Machine**的數(shù)據(jù)集使用谷歌街景時(shí)間機(jī)器工具來(lái)收集圖像匆浙,谷歌提供的這個(gè)工具可以提供同一地點(diǎn)不同時(shí)間的圖像安寺。上述的大部分?jǐn)?shù)據(jù)集主要關(guān)注了地標(biāo)圖像,而B(niǎo)ell等人則建立了一個(gè)由家具組成的產(chǎn)品數(shù)據(jù)集首尼,通過(guò)開(kāi)發(fā)眾包流程來(lái)繪制現(xiàn)場(chǎng)的目標(biāo)和相應(yīng)產(chǎn)品之間的連接挑庶。對(duì)所得到的查詢集進(jìn)行微調(diào)也是可行的,但是這種方法可能不適合于新的查詢類型软能。
4.2.2 微調(diào)的網(wǎng)絡(luò)
用于微調(diào)的CNN結(jié)構(gòu)主要分為兩類:基于分類的網(wǎng)絡(luò)和基于驗(yàn)證的網(wǎng)絡(luò)迎捺。基于分類的網(wǎng)絡(luò)被訓(xùn)練以將建筑分類為預(yù)定義的類別查排。由于訓(xùn)練集和查詢圖像之間通常不存在類重疊凳枝,因此在AlexNet中如FC6或FC7的學(xué)習(xí)到的嵌入特征用于基于歐氏距離的檢索。該訓(xùn)練/測(cè)試策略采用在方框中跋核,其中最后的FC層被修改為具有對(duì)應(yīng)于地標(biāo)數(shù)據(jù)集中類的數(shù)目的672個(gè)節(jié)點(diǎn)岖瑰。在《Neural codes for image retrieval》中采用訓(xùn)練/測(cè)試策略,其網(wǎng)絡(luò)最后的FC層被修改為672個(gè)節(jié)點(diǎn)砂代,對(duì)應(yīng)于地標(biāo)數(shù)據(jù)集中類別數(shù)目蹋订。
驗(yàn)證網(wǎng)絡(luò)可以使用孿生網(wǎng)絡(luò)(siamese network)結(jié)合成對(duì)損失函數(shù)(pairwise loss)或三元損失函數(shù)(triplet loss),這種方法已經(jīng)被更廣泛地用于微調(diào)網(wǎng)絡(luò)任務(wù)中刻伊。在《Learning visual similarity for product design with convolutional neural networks》中采用了基于AlexNet的孿生網(wǎng)絡(luò)和對(duì)比損失函數(shù)露戒。在《Cnn image retrieval learns from bow: Unsupervised fine-tuning with hard examples》中Radenovi′c等人提出用MAC成代替全連接層。更進(jìn)一步地捶箱,可以通過(guò)建立的3維建筑模型挖掘訓(xùn)練對(duì)智什。基于共同觀測(cè)的3D點(diǎn)云(匹配的SIFT特征)的數(shù)目來(lái)選擇正例圖像對(duì)讼呢,而CNN描述符中距離較小的那些圖像對(duì)被認(rèn)為是負(fù)例樣本撩鹿。這些圖像輸入到孿生網(wǎng)絡(luò)中,并且用正則后的MAC層輸出計(jì)算對(duì)比損失函數(shù)悦屏。與《Cnn image retrieval learns from bow: Unsupervised fine-tuning with hard examples》同時(shí)進(jìn)行的一項(xiàng)工作是《Deep image retrieval: Learning global representations for image search》节沦,Gordo等人在Landmark數(shù)據(jù)庫(kù)上對(duì)三元損失網(wǎng)絡(luò)和區(qū)域提取網(wǎng)絡(luò)進(jìn)行微調(diào)键思。《Deep image retrieval: Learning global representations for image search》這項(xiàng)工作的的優(yōu)越性在于物體其定位能力甫贯,它很好地在特征學(xué)習(xí)和提取步驟中排除了圖像背景吼鳞。在這兩項(xiàng)工作中,微調(diào)模型在landmark叫搁,OxFoD5K赔桌、PARIS6K和Holidays數(shù)據(jù)集上表現(xiàn)出了最先進(jìn)的精度,以及在UKBayes數(shù)據(jù)集上表現(xiàn)出良好的泛化能力(將表5)渴逻。在《Netvlad: Cnn architecture for weakly supervised place recognition》中疾党,在最后一個(gè)卷積層中插入一個(gè)類似VLAD編碼層,通過(guò)反向傳播進(jìn)行訓(xùn)練惨奕。與此同時(shí)雪位,設(shè)計(jì)了一個(gè)新的三元損失函數(shù)來(lái)利用弱監(jiān)督的Google
Street View Time Machine數(shù)據(jù)。
4.3 基于CNN模型的混合式方法
混合式方法中使用多網(wǎng)絡(luò)傳遞方式梨撞。許多圖像塊從輸入圖像中獲得并被輸入網(wǎng)絡(luò)中進(jìn)行特征提取雹洗,隨后進(jìn)行編碼/池化。由于“檢測(cè)器+描述符”的方式和基于SIFT的方法很相似卧波,因此我們稱其為“混合式”方法时肿。這種方法的效率通常比單通傳遞要低。
4.3.1 特征提取
在混合方法中港粱,特征提取過(guò)程包括圖像塊檢測(cè)和描述符生成螃成。對(duì)第一步而言,主要有三種區(qū)域檢測(cè)器啥容。第一種檢測(cè)器是網(wǎng)格化圖像塊锈颗。例如,在《Multi-scale orderless pooling of deep convolutional activation features》中使用了兩個(gè)尺寸滑動(dòng)窗口的策略來(lái)生成圖像塊咪惠。在《Cnn features off-the-shelf: an astounding baseline for recognition》中首先對(duì)數(shù)據(jù)集進(jìn)行裁剪和旋轉(zhuǎn),然后將其劃分為不同尺度的圖像塊淋淀。第二類是具有不變性的關(guān)鍵點(diǎn)/區(qū)域檢測(cè)器遥昧。例如高斯差分特征點(diǎn)在《Learning to compare image patches via convolutional neural networks》中使用。MSER區(qū)域檢測(cè)器在《Descriptor matching with convolutional neural networks: a comparison to sift》中被使用朵纷。第三種是區(qū)域建議方法炭臭,它也同樣提供了潛在對(duì)象可能的位置信息。Mopuri等人使用選擇性搜索策略來(lái)提取圖像塊袍辞,而邊緣區(qū)域方法在《Fisher encoded convolutional bag-of-windows for efficient image retrieval and social image tagging》中使用鞋仍。在《Faster r-cnn features for instance search》中使用區(qū)域建議網(wǎng)絡(luò)(RPN)來(lái)對(duì)目標(biāo)進(jìn)行定位。
《Descriptor matching with convolutional neural networks: a comparison to sift》證實(shí)了CNN一類的區(qū)域描述是有效的搅吁,并且在出模糊圖像之外的圖像匹配任務(wù)繁重要優(yōu)于SIFT描述符威创。對(duì)于給定的圖像塊落午,混合CNN方法通常使用全連接層或池化的方法來(lái)整合CNN特征,相關(guān)文獻(xiàn)對(duì)此均有研究肚豺。這些研究從多尺度的圖像區(qū)域中提取4096維FC特征或目標(biāo)建議區(qū)域溃斋。另一方面,Razavian等人還在最大池化后采用中間描述符來(lái)作為區(qū)域描述符吸申。
上述方法采用預(yù)訓(xùn)練模型進(jìn)行圖像塊特征提取梗劫。以手工檢測(cè)器為基礎(chǔ),圖像塊描述符也可以通過(guò)有監(jiān)督或無(wú)監(jiān)督方式進(jìn)行CNN訓(xùn)練學(xué)習(xí)截碴,這相對(duì)于之前關(guān)于SIFT描述符學(xué)習(xí)的工作有所改進(jìn)梳侨。Yi等人進(jìn)一步提出了一種在單個(gè)流程中集成了區(qū)域檢測(cè)器、方向估計(jì)和特征描述符結(jié)果的端到端學(xué)習(xí)方法日丹。
4.3.2 特征編碼與索引
混合方法的編碼/索引過(guò)程類似于基于SIFT的檢索走哺,如同在小碼本下的VLAD / FV編碼或大碼本下的倒排索引。
VLAD/FV編碼過(guò)程緊隨SIFT特征提取后聚凹,在上文已經(jīng)詳細(xì)描述過(guò)這樣的流程割坠,不再贅述。另一方面妒牙,有一些工作研究探索了圖像塊的CNN特征的倒排索引彼哼。同樣,在SIFT方法流程中諸如HE之類的編碼方法也被使用湘今。除了上述提到的編碼策略敢朱,我們注意到《Cnn features off-the-shelf: an astounding baseline for recognition》,《Visual instance retrieval with deep convolutional networks》摩瞎,《Image classification and retrieval are one》這些工作提取每個(gè)圖像的多個(gè)區(qū)域描述符進(jìn)行多對(duì)多匹配拴签,這種方法稱為稱為“空間搜索”。該方法提高了檢索系統(tǒng)對(duì)平移和尺度變化的魯棒性旗们,但可能會(huì)遇到效率問(wèn)題蚓哩。另一種使用CNN最高層特征編碼的策略是在基于SIFT編碼(如FV)的最后面建立一個(gè)CNN結(jié)構(gòu)(主要由全連接層組成)。通過(guò)在自然圖像上訓(xùn)練一個(gè)分類模型上渴,中間的全連接層可以被用來(lái)進(jìn)行檢索任務(wù)岸梨。
4.4 討論
4.4.1 基于SIFT和CNN的方法間的關(guān)系
在本篇綜述中,我們將現(xiàn)有的文獻(xiàn)分為六個(gè)精細(xì)的類稠氮,表1和表5總結(jié)了六個(gè)類別的差異和代表性作品曹阔。我們的觀察結(jié)果如下。
第一隔披,混合方法可被視為從SIFT-到基于CNN的方法的過(guò)渡方法赃份,除了將CNN特征提取為局部描述符之外,它在所有方面都類似于基于SIFT的方法奢米。由于在圖像塊特征提取期間需要多次訪問(wèn)網(wǎng)絡(luò)抓韩,因此特征提取步驟的效率可能會(huì)受到影響纠永。
第二,單向CNN方法傾向于將SIFT和混合方法中的各個(gè)步驟結(jié)合起來(lái)园蝠。在表5中渺蒿,“預(yù)訓(xùn)練單向網(wǎng)絡(luò)”一類方法整合了特征檢測(cè)和描述步驟;在“微調(diào)單向網(wǎng)絡(luò)”中彪薛,圖像級(jí)描述符通常是在端到端模式下提取的茂装,因此不需要單獨(dú)的編碼過(guò)程。在《Deep image retrieval: Learning global representations for image search》中善延,集成了類似“PCA”層以減少區(qū)分維數(shù)少态,進(jìn)一步完善了端到端的特征學(xué)習(xí)。
第三易遣,出于效率上的考慮彼妻,特征編碼的固定長(zhǎng)度表示方法越來(lái)越流行。它可以通過(guò)聚集局部描述符(SIFT或CNN)豆茫、直接匯或端到端特征計(jì)算的方法來(lái)獲得侨歉。通常,諸如PCA的降維方法可以在固定長(zhǎng)度的特征表達(dá)中使用揩魂,ANN搜索方法(如PQ或哈希)可用于快速檢索幽邓。
4.2.2 哈希與實(shí)例檢索
哈希方法是最似最近鄰問(wèn)題的主流解決方案。它可以被分類類為局部敏感哈希(LSH)算法和哈希學(xué)習(xí)方法火脉。LSH是數(shù)據(jù)無(wú)關(guān)的且常通過(guò)學(xué)習(xí)哈希來(lái)獲得更優(yōu)異的性能牵舵。對(duì)于學(xué)習(xí)哈希方法,最近的一項(xiàng)調(diào)研《A survey on learning to hash》將其歸類為量化和成對(duì)相似性保留這兩類倦挂。我們?cè)?.3.2節(jié)已經(jīng)詳細(xì)討論過(guò)量化方法熱畸颅,不再贅述。成對(duì)相似性保留方法包括一些常用的手工設(shè)計(jì)哈希方法方援,如譜哈希没炒,LDA哈希等。
近年來(lái)隨著深度網(wǎng)絡(luò)的發(fā)展犯戏,哈希方法也從手工設(shè)計(jì)的方式轉(zhuǎn)變到受監(jiān)督的訓(xùn)練方式窥浪。這些方法將原始圖像作為輸入,并在二值化之前生成學(xué)習(xí)的特征笛丙。然而,這些方法大多集中于圖像分類式的檢索任務(wù)假颇,與本次調(diào)研所中討論的實(shí)例圖像檢索不同胚鸯。實(shí)例檢索任務(wù)中,當(dāng)可以收集到足夠的訓(xùn)練數(shù)據(jù)時(shí)(例如建筑和行人和數(shù)據(jù))時(shí)笨鸡,深度散列方法可能是至關(guān)重要的姜钳。
5 實(shí)驗(yàn)比較
5.1 圖像檢索數(shù)據(jù)集
在本次調(diào)研中使用了五個(gè)流行的實(shí)例檢索數(shù)據(jù)集坦冠,這些數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表4所示。
Holidays數(shù)據(jù)集由Jégou等人從個(gè)人假日相冊(cè)中收集哥桥,因此圖像包含各種各樣的場(chǎng)景辙浑。該數(shù)據(jù)庫(kù)由500組1,491幅相似圖像組成,每組圖像有一條查詢記錄拟糕,共計(jì)500條判呕。除了《Efficient representation of local geometry for large scale object retrieval》和《Learning a fine vocabulary》,大多數(shù)基于SIFT的方法手動(dòng)地將圖像旋轉(zhuǎn)成直立方向送滞。最近許多基于CNN的方法也使用了旋轉(zhuǎn)版的Holidays數(shù)據(jù)集侠草。在表5中這兩個(gè)版本數(shù)據(jù)集上的結(jié)果用"/"間隔,旋轉(zhuǎn)圖像可以帶來(lái)2%-3%的mAP值犁嗅。
Ukbench數(shù)據(jù)集包括10,200種不同內(nèi)容的圖像边涕,如物體、場(chǎng)景和CD封面褂微。所有圖像被分為2,550組功蜓,每個(gè)組有四個(gè)圖像描述相同的物體/場(chǎng)景,在不同的角度宠蚂,照明式撼,形變,等情況下的表現(xiàn)肥矢。該數(shù)據(jù)集中的每個(gè)圖像依次作為查詢記錄端衰,因此有10,200條查詢記錄。
Oxford5k數(shù)據(jù)集用牛津11個(gè)地標(biāo)名從Flickr網(wǎng)站爬取共計(jì)5062幅圖像組建數(shù)據(jù)集甘改。該數(shù)據(jù)集通過(guò)手繪邊界框?yàn)槊總€(gè)地標(biāo)的定義五個(gè)查詢記錄旅东,從而總共存在55個(gè)感興趣區(qū)域(ROI)查詢記錄。每個(gè)數(shù)據(jù)庫(kù)圖像被分配了好的十艾,還可以的抵代,垃圾的,或壞的四個(gè)標(biāo)簽之一忘嫉。前兩個(gè)標(biāo)簽表示與查詢的感興趣區(qū)域是匹配的荤牍,而“壞”表示不匹配。在糟糕的圖像中庆冕,只有不到25%的對(duì)象是可見(jiàn)的康吵,或者它們?cè)馐車?yán)重的遮擋或變形,因此這些圖像對(duì)檢索精度影響不大访递。
Flickr100k數(shù)據(jù)集包括99,782張來(lái)Flickr網(wǎng)站145個(gè)最流行標(biāo)簽的高清圖像晦嵌。在文獻(xiàn)中,通常將該數(shù)據(jù)集添加到Oxford5k中,以測(cè)試檢索算法的可擴(kuò)展性惭载。
Paros6k數(shù)據(jù)集從11指定的巴黎建筑查詢中爬出6,412中圖像旱函。每個(gè)地標(biāo)有五個(gè)查詢記錄,因此這個(gè)數(shù)據(jù)集同樣有55個(gè)帶有邊界框的查詢記錄描滔。數(shù)據(jù)庫(kù)圖像使用和Oxford5k一樣的四種類型的標(biāo)簽作為Oxford5k數(shù)據(jù)集標(biāo)簽棒妨。針對(duì)Oxford5k和Paris6k數(shù)據(jù)集有兩個(gè)評(píng)估準(zhǔn)則。對(duì)于基于SIFT的方法含长,被裁剪的區(qū)域通常用于查詢券腔。對(duì)于基于CNN的方法,有些工作采用的是全尺寸圖像茎芋,有些工作采用的是將裁剪的ROI傳入CNN或者用CNN提取全圖特征后再裁剪得到ROI颅眶。使用完整的圖像的方法可以提高mAP指標(biāo)。詳細(xì)的指標(biāo)可以參見(jiàn)表5田弥。
評(píng)價(jià)指標(biāo)
精準(zhǔn)度-召回率涛酗。召回指的是返回的正確匹配數(shù)占數(shù)據(jù)庫(kù)中總數(shù)或正確匹配數(shù)的比率,而精準(zhǔn)度是指返回結(jié)果中真實(shí)匹配的那部分圖像偷厦。給定一個(gè)集合含有張返回的圖像商叹,假設(shè)其中有張正確匹配的圖像,而整個(gè)數(shù)據(jù)集中有張正確匹配的圖像只泼,那么召回率()和精準(zhǔn)度()分別計(jì)算為和剖笙。在圖像檢索中,給定一張待查詢圖像和返回列表请唱,可以根據(jù)(,),(,),...,(,)這些點(diǎn)繪制精準(zhǔn)度-召回率曲線弥咪,其中是數(shù)據(jù)庫(kù)中的圖像數(shù)目。
平均準(zhǔn)確率和平均精度十绑。 為了更加清晰地記錄圖像檢索系統(tǒng)的性能聚至,我們使用平均準(zhǔn)確率(average precision)對(duì)其進(jìn)行衡量,它相當(dāng)于精準(zhǔn)度-召回率曲線下的面積本橙。通常扳躬,較大的AP值意味著更高的精準(zhǔn)度-召回率曲線,亦即更好的檢索性能甚亭。由于圖像檢索數(shù)據(jù)集通常具有多個(gè)查詢圖像贷币,所以對(duì)它們各自的
AP進(jìn)行平均,以產(chǎn)生最終的性能評(píng)價(jià)亏狰,即平均精度(mean average precision, mAP)役纹。傳統(tǒng)地,我們使用mAP來(lái)評(píng)估檢索系統(tǒng)在Oxford5k暇唾、Paris6k和Holidays數(shù)據(jù)集上的準(zhǔn)確度字管。
N-S得分啰挪。 N-S得分專用于Ukbench數(shù)據(jù)集,它是以David Nistér 和Henrik Stewénius的名字來(lái)命名的嘲叔。N-S得分其實(shí)等價(jià)于精準(zhǔn)度或者召回率,因?yàn)樵赨kbench數(shù)據(jù)集中的每個(gè)查詢?cè)跀?shù)據(jù)庫(kù)中都有四個(gè)正確的匹配項(xiàng)抽活。N-S得分用總排名列表中前四中的真實(shí)匹配的平均數(shù)量來(lái)計(jì)算硫戈。
5.3 比較與分析
5.3.1 多年來(lái)性能的改進(jìn)
我們?cè)趫D6中展示了過(guò)去十年圖像檢索精度的改善以及在表5中展示了一些有代表性的方法。實(shí)驗(yàn)結(jié)果通過(guò)在獨(dú)立的數(shù)據(jù)集上建立的編碼本來(lái)計(jì)算下硕。我們可以清楚地看到丁逝,實(shí)例檢索的領(lǐng)域一直在不斷改進(jìn)。10多年前提出的基線方法(HKM)在Holidays, Ukbench, Oxford5k, Oxford5k+Flickr100k以及Paris6k數(shù)據(jù)集上的準(zhǔn)確率分別僅為59.7%, 2.85, 44.3%, 26.6%以及46.5%梭姓。從基線方法開(kāi)始霜幼,通過(guò)引入高區(qū)分度編碼本、空間約束和互補(bǔ)描述符誉尖,大規(guī)模編碼本方法開(kāi)始穩(wěn)定地提升罪既。對(duì)于中型編碼本方法來(lái)說(shuō),隨著Hamming嵌入及其改進(jìn)的方法铡恕,在2008年至2010年間它見(jiàn)證了最顯著的精度提升琢感。從那時(shí)起,主要的改進(jìn)來(lái)自特征融合的強(qiáng)度探熔,特別是使用在Holiday和Ukbench數(shù)據(jù)集上提取的的顏色和CNN特征驹针。
另一方面,基于CNN的檢索模型在圖像例檢索中迅速顯示出其優(yōu)勢(shì)诀艰。在2012年AlexNet剛提出時(shí)柬甥,當(dāng)時(shí)的FC特征的性能與SIFT模型相比仍然遠(yuǎn)不能令人滿意。例如其垄,在ImageNet上預(yù)訓(xùn)練的AlexNet苛蒲,其FC描述符在Holidays,Ukbench和Oxford5k數(shù)據(jù)集上的AP捉捅,N-S得分和mAP上的得分分別為 64.2%撤防,3.42,43.3%。這些指標(biāo)是要比《Contextual weighting for vocabulary tree based image retrieval》在Holidays和Ukbench數(shù)據(jù)集上的成績(jī)低13.85%和0.14棒口,比《Object retrieval and localization with spatially-constrained similarity measure and k-nn re-ranking》在Oxford5k上的成績(jī)低31.9%寄月。然而,然而无牵,CNN網(wǎng)絡(luò)結(jié)構(gòu)和微調(diào)策略的進(jìn)步漾肮,基于CNN的方法的性能迅速提高,在Holidays和Ukbench數(shù)據(jù)集上極具競(jìng)爭(zhēng)力茎毁,并且在Oxford5k數(shù)據(jù)集上的指標(biāo)略低克懊,但它具的內(nèi)存消耗更小忱辅。
5.3.2 準(zhǔn)確率比較
不同數(shù)據(jù)集上不同類別的檢索精度可以在圖6,表5和表6中查看谭溉。從這些結(jié)果中墙懂,我們有三個(gè)發(fā)現(xiàn)。
第一扮念,在基于SIFT的方法中损搬,中等規(guī)模編碼本對(duì)的表現(xiàn)要優(yōu)于小規(guī)模編碼本。一方面柜与,由于大的沃羅諾伊方格巧勤,中等規(guī)模編碼本的視覺(jué)詞匯可以使相關(guān)匹配的召回率變高。HE方法的進(jìn)一步集成在很大程度上提高了模型區(qū)分度弄匕,實(shí)現(xiàn)了匹配圖像召回率和精度之間較好的平衡颅悉。另一方面,雖然小規(guī)模編碼本中的視覺(jué)詞具有最高的匹配召回率迁匠,但由于聚合過(guò)程和維度小剩瓶,它們的圖像區(qū)分能力沒(méi)有顯著提高。因此它的表現(xiàn)可以認(rèn)為是不佳的柒瓣。
第二儒搭,在基于CNN的方法中,微調(diào)的模型在特定任務(wù)(如地標(biāo)/場(chǎng)景檢索)中的表現(xiàn)要有很大優(yōu)勢(shì)芙贫,這些任務(wù)的數(shù)據(jù)一般和訓(xùn)練集數(shù)據(jù)分布相似搂鲫。雖然這一觀察是在預(yù)期之內(nèi),有趣的是我們發(fā)現(xiàn)在《Deep image retrieval: Learning global representations for image search》中提出的微調(diào)模型在通用檢索(例如Ukbench數(shù)據(jù)集)上的表現(xiàn)極具競(jìng)爭(zhēng)力磺平,而它與訓(xùn)練集的數(shù)據(jù)分布并不同魂仍。事實(shí)上,Babenko等人在《Neural codes for image retrieval》中表明拣挪,在Landmarks數(shù)據(jù)集上進(jìn)行微調(diào)的CNN特征會(huì)降低在Ukbench上的的準(zhǔn)確率擦酌。《Deep image retrieval: Learning global representations for image search》這項(xiàng)工作的泛化能力可以歸因于對(duì)區(qū)域提取網(wǎng)絡(luò)的有效訓(xùn)練菠劝。相比之下赊舶,使用預(yù)先訓(xùn)練模型可以在Ukbench上表現(xiàn)出較高的精度,但在landmarks數(shù)據(jù)集上的表現(xiàn)中等赶诊。相似地笼平,混合方法在所有的任務(wù)中的表現(xiàn)都相當(dāng),但它仍然可能遇到效率問(wèn)題時(shí)舔痪。
第三寓调,比較這六中方法,“CNN微調(diào)模型”和“SIFT中等編碼本”方法具有最好的總體準(zhǔn)確度锄码,而“SIFT小編碼本”類別具有相對(duì)較低的準(zhǔn)確度夺英。
5.3. 效率比較
特征計(jì)算時(shí)間扯罐。 在基于SIFT的方法中奈籽,主要的步驟就是局部特征的提取逆日。通常情況下颖侄,根據(jù)圖像的復(fù)雜度(紋理),CPU提取640480大小圖像的基于Hessian仿射區(qū)域的SIFT描述符需要1-2s灸蟆。對(duì)于基于CNN的方法驯耻,在TitanX卡上通過(guò)VGG16網(wǎng)絡(luò)對(duì)一個(gè)224×224和1024×768的圖像進(jìn)行單向傳遞分別需要0.082s和0.34 7s。據(jù)報(bào)道炒考,四幅圖像(最大邊724像素)可以在1s內(nèi)處理。預(yù)訓(xùn)練列特征的編碼(VLAD或FV)的時(shí)間非出龋快斋枢。對(duì)于CNN混合方法,提取幾十個(gè)區(qū)域的CNN特征可能需要幾秒鐘知给∪恐悖總體而言,CNN預(yù)訓(xùn)練模型和微調(diào)模型在用GPU進(jìn)行特征計(jì)算時(shí)的效率高涩赢。同樣應(yīng)該注意的是戈次,當(dāng)使用GPU進(jìn)行SIFT提取時(shí),也可以實(shí)現(xiàn)高效率筒扒。
檢索時(shí)間怯邪。 最似最近鄰搜索算法用于“SIFT大編碼本”,“SIFT小編碼本”花墩,“CNN預(yù)訓(xùn)練模型”和“CNN微調(diào)模型”時(shí)都是相當(dāng)高效的悬秉,這是因?yàn)榈古帕斜韺?duì)于適當(dāng)訓(xùn)練的大碼本來(lái)說(shuō)是簡(jiǎn)短的,并且因?yàn)楹笳呷幸粋€(gè)緊湊的表示冰蘑,用像PQ這樣的ANN搜索方法來(lái)加速是可行的和泌。中等規(guī)模編碼本的效率較低,因?yàn)樗牡古潘饕c大碼本相比包含更多的條目祠肥,并且漢明嵌入方法的過(guò)濾效果只能在一定程度上修正這個(gè)問(wèn)題武氓。如4.3節(jié)所述,混合方法的檢索復(fù)雜度會(huì)因?yàn)槎鄬?duì)多匹配策略的影響而變得低效率仇箱。
訓(xùn)練時(shí)間县恕。 用AKM或HKM訓(xùn)練大型或中型編碼本通常需要幾個(gè)小時(shí),使用小型編碼本可以縮短訓(xùn)練時(shí)間工碾。對(duì)于微調(diào)模型弱睦,Gordo等人在一塊K40 GPU上花費(fèi)了5天訓(xùn)練三元損失模型≡ǘ睿可能在孿生網(wǎng)絡(luò)或者分類模型上這會(huì)花費(fèi)更少的時(shí)間况木,但是要比生成SIFT編碼本的時(shí)間長(zhǎng)得多垒拢。因此,在訓(xùn)練方面火惊,使用直接池或小碼本的效率更高求类。
存儲(chǔ)代價(jià)。 表5和圖8表明具有大碼本的SIFT方法和緊湊方法在存儲(chǔ)成本上都是高效的屹耐。還可以使用PQ或其他有效的量化/散列方法將緊湊表示壓縮成緊湊編碼尸疆,從而可以進(jìn)一步減少它們的存儲(chǔ)消耗。相比之下惶岭,使用中等碼本的方法是最消耗內(nèi)存的寿弱,因?yàn)槎M(jìn)制簽名應(yīng)該存儲(chǔ)在倒排索引中“丛睿混合方法總要有混合存儲(chǔ)成本症革,因?yàn)槎鄬?duì)多策略需要存儲(chǔ)每個(gè)圖像的多個(gè)區(qū)域描述符,而其他一些方法則采用高效的編碼方法鸯旁。
空間驗(yàn)證與查詢拓展噪矛。 空間驗(yàn)證通常和QE算法一起使用,可以使得檢索結(jié)果排列表更加精準(zhǔn)铺罢。RANSAC驗(yàn)證在《Object retrieval with large vocabularies and fast spatial matching》中提出艇挨,它的復(fù)雜度為,其中是匹配的特征數(shù)目韭赘,可以看出算法的復(fù)雜度較高缩滨。ADV方法的復(fù)雜度相對(duì)較小,為辞居,因?yàn)樗軌虮苊獠幌嚓P(guān)的Hough選票楷怒。《Hough pyramid matching: Speeded-up geometry re-ranking for large scale image retrieval》和《A vote-and-verify strategy for fast spatial verification in image retrieval》提出的方法最有效瓦灶,復(fù)雜度僅為鸠删,同時(shí)后一項(xiàng)工作進(jìn)一步地輸出QE的變換和內(nèi)值。
從查詢擴(kuò)展的角度來(lái)看贼陶,由于提出了新的查詢刃泡,搜索效率會(huì)受到影響。例如碉怔,由于新查詢烘贴,AQE的搜索時(shí)間幾乎增加了一倍。對(duì)于遞歸AQE和帶尺度遞歸QE方法撮胧,搜索時(shí)間更加長(zhǎng)了桨踪,因?yàn)橐獔?zhí)行好幾個(gè)新的搜索。其他QE變體所提出的改進(jìn)只比執(zhí)行另一搜索增加了邊際成本芹啥,因此它們的復(fù)雜性類似于QE方法锻离。
5.3.4 重要的參數(shù)
我們總結(jié)編碼本大小對(duì)使用SIFT特征的大/中型碼本的影響铺峭,以及維數(shù)對(duì)包括SIFT小編碼本和基于CNN方法的緊湊表示的影響。
編碼本規(guī)模汽纠。 圖9展示了模型在Oxford5k上的mAP結(jié)果卫键,對(duì)大規(guī)模編碼本和中規(guī)模編碼本的方法進(jìn)行對(duì)比。有兩點(diǎn)值得注意虱朵。第一莉炉,mAP值通常隨著編碼本增大而增加,但當(dāng)碼本足夠大時(shí)aMP值可能達(dá)到飽和碴犬。這是因?yàn)楦蟮拇a本提高了匹配精度絮宁,但是如果它太大,匹配的召回率變低服协,導(dǎo)致性能飽和甚至損害性能羞福。第二,當(dāng)編碼本規(guī)模變化時(shí)蚯涮,使用中等規(guī)模編碼本的方法表現(xiàn)更穩(wěn)定。這可以歸因于HE方法卖陵,它對(duì)更小的碼本貢獻(xiàn)更多遭顶,彌補(bǔ)了較低的基線方法的性能。
維數(shù)泪蔫。 維數(shù)對(duì)緊湊向量的影響在圖7中給出棒旗。我們的發(fā)現(xiàn)檢索精度通常在較大的尺寸下較為穩(wěn)定,而當(dāng)維數(shù)低于256或128時(shí)精度迅速下降撩荣。我們第二個(gè)發(fā)現(xiàn)是關(guān)于區(qū)域提取的铣揉。這些方法在各種特征長(zhǎng)度下都表現(xiàn)出非常出色的性能,這可能是由于它們?cè)谀繕?biāo)定位方面的優(yōu)越能力餐曹。
5.3.5 討論
我們簡(jiǎn)要地討論何時(shí)使用CNN或SIFT以及其他相關(guān)方法逛拱。上文對(duì)兩者特征進(jìn)行了詳細(xì)的比較。
一方面台猴,表示向量長(zhǎng)度固定的CNN方法幾乎在所有的基準(zhǔn)數(shù)據(jù)集上的性能都占有優(yōu)勢(shì)朽合。具體而言,在兩種情況下基于CNN的方法可以考慮優(yōu)先使用饱狂。第一種是對(duì)于特定對(duì)象的檢索(例如建筑物曹步、行人),當(dāng)提供的訓(xùn)練數(shù)據(jù)足夠時(shí)休讳,可以充分利用CNN網(wǎng)絡(luò)嵌入學(xué)習(xí)的能力讲婚。第二種,對(duì)于常見(jiàn)的對(duì)象檢索或類檢索俊柔,預(yù)訓(xùn)練的CNN模型是有競(jìng)爭(zhēng)力的筹麸。
另一方面活合,盡管基于CNN方法的通常是具有優(yōu)勢(shì)的,我們?nèi)哉J(rèn)為SIFT特征在某些情況下仍然具有優(yōu)勢(shì)竹捉。例如芜辕,當(dāng)查詢或一些目標(biāo)圖像是灰度圖像時(shí),CNN可能不如SIFT有效块差,因?yàn)镾IFT是在灰度圖像上計(jì)算而不訴諸于顏色信息侵续。當(dāng)物體顏色變化非常劇烈時(shí)也同樣如此。另外憨闰,在小對(duì)象檢索中或當(dāng)查詢對(duì)象被嚴(yán)重遮擋時(shí)状蜗,使用諸如SIFT之類的局部特征是更好的選擇。在書(shū)籍/CD封面檢索等應(yīng)用中鹉动,由于豐富的紋理轧坎,我們也可以期待SIFT的良好性能。
6 未來(lái)的研究方向
6.1 面向通用任務(wù)的實(shí)例檢索
圖像檢索一個(gè)非常重要的方向就是使用搜索引擎實(shí)現(xiàn)通用檢索泽示。為了實(shí)現(xiàn)這個(gè)目標(biāo)需要解決兩個(gè)重要問(wèn)題缸血。
第一個(gè),需要引入大規(guī)模圖像數(shù)據(jù)集械筛。雖然如表3所示展示了多個(gè)圖像數(shù)據(jù)集捎泻,但這些數(shù)據(jù)集通常包含特定類型的實(shí)例,例如地標(biāo)或室內(nèi)物品埋哟。雖然Gordo等人在《Deep image retrieval: Learning global representations for image search》中使用的RPN結(jié)構(gòu)除了在構(gòu)建數(shù)據(jù)集之外笆豁,還在在Ukbench數(shù)據(jù)集上表現(xiàn)得富有競(jìng)爭(zhēng)力,但如果在更通用的數(shù)據(jù)集上訓(xùn)練CNN能否帶來(lái)進(jìn)一步的改進(jìn)赤赊,則仍然是未知數(shù)闯狱。因此,社區(qū)迫切需要大規(guī)模的圖像數(shù)據(jù)集或一種可以以監(jiān)督或非監(jiān)督的方式生成這樣一個(gè)數(shù)據(jù)集的有效方法抛计。
第二哄孤,設(shè)計(jì)新的CNN網(wǎng)絡(luò)和學(xué)習(xí)策略對(duì)于充分利用訓(xùn)練數(shù)據(jù)具有重要意義。先前有工作采用標(biāo)準(zhǔn)分類模型爷辱,成對(duì)損失或三重?fù)p失模型對(duì)CNN網(wǎng)絡(luò)進(jìn)行微調(diào)录豺。Faster R-CNN在實(shí)例檢索中的引入對(duì)更精確的對(duì)象定位來(lái)說(shuō)是一個(gè)良好的開(kāi)始。此外饭弓,在另一個(gè)檢索任務(wù)中采用微調(diào)模型時(shí)双饥,遷移學(xué)習(xí)方法也是非常重要。
6.2 面向?qū)S萌蝿?wù)的實(shí)例檢索
另一方面弟断,在專用實(shí)例檢索中的研究也越來(lái)越多咏花。例如地點(diǎn)檢索,行人檢索,車輛檢索昏翰,標(biāo)志檢索等苍匆。在這些任務(wù)中的圖像具有特定的先驗(yàn)知識(shí)。例如在行人檢索任務(wù)中棚菊,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以連接身體部分的描述符浸踩,在車輛檢索任務(wù)中,在特征學(xué)習(xí)期間可以推斷視圖信息统求,同時(shí)牌照?qǐng)D像也可以提供關(guān)鍵信息检碗。
同時(shí),訓(xùn)練數(shù)據(jù)的收集過(guò)程可以進(jìn)一步研究码邻。例如折剃,可以通過(guò)谷歌街景收集不同地點(diǎn)的訓(xùn)練圖像。車輛圖像可以通過(guò)監(jiān)視視頻或互聯(lián)網(wǎng)圖像來(lái)獲取像屋。在這些特定的數(shù)據(jù)集上探索新的學(xué)習(xí)策略以及研究遷移學(xué)習(xí)的效果將是有趣的怕犁。最后,緊湊向量編碼或短編碼也將在現(xiàn)實(shí)的檢索任務(wù)設(shè)置中變得重要己莺。
7 結(jié)語(yǔ)
本篇綜述回顧了基于SIFT和CNN特征的實(shí)例檢索方法奏甫。根據(jù)編碼本的規(guī)模,我們將基于SIFT的方法分為三類:使用大凌受,中扶檐,小規(guī)模的編碼本⌒布瑁基于CNN的方法也被分為了三類:使用預(yù)訓(xùn)練模型,微調(diào)模型和混合模型的方法智蝠。在每個(gè)類別下都對(duì)先前的方法進(jìn)行了全面的調(diào)研腾么。從各種方法的演變可以看出,混合方法處于SIFT和CNN方法的過(guò)渡位置杈湾,緊湊編碼方法越來(lái)越流行解虱,并且實(shí)例檢索正朝著端到端的特征學(xué)習(xí)和提取的方向發(fā)展。
通過(guò)在幾個(gè)基準(zhǔn)數(shù)據(jù)集上收集的實(shí)驗(yàn)結(jié)果漆撞,對(duì)六種方法進(jìn)行了比較殴泰。我們發(fā)現(xiàn)CNN微調(diào)模型策略在不同的檢索任務(wù)上都得到了較高準(zhǔn)確率,并且在效率上也具有優(yōu)勢(shì)浮驳。未來(lái)的研究可能集中于學(xué)習(xí)更通用的特征表示或更特定的檢索任務(wù)悍汛。
參考資料
- SIFT Meets CNN: A Decade Survey of Instance Retrieval @TPAMI Volume 40 Issue 5 ? May 2018
- SIFT Meets CNN: A Decade Survey of Instance Retrieval @arxiv
- VLAD特征(vector of locally aggregated descriptors)
- 乘積量化(Product Quantization)
歡迎與我交流:
github: https://github.com/keloli
blog: http://www.reibang.com/u/d055ee434e59
我的博客即將搬運(yùn)同步至騰訊云+社區(qū),邀請(qǐng)大家一同入駐:
https://cloud.tencent.com/developer/support-plan?invite_code=1yjeyi64ouzt