論文閱讀:InLoc:基于稠密匹配和視野合成的室內(nèi)定位

轉(zhuǎn)載請(qǐng)注明來(lái)源

InLoc: Indoor Visual Localization with Dense Matching and View Synthesis是H. Taira et al.發(fā)表在CVPR2018的一篇論文县恕,研究了從一個(gè)大的室內(nèi)3D地圖中預(yù)測(cè)問(wèn)詢(xún)圖像對(duì)應(yīng)的6自由度位姿的問(wèn)題酒请。
作者設(shè)計(jì)的方案主要由三步構(gòu)成:
(1)快速地檢索相匹配的候選圖片,保證了即使在大范圍的場(chǎng)景中也有較好的實(shí)時(shí)性
(2)利用稠密匹配(而不是常見(jiàn)的局部特征匹配)來(lái)估計(jì)位姿京革,使得算法在紋理稀疏的場(chǎng)景中也有效
(3)利用從場(chǎng)景的3D模型中合成視野的方法驗(yàn)證估計(jì)的位姿
此外绳泉,作者還建立了一個(gè)數(shù)據(jù)集冠跷,并在數(shù)據(jù)及上驗(yàn)證了算法的效果合是。

簡(jiǎn)介

室內(nèi)定位是智能移動(dòng)機(jī)器人系統(tǒng)的關(guān)鍵功能,此外與增強(qiáng)現(xiàn)實(shí)(AR)等技術(shù)也密切相關(guān)飒赃。
與城鎮(zhèn)環(huán)境的定位相比利花,室內(nèi)定位主要面臨以下困難:
(1)由于視距比較短,視野受位置的影響很大载佳。
(2)室內(nèi)場(chǎng)景中炒事,很多部分是沒(méi)有紋理的,有紋理的區(qū)域很小蔫慧。
(3)室內(nèi)場(chǎng)景常常單一挠乳、對(duì)稱(chēng)、重復(fù)。
(4)由于照明等因素睡扬,室內(nèi)場(chǎng)景在一天內(nèi)會(huì)發(fā)生很大的變化盟蚣。
(5)室內(nèi)場(chǎng)景常常是高度動(dòng)態(tài)的,比如家具和人常常會(huì)移動(dòng)威蕉。
因而作者提出了一個(gè)先針對(duì)建筑建立3D地圖刁俭,隨后使用相機(jī)估計(jì)當(dāng)前位姿的方案。

相關(guān)工作

作者從如下三個(gè)側(cè)面介紹了一些相關(guān)的工作韧涨,感興趣的可以去查閱原文和引用:
基于圖像檢索的定位
基于先驗(yàn)3D地圖的定位
室內(nèi)3D地圖

方法介紹

我們剛剛提到了室內(nèi)環(huán)境給視覺(jué)定位帶來(lái)的主要困難,作者設(shè)計(jì)的方案有針對(duì)性地解決了一些困難:
(1)缺乏稀疏的局部特征侮繁。SIFT虑粥、SURF等方法常常無(wú)法在室內(nèi)場(chǎng)景中提取足夠的特征(如墻面)。為了克服這個(gè)困難宪哩,作者采用多尺度稠密CNN特征(multi-scale dense CNN features)用于圖片描述和特征匹配
(2)圖像變化大娩贷。由于移動(dòng)物體帶來(lái)的場(chǎng)景變化,匹配出來(lái)的圖像可能差別很大锁孟。作者因此沒(méi)有依賴(lài)于匹配獨(dú)立的局部特征彬祖,而是采取了稠密特征匹配的方法來(lái)收集盡可能多的支持證據(jù)——采用通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取的能夠描述圖像高層結(jié)構(gòu)的圖像描述子。
(3)自相似性品抽。現(xiàn)有的匹配策略往往是統(tǒng)計(jì)支持證據(jù)(positive evidence)储笑,作者則提出可以同時(shí)統(tǒng)計(jì)負(fù)面證據(jù)(圖像的哪一部分匹配不上)。更詳細(xì)地圆恤,作者將問(wèn)詢(xún)圖像(query image)與一個(gè)通過(guò)3D模型合成的虛擬視野比較突倍。(事實(shí)證明這個(gè)方法極大地改善了效果。)

大范圍室內(nèi)視覺(jué)定位

候選位姿(及圖片)檢索

作者用NetVLAD來(lái)描述問(wèn)詢(xún)圖片和數(shù)據(jù)庫(kù)圖片盆昙,計(jì)算描述子之間均一化的L2距離羽历,選取最優(yōu)的N個(gè)匹配圖片,得到它們對(duì)應(yīng)的位姿作為候選位姿淡喜。(關(guān)于NetVLAD秕磷,可以參考文末的兩篇文章)
實(shí)際操作時(shí),對(duì)于每張問(wèn)詢(xún)圖片炼团,作者通過(guò)4096維的NetVLAD描述向量從數(shù)據(jù)庫(kù)中找到100個(gè)候選圖片澎嚣。

通過(guò)稠密匹配進(jìn)行位姿估計(jì)

在上一步找到一些候選圖片和對(duì)應(yīng)的位姿后,作者利用一些稠密的特征來(lái)對(duì)這些候選圖片進(jìn)行驗(yàn)證和重排序们镜。一個(gè)可能的方法是用DenseSIFT進(jìn)行匹配币叹,隨后用基于RANSAC方法的驗(yàn)證。
然而作者在這里用CNN(VGG-16)提出的特征層表示圖像模狭,這樣能夠表示一組能夠在一個(gè)更大的感受野描述更高層信息的多尺度的特征颈抚。
作者首先用含有高層信息的conv5層來(lái)找到一組對(duì)應(yīng)信息。隨后通過(guò)在conv3層尋找額外的匹配來(lái)細(xì)化之前找到的對(duì)應(yīng)信息。
由于之前在使用NetVLAD表述問(wèn)詢(xún)圖像時(shí)已經(jīng)進(jìn)行過(guò)卷積計(jì)算得到了特征層贩汉,因而這種操作不會(huì)額外消耗很多時(shí)間驱富。
利用特征的對(duì)應(yīng)信息,通過(guò)P3P-RANSAC的方法就能得到一個(gè)估計(jì)的位姿匹舞。
實(shí)際操作時(shí)褐鸥,作者通過(guò)稠密地匹配通過(guò)CNN得到的特征得到可能的對(duì)應(yīng)關(guān)系(correspondences),并用了一種由粗到細(xì)的方式:首先在conv5層特征中找到最接近的匹配赐稽,隨后依據(jù)這些粗匹配在conv3中細(xì)化叫榕。這些匹配要經(jīng)過(guò)RANSAC驗(yàn)證是否具有幾何上的單應(yīng)性關(guān)系。隨后作者利用RANSAC在100個(gè)候選圖像中篩選出10個(gè)最佳的數(shù)據(jù)集圖像姊舵。對(duì)于這10個(gè)圖像中的每一個(gè)晰绎,作者都用P3P-LO-RANSAC方法來(lái)估計(jì)6自由度位姿。

使用合成視野進(jìn)行驗(yàn)證估計(jì)位姿

在這一步中括丁,作者提出不僅收集支持證據(jù)荞下,還要收集反對(duì)證據(jù)來(lái)判斷是不是相匹配的。
考慮到光線的變化史飞,作者比較的是局部面塊的描述子(DenseRootSIFT)尖昏。
實(shí)際操作中,作者在考慮遮擋的情況下生成10個(gè)對(duì)應(yīng)的合成圖像构资,通過(guò)比較RootSIFT特征描述來(lái)打分抽诉,最后選出一個(gè)最佳圖像。

效果比較

定性地比較不同的方法蚯窥,其中2掸鹅、4、6列的定位結(jié)果相對(duì)準(zhǔn)確拦赠,1巍沙、3、5列則定位失敗荷鼠。

總結(jié)

視覺(jué)室內(nèi)定位是一個(gè)比較老的話題了句携,很長(zhǎng)一段時(shí)間都無(wú)法取得較大的突破,整體的框架也相對(duì)穩(wěn)定允乐。這篇文章是對(duì)一些較新的技術(shù)的一個(gè)整合矮嫉,利用了卷積神經(jīng)網(wǎng)絡(luò)的輸出描述圖像,如用NetVLAD來(lái)進(jìn)行圖像檢索牍疏,用VGG-16的conv5和conv3來(lái)進(jìn)行特征匹配蠢笋。此外作者還添加了驗(yàn)證階段,提高準(zhǔn)確率鳞陨,只是驗(yàn)證階段需要有3D地圖昨寞,這就牽扯到對(duì)場(chǎng)景進(jìn)行3D重建的問(wèn)題。整體來(lái)看,這篇文章比較難啃援岩,因?yàn)樯婕暗姆矫姹容^多歼狼,好多部分的內(nèi)容介紹得不是很詳細(xì)。

相關(guān)知識(shí)點(diǎn)

DenseSIFT

傳統(tǒng)的SIFT算法即Sparse SIFT享怀,不能很好地表征不同類(lèi)之間的特征差異羽峰,達(dá)不到所需的分類(lèi)要求。而Dense SIFT算法添瓷,是一種對(duì)輸入圖像進(jìn)行分塊處理梅屉,再進(jìn)行SIFT運(yùn)算的特征提取過(guò)程。Dense SIFT根據(jù)可調(diào)的參數(shù)大小鳞贷,來(lái)適當(dāng)滿(mǎn)足不同分類(lèi)任務(wù)下對(duì)圖像的特征表征能力履植。
經(jīng)驗(yàn)表明,對(duì)于一些目標(biāo)或者場(chǎng)景分類(lèi)任務(wù)悄晃,在一個(gè)稠密的網(wǎng)格中計(jì)算SIFT描述子比稀疏的關(guān)鍵點(diǎn)得到的結(jié)果要更準(zhǔn)確。一種比較基礎(chǔ)的解釋是凿滤,這樣可以提供更多的信息妈橄。

RootSIFT

牛津大學(xué)的R. Arandjelovic和A. Zisserman在CVPR2012上表示:

RootSIFT是一種有效的改善SIFT的方法,每個(gè)使用SIFT的人都應(yīng)該嘗試使用SIFT翁脆。

RootSIFT和SIFT的比較

只需一行代碼眷蚓,你便可以把SIFT變成RootSIFT:

rootsift = sqrt( sift / sum(sift) );

BoW和VLAD

BoW(Bag of Word,詞袋模型)或VLAD(Vector of Locally Aggregate Descriptor)是常用的圖片分類(lèi)或者圖片檢索的特征表示方式反番。以BoW為例沙热,我們?cè)趯?duì)于每一幅圖像提取了SIFT或者SURF特征后,利用這些特征建立一個(gè)字典罢缸。常見(jiàn)的做法是通過(guò)聚類(lèi)得到K個(gè)聚類(lèi)中心篙贸,每個(gè)聚類(lèi)中心對(duì)應(yīng)一個(gè)編碼v_i, i\in [1,K],假設(shè)D是每個(gè)特征描述子(編碼)的維度枫疆,則這個(gè)字典可以被表示為一個(gè)K\times D的矩陣:
V=[v_1,v_2,...,v_k]^T \in R^{K\times D}
M是對(duì)于每一副圖片提取的特征的數(shù)量爵川,那每幅圖片可以用一個(gè)M\times N的矩陣描述:
X=[x_1,x_2,...,x_M]^T \in R^{M\times D}
通過(guò)將每一個(gè)描述子對(duì)應(yīng)到不同的聚類(lèi)中,我們可以得到一個(gè)M\times K的矩陣息楔,其中每一個(gè)量a_{i,j}代表著描述子x_i是(1)否(0)在v_j所對(duì)應(yīng)的聚類(lèi)中寝贡。
這個(gè)M\times K的矩陣可以通過(guò)池化的方式進(jìn)一步縮減為K維向量。有兩種不同的池化方式:平均池化(Average Pooling)和最大池化(Max Pooling)值依,分別是求對(duì)應(yīng)行的平均值和最大值圃泡。
對(duì)于VLAD來(lái)說(shuō),與BoW最大的區(qū)別在于BOW是把局部特征的個(gè)數(shù)累加到聚類(lèi)中心上愿险,而VLAD是把局部特征相對(duì)于聚類(lèi)中心的偏差(有正負(fù))累加到聚類(lèi)中心上颇蜡。

VLAD

NetVLAD

整體的思想是將VLAD描述過(guò)程變成了CNN網(wǎng)絡(luò)中的一個(gè)VLAD層。

VLAD layer

經(jīng)典的VLAD向量的計(jì)算公式可以表述為:

其中是表示第個(gè)點(diǎn)所在聚類(lèi)的獨(dú)熱編碼,是離散的澡匪。作者將替換成一種軟邊界熔任,得到了連續(xù)的函數(shù),并且能用soft-max層表示:

其中需要訓(xùn)練的參數(shù)包括w_k唁情,b_k和聚類(lèi)中心c_k疑苔。

使用CNN特征層表示圖像

P3P-RANSAC

參考
InLoc項(xiàng)目主頁(yè)
jsjsdzd的CSDN博客(關(guān)于DenseSIFT)
R. Arandjelovic和A. Zisserman在CVPR2012上演講PPT(關(guān)于RootSIFT)
SIFT和一些變種
曼陀羅彼岸花的CSDN博客(關(guān)于BoW)
NetVLAD: CNN architecture for weakly supervised place recognition(NetVLAD原文)
璇珠官人的知乎專(zhuān)欄:論文閱讀-場(chǎng)景識(shí)別:NetVLAD
妖皇裂天:NetVLAD

作者的其他相關(guān)文章
基于視覺(jué)的機(jī)器人室內(nèi)定位
論文閱讀:StreetMap-基于向下攝像頭的視覺(jué)建圖與定位方案

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市甸鸟,隨后出現(xiàn)的幾起案子惦费,更是在濱河造成了極大的恐慌,老刑警劉巖抢韭,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件薪贫,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡刻恭,警方通過(guò)查閱死者的電腦和手機(jī)瞧省,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)鳍贾,“玉大人鞍匾,你說(shuō)我怎么就攤上這事∑锟疲” “怎么了橡淑?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)咆爽。 經(jīng)常有香客問(wèn)我梁棠,道長(zhǎng),這世上最難降的妖魔是什么斗埂? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任符糊,我火速辦了婚禮,結(jié)果婚禮上蜜笤,老公的妹妹穿的比我還像新娘濒蒋。我一直安慰自己,他們只是感情好把兔,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布沪伙。 她就那樣靜靜地躺著,像睡著了一般县好。 火紅的嫁衣襯著肌膚如雪围橡。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,772評(píng)論 1 290
  • 那天缕贡,我揣著相機(jī)與錄音翁授,去河邊找鬼拣播。 笑死,一個(gè)胖子當(dāng)著我的面吹牛收擦,可吹牛的內(nèi)容都是我干的贮配。 我是一名探鬼主播,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼塞赂,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼泪勒!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起宴猾,我...
    開(kāi)封第一講書(shū)人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤圆存,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后仇哆,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體沦辙,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年讹剔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了油讯。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡延欠,死狀恐怖撞羽,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情衫冻,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布谒出,位于F島的核電站隅俘,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏笤喳。R本人自食惡果不足惜为居,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望杀狡。 院中可真熱鬧蒙畴,春花似錦、人聲如沸呜象。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)恭陡。三九已至蹬音,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間休玩,已是汗流浹背著淆。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工劫狠, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人永部。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓独泞,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親苔埋。 傳聞我的和親對(duì)象是個(gè)殘疾皇子懦砂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容