本文只介紹PanoContext論文中核心部分。以下為原文翻譯。
如圖2所示消略,我們的輸入是一個(gè)全景圖,該全景圖覆蓋了以等距投影表示的360°水平和180°垂直FOV瞎抛。我們的輸出是場(chǎng)景的3D盒子表示艺演。我們采用曼哈頓世界假設(shè),假設(shè)場(chǎng)景由與三個(gè)主要方向?qū)R的3D長(zhǎng)方體組成桐臊。
我們的方法首先生成整個(gè)房間的假設(shè)胎撤,然后對(duì)它們進(jìn)行整體排名。假設(shè)生成的挑戰(zhàn)是使用可管理數(shù)量的假設(shè)來(lái)維持高召回率断凶,而整體排名的挑戰(zhàn)是要具有較高的準(zhǔn)確性伤提。為了產(chǎn)生假設(shè),我們首先根據(jù)檢測(cè)到的線段通過(guò)霍夫變換估計(jì)消失點(diǎn)认烁。然后肿男,我們根據(jù)線段生成3D房間布局假設(shè)介汹,并通過(guò)計(jì)算的幾何背景和全景圖上的方向圖來(lái)驗(yàn)證它們。對(duì)于對(duì)象舶沛,我們使用矩形檢測(cè)和圖像分割生成3D長(zhǎng)方體假設(shè)嘹承。接下來(lái),我們使用采樣生成整個(gè)房間的假設(shè)如庭,每個(gè)假設(shè)都有一個(gè)3D房間和內(nèi)部多個(gè)3D對(duì)象叹卷。為了選擇與圖像證據(jù)相一致且在結(jié)構(gòu)上有意義(即滿足所有上下文約束)的最佳假設(shè),我們提取各種特征并訓(xùn)練SVM對(duì)這些假設(shè)進(jìn)行整體排名坪它。最后骤竹,我們?cè)诒镜卣{(diào)整最高假設(shè),并通過(guò)添加往毡,刪除和交換對(duì)象來(lái)尋找可最大化SVM得分的解決方案蒙揣。
1.??全景的消失點(diǎn)估計(jì)
我們?cè)谌皥D上檢測(cè)線段,并使用它們對(duì)消失的方向進(jìn)行投票(圖3)卖擅。為了充分利用先前在標(biāo)準(zhǔn)相機(jī)照片上進(jìn)行線段檢測(cè)的優(yōu)勢(shì)鸣奔,我們將全景圖像轉(zhuǎn)換為一組透視圖圖像墨技,并在每個(gè)透視圖中運(yùn)行最新的線段檢測(cè)(LSD)算法圖像惩阶,然后將所有檢測(cè)到的線段扭曲回全景圖。
3D空間中的線段對(duì)應(yīng)于全景球體上大圓的一部分扣汪,并在全景圖像中顯示為曲線断楷。對(duì)于每條直線l,我們使用n表示其大圓所在的平面的法線方向崭别。與直線l相關(guān)聯(lián)的消失方向v應(yīng)該垂直于n冬筒。我們使用霍夫變換查找所有消失的方向。通過(guò)將二十面體的三角形遞歸地劃分茅主,我們將單位球體均勻地劃分為bins舞痰。線段l將對(duì)中心nb滿足nb·n = 0的所有面元進(jìn)行投票。然后诀姚,我們找到三個(gè)相互正交的bins响牛,它們的投票總數(shù)之和為三個(gè)消失的方向。之后赫段,我們捕捉所有線段以使其消失的方向?qū)R呀打。
2.??房間布局假設(shè)生成
由于房間布局對(duì)于在3D中生成良好的對(duì)象假設(shè)至關(guān)重要,因此我們首先獲得一些好的房間布局糯笙,以減輕下一步3D對(duì)象檢測(cè)的負(fù)擔(dān)贬丛。我們隨機(jī)生成許多房間布局假設(shè),并使這些假設(shè)與全景圖上像素級(jí)表面法線方向估計(jì)一致给涕。
可以通過(guò)采樣線段作為房間角來(lái)生成3D房間布局豺憔。在幾何上额获,除了一些退化的情況外,有5條線確定了3D空間中的長(zhǎng)方體恭应。根據(jù)與消失方向的關(guān)聯(lián)咪啡,我們使用從上/下,前/后和右/左的兩個(gè)標(biāo)簽對(duì)每個(gè)線段進(jìn)行分類暮屡,并隨機(jī)采樣五條非退化線以形成房間布局假設(shè)撤摸。為了在保留較好的假設(shè)的同時(shí)減少假設(shè)的數(shù)量,我們使用表面法線和全景圖中像素方向的表面方向估計(jì)的一致性來(lái)對(duì)這些假設(shè)進(jìn)行排名褒纲,并選擇前50個(gè)假設(shè)准夷。
方向圖(OM)和幾何上下文(GC)為普通透視圖圖像提供像素級(jí)表面法線估計(jì)。我們將全景圖轉(zhuǎn)換為多個(gè)重疊的透視圖圖像莺掠,并分別在這些圖像上應(yīng)用OM和GC并投影結(jié)果回到全景圖衫嵌。從帶有手動(dòng)標(biāo)記的ground truth墻方向的訓(xùn)練數(shù)據(jù)中,我們觀察到GC在底部提供了更好的法線估計(jì)(可能是因?yàn)槟P褪鞘褂蒙晕⑾蛳驴吹膱D像進(jìn)行訓(xùn)練的)彻秆,而OM在圖像的上半部分效果更好(可能是不太凌亂)楔绞,如圖4所示。因此唇兑,我們結(jié)合OM的頂部和GC的底部來(lái)評(píng)估房間布局酒朵。
3.??3D對(duì)象假設(shè)生成
生成一組較好的3D房間布局假設(shè)后,下一步是為房間中的主要對(duì)象生成3D長(zhǎng)方體假設(shè)扎附。為了獲得較高的假設(shè)生成召回率蔫耽,我們使用兩種補(bǔ)充方法:一種基于檢測(cè)的方法,從檢測(cè)到的矩形表面構(gòu)建長(zhǎng)方體留夜;另一種是基于分割的方法匙铡,將長(zhǎng)方體與二維投影進(jìn)行擬合。
基于檢測(cè)的長(zhǎng)方體生成:我們將輸入的全景圖正交投影到六個(gè)軸對(duì)齊的視圖碍粥,并分別在每個(gè)投影中運(yùn)行一個(gè)矩形檢測(cè)器(圖5(上))鳖眼。我們的矩形檢測(cè)器類似于可變形部件模型,但沒(méi)有類似彈簧的約束嚼摩。我們?cè)诰匦蔚拿總€(gè)角和每個(gè)邊緣的中間定義一個(gè)部分钦讳。我們使用SUN原始數(shù)據(jù)集包含382個(gè)帶注釋的長(zhǎng)方體圖像,并將每個(gè)長(zhǎng)方體表面轉(zhuǎn)換為軸對(duì)齊的矩形以獨(dú)立地訓(xùn)練每個(gè)部件檢測(cè)器低斋。在測(cè)試過(guò)程中蜂厅,我們首先計(jì)算所有零件檢測(cè)器的響應(yīng)圖,然后根據(jù)模型對(duì)它們進(jìn)行匯總膊畴。我們?cè)O(shè)置了較低的閾值以確保較高的召回率掘猿。然后,我們從3D矩形生成長(zhǎng)方體假設(shè)唇跨。
基于分割的長(zhǎng)方體生成:某些對(duì)象(例如床和沙發(fā))的邊緣不牢固稠通,并且無(wú)法通過(guò)矩形檢測(cè)可靠地檢測(cè)到衬衬。因此,我們通過(guò)選擇性搜索從圖像分割(圖5(底部))生成其他長(zhǎng)方體假設(shè)改橘。具體來(lái)說(shuō)滋尉,對(duì)于每個(gè)分割,我們?cè)u(píng)估它的形狀如何可以解釋為一個(gè)長(zhǎng)方體的投影飞主。我們通過(guò)在穿過(guò)三個(gè)消失點(diǎn)的線段邊界隨機(jī)采樣6條射線來(lái)創(chuàng)建許多長(zhǎng)方體狮惜。在這些長(zhǎng)方體中,我們選擇最佳的長(zhǎng)方體碌识,其投影與該分割的聯(lián)合得分的交點(diǎn)最大碾篡。
4.?全室場(chǎng)景假設(shè)生成
在獲得房間布局和對(duì)象的假設(shè)池之后,我們生成了一個(gè)全房間假設(shè)池筏餐,每個(gè)假設(shè)由一個(gè)房間布局組成开泽,其中包含幾個(gè)長(zhǎng)方體對(duì)象。為了通過(guò)可管理的多個(gè)假設(shè)實(shí)現(xiàn)較高的召回率魁瞪,我們對(duì)每個(gè)長(zhǎng)方體的語(yǔ)義類型進(jìn)行分類穆律,并使用成對(duì)上下文約束來(lái)指導(dǎo)我們的抽樣。
語(yǔ)義標(biāo)簽:直覺(jué)上导俘,語(yǔ)義對(duì)象類型與房間中的長(zhǎng)方體形狀及其3D位置密切相關(guān)峦耘。我們訓(xùn)練一個(gè)隨機(jī)森林分類器,以根據(jù)長(zhǎng)方體的大小趟畏,縱橫比和在房間中的相對(duì)位置來(lái)估計(jì)長(zhǎng)方體的語(yǔ)義類型贡歧。并且我們實(shí)現(xiàn)了大約70%的多標(biāo)簽分類精度滩租。這表明房間和對(duì)象之間的上下文非常強(qiáng)烈赋秀。
成對(duì)約束:場(chǎng)景對(duì)象之間存在很強(qiáng)的成對(duì)上下文約束,例如床頭柜通常在床邊律想,電視機(jī)通常面對(duì)床猎莲。對(duì)于兩種對(duì)象類型,我們從訓(xùn)練數(shù)據(jù)庫(kù)中收集一個(gè)對(duì)象對(duì)的所有實(shí)例技即,每種類型一個(gè)著洼,并在一個(gè)房間中共存。然后而叼,我們以一對(duì)物體之間的位移為樣本身笤,通過(guò)收集到的所有樣本捕獲成對(duì)的位置約束。這樣的一組樣本被繪制出來(lái)在圖6(b)中葵陵。在測(cè)試一對(duì)對(duì)象的有效性時(shí)液荸,我們計(jì)算它們的位移并在樣本集中搜索K個(gè)最近鄰。到K個(gè)最近鄰居的平均距離將通過(guò)Sigmoid函數(shù)轉(zhuǎn)換為概率脱篙。
整個(gè)房間的采樣:我們生成如下完整的場(chǎng)景假設(shè):
1.根據(jù)其與GC和OM的一致性(一致性更高娇钱,概率更高)隨機(jī)選擇房間布局伤柄。
2.根據(jù)先驗(yàn)統(tǒng)計(jì)確定每種類型的實(shí)例數(shù)和實(shí)例的采樣順序。圖6在左側(cè)顯示了一個(gè)順序列表文搂。
3.從第一個(gè)對(duì)象開始适刀,根據(jù)自下而上的分?jǐn)?shù)隨機(jī)選擇一個(gè)長(zhǎng)方體,例如矩形檢測(cè)得分煤蹭,語(yǔ)義分類器得分笔喉。得分較高的假設(shè)將以較高的概率進(jìn)行抽樣。
4.轉(zhuǎn)到下一個(gè)對(duì)象硝皂,我們使用所有先前選擇的對(duì)象評(píng)估所有長(zhǎng)方體假設(shè)的成對(duì)上下文約束然遏,并將其自下而上的分?jǐn)?shù)合并。根據(jù)合并分?jǐn)?shù)將隨機(jī)選擇一個(gè)新對(duì)象吧彪。例如待侵,一元自下而上的分?jǐn)?shù)可以有效地修剪無(wú)效假設(shè)(圖6(a)),而成對(duì)得分可以進(jìn)一步提高(圖6(c))姨裸。如圖6(d)所示秧倾,床頭上的矩形被進(jìn)一步強(qiáng)調(diào),而窗口上的矩形被削弱傀缩。我們可以看到圍繞真實(shí)繪畫的假設(shè)都是很高的分?jǐn)?shù)那先,因此我們有更高的機(jī)會(huì)獲得正確的對(duì)象。
5.給定到目前為止所有采樣的對(duì)象赡艰,重復(fù)上一步售淡,直到所有實(shí)例都被采樣為止。
與完全隨機(jī)抽樣相比慷垮,我們的方法可以避免明顯不合理的場(chǎng)景假設(shè)揖闸,從而確保在可管理的樣本數(shù)量下實(shí)現(xiàn)較高的召回率。圖7顯示了一些采樣結(jié)果料身。
5.??數(shù)據(jù)驅(qū)動(dòng)的整體排名
在生成一長(zhǎng)串全屋假設(shè)后汤纸,我們訓(xùn)練了一個(gè)SVM模型對(duì)它們進(jìn)行排名,并從整體上為全屋選擇最佳假設(shè)芹血。
線性SVM:我們的目標(biāo)是學(xué)習(xí)一個(gè)從全景圖x到場(chǎng)景解析結(jié)果y的映射贮泞,因?yàn)閥是一個(gè)結(jié)構(gòu)輸出,我們將這個(gè)問(wèn)題表示為一個(gè)0-1 loss的支持向量機(jī)結(jié)構(gòu)幔烛,即一個(gè)二元線性SVM啃擦。我們定義了一個(gè)特征向量f (x, y) 全景 x 及其假設(shè) y。二進(jìn)制標(biāo)簽l表示y是否足夠接近手動(dòng)注釋的ground truth
在訓(xùn)練過(guò)程中饿悬,對(duì)每一個(gè)全景圖xn進(jìn)行采樣假設(shè)令蛉,我們采樣M個(gè)假設(shè)
我們使用我們的訓(xùn)練集中的所有N個(gè)全景圖通過(guò)
的MN對(duì)來(lái)訓(xùn)練二值SVM。由于我們通常有數(shù)百個(gè)全景圖和數(shù)千個(gè)假設(shè)乡恕,因此在測(cè)試過(guò)程中支持向量機(jī)大約有100萬(wàn)個(gè)訓(xùn)練數(shù)據(jù)言询,因此選擇支持向量機(jī)得分最大的假設(shè)作為結(jié)果俯萎。
匹配成本:
度量整個(gè)房間假設(shè)y和ground truth y*之間的差。我們首先通過(guò)匹配消失的方向和房間中心來(lái)注冊(cè)這兩個(gè)場(chǎng)景运杭。對(duì)于具有相同語(yǔ)義類型的所有長(zhǎng)方體對(duì)(每個(gè)場(chǎng)景中的一個(gè))夫啊,我們將其距離計(jì)算為相應(yīng)頂點(diǎn)之間的平均3D距離。然后辆憔,我們搜索二分匹配撇眯,以最小化每個(gè)語(yǔ)義標(biāo)簽的距離。
是所有兩方匹配成本加上兩個(gè)場(chǎng)景中不匹配的長(zhǎng)方體的恒定損失的總和虱咧。我們用這個(gè)分?jǐn)?shù)來(lái)決定訓(xùn)練數(shù)據(jù)的標(biāo)簽熊榛。因?yàn)楹茈y找到一個(gè)好的閾值,所以我們選擇兩個(gè)保守的閾值來(lái)確保所有正值都是好的腕巡,所有負(fù)值都是不好的玄坦。由于無(wú)法可靠地判斷其質(zhì)量,因此我們將所有其他數(shù)據(jù)都放在中間绘沉。
整體特征:特征向量f(x; y)是對(duì)象級(jí)特征fobject和房間級(jí)特征f room的串聯(lián)煎楣。因此,它對(duì)自下而上的圖像證據(jù)和自上而下的上下文約束進(jìn)行編碼车伞。SVM使用訓(xùn)練數(shù)據(jù)以數(shù)據(jù)驅(qū)動(dòng)的方式了解所有信息之間的相對(duì)重要性择懂。fobject衡量每個(gè)單個(gè)對(duì)象的可靠性。在每個(gè)對(duì)象假設(shè)上另玖,將提取矩形檢測(cè)器分?jǐn)?shù)困曙,分割I(lǐng)OU分?jǐn)?shù),OM和GC的每個(gè)通道上的sum /mean / std谦去,顏色分布熵和2D投影大小慷丽,并將其連接到列向量中。我們將類別中所有實(shí)例的特征的總和/均值/最大值/最小值連接為該類別的特征哪轿。對(duì)于沒(méi)有對(duì)象的類別盈魁,我們將feature設(shè)置為零。我們將所有對(duì)象類別的特征連接為一個(gè)向量作為fobject窃诉。由于類別的數(shù)量是固定的,因此總尺寸也是固定的赤套。
非參數(shù)房間對(duì)齊:房間水平特征f room檢查是否可以在現(xiàn)實(shí)中找到假設(shè)的結(jié)構(gòu)飘痛,即房間布局和所有對(duì)象的布置。我們通過(guò)將假設(shè)y與訓(xùn)練集中的所有手動(dòng)3D注釋{y1*容握,y2*宣脉,.. yN*}結(jié)合起來(lái),提出了一種非參數(shù)數(shù)據(jù)驅(qū)動(dòng)的暴力環(huán)境模型剔氏。注冊(cè)兩個(gè)場(chǎng)景后塑猖,我們可以有效地計(jì)算兩個(gè)場(chǎng)景中所有長(zhǎng)方體對(duì)之間的距離竹祷。距離定義為中心距離,聯(lián)合上的體積交集和語(yǔ)義類型一致性的組合羊苟。由于我們的訓(xùn)練數(shù)據(jù)量有限塑陵,因此我們?cè)趃round truth間應(yīng)用各種變換T來(lái)增加數(shù)據(jù)庫(kù)的多樣性。具體來(lái)說(shuō)蜡励,我們?cè)黾?減小房間的大小令花,同時(shí)保持房間中所有對(duì)象的相對(duì)位置不變,或者保持它們與墻的絕對(duì)距離固定凉倚。我們進(jìn)一步允許對(duì)整個(gè)場(chǎng)景進(jìn)行通用縮放兼都。房間級(jí)別特征Froom定義為在這些變換下,假設(shè)與訓(xùn)練數(shù)據(jù)中所有房間之間的假設(shè)之間的10個(gè)最小匹配成本的累加總和和乘積稽寒。
僅限房間的顏色模型:為了將所有對(duì)象一起考慮扮碧,我們將圖像區(qū)域劃分為前景(對(duì)象覆蓋的像素)和背景(其他像素)。在每個(gè)區(qū)域中杏糙,我們提取fobject中定義的相似特征芬萍。這提供了整合自下而上和自上而下信息的上下文信息,并且它是froom的一部分搔啊。
局部調(diào)整:支持向量機(jī)返回的最高假設(shè)可能會(huì)受到我們假設(shè)池規(guī)模的限制柬祠。因此,我們對(duì)一些高分假設(shè)應(yīng)用了局部改進(jìn)负芋,以得到具有更高SVM分?jǐn)?shù)的結(jié)果漫蛔。具體來(lái)說(shuō),我們使用成對(duì)上下文約束刪除旧蛾,添加或交換對(duì)象莽龟,或者完全重新采樣一些新房間。如果生成的結(jié)果具有更高的SVM評(píng)分锨天,我們將接受這一新結(jié)果毯盈,并圍繞它進(jìn)行另一次局部?jī)?yōu)化。
參考文獻(xiàn):
[1]?PanoContext: A Whole-room 3D Context Model?for Panoramic Scene Understanding.??http://panocontext.cs.princeton.edu/paper.pdf