DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama
Abstract
我們提供了一個稱為DuLa-Net的深度學習框架,可從單個RGB全景圖預測曼哈頓世界3D房間的布局主到。 為了獲得更好的預測精度初烘,我們的方法同時利用了全景的兩個投影巴碗,即等距柱狀全景視圖和透視天花板視圖渊鞋,每個投影都包含有關(guān)房間布局的不同線索凸克。 我們的網(wǎng)絡架構(gòu)由兩個編碼器/解碼器分支組成孵淘,用于分析兩個視圖中的每個視圖蒲障。 另外,提出了一種新穎的特征融合結(jié)構(gòu)來連接兩個分支瘫证,然后對兩個分支進行聯(lián)合訓練以預測2D平面圖和布局高度揉阎。 為了了解更復雜的房間布局,我們引入了Realtor360數(shù)據(jù)集背捌,該數(shù)據(jù)集包含具有不同角數(shù)的曼哈頓世界房間布局的全景圖毙籽。 實驗結(jié)果表明,我們的工作在預測準確性和性能方面優(yōu)于最新技術(shù)毡庆,尤其是在非立方體布局的房間中坑赡。
1. Introduction
從室內(nèi)全景圖像推斷出高質(zhì)量的3D房間布局在理解室內(nèi)場景中起著至關(guān)重要的作用烙如,并且可能有益于包括虛擬/增強現(xiàn)實和機器人技術(shù)在內(nèi)的各種應用。 為此垮衷,最近的方法通過使用深度學習來預測輸入全景圖上的房間角落和邊界厅翔,來恢復3D房間布局。 例如搀突,LayoutNet對曼哈頓世界受限的房間實現(xiàn)了令人印象深刻的重建精度刀闷。 但是,房間里的雜物仰迁,例如甸昏,家具,提取在輸入全景圖中遮擋的關(guān)鍵拐角和邊緣帶來了挑戰(zhàn)徐许。 另外施蜜,從2D拐角和邊緣圖估計3D布局是一個不適定的問題,因此在優(yōu)化中施加了額外的約束雌隅。 因此翻默,處理復雜的房間布局仍然具有挑戰(zhàn)性。
在這項工作中恰起,我們提出了一個新穎的端到端框架修械,可以從單個RGB全景圖估算3D房間的布局。 憑直覺检盼,在給定相同全景圖但投影不同的情況下肯污,神經(jīng)網(wǎng)絡可能會提取不同類型的特征,因此吨枉,我們建議從全景圖的兩個不同視圖(即等距柱狀全景視圖和透視天花板視圖)預測房間布局蹦渣。 網(wǎng)絡體系結(jié)構(gòu)遵循編碼器-解碼器方案,并且由全景分支和天花板分支兩個分支組成貌亭,分別用于分析全景視圖和天花板視圖的圖像柬唯。 全景分支的輸出包括地板-天花板概率圖和布局高度,而天花板分支則輸出房屋平面概率圖属提。 為了在分支之間共享信息权逗,我們采用了一種特征融合方案,通過E2P轉(zhuǎn)換連接解碼器的前幾層冤议,該轉(zhuǎn)換將中間特征圖從等距柱狀投影轉(zhuǎn)換為透視天花板視圖斟薇。 我們發(fā)現(xiàn)通過聯(lián)合訓練兩個相連的分支可以實現(xiàn)更好的預測性能。 然后恕酸,通過將軸對齊的多邊形擬合到融合的房屋平面概率圖(請參見圖3)堪滨,然后通過估計的布局高度將其拉伸,從而獲得最終的2D平面圖蕊温。
要從具有復雜布局的全景圖中學習袱箱,我們需要用于網(wǎng)絡訓練和測試的適當數(shù)據(jù)集遏乔。 但是,現(xiàn)有的公共數(shù)據(jù)集发笔,例如PanoContext 數(shù)據(jù)集盟萨,提供了帶有簡單長方體形狀的大部分帶標簽的3D布局。 為了學習更復雜的布局了讨,我們引入了一個新的數(shù)據(jù)集Realtor360捻激,其中包括SUN360 數(shù)據(jù)集(593個客廳和臥室)的子集和從房地產(chǎn)數(shù)據(jù)庫收集的1980個全景圖。 我們使用定制的交互式工具注釋了整個數(shù)據(jù)集前计,以獲取真實的3D布局胞谭。
我們的數(shù)據(jù)集的一個關(guān)鍵特征是,它包含的房間的拐角數(shù)量具有更復雜的形狀男杈。實驗結(jié)果表明丈屹,我們的方法在預測準確度方面優(yōu)于當前的最新方法,尤其是對于四個角以上的房間伶棒。 我們的方法還需要更少的時間來計算最終房間的布局旺垒。 圖1顯示了通過我們的方法估算的一些房間布局。 我們的貢獻總結(jié)如下:
·? ?我們提出了一種新穎的網(wǎng)絡體系結(jié)構(gòu)肤无,其中包含兩個編碼器-解碼器分支袖牙,以分析兩個不同投影中的輸入全景圖。 這兩個分支通過特征融合方案進一步連接舅锄。 這種雙投影架構(gòu)可以推斷出房間的布局,除了長方體和L形之外司忱,還具有更復雜的形狀皇忿。
·? ?我們的神經(jīng)網(wǎng)絡是朝著建立端到端架構(gòu)邁出的重要一步。 我們的網(wǎng)絡直接輸出2D平面圖的概率圖坦仍。 與當前最新技術(shù)的輸出相比鳍烁,此輸出需要更少的后處理來獲得最終的3D房間布局。
·? 我們引入了一個稱為Realtor360的新數(shù)據(jù)集繁扎,其中包含2573個全景圖幔荒,這些全景圖描繪了具有4至12個角的房間。 據(jù)我們所知梳玫,這是最大的室內(nèi)圖像數(shù)據(jù)集爹梁,其中包含當前可用的房間布局注釋。
2. Related Work
有多篇論文提出了一種從室內(nèi)環(huán)境中拍攝的單個圖像估算房間布局的解決方案提澎。 它們主要在三個方面有所不同:1)房間布局的假設姚垃; 2)輸入圖像的類型; 3)方法盼忌。 就房間布局假設而言积糯,一個流行的選擇是“曼哈頓世界”假設掂墓,這意味著所有墻壁都與全局坐標系對齊。 為了使問題更容易解決看成,一個更嚴格的假設是房間是一個長方體君编,即正好存在四個房間角。我們的方法采用曼哈頓世界假設川慌,但允許任意數(shù)量的拐角吃嘿。
就輸入圖像的類型而言,圖像的FoV(視場)可能有所不同-從單目(即從標準相機拍攝)到360度全景窘游,以及是否提供深度信息唠椭。 然后,這些方法在很大程度上取決于輸入圖像類型忍饰。 僅給出單目RGB圖像時贪嫂,該問題可能最難解決。 通常艾蓝,從輸入圖像中提取幾何(例如線和角)和/或語義(例如分割成不同區(qū)域和體積推理)“線索”力崇, 生成一組房間布局假設,然后采用優(yōu)化或投票過程對假設進行排名和選擇赢织。 最近亮靴,基于神經(jīng)網(wǎng)絡的方法在解決這個問題方面取得了長足的進步。 趨勢是神經(jīng)網(wǎng)絡生成越來越多的信息-從線段于置,表面標簽到房間類型以及房間邊界和角落茧吊,以形成最終信息布局生成過程越來越容易解決。 我們的方法通過使用神經(jīng)網(wǎng)絡直接預測2D平面圖概率圖(僅需要2D多邊形擬合過程即可生成最終2D房間布局)八毯,將這一趨勢進一步向前推進搓侄。
如果提供了深度信息,則存在估算場景注釋的方法话速,包括房間布局讶踪。 更深入的討論超出了本文的范圍。
密切相關(guān)的問題包括根據(jù)給定圖像進行深度估計和根據(jù)點云進行場景重建泊交。 注意乳讥,估計的深度或重建的3D場景都不一定等同于潔凈室布局,因為此類輸入可能包含雜波廓俭。
360全景圖:Zhang等人的開創(chuàng)性著作提倡將360度全景圖用于室內(nèi)場景理解云石,因為360度全景圖的FOV范圍更大。 朝著這個方向發(fā)展的工作蓬勃發(fā)展白指,包括基于對幾何和/或語義線索進行優(yōu)化的方法留晚,以及后來基于神經(jīng)網(wǎng)絡的方法。 除了LayoutNet,大多數(shù)方法都依賴于利用現(xiàn)有技術(shù)對從輸入全景拍攝的樣本上的單視角圖像進行處理错维。 我們認為奖地,這是LayoutNet出色性能的主要原因,因為它可以對整個全景圖進行預測赋焕,從而提取輸入全景圖可能包含的更多全局信息参歹。在【20】中可以找到沿該方向的進一步步驟,其中將輸入全景圖投影到2D“地板”視圖隆判,其中攝像機位置映射到圖像的中心犬庇,并且全景圖中的垂直線變?yōu)閺较驁D像中心發(fā)出的線條。 這種方法的優(yōu)點是房間布局成為2D閉環(huán)侨嘀,可以更輕松地提取它臭挽。 我們在這里得出“天花板”視圖的想法-而不是向下看向包括房間中所有雜物的地板,而是向上看向天花板咬腕,從而更清晰地看到房間布局欢峰。
3. Overview
圖2說明了我們框架的概述。 給定輸入為等距柱狀全景圖像涨共,我們遵循在PanoContext [29]中使用的相同預處理步驟纽帖,將全景圖像與全局坐標系對齊,即我們以曼哈頓世界為假設举反。 然后懊直,我們通過等距柱狀圖向透視(E2P)轉(zhuǎn)換將全景圖像轉(zhuǎn)換為透視天花板圖像(第4節(jié))。 然后將全景視圖和天花板視圖圖像饋送到由兩個編碼器/解碼器分支組成的網(wǎng)絡火鼻。 這兩個分支通過基于E2P的特征融合方案連接在一起室囊,并經(jīng)過共同訓練以預測平面圖概率圖,地板最高概率圖和布局高度(第5節(jié))魁索。 使用E2P轉(zhuǎn)換從地板-天花板概率圖導出兩個中間概率圖波俄,并將其與房屋平面圖概率圖結(jié)合以獲得融合的房屋平面圖概率圖。最終3D Manhattan布局是通過使用預測的布局高度將在融合平面圖概率圖上估算的2D Manhattan平面圖進行拉伸來確定的(第六節(jié))蛾默。
4. E2P conversion
在本節(jié)中,我們解釋了E2P轉(zhuǎn)換的公式捉貌,該公式將等距柱狀全景圖轉(zhuǎn)換為透視圖圖像支鸡。 我們假設透視圖是正方形,尺寸為ww趁窃。 對于透視圖像中位置(
;
)上的每個像素牧挣,我們得出全景圖中相應像素的位置
,
;
醒陆,如下瀑构。 首先,我們將透視圖像的針孔相機的視場定義為FoV刨摩。 然后寺晌,焦距可以推導為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
世吨,即相機空間中透視圖圖像中像素的3D位置,然后呻征,如果相機是向上看(看天花板)耘婚,則沿x軸(逆時針)旋轉(zhuǎn)90,如果是向下看(看地板)陆赋,則沿x軸(逆時針)旋轉(zhuǎn)-90沐祷。
接下來,我們將旋轉(zhuǎn)后的三維位置投影到等距柱狀圖空間攒岛。為此赖临,我們首先通過向量歸一化兢榨,并應用下列公式:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
投影,即單位球面上的3D位置勾缭,回到全景圖中相應的2D位置
萝勤。 最后,我們使用
對全景圖中的像素值進行插值碱蒙。 我們注意到該過程是可微的,因此可以與反向傳播結(jié)合使用。
5. Network architecture
我們的網(wǎng)絡架構(gòu)如圖2所示澎办。它由兩個編碼器/解碼器分支組成,用于全景視圖和天花板視圖輸入圖像金砍。 我們將全景視圖分支表示為局蚀,將天花板視圖分支表示為
。
的編碼器和解碼器表示為
和
恕稠,對于
琅绅,它們表示為
和
。 一個關(guān)鍵概念是我們的網(wǎng)絡可以預測平面圖和布局高度鹅巍。 通過這兩個預測千扶,我們可以在后期處理中重建3D房間布局(第6節(jié))。
5.1. Encoder
我們將ResNet-18用作和
的結(jié)構(gòu)骆捧。
的輸入尺寸為512x1024x3(輸入全景圖的尺寸)澎羞,輸出尺寸為16x32x512。 對于
敛苇,輸入和輸出尺寸為512x512x3和16x16x512妆绞。 請注意,
的輸入是通過對輸入全景進行E2P轉(zhuǎn)換(FoV設置為160°,w設置為512)而生成的透視頂視圖圖像括饶。我們還嘗試了其他計算成本更高的網(wǎng)絡結(jié)構(gòu)株茶,例如ResNet-50 編碼器。 但是巷帝,我們發(fā)現(xiàn)準確性沒有任何提高忌卤,因此為了簡單起見,我們選擇使用ResNet-18楞泼。
5.1. Decoder?
和
都包含六個卷積層驰徊。前五層是3x3個具有ReLU激活的調(diào)整大小卷積。 最后一層是具有Sigmoid激活的常規(guī)3x3卷積堕阔。 這六層卷積的通道數(shù)分別為256棍厂、128、64超陆、32牺弹、16和1。為推理布局高度时呀,我們在
的最中間部分添加了三個全連接層张漂。 這三層的尺寸分別為256、64和1谨娜。為了使布局高度的回歸更加可靠航攒,我們在前兩層之后添加了dropout層。為了將最中間的特征作為輸入趴梢,我們首先在x和y維度上應用全局平均池化漠畜,從而生成具有512維度的1-D特征,并將其作為全連接層的輸入坞靶。
的輸出是等距柱狀圖投影的地板和天花板的概率圖憔狞,表示為地板-天花板概率圖(
)。 對于
彰阴,輸出是天花板視角的平面圖的概率圖瘾敢,表示為平面圖概率圖(
)。 請注意尿这,
還輸出預測的布局高度(H)廉丽。
5.3. Feature fusion
我們發(fā)現(xiàn),應用融合技術(shù)來融合和
中的特征可以提高預測準確性妻味。我們推測一個原因如下。 在天花板視圖圖像中欣福,圖像邊界附近的區(qū)域(存在一些有用的視覺線索责球,例如陰影和家具布置)更加失真,這可能對天花板視圖分支推理房間結(jié)構(gòu)產(chǎn)生不利影響。 通過融合全景視圖分支中的特征(失真程度較谐狻)嘉裤,可以改善天花板視圖分支的性能。
我們在和
的前五層中的每個層之前應用融合栖博。 對于每個融合連接屑宠,將FoV設置為160°,E2P轉(zhuǎn)換(第4節(jié))是將
中的原本在等距柱狀投影視圖中的特征投影到透視天花板視圖仇让。 每個融合的工作方式如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在應用E2P轉(zhuǎn)換后典奉,其中是
的特征,而
是
的特征丧叽。
和
是衰減系數(shù)卫玖。
是層的索引。 每次融合之后踊淳,合并后的特征
被發(fā)送到
的下一層假瞬。 在第8節(jié)中討論了該技術(shù)的性能改進。
5.4. Loss function
5.5. Training details
我們用PyTorch實現(xiàn)了我們的方法迂尝。 我們使用Adam優(yōu)化器脱茉,其中= 0.9和
= 0.999。 學習率是0垄开。0003琴许,批量尺寸是4。我們的訓練損失在大約120輪后收斂说榆。 對于每次訓練迭代虚吟,我們通過隨機翻轉(zhuǎn)和水平旋轉(zhuǎn)將輸入全景圖分別增加0°、90°签财、180°和270°串慰。 對于融合部分,我們在等式2中的設置了
和
唱蒸,分別是0.6和3邦鲫。? 我們在等式5中設置了
為0.5。 因為我們估計了天花板視圖中的平面概率圖神汹,所以我們假設攝像機和天花板之間的距離為1.6米庆捺,并使用此常數(shù)對ground truth進行歸一化。
6. 3D layout estimation
給定概率圖(和
)以及網(wǎng)絡預測的布局高度(H)屁魏,我們通過以下兩個步驟重建最終的3D布局:
1.使用概率圖估算2D 曼哈頓平面圖的形狀滔以。
?2.根據(jù)布局高度沿其法線擠壓平面圖形狀。
對于步驟1氓拼,使用E2P轉(zhuǎn)換從地板-天花板概率圖的天花板像素和地板像素中得出兩個中間圖你画,分別表示為和
抵碟。我們進一步使用比例因子1.6 /(H-1.6),將
與
配準坏匪,其中常數(shù)1.6是攝像機與天花板之間的距離拟逮。 最后,融合平面圖概率圖的計算如下:
圖3(a)示出了上述過程适滓。 概率圖使用閾值0.5進行二值化敦迄。 計算最大的連接組件的邊界矩形以供以后使用。 接下來凭迹,我們將二進制圖像轉(zhuǎn)換為密集采樣的分段線性閉環(huán)罚屋,并使用Douglas-Peucker算法對其進行簡化(參見圖3(b))。 我們對邊緣進行回歸分析蕊苗,并將其聚類為軸對齊的水平線和垂直線沿后。 這些線將邊界矩形劃分為幾個不相交的網(wǎng)格單元(請參見圖3(c))。 我們將2D平面圖的形狀定義為柵格單元的并集朽砰,其中平面圖面積的比率大于0.5(請參見圖3(d))尖滚。
7. Realtor360 dataset
包含足夠數(shù)量的3D房間布局(具有不同數(shù)量的拐角)的數(shù)據(jù)集對于訓練以及測試我們的網(wǎng)絡至關(guān)重要。 不幸的是瞧柔,現(xiàn)有的公共領(lǐng)域數(shù)據(jù)集漆弄,例如Zou等人標記的PanoContext 數(shù)據(jù)集和Stanford 2D-3D數(shù)據(jù)集。主要包含具有簡單長方體形狀的布局造锅。為了證明我們的框架足夠靈活撼唾,可以處理任意數(shù)量的拐角房間,我們引入了一個名為Realtor360的新數(shù)據(jù)集哥蔚,其中包含2500多個室內(nèi)全景圖和帶注釋的3D房間布局倒谷。 我們根據(jù)房間布局的復雜程度對每個房間進行分類,這些復雜程度是通過平面圖中的拐角數(shù)量來衡量的糙箍。 表1顯示了數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)渤愁,圖4中提供了一些可視示例。Realtor360數(shù)據(jù)集中的源全景圖像是從兩個源中收集的深夯。 第一個是SUN360數(shù)據(jù)集的一個子集抖格,其中包含593個客廳和臥室的全景圖。 另一個來源是一個房地產(chǎn)數(shù)據(jù)庫咕晋,其中包含從一家房地產(chǎn)公司獲得的1980個室內(nèi)全景圖雹拄。 我們使用定制的交互式工具注釋這些室內(nèi)全景圖的3D布局,如下所述掌呜。
注釋工具滓玖。 為了用高質(zhì)量的3D房間布局注釋2D室內(nèi)全景圖,我們開發(fā)了一種交互式工具來簡化標記過程质蕉。 該工具首先利用現(xiàn)有的自動方法從輸入全景圖中提取深度圖和線段势篡。然后损姜,通過沿全景中心的水平線采樣深度來創(chuàng)建初始的3D曼哈頓世界布局。 該工具允許用戶通過一系列直觀的操作來完善初始3D布局殊霞,這些操作包括(i)推/拉墻;(ii)合并多堵墻汰蓉;(iii)分開一堵墻绷蹲。 它還提供了一個方便的功能,可以在交互式編輯過程中將布局邊對齊到估計的線段顾孽,以提高準確性祝钢。 我們計劃在發(fā)布此工作后將數(shù)據(jù)集和注釋工具一起發(fā)布以供學術(shù)使用。