PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation 中文翻譯


點云是一種重要的幾何數(shù)據(jù)結(jié)構(gòu)击吱。 由于其不規(guī)則的格式淋淀,大多數(shù)研究人員將這些數(shù)據(jù)轉(zhuǎn)換為常規(guī)3D體素網(wǎng)格或圖像集合遥昧。 然而,這會使數(shù)據(jù)不必要地大量增加并導(dǎo)致問題朵纷。 在本文中炭臭,我們設(shè)計了一種直接消耗點云的新型神經(jīng)網(wǎng)絡(luò),它很好地考慮了輸入中點的置換不變性袍辞。 我們的網(wǎng)絡(luò)名為PointNet鞋仍,為從對象分類,部分分割到場景語義分析等應(yīng)用程序提供統(tǒng)一的體系結(jié)構(gòu)搅吁。 雖然簡單威创,但PointNet非常高效和有效。 根據(jù)經(jīng)驗谎懦,它表現(xiàn)出與現(xiàn)有技術(shù)水平相當(dāng)甚至更好的強勁表現(xiàn)肚豺。 從理論上講,我們提供分析界拦,以了解網(wǎng)絡(luò)學(xué)到了什么吸申,以及網(wǎng)絡(luò)在輸入擾動和腐敗方面的穩(wěn)健性。

1.簡介

在本文中享甸,我們探索了能夠推理三維幾何數(shù)據(jù)(如點云或網(wǎng)格)的深度學(xué)習(xí)架構(gòu)截碴。典型的卷積體系結(jié)構(gòu)需要高度規(guī)則的輸入數(shù)據(jù)格式,如圖像網(wǎng)格或3D體素的格式蛉威,以便執(zhí)行權(quán)重共享和其他內(nèi)核優(yōu)化日丹。由于點云或網(wǎng)格不是常規(guī)格式,因此大多數(shù)研究人員通常將這些數(shù)據(jù)轉(zhuǎn)換為常規(guī)3D體素網(wǎng)格或圖像集合(例如視圖)蚯嫌,然后將其提供給深網(wǎng)絡(luò)體系結(jié)構(gòu)哲虾。然而割坠,這種數(shù)據(jù)表示變換使得得到的數(shù)據(jù)不必要地大量增加同時還引入了可能模糊數(shù)據(jù)自然不變性的量化偽像。
出于這個原因妒牙,我們使用簡單的點云專注于3D幾何的不同輸入表示 - 并命名我們生成的深網(wǎng)點PointNets彼哼。點云是簡單而統(tǒng)一的結(jié)構(gòu),可以避免網(wǎng)格的組合不規(guī)則性和復(fù)雜性湘今,因此更容易學(xué)習(xí)敢朱。然而,PointNet仍然必須尊重點云只是一組點并因此對其成員的排列不變的事實摩瞎,這需要在網(wǎng)絡(luò)計算中進(jìn)行某些對稱化拴签。還需要考慮對剛性運動的進(jìn)一步不變性。

我們的PointNet是一個統(tǒng)一的架構(gòu)旗们,直接將點云作為輸入并輸出整個輸入的類標(biāo)簽或輸入的每個點的每個點段/部件標(biāo)簽蚓哩。我們網(wǎng)絡(luò)的基本架構(gòu)非常簡單,因為在初始階段上渴,每個點的處理方式相同且獨立岸梨。在基本設(shè)置中,每個點僅由其三個坐標(biāo)(x稠氮,y曹阔,z)表示「襞可以通過計算法線和其他局部或全局特征來添加附加維度赃份。
我們的方法的關(guān)鍵是使用單個對稱函數(shù),最大池奢米。有效地抓韩,網(wǎng)絡(luò)學(xué)習(xí)一組優(yōu)化函數(shù)/標(biāo)準(zhǔn),其選擇點云的有趣或信息點并編碼其選擇的原因鬓长。網(wǎng)絡(luò)的最終完全連接的層將這些學(xué)習(xí)的最優(yōu)值聚合到如上所述的整個形狀的全局描述符(形狀分類)中或者用于預(yù)測每個點標(biāo)簽(形狀分割)谒拴。
我們的輸入格式很容易應(yīng)用剛性或仿射變換,因為每個點都是獨立變換的痢士。因此彪薛,我們可以添加一個依賴于數(shù)據(jù)的空間變換器網(wǎng)絡(luò),該網(wǎng)絡(luò)嘗試在PointNet處理數(shù)據(jù)之前對數(shù)據(jù)進(jìn)行規(guī)范化怠蹂,以便進(jìn)一步改善結(jié)果善延。

我們提供理論分析和對我們方法的實驗評估。 我們表明我們的網(wǎng)絡(luò)可以近似任何連續(xù)的集合函數(shù)城侧。 更有趣的是易遣,事實證明我們的網(wǎng)絡(luò)學(xué)習(xí)通過一組稀疏的關(guān)鍵點來概括輸入點云,這些關(guān)鍵點根據(jù)可視化大致對應(yīng)于對象的骨架嫌佑。 理論分析提供了理解為什么我們的PointNet對輸入點的小擾動以及通過點插入(異常值)或刪除(丟失數(shù)據(jù))的損壞具有高度魯棒性豆茫。
在從形狀分類侨歉,零件分割到場景分割的許多基準(zhǔn)數(shù)據(jù)集中,我們通過實驗將PointNet與基于多視圖和體積表示的最新方法進(jìn)行比較揩魂。 在統(tǒng)一的架構(gòu)下幽邓,我們的PointNet不僅速度更快,而且還具有與現(xiàn)有技術(shù)相當(dāng)甚至更好的性能火脉。

我們工作的主要貢獻(xiàn)如下:
?我們設(shè)計了一種新穎的深網(wǎng)絡(luò)架構(gòu)牵舵,適用于消耗3D中的無序點集;
?我們展示了如何訓(xùn)練這樣的網(wǎng)絡(luò)來執(zhí)行3D形狀分類,形狀部分分割和場景語義分析任務(wù);
?我們對方法的穩(wěn)定性和效率進(jìn)行了全面的經(jīng)驗和理論分析;
?我們演示了網(wǎng)絡(luò)中所選神經(jīng)元計算出的3D特征倦挂,并對其性能進(jìn)行了直觀的解釋畸颅。
通過神經(jīng)網(wǎng)絡(luò)處理無序集合的問題是一個非常普遍和基本的問題 - 我們希望我們的想法也可以轉(zhuǎn)移到其他領(lǐng)域。

2.相關(guān)工作

點云功能點云的大多數(shù)現(xiàn)有功能都是針對特定任務(wù)手工制作的方援。點特征通常編碼點的某些統(tǒng)計特性没炒,并且被設(shè)計為對某些變換不變,這些變換通常被分類為內(nèi)在的[2,24,3]或外在的[20,19,14,10,5]犯戏。它們還可以歸類為本地特征和全局特征送火。對于特定任務(wù),找到最佳特征組合并非易事笛丙。
深入學(xué)習(xí)3D數(shù)據(jù)3D數(shù)據(jù)具有多種流行表示形式漾脂,從而導(dǎo)致各種學(xué)習(xí)方法。體積CNN:[28,17,18]是在體素形狀上應(yīng)用3D卷積神經(jīng)網(wǎng)絡(luò)的先驅(qū)胚鸯。然而,由于數(shù)據(jù)稀疏性和3D卷積的計算成本笨鸡,體積表示受其分辨率的限制姜钳。 FPNN [13]和Vote3D [26]提出了處理稀疏性問題的特殊方法;但是,他們的操作仍處于稀疏數(shù)量形耗,因此處理非常大的點云具有挑戰(zhàn)性哥桥。多視圖CNN:[23,18]嘗試將3D點云或形狀渲染為2D圖像,然后應(yīng)用2D轉(zhuǎn)換網(wǎng)對它們進(jìn)行分類激涤。通過精心設(shè)計的圖像CNN拟糕,這一系列方法在形狀分類和檢索任務(wù)方面取得了主導(dǎo)作用[21]。然而倦踢,將它們擴展到場景理解或其他3D任務(wù)(例如點分類和形狀完成)是非常重要的送滞。光譜CNN:一些最新的作品[4,16]在網(wǎng)格上使用光譜CNN。然而辱挥,這些方法目前被限制在諸如有機物體之類的歧管網(wǎng)格上犁嗅,并且如何將它們擴展到諸如家具之類的非等距形狀并不明顯∥畹猓基于特征的DNN:[6,8]首先通過提取傳統(tǒng)的形狀特征將3D數(shù)據(jù)轉(zhuǎn)換為矢量褂微,然后使用完全連接的網(wǎng)絡(luò)對形狀進(jìn)行分類功蜓。我們認(rèn)為它們受到所提取特征的表示能力的約束。

無序集的深度學(xué)習(xí)
從數(shù)據(jù)結(jié)構(gòu)的角度來看宠蚂,點云是一組無序的向量式撼。 雖然大多數(shù)深度學(xué)習(xí)工作都集中在常規(guī)輸入表示,如序列(語音和語言處理)求厕,圖像和體積(視頻或3D數(shù)據(jù))端衰,但在點集的深度學(xué)習(xí)中并沒有做太多工作。
Oriol Vinyals等人最近的一項研究[25]研究了這個問題甘改。 他們使用具有注意機制的讀進(jìn)程編寫網(wǎng)絡(luò)來使用無序輸入集旅东,并顯示他們的網(wǎng)絡(luò)具有對數(shù)字進(jìn)行排序的能力。 但是十艾,由于他們的工作重點是泛型集和NLP應(yīng)用程序抵代,因此缺少幾何體在集合中的作用。

3.問題陳述

我們設(shè)計了一個深度學(xué)習(xí)框架忘嫉,直接使用無序點集作為輸入荤牍。 點云表示為一組3D點{Pi | i = 1,...庆冕,n}康吵,其中每個點Pi是其(x,y访递,z)坐標(biāo)的矢量加上額外的特征通道晦嵌,如顏色,法線等拷姿。為簡單和清晰起見惭载,除非另有說明,否則我們只 使用(x响巢,y描滔,z)坐標(biāo)作為我們的點的通道。
對于對象分類任務(wù)踪古,輸入點云要么直接從形狀采樣含长,要么從場景點云預(yù)分割。 我們提出的深度網(wǎng)絡(luò)輸出所有k個候選類別的k分?jǐn)?shù)伏穆。 對于語義分割拘泞,輸入可以是用于部分區(qū)域分割的單個對象,或者來自用于對象區(qū)域分割的3D場景的子體積蜈出。 我們的模型將為n個點和m個語義子類別中的每一個輸出n×m個分?jǐn)?shù)田弥。

4.關(guān)于點集的深度學(xué)習(xí)

我們網(wǎng)絡(luò)的體系結(jié)構(gòu)(第4.2節(jié))的靈感來自Rn(第4.1節(jié))中的點集屬性。

4.1铡原。 Rn中點集的性質(zhì)
我們的輸入是來自歐氏空間的點的子集偷厦。
它有三個主要屬性:
?無序商叹。與圖像中的像素陣列或體積網(wǎng)格中的體素陣列不同,點云是一組沒有特定順序的點只泼。換句話說剖笙,消耗N個3D點集的網(wǎng)絡(luò)需要對N不變!數(shù)據(jù)饋送順序中輸入集的排列请唱。
?各點之間的互動弥咪。這些點來自具有距離度量的空間。這意味著點不是孤立的十绑,相鄰點形成一個有意義的子集聚至。因此,模型需要能夠捕獲附近點的局部結(jié)構(gòu)本橙,以及局部結(jié)構(gòu)之間的組合相互作用扳躬。
?轉(zhuǎn)型中的不變性。作為幾何對象甚亭,點集的學(xué)習(xí)表示應(yīng)該對某些變換不變贷币。例如,一起旋轉(zhuǎn)和平移點不應(yīng)該修改全局點云類別亏狰,也不應(yīng)該修改點的分段役纹。

4.2。 PointNet架構(gòu)
我們的完整網(wǎng)絡(luò)架構(gòu)在圖2中可視化暇唾,其中分類網(wǎng)絡(luò)和分段網(wǎng)絡(luò)共享很大一部分結(jié)構(gòu)促脉。請閱讀管道的圖2標(biāo)題。
我們的網(wǎng)絡(luò)有三個關(guān)鍵模塊:最大池層作為聚合來自所有點的信息的對稱函數(shù)信不,局部和全局信息組合結(jié)構(gòu)嘲叔,以及兩個對齊輸入點和點特征的聯(lián)合對齊網(wǎng)絡(luò)。
我們將在下面的單獨段落中討論這些設(shè)計選擇背后的原因抽活。
無序輸入的對稱函數(shù)為了使模型對輸入排列不變,存在三種策略:1)將輸入排序為規(guī)范順序; 2)將輸入視為訓(xùn)練RNN的序列锰什,但通過各種排列來增加訓(xùn)練數(shù)據(jù); 3)使用簡單的對稱函數(shù)來聚合來自每個點的信息下硕。這里,對稱函數(shù)將n個向量作為輸入汁胆,并輸出對輸入順序不變的新向量梭姓。例如,+和*運算符是對稱二進(jìn)制函數(shù)嫩码。
雖然排序聽起來像一個簡單的解決方案誉尖,但在高維空間中實際上并不存在穩(wěn)定的排序w.r.t.一般意義上的點擾動。這可以通過矛盾很容易地顯示出來铸题。如果存在這樣的排序策略铡恕,則它定義高維空間和1d實線之間的雙射映射琢感。不難看出,要求排序是穩(wěn)定的探熔,因為點擾動等同于要求該圖在尺寸減小時保持空間接近度驹针,這是在一般情況下無法實現(xiàn)的任務(wù)。因此诀艰,排序不能完全解決排序問題柬甥,并且由于排序問題仍然存在,網(wǎng)絡(luò)很難從輸入到輸出學(xué)習(xí)一致的映射其垄。如實驗中所示(圖5)苛蒲,我們發(fā)現(xiàn)直接在排序點集上應(yīng)用MLP表現(xiàn)不佳,但稍微好于直接處理未排序的輸入绿满。
使用RNN的想法將點集視為順序信號臂外,并希望通過用隨機置換序列訓(xùn)練RNN,RNN將變得對輸入順序不變棒口。然而寄月,在“OrderMatters”[25]中,作者已經(jīng)表明順序確實很重要无牵,不能完全省略漾肮。雖然RNN對于具有小長度(數(shù)十個)的序列的輸入排序具有相對良好的魯棒性,但是難以擴展到數(shù)千個輸入元素茎毁,這是點集的常見大小克懊。根據(jù)經(jīng)驗,我們還表明基于RNN的模型的表現(xiàn)不如我們提出的方法(圖5)七蜘。

我們的想法是通過對集合中的變換元素應(yīng)用對稱函數(shù)來近似在點集上定義的一般函數(shù):

根據(jù)經(jīng)驗谭溉,我們的基本模塊非常簡單:我們通過多層感知器網(wǎng)絡(luò)來近似h,并通過單個變量函數(shù)和最大池函數(shù)的組合來近似h橡卤。 通過實驗發(fā)現(xiàn)這很好扮念。 通過h的集合,我們可以學(xué)習(xí)一些f來捕獲集合的不同屬性碧库。
雖然我們的關(guān)鍵模塊看起來很簡單柜与,但它具有有趣的屬性(參見5.3節(jié))并且可以在一些不同的應(yīng)用程序中實現(xiàn)強大的性能(參見第5.1節(jié))。 由于我們模塊的簡單性嵌灰,我們也能夠提供第4.3節(jié)中的理論分析弄匕。

本地和全球信息聚合
上面部分的輸出形成一個向量[f1,... 沽瞭。 迁匠。 ,fK],這是輸入集的全局簽名城丧。我們可以在形狀全局特征上輕松訓(xùn)練SVM或多層感知器分類器以進(jìn)行分類延曙。但是,點分割需要本地和全球知識的組合芙贫。
我們的解決方案可以在圖2中看到(分段網(wǎng)絡(luò) -
工作)。在計算全局點云特征向量之后魂仍,我們通過將全局特征與每個點要素連接起來將其反饋到每點要素擦酌。然后我們基于組合點特征提取新的每點特征 - 這次每點特征知道本地和全局信息。
通過這種修改笼平,我們的網(wǎng)絡(luò)能夠預(yù)測依賴于局部幾何和全局語義的每個點數(shù)量。例如夺英,我們可以準(zhǔn)確地預(yù)測每點法線(圖中的補充)痛悯,驗證網(wǎng)絡(luò)能夠匯總來自該點的本地鄰域的信息载萌。在實驗環(huán)節(jié)中,我們還表明我們的模型可以在形狀部分分割和場景分割方面實現(xiàn)最先進(jìn)的性能。
聯(lián)合對齊網(wǎng)絡(luò)如果點云經(jīng)歷某些幾何變換(例如剛性變換)知给,則點云的語義標(biāo)記必須是不變的戈次。因此怯邪,我們期望我們的點集的學(xué)習(xí)表示對這些變換是不變的。
一種自然的解決方案是在特征提取之前將所有輸入集對齊到規(guī)范空間和泌。 Jaderberg等。 [9]介紹了空間變換器通過采樣和插值對齊2D圖像的想法,通過在GPU上實現(xiàn)的專門定制的層實現(xiàn)忠烛。
與[9]相比况木,我們的點云輸入形式使我們能夠以更簡單的方式實現(xiàn)這一目標(biāo)。我們不需要發(fā)明任何新圖層屹耐,也不會像圖像情況那樣引入任何別名。我們通過迷你網(wǎng)絡(luò)(圖2中的T-net)預(yù)測仿射變換矩陣按灶,并直接將該變換應(yīng)用于輸入點的坐標(biāo)噪矛。迷你網(wǎng)絡(luò)本身類似于大型網(wǎng)絡(luò)艇挨,由點獨立特征提取,最大池化和完全連接層的基本模塊組成脉漏。關(guān)于T-net的更多細(xì)節(jié)在補充中。
這個想法可以進(jìn)一步擴展到特征空間的對齊刃泡。我們可以在點要素上插入另一個對齊網(wǎng)絡(luò),并預(yù)測要素轉(zhuǎn)換矩陣以對齊來自不同輸入點云的要素桨踪。然而,特征空間中的變換矩陣具有比空間變換矩陣高得多的維度,這極大地增加了優(yōu)化的難度虱朵。因此,我們在softmax訓(xùn)練損失中增加了一個正則化項服协。我們將特征變換矩陣約束為接近正交矩陣:
Lreg =∥I-AAT∥2F,(2)
其中A是由迷你網(wǎng)絡(luò)預(yù)測的特征對齊矩陣。正交變換不會丟失輸入中的信息,因此是期望的。我們發(fā)現(xiàn)通過添加正則化項逛拱,優(yōu)化變得更加穩(wěn)定朽合,我們的模型實現(xiàn)了更好的性能休讳。

4.3筹麸。理論分析
通用近似我們首先展示了我們的神經(jīng)網(wǎng)絡(luò)對連續(xù)集函數(shù)的通用逼近能力尚骄。通過設(shè)置函數(shù)的連續(xù)性憨闰,直觀地宏邮,對輸入點集的小擾動不應(yīng)該極大地改變函數(shù)值捎泻,例如分類或分段分?jǐn)?shù)赤赊。
正式地哄孤,令X = {S:S?[0,1] m和| S | = n}双饥,f:X→R是X wrt到Hausdorff距離dH(·咏花,·)的連續(xù)集合函數(shù),即εε> 0阀趴,?δ> 0昏翰,對于任何S,S'∈X刘急,如果dH (S棚菊,S')<δ,然后| f(S)-f(S')| <ε叔汁。我們的定理說统求,在最大匯集層給定足夠的神經(jīng)元時,f可以由我們的網(wǎng)絡(luò)任意近似据块,即(1)中的K足夠大码邻。定理1.假設(shè)f:X→R是連續(xù)集函數(shù)w.r.t Hausdorff距離dH(·,·)另假。 ?ε> 0像屋,?連續(xù)函數(shù)h和對稱函數(shù)g(x1,...边篮,xn)=γ?MAX己莺,這樣對于任何S∈X奏甫,

其中x1,...凌受,xn是S任意排序的元素的完整列表阵子,γ是連續(xù)函數(shù),MAX是矢量max運算符胁艰,它將n個向量作為輸入并返回元素最大值的新向量款筑。
這個定理的證明可以在我們的補充材料中找到。關(guān)鍵的想法是腾么,在最壞的情況下,網(wǎng)絡(luò)可以通過將空間劃分為相等大小的體素來學(xué)習(xí)將點云轉(zhuǎn)換為體積表示杈湾。然而解虱,在實踐中,網(wǎng)絡(luò)學(xué)習(xí)了一種更智能的探測空間的策略漆撞,正如我們將在點函數(shù)可視化中看到的那樣殴泰。

瓶頸尺寸和穩(wěn)定性從理論上和實驗上我們發(fā)現(xiàn),我們網(wǎng)絡(luò)的表現(xiàn)力受到最大匯集層的維度的強烈影響浮驳,即(1)中的K.在這里悍汛,我們提供了一個分析,它還揭示了與模型穩(wěn)定性相關(guān)的屬性至会。
我們將u = MAX {h(xi)}定義為fxi∈S的子網(wǎng)
它將[0,1] m中的點集映射到K維向量离咐。以下定理告訴我們輸入集中的小損壞或額外噪聲點不太可能改變我們網(wǎng)絡(luò)的輸出:

我們解釋這個定理的含義。 (a)如果CS中的所有點都被保留奉件,則f(S)保持不變直至輸入損壞;它也沒有變化宵蛀,額外的噪音點高達(dá)NS。 (b)表示CS僅包含有限數(shù)量的點县貌,由(1)中的K確定术陶。換句話說,f(S)實際上完全由小于或等于K個元素的有限子集CS S來確定煤痕。因此梧宫,我們將CS稱為S和K的臨界點集合,即f的瓶頸維數(shù)摆碉。
結(jié)合h的連續(xù)性塘匣,這解釋了我們的模型w.r.t點擾動,腐敗和額外噪聲點的魯棒性兆解。類似于機器學(xué)習(xí)模型中的稀疏性原理馆铁,可以獲得穩(wěn)健性。直覺上锅睛,我們的網(wǎng)絡(luò)學(xué)會通過一組稀疏的關(guān)鍵點來總結(jié)一個形狀埠巨。在實驗部分中历谍,我們看到關(guān)鍵點構(gòu)成了對象的骨架。

5.實驗

實驗分為四個部分辣垒。首先望侈,我們展示PointNets可以應(yīng)用于多個3D識別任務(wù)(第5.1節(jié))。其次勋桶,我們提供了詳細(xì)的實驗來驗證我們的網(wǎng)絡(luò)設(shè)計(第5.2節(jié))脱衙。最后,我們可視化網(wǎng)絡(luò)學(xué)習(xí)的內(nèi)容(第5.3節(jié))并分析時間和空間的復(fù)雜性(第5.4節(jié))例驹。

5.1捐韩。應(yīng)用
在本節(jié)中,我們將展示如何訓(xùn)練我們的網(wǎng)絡(luò)來執(zhí)行3D對象分類鹃锈,對象部分分割和語義場景分割1.盡管我們正在開發(fā)一種全新的數(shù)據(jù)表示(點集)荤胁,但我們能夠?qū)崿F(xiàn)可比較甚至是在幾個任務(wù)的基準(zhǔn)測試中表現(xiàn)更好。
3D對象分類我們的網(wǎng)絡(luò)學(xué)習(xí)可用于對象分類的全局點云功能屎债。我們在ModelNet40 [28]形狀分類基準(zhǔn)上評估我們的模型仅政。來自40個人造物體類別的12,311個CAD模型分為9,843個用于訓(xùn)練,2,468個用于測試盆驹。雖然以前的方法專注于體積和多視圖圖像表示圆丹,但我們是第一個直接處理原始點云的方法。
我們根據(jù)面部區(qū)域在網(wǎng)格面上均勻地采樣1024個點躯喇,并將它們標(biāo)準(zhǔn)化為單位球體辫封。在訓(xùn)練期間,我們通過沿著上軸隨機旋轉(zhuǎn)物體并通過具有零均值和0.02標(biāo)準(zhǔn)偏差的高斯噪聲來抖動每個點的位置來實時增加點云玖瘸。

在表1中秸讹,我們將我們的模型與之前的工作以及使用MLP對從點云提取的傳統(tǒng)特征(點密度,D2雅倒,形狀輪廓等)的基線進(jìn)行比較璃诀。我們的模型在基于3D輸入(體積和點云)的方法中實現(xiàn)了最先進(jìn)的性能。由于只有完全連接的層和最大池蔑匣,我們的網(wǎng)絡(luò)在推理速度方面獲得了很強的領(lǐng)先優(yōu)勢劣欢,并且可以在CPU中輕松并行化。我們的方法和基于多視圖的方法(MVCNN [23])之間仍然存在一個小的差距裁良,我們認(rèn)為這是由于丟失了可以通過渲染圖像捕獲的精細(xì)幾何細(xì)節(jié)凿将。

三維物體零件分割
零件分割是一項具有挑戰(zhàn)性的細(xì)粒度3D識別任務(wù)。給定3D掃描或網(wǎng)格模型价脾,任務(wù)是將零件類別標(biāo)簽(例如牧抵,椅子腿,杯柄)分配給每個點或面。
我們評估來自[29]的ShapeNet零件數(shù)據(jù)集犀变,其中包含16個類別的16,881個形狀妹孙,總共注釋了50個零件。大多數(shù)對象類別標(biāo)有兩到五個部分获枝。地面實況注釋標(biāo)記在形狀上的采樣點上蠢正。
我們將部分細(xì)分制定為每點分類問題。評估指標(biāo)是分?jǐn)?shù)上的mIoU省店。對于類別C的每個形狀S嚣崭,計算形狀的mIoU:對于類別C中的每個零件類型,計算地面實體和預(yù)測之間的IoU懦傍。如果groundtruth和預(yù)測點的并集是空的雹舀,則將部分IoU計為1.然后我們對類別C中的所有部件類型的IoU進(jìn)行平均以獲得該形狀的mIoU。為了計算該類別的mIoU粗俱,我們對該類別中的所有形狀采用mIoU的平均值葱跋。
在本節(jié)中,我們將我們的分割版本PointNet(圖2的修改版本源梭,分割網(wǎng)絡(luò))與兩種傳統(tǒng)方法[27]和[29]進(jìn)行比較,這兩種方法都利用了逐點幾何特征和形狀之間的對應(yīng)關(guān)系稍味,以及我們自己的3D CNN基線废麻。有關(guān)3D CNN的詳細(xì)修改和網(wǎng)絡(luò)架構(gòu),請參閱補充說明模庐。
在表2中烛愧,我們報告每個類別和平均IoU(%)分?jǐn)?shù)。在大多數(shù)類別中掂碱,我們觀察到平均IoU改善的平均值為2.3%怜姿,并且我們的凈值超過了基線方法。
我們還對模擬的Kinect掃描進(jìn)行了實驗疼燥,以測試這些方法的穩(wěn)健性沧卢。對于ShapeNet零件數(shù)據(jù)集中的每個CAD模型,我們使用Blensor Kinect Simulator [7]從六個隨機視點生成不完整的點云醉者。我們使用相同的網(wǎng)絡(luò)架構(gòu)和培訓(xùn)設(shè)置對完整形狀和部分掃描進(jìn)行PointNet培訓(xùn)但狭。結(jié)果表明,我們的平均IoU僅損失5.3%撬即。在圖3中立磁,我們提供了完整和部分?jǐn)?shù)據(jù)的定性結(jié)果“保可以看出唱歧,雖然部分?jǐn)?shù)據(jù)相當(dāng)具有挑戰(zhàn)性,但我們的預(yù)測是合理的粒竖。

場景中的語義分割
我們的部分分割網(wǎng)絡(luò)可以很容易地擴展到語義場景分割颅崩,其中點標(biāo)簽變?yōu)檎Z義對象類而不是對象部分標(biāo)簽几于。
我們在Stanford 3D語義分析數(shù)據(jù)集[1]上進(jìn)行實驗。該數(shù)據(jù)集包含來自6個區(qū)域的Matterport掃描儀的3D掃描挨摸,包括271個房間孩革。掃描中的每個點都使用13個類別(椅子,桌子得运,地板膝蜈,墻壁等雜亂加上)的語義標(biāo)簽之一進(jìn)行注釋。
為了準(zhǔn)備訓(xùn)練數(shù)據(jù)熔掺,我們首先按房間分割點饱搏,然后將房間樣品分成1m×1m的區(qū)域。我們訓(xùn)練我們的PointNet分段版本進(jìn)行預(yù)測

每個塊中的每個點類置逻。每個點由一個9-dim矢量XYZ推沸,RGB和關(guān)于房間的歸一化位置(從0到1)表示。在訓(xùn)練時券坞,我們會在每個模塊中隨機抽取4096個點鬓催。在測試時,我們測試所有點恨锚。我們遵循與[1]相同的協(xié)議宇驾,使用k-fold策略進(jìn)行訓(xùn)練和測試。
我們使用手工制作的點特征將我們的方法與基線進(jìn)行比較猴伶】紊幔基線提取相同的9維局部特征和另外三個特征:局部點密度,局部曲率和法線他挎。我們使用標(biāo)準(zhǔn)MLP作為分類器筝尾。結(jié)果顯示在表3中,其中我們的PointNet方法明顯優(yōu)于基線方法办桨。在圖4中筹淫,我們顯示了定性分割結(jié)果。我們的網(wǎng)絡(luò)能夠輸出平滑的預(yù)測崔挖,并且對缺失點和遮擋具有魯棒性贸街。
基于我們網(wǎng)絡(luò)的語義分割輸出,我們進(jìn)一步構(gòu)建了一個3D對象檢測系統(tǒng)狸相,使用連接組件進(jìn)行對象提議(詳見補充說明)薛匪。我們將比較表4中先前的最新方法。前一種方法基于滑動形狀方法(具有CRF后處理)脓鹃,其中SVM在局部幾何特征和體素網(wǎng)格中的全局房間上下文特征上訓(xùn)練逸尖。我們的方法在報告的家具類別上大大超過了它。

5.2。建筑設(shè)計分析
在本節(jié)中娇跟,我們通過對照實驗驗證我們的設(shè)計選擇岩齿。我們還展示了我們網(wǎng)絡(luò)的超參數(shù)的影響。
與備選順序不變方法的比較
如第4.2節(jié)所述苞俘,至少有三種消耗無序設(shè)置輸入的選項盹沈。我們使用ModelNet40形狀分類問題作為測試床來比較那些選項,以下兩個控制實驗也將使用此任務(wù)吃谣。
我們比較的基線(如圖5所示)包括未分類和排序點上的多層感知器作為n×3陣列乞封,將輸入點視為序列的RNN模型,以及基于對稱函數(shù)的模型岗憋。我們實驗的對稱操作包括最大池肃晚,平均池和基于注意的加權(quán)和。注意方法類似于[25]中的注意方法仔戈,其中從每個點特征預(yù)測標(biāo)量分?jǐn)?shù)关串,然后通過計算softmax對分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化。然后监徘,在歸一化分?jǐn)?shù)和點特征上計算加權(quán)和晋修。如圖5所示,max-pooling操作通過大的獲勝余額實現(xiàn)了最佳性能凰盔,這證實了我們的選擇飞蚓。

輸入和特征轉(zhuǎn)換的有效性
在表5中,我們展示了輸入和特征轉(zhuǎn)換(對齊)的積極影響廊蜒。有趣的是,最基本的架構(gòu)已經(jīng)取得了相當(dāng)合理的結(jié)果溅漾。使用輸入轉(zhuǎn)換可提高0.8%的性能山叮。正規(guī)化損失是高維變換工作所必需的。通過結(jié)合轉(zhuǎn)換和正則化項添履,我們實現(xiàn)了最佳性能屁倔。
穩(wěn)健性測試
我們展示了PointNet,雖然簡單有效暮胧,但對各種輸入損壞都很穩(wěn)健锐借。我們使用與圖5的最大池網(wǎng)絡(luò)相同的架構(gòu)。輸入點被標(biāo)準(zhǔn)化為單位球體往衷。結(jié)果如圖6所示钞翔。
至于缺失點,當(dāng)缺少50%的點時席舍,精度僅下降2.4%和3.8%w.r.t布轿。最遠(yuǎn)和隨機輸入采樣。如果在培訓(xùn)期間看到這些,我們的網(wǎng)絡(luò)對異常點也很強汰扭。我們評估了兩個模型:一個訓(xùn)練有(x稠肘,y,z)坐標(biāo)的點;另一個(x萝毛,y项阴,z)加上點密度。即使20%的點是異常值笆包,網(wǎng)絡(luò)也具有超過80%的準(zhǔn)確度环揽。圖6右側(cè)示出了網(wǎng)對點擾動的魯棒性。

5.3色查∈硌荩可視化PointNet
在圖7中筹吐,我們對一些樣本形狀S可視化臨界點集CS和上界形狀NS(如在Thm 2中所討論的)灭返。兩個形狀之間的點集將給出完全相同的全局形狀特征f(S)略贮。
從圖7中我們可以清楚地看到蛇券,臨界點集CS板壮,即最大池特征的貢獻(xiàn)升熊,總結(jié)了形狀的骨架运悲。上限形狀NS示出了最大可能的點云峡蟋,其給出與輸入點云S相同的全局形狀特征f(S).CS和NS反映了PointNet的穩(wěn)健性晶通,意味著丟失一些非關(guān)鍵點不會改變?nèi)中螤詈灻鹒(S)璃氢。
通過網(wǎng)絡(luò)轉(zhuǎn)發(fā)邊長2立方體中的所有點并選擇其點函數(shù)值(h1(p),h2(p)狮辽,···一也,hK(p))為否的點p來構(gòu)造NS。大于全局形狀描述符喉脖。

5.4椰苟。時空復(fù)雜性分析
表6總結(jié)了我們的PointNet分類的空間(網(wǎng)絡(luò)中的參數(shù)數(shù)量)和時間(浮點運算/樣本)復(fù)雜性。我們還將PointNet與先前工作中基于體積和多視圖的一組代表性架構(gòu)進(jìn)行了比較树叽。
雖然MVCNN [23]和Subvolume(3D CNN)[18]實現(xiàn)了高性能舆蝴,但PointNet在計算成本方面的訂單效率更高(以FLOP /樣本測量:分別為141x和8x效率更高)。此外题诵,就網(wǎng)絡(luò)中的#param而言洁仗,PointNet比MVCNN更具空間效率(參數(shù)減少17倍)。此外性锭,PointNet的可擴展性更高 - 它的空間和時間復(fù)雜度為O(N) - 輸入點數(shù)量的線性赠潦。然而,由于卷積在計算時間上占主導(dǎo)地位草冈,因此多視圖方法的時間復(fù)雜度在圖像分辨率上正在增長祭椰,而基于體積卷積的方法隨著體積大小而立方體增長臭家。
根據(jù)經(jīng)驗,PointNet能夠在Tensor-Flow上使用1080X GPU處理點云分類(大約1K對象/秒)或語義分段(大約2個房間/秒)方淤,每秒處理超過一百萬個點钉赁,顯示出巨大的潛力實時應(yīng)用程序。

六携茂,結(jié)論
在這項工作中你踩,我們提出了一種直接消耗點云的新型深度神經(jīng)網(wǎng)絡(luò)PointNet。我們的網(wǎng)絡(luò)提供了一系列3D識別任務(wù)的統(tǒng)一方法讳苦,包括對象分類带膜,部分分割和語義分割,同時在標(biāo)準(zhǔn)基準(zhǔn)測試中獲得與現(xiàn)有技術(shù)相當(dāng)或更好的結(jié)果鸳谜。我們還提供理論分析和可視化膝藕,以了解我們的網(wǎng)絡(luò)。
確認(rèn)咐扭。作者非常感謝三星GRO資助芭挽,ONR MURI N00014-13-1-0341資助,NSF資助IIS-1528025蝗肪,谷歌研究獎袜爪,Adobe公司的禮物和NVIDIA的硬件捐贈。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末薛闪,一起剝皮案震驚了整個濱河市辛馆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌豁延,老刑警劉巖昙篙,帶你破解...
    沈念sama閱讀 218,036評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異诱咏,居然都是意外死亡瓢对,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評論 3 395
  • 文/潘曉璐 我一進(jìn)店門胰苏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人醇疼,你說我怎么就攤上這事硕并。” “怎么了秧荆?”我有些...
    開封第一講書人閱讀 164,411評論 0 354
  • 文/不壞的土叔 我叫張陵倔毙,是天一觀的道長。 經(jīng)常有香客問我乙濒,道長陕赃,這世上最難降的妖魔是什么卵蛉? 我笑而不...
    開封第一講書人閱讀 58,622評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮么库,結(jié)果婚禮上傻丝,老公的妹妹穿的比我還像新娘。我一直安慰自己诉儒,他們只是感情好葡缰,可當(dāng)我...
    茶點故事閱讀 67,661評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著忱反,像睡著了一般泛释。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上温算,一...
    開封第一講書人閱讀 51,521評論 1 304
  • 那天怜校,我揣著相機與錄音,去河邊找鬼注竿。 笑死茄茁,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蔓搞。 我是一名探鬼主播胰丁,決...
    沈念sama閱讀 40,288評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼喂分!你這毒婦竟也來了锦庸?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,200評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蒲祈,失蹤者是張志新(化名)和其女友劉穎甘萧,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體梆掸,經(jīng)...
    沈念sama閱讀 45,644評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡扬卷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,837評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了酸钦。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怪得。...
    茶點故事閱讀 39,953評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖卑硫,靈堂內(nèi)的尸體忽然破棺而出徒恋,到底是詐尸還是另有隱情,我是刑警寧澤欢伏,帶...
    沈念sama閱讀 35,673評論 5 346
  • 正文 年R本政府宣布入挣,位于F島的核電站,受9級特大地震影響硝拧,放射性物質(zhì)發(fā)生泄漏径筏。R本人自食惡果不足惜葛假,卻給世界環(huán)境...
    茶點故事閱讀 41,281評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望滋恬。 院中可真熱鬧聊训,春花似錦、人聲如沸夷恍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽酿雪。三九已至遏暴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間指黎,已是汗流浹背朋凉。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留醋安,地道東北人杂彭。 一個月前我還...
    沈念sama閱讀 48,119評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像吓揪,于是被迫代替她去往敵國和親亲怠。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,901評論 2 355