摘要
? 提出一個新穎的模型---PointNet,直接以3D點云坐標(biāo)作為輸入把篓,在滿足輸入點云排列不變性(允許任意數(shù)量輸入且輸出不以輸入點的順序所改變條件下帜平,提取點云所代表物體的特征信息瀑焦。
介紹
-
三維深度學(xué)習(xí)
-
多視角2D圖片表示三維物體
-
使用體素構(gòu)建物體三維模型蔫浆, 使用3DCNN提取特征
-
-
點云(PointNet): 一組點坐標(biāo)(x,y,z)構(gòu)成的集合
- 點無序性
- 點數(shù)量不確定性
- 非結(jié)構(gòu)化數(shù)據(jù),點云是分布在空間中的XYZ點软啼。無法使用傳統(tǒng)CNN提取特征
- 點噪聲
- 點缺失
- 剛體旋轉(zhuǎn)會使點云發(fā)生大幅變化桑谍,但兩個不同的點云其實代表同一物體
-
PointNet
輸入一個點云(無序點坐標(biāo)集),包含n個點,每個點代表一個向量焰宣,該向量可以只包含坐標(biāo)(x,y,z)霉囚,也可以包含更多信息,例如曲面法線向量(nx, ny, nz),
輸出從這個點云中提取的特征信息
關(guān)鍵
-
對稱方法
輸出不以輸入順序改變而變化的函數(shù)匕积,例如a+b = b + a, 論文中使用了MaxPool
變換矩陣固定視角解決平移/旋轉(zhuǎn)不變性問題 — STN網(wǎng)絡(luò)
-
網(wǎng)絡(luò)結(jié)構(gòu)
多層的1x1卷積(視野域始終基于單點)提取單點坐標(biāo)特征盈罐,每個點1024維。
接著通過MaxPool闪唆,與傳統(tǒng)的MaxPool不同盅粪,該MaxPool操作是在每一維特征維度上取最大響應(yīng)值(每個點有1024維特征,共N個點悄蕾,在每一維上遍歷N個點票顾,取最大值作為最終輸出础浮,所以最終得到1x1024的特征向量),相當(dāng)于綜合了全局信息
最終輸出1024維特征信息
不足
? PointNet提取的是每一個獨立的點的特征描述以及全局點云的特征描述奠骄,并沒有考慮局部特征和結(jié)構(gòu)約束豆同,此外,只通過Max提取全局信息也不是那么可靠含鳞。