在這篇文章中续捂,我們將繼續(xù)探索深度學(xué)習(xí)模型如何應(yīng)用于從三維空間數(shù)據(jù)中眷蜈,并從中提取信息的方式,特別是在大型地理區(qū)域隅俘,3D建筑模型重建情況下 - 從個別城市到整個區(qū)域邻奠。
地理信息系統(tǒng)的三維信息并不新鮮:多年來,有一些領(lǐng)域为居,空間坐標(biāo)都被認為是必不可少的:氣候?qū)W碌宴,海洋學(xué)掠归,地質(zhì)學(xué)伙菜,建筑學(xué),公用事業(yè)網(wǎng)絡(luò)等孽惰。如今,城市的3D模型也是如此碑隆。 這些模型正在迅速被采用恭陡,并被認為是城市設(shè)計,活動規(guī)劃上煤,維護休玩,安全和保障,災(zāi)害響應(yīng)楼入,人群控制和保險等決策的寶貴資源哥捕。
那么,哪些原始數(shù)據(jù)源可用于重建城市的3D模型嘉熊? 有哪些工具和工作流程遥赚? 在哪個方向進一步探索? 我們將在下面探討并找到這些問題的答案阐肤。
與之前的多個深度學(xué)習(xí)項目一樣凫佛,我們與NVIDIA合作進行了以下實驗,NVIDIA提供了具有32GB內(nèi)存的高端QUADRO GV100卡 - 適合大型小批量生產(chǎn)孕惜,用于高效訓(xùn)練大規(guī)模Mask R-CNN和PointCNN網(wǎng)絡(luò)愧薛。
Realism & Cubism
在深入研究技術(shù)細節(jié)之前,讓我們宏觀梳理衫画,看看主體的需求和方法的概覽毫炉。
理想情況下,我們希望數(shù)字模型與真實的城市變得無法區(qū)分:從汽車到建筑物的細節(jié)和紋理的高端保真度削罩,道路裂縫瞄勾,每棵樹上的樹葉,理想的定位和每個煙囪管道的高度以及每個天窗窗把手弥激。 然而进陡,在第二個想法中,由于計算要求微服,獲取所需的時間以及維持模型現(xiàn)狀的未來資源消耗趾疚,這種詳細程度雖然在理論上是可能的,但似乎是不實際的以蕴。
因此糙麦,出于所有實際目的,3D建筑模型通常分為兩大類:高保真和框架圖丛肮。 進入高保真類別主要是歷史建筑的模型喳资,這些模型看起來是固定的,受法規(guī)保護腾供,甚至被列入聯(lián)合國教科文組織世界遺產(chǎn)名錄。 高保真建筑模型需要大量的初始投資,但一旦創(chuàng)建伴鳖,只需要很少和稀疏的更新來反映對原始模型的偶爾修復(fù)节值。
另一方面,城市的所有其他部分:商業(yè)榜聂,住宅搞疗,工業(yè)區(qū),經(jīng)常進行開發(fā)须肆,重建匿乃,擴建,重新分區(qū)豌汇,即每天發(fā)生變化幢炸。 這些變化必須定期反映在城市的數(shù)字模型中,并在準(zhǔn)確性拒贱,速度和成本之間進行合理的權(quán)衡 - 試圖最大化速度/成本比宛徊,同時不要讓精度下降。 這是我們將放在這篇文章的其余部分的重點逻澳。
但是闸天,為什么我們需要對原理圖類別的建筑模型進行快速,定期和經(jīng)濟有效的更新斜做? 一個特別突出的原因是苞氮,這個城市的這些地方經(jīng)常在商業(yè)和夜間容納大多數(shù)人口。 如果遇到災(zāi)難瓤逼,如地震笼吟,快速更新模型,并將其與事件發(fā)生之前的狀態(tài)進行比較抛姑,將為救援人員提供一個強大的工具赞厕,以查看損害發(fā)生的最嚴重程度,以及有多少人在 通過計算倒塌樓層的數(shù)量定硝,丟失的平方英尺皿桑,估計碎片數(shù)量等來影響受影響的區(qū)域。
Data Sources
有兩種主要數(shù)據(jù)源可用于采集各種尺度的3D建筑模型:使用機載或地面激光雷達蔬啡,以及通過Structure-From-Motion算法計算的3D三角網(wǎng)格和使用傾斜圖像的攝影測量過程诲侮。 前者是一種較老的,成熟的技術(shù)箱蟆,通常需要相當(dāng)昂貴的傳感器沟绪。 LiDAR掃描的產(chǎn)物是未分類的三維點云,其中每個點還可能包含許多其他屬性空猜,如強度绽慈,紅綠藍值等恨旱。后一種技術(shù),結(jié)構(gòu)從運動中獲得坝疼,允許重建連續(xù)的3D網(wǎng)格搜贤。 網(wǎng)格是由飛機或無人機飛過城市拍攝的一系列傾斜圖片計算得出的,并保留了詳細的軌跡信息钝凶。 這種連續(xù)網(wǎng)格通常由數(shù)百萬個互連的三角形構(gòu)成仪芒,并具有相關(guān)的高分辨率RGB紋理。
You can construct 3D meshes using Drone2Map for ArcGIS extension. To learn more: https://doc.arcgis.com/en/drone2map/
兩個來源都有一個共同的問題:不知道哪些點(在LiDAR點云中)或三角形(在網(wǎng)格中)屬于建筑物耕陷,地面掂名,樹木,水體哟沫,汽車等......它們是 只是原始未分類的XYZ點饺蔑,或具有RGB紋理的大量連接三角形。
LiDAR Point Clouds
我們進行實驗的航空LiDAR點云具有相對較高的密度:平均每平方米約15-20個點南用。 需要這樣的點密度以在輸入數(shù)據(jù)中獲得足夠強的信號膀钠,因此可以更快地訓(xùn)練神經(jīng)網(wǎng)絡(luò)并且具有更少數(shù)量的示例以獲得更高的準(zhǔn)確度。 原因在于源點云的局部鄰域中的統(tǒng)計特性攜帶有價值的信號裹虫,對于神經(jīng)網(wǎng)絡(luò)而言肿嘲,該信號是允許其區(qū)分云中存在的各種對象類的關(guān)鍵。 因此筑公,云越分散雳窟,信號變得越模糊,迅速導(dǎo)致需要指數(shù)級更大數(shù)量的訓(xùn)練樣本來學(xué)習(xí)匣屡。
光柵化點云中的實例分割
我們寫了關(guān)于我們在2018年與邁阿密 - 戴德縣進行的試點項目封救。在該項目中,我們嘗試優(yōu)化現(xiàn)有的和完善的重建3D建筑模型工作流程的一個步驟捣作,這需要手工數(shù)字化建筑部分誉结。 柵格化點云中七種不同的屋頂類型。
簡而言之券躁,傳統(tǒng)的工作流程很簡單:
1.點云被轉(zhuǎn)換為光柵惩坑,其顏色通道存儲每個像素的LiDAR點的平均高度。
GIS工程師在步驟#1柵格頂部手動數(shù)字化屋頂段多邊形:平面也拜,山墻以舒,尾部,棚屋慢哈,圓頂蔓钟,拱頂和樓宇。
ArcGIS 3D Analyst擴展工具和CityEngine程序規(guī)則用于從屋頂段多邊形中提取原理圖類型的建筑模型卵贱。
Overview of the Miami-Dade project: https://www.esri.com/arcgis-blog/products/product/3d-gis/restoring-3d-buildings-from-aerial-lidar-with-help-of-ai/
More technical details with code snippets: https://medium.com/geoai/reconstructing-3d-buildings-from-aerial-lidar-with-ai-details-6a81cb3079c0
GIS工程師正在使用的原始柵格化點云手動數(shù)字化屋頂段滥沫,使用LAS數(shù)據(jù)集轉(zhuǎn)柵格地理處理工具計算侣集,單元格大小為每像素2.25平方英尺。 結(jié)果是單通道二維光柵兰绣,其中偽彩色通道表示每個像素的高度肚吏,因此稱為數(shù)字表面模型(DSM)。 您可以在此處找到有關(guān)從點云創(chuàng)建此類曲面的更多詳細信息狭魂。
從數(shù)字表面模型數(shù)字化各種屋頂部分的手動過程非常緩慢且是工作流程中最昂貴的部分,因此想法很簡單:訓(xùn)練Mask R-CNN神經(jīng)網(wǎng)絡(luò)党觅,至少幫助屋頂部分 從DSM柵格中提取雌澄。
但在我們開始訓(xùn)練模型之前,需要對輸入數(shù)據(jù)進行一些額外的預(yù)處理杯瞻。 原始DSM對包括地面高程的高度值進行編碼镐牺,因此,如果按原樣饋送到掩碼R-CNN魁莉,則需要大量的訓(xùn)練示例以使網(wǎng)絡(luò)地形不變睬涧。 不幸運的是,我們沒有這么多的例子旗唁,所以我們將原始的DSM轉(zhuǎn)換成了所謂的標(biāo)準(zhǔn)化數(shù)字表面模型(nDSM)柵格畦浓,其中減去了地面高程(數(shù)字地形模型,DTM):
進一步闡述這個公式
1检疫、我們按照上面的描述計算了DSM讶请。
2、源點云通過Classify LAS Ground地理處理工具將其點分類為地面/非地面屎媳。
3夺溢、LAS數(shù)據(jù)集到柵格工具用于從僅使用Ground類過濾的分類點云創(chuàng)建數(shù)字地形模型。
4烛谊、通過運行Spatial Analyst's Minus工具計算標(biāo)準(zhǔn)化DSM(nDSM):nDSM = DSM - DTM风响。
一旦nDSM準(zhǔn)備就緒,我們導(dǎo)出訓(xùn)練數(shù)據(jù)丹禀,使用深度學(xué)習(xí)地理處理工具來創(chuàng)建由nDSM和屋頂段多邊形組成的訓(xùn)練集状勤,這些多邊形由Miami-Dade GIS工程師手動數(shù)字化。 雖然獨特訓(xùn)練圖塊的數(shù)量僅約為18,000湃崩,但數(shù)據(jù)增強和額外的偽顏色轉(zhuǎn)換使Mask R-CNN獲得了令人印象深刻的效果荧降,顯著提高了傳統(tǒng)工作流程的效率(您可以閱讀有關(guān)數(shù)據(jù)增強和偽的更多信息,上述第二篇文章中的顏色轉(zhuǎn)換)攒读。
將Mask R-CNN結(jié)果導(dǎo)入ArcGIS Pro之后朵诫,我們需要用來回到傳統(tǒng)工作流程的唯一附加工具是規(guī)則化建筑物足跡,以幾何方式轉(zhuǎn)換預(yù)測的屋頂段多邊形薄扁,使它們具有正確的 和人造結(jié)構(gòu)典型的對角線角度剪返。
在正規(guī)化之后废累,基于程序規(guī)則的生成的結(jié)果可以在下面的實時3D WebScene中看到。 需要強調(diào)的是脱盲,沒有對任何輸入或中間數(shù)據(jù)進行手動編輯邑滨,也不對最終的建筑外殼進行手動編輯。 同樣重要的是钱反,下面的WebScene所涵蓋的區(qū)域?qū)儆谒^的測試區(qū)域掖看,即模型處于訓(xùn)練中時Mask R-CNN模型未看到的區(qū)域。
Resulting schematic building models: https://arcg.is/1jvDO00
正如您可能已經(jīng)注意到的那樣面哥,這些模型并不總是完美的哎壳,但這是生產(chǎn)力的巨大跳躍,并且降低了DSM級別需要手工勞動的基線工作流程的成本:現(xiàn)在尚卫,GIS工程師可以執(zhí)行剪裁 - 根據(jù)需要調(diào)整所提出的3D模型归榕,而不是手動數(shù)字化每個屋頂部分。
而且吱涉,正如在深度學(xué)習(xí)的世界中經(jīng)常發(fā)生的那樣刹泄,您可以通過提供更多的訓(xùn)練樣本來更好地進行Mask R-CNN預(yù)測。
Semantic Segmentation in Raw Point Clouds
在上一個帶有柵格化點云的示例中怎爵,由于多種原因特石,我們被綁定到預(yù)定義的工作流:一個是在將深度學(xué)習(xí)引入流程之前和之后比較。 但我們是否可以在原始點本身內(nèi)執(zhí)行類似的實驗疙咸,而無需初步轉(zhuǎn)換為DSM县匠? 我們能找到一個類似的工作流程,它可以為我們提供一個比較和改進的良好基線嗎撒轮?
事實證明我們有一個:使用RANSAC算法從原始點云重建3D建筑模型的另一個完善的過程乞旦。 如果在ArcGIS Pro中執(zhí)行,整個工作流程將逐步顯示如下:
首先题山,我們?yōu)榻y(tǒng)計上看起來像地面的點(第2類)和建筑屋頂(第6類)分配適當(dāng)?shù)臉?biāo)簽:
- ClassifyLASGround, if ground has not been already classified.
- ClassifyLASBuilding.
接下來兰粉,我們將點云光柵化并將其矢量化為6級(建筑物)點下的多邊形。 然后顶瞳,我們應(yīng)用建筑物足跡正則化算法玖姑,將最合適的形狀與右角和對角線擬合到初始多邊形中:
- LASPointStatisticsAsRaster,在第6類(建筑物)上過濾LAS層慨菱,并使用“最常用的類代碼”選項.
4.關(guān)閉“簡化多邊形”選項的 RasterToPolygon.
5.EliminatePolygonPart去除小孔(可以通過步驟#3柵格上的形態(tài)操作來完成).
6.RegularizeBuildingFootprint以理順事物.
最后焰络,我們使用2級(地面)點計算局部地形柵格,并運行RANSAC在建筑物覆蓋區(qū)符喝,DEM和6級(建筑物)點之上構(gòu)建三維殼體:
LASDatasetToRaster在第2類(地面)點上過濾輸入LAS層以制作DEM.
LASBuildingMultipatch構(gòu)建實際的shell.
乍一看缴川,結(jié)果看起來很不錯。 但是描馅,一旦我們檢查出最近的建筑物外殼把夸,我們可能會發(fā)現(xiàn)相當(dāng)高的噪音水平和大量的微小三角形對每個外殼造成影響,這使得這些建筑模型不適合進行進一步的手動微調(diào)/編輯铭污。
但這個三角形噪音來自哪里恋日? 其中一些可歸因于不均勻的點云密度和LiDAR掃描儀靈敏度,另一個可歸因于上述步驟#1和#2中發(fā)生的點的錯誤分類嘹狞,尤其是在分類LAS建筑物工具內(nèi)部谚鄙。
Classify LAS Buildings工具必須執(zhí)行一項非常復(fù)雜的任務(wù),即確定點云的哪些點看起來是來源于建筑刁绒,哪些不是。 在完美的世界中烤黍,當(dāng)它是一個平坦的四面立方結(jié)構(gòu)知市,在一個完美平坦的地面上很容易......但在現(xiàn)實世界中,建筑物往往有復(fù)雜的屋頂形狀速蕊,屋頂窗嫂丙,煙囪管,舞臺地板等附近 樹木覆蓋了結(jié)構(gòu)的一部分规哲,所有這些都位于復(fù)雜的階梯狀地形上跟啤。
在如此復(fù)雜的環(huán)境中,難怪Classify LAS Buildings工具經(jīng)常錯過建筑點或?qū)⑺鼈兣c實際屬于樹木唉锌,灌木叢隅肥,地面,停放在附近的汽車等的其他點混合在一起袄简。
與此同時腥放,原始的LiDAR點云包含數(shù)十億個需要按照這種方式進行分類的點 - 所有這一切聽起來像神經(jīng)網(wǎng)絡(luò)要完成的完美任務(wù),不是嗎绿语? 或者秃症,為了更加精確和實用,我們是否可以訓(xùn)練深度學(xué)習(xí)模型來比現(xiàn)有的確定性算法更有效地標(biāo)記未分類的點云吕粹?
好吧种柑,當(dāng)我們在如云的稀疏無序空間中談?wù)撋疃葘W(xué)習(xí)時,存在一些嚴峻的挑戰(zhàn) - 我們不能將傳統(tǒng)的和眾所周知的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于它們:
...點云是不規(guī)則和無序的匹耕,因此直接將內(nèi)核與點相關(guān)聯(lián)的特征進行卷積聚请,將導(dǎo)致形狀信息的拋棄和與點排序的差異。
https://arxiv.org/abs/1801.07791
盡管如此泌神,雖然比傳統(tǒng)的計算機視覺領(lǐng)域探索得更少良漱,但點云深度學(xué)習(xí)分析受益于最近機器人技術(shù)舞虱,自動駕駛汽車和SLAM的爆炸式增長,其中LiDAR傳感器起著關(guān)鍵作用母市。 另一個幫助來自Graph Convolutions矾兜,它被設(shè)計用于類似圖形的數(shù)據(jù)結(jié)構(gòu),如社交網(wǎng)絡(luò) - 在某些條件下可以減少點云以適應(yīng)這種結(jié)構(gòu)患久。
在對該主題的最新出版物進行一些研究之后椅寺,我們決定為實驗選擇PointCNN實現(xiàn),因為在許多常見基準(zhǔn)測試中蒋失,這一實現(xiàn)可以達到最先進的結(jié)果返帕。 PointCNN背后的核心思想圍繞多點感知器在點云內(nèi)局部固定大小鄰域上的多次通過應(yīng)用,將最初的稀疏特征提升為密集的潛在特征空間篙挽,傳統(tǒng)的卷積可用于進一步處理荆萤。
雖然相當(dāng)緊湊,只有大約350萬個可訓(xùn)練參數(shù)铣卡,但在使用32GB GPU內(nèi)存的單個NVIDIA QUADRO GV100進行6.5小時訓(xùn)練后链韭,PointCNN模型在驗證集上達到了0.97的準(zhǔn)確度。 訓(xùn)練集由荷蘭開放式LiDAR數(shù)據(jù)集的一個子集(僅覆蓋阿姆斯特丹煮落,總共1.8B點)構(gòu)建敞峭,每平方米平均密度約為18個點。 測試是在附近的烏得勒支市進行的蝉仇,來自同一個數(shù)據(jù)源旋讹。
雖然荷蘭點云最初被分類的方式對我們來說是未知的(甚至是算法,還是手工勞動轿衔?)沉迹,我們訓(xùn)練的PointCNN模型在區(qū)分建筑和非建筑類時表現(xiàn)出了令人印象深刻的結(jié)果。 測試集害驹,在大多數(shù)情況下超過傳統(tǒng)的分類LAS建筑工具的結(jié)果胚股。
同樣令人著迷的是,PointCNN僅在XY-Zs上訓(xùn)練(沒有強度或RGB裙秋,也沒有任何其他屬性)琅拌,這意味著該模型能夠有效地學(xué)習(xí)特定于不同類別對象的空間分布的屬性,并且至少是摘刑,類之間的界限进宝。
[圖片上傳失敗...(image-1f6a8-1552904798019)]
這是從Utrecht測試裝置標(biāo)記風(fēng)車的PointCNN模型的另一個令人驚訝的例子。 我們不確定是否訓(xùn)練集中有風(fēng)車枷恕,但即使有一些風(fēng)車党晋,與其他建筑類型相比,訓(xùn)練數(shù)據(jù)中的風(fēng)車數(shù)量可以忽略不計。 換句話說未玻,從分類的角度來看灾而,存在巨大的階級不平衡,這將困擾傳統(tǒng)的分類器扳剿,如Mask R-CNN旁趟。 這個非凡的案例展示了PointCNN學(xué)習(xí)復(fù)雜空間分布屬性的能力,這些屬性特定于特定大小和比例的一般人造物體(例如庇绽,測試集中的汽車被正確地從建筑類中丟棄锡搜,因為不夠高)和 顯然,風(fēng)車符合學(xué)習(xí)標(biāo)準(zhǔn)瞧掺。
一個很好的例子說明了PointCNN模型如何依賴于點鄰域的高度以及它與近垂直平面的相似程度耕餐,可以在Utrecht測試集的下面部分錯誤分類的高大船上看到:
好吧,在我們成功訓(xùn)練了一個PointCNN模型并用它標(biāo)記了烏特勒支測試點云的地面和建筑點之后 - 它如何影響最終的建筑模型重建辟狈? 這是答案 -
上面的動畫顯示了在同一點云上執(zhí)行的兩個相同工作流程(如本章開頭所述的步驟)的結(jié)果肠缔。 唯一的區(qū)別在于步驟#1和#2:在第一種情況下,建筑物和地面點由傳統(tǒng)的確定性算法標(biāo)記哼转,而在第二種情況下 - 由PointCNN模型標(biāo)記桩砰。 如您所見,后一種建筑外殼的噪音水平要低得多释簿,特別是在靠近建筑物的植被區(qū)域。
3D Meshes
看起來我們對PointCNN和LiDAR Point云有一些令人鼓舞的結(jié)果硼莽,不是嗎庶溶? 但是前面提到的原始3D數(shù)據(jù)的另一個來源是來自Structure-From-Motion算法,并且由于獲得的成本要低得多懂鸵,因此它正在普及偏螺。 這個數(shù)據(jù)源的另一個顯著優(yōu)點是它帶有高分辨率RGB紋理,可以立即精確地連接到三角網(wǎng)格上匆光! 所以套像,問題是:我們能否將之前的成功擴展到三維連續(xù)網(wǎng)格中?
Semantic Segmentation in 3D Meshes
原始3D網(wǎng)格的主要問題是它代表一個連續(xù)的三角形表面 - 數(shù)百萬個三角形相互連接终息。 對于人類夺巩,尤其是當(dāng)高分辨率RGB紋理應(yīng)用于網(wǎng)格時,很明顯哪些三角形屬于建筑物周崭,哪些三角形屬于地面柳譬,樹木,燈柱续镇,汽車等美澳。但是我們沒有這些屬性與 來自Structure-From-Motion管道的三角形面,當(dāng)我們談?wù)摻ㄖ锏钠椒接⒊吖烙嫊r,這使得原始網(wǎng)格無用制跟。 同樣舅桩,要么采用復(fù)雜的確定性算法,要么通常采用手動分割來解決這個問題雨膨。
然而擂涛,看起來我們有很好的機會在這里取得成功......,使用相同的PointCNN哥放! 這個想法很簡單:用固定分布(甚至蒙特卡羅似乎正在工作)對網(wǎng)格進行采樣以生成合成點云达传,然后只要求PointCNN標(biāo)記它琼稻。 最后,將生成的標(biāo)簽應(yīng)用回源網(wǎng)格的三角形面,就是這樣:我們得到一個分段的3D網(wǎng)格恃轩!
有人可能會說在實踐中工作聽起來太好了,但這里有一些合成點云的例子猜嘱,它是通過蒙特卡羅點采樣從網(wǎng)格中產(chǎn)生的:
當(dāng)然店读,結(jié)果并不理想,但這里是最令人驚訝的部分:分割是由相同的PointCNN模型進行的峭弟,該模型在阿姆斯特丹真正的LiDAR點云上進行訓(xùn)練附鸽,點密度非常不同,每個點的點分布特性不同瞒瘸, 即使是不同的建筑風(fēng)格(這是來自荷蘭以外的城市)坷备。
這確實令人鼓舞,因為幾乎可以保證PointCNN模型首先在合成點云上進行訓(xùn)練情臭,將使用相同的采樣技術(shù)對采樣的網(wǎng)格進行分割省撑。 此外,從三角網(wǎng)格中采樣的合成點云將具有RGB等附加屬性俯在,以及采樣的面法線向量竟秫,這將有助于PointCNN學(xué)習(xí)正確的分割規(guī)則。
Mask R-CNN and PointCNN: be careful with…
由于它經(jīng)常發(fā)生在深度學(xué)習(xí)的復(fù)雜世界中跷乐,Mask R-CNN和PointCNN網(wǎng)絡(luò)都傾向于從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一些不期望的語義肥败,導(dǎo)致偏差并使它們更難以轉(zhuǎn)移到其他地理位置或傳感器模型。 與傳統(tǒng)的確定性算法相比愕提,這是它們的缺點馒稍。
我們通過將訓(xùn)練的模型移動到其他數(shù)據(jù)源和地理位置完成了一些實驗,這里是一個簡短的偏差列表浅侨,通常由兩個網(wǎng)絡(luò)在上述工作流程中使用時選取筷黔。 并不是一個完整的清單,但仍然是最值得關(guān)注的事情:
MASK R-CNN靈敏度/偏差:
建筑風(fēng)格仗颈。
LiDAR掃描儀:點密度佛舱。
PointCNN靈敏度/偏差:
LiDAR掃描儀:點密度椎例,強度,RGB一致性请祖。
分割3D網(wǎng)格時的采樣技術(shù)订歪。
并且,正如之前已經(jīng)提到的肆捕,減少神經(jīng)網(wǎng)絡(luò)中的偏差的最佳方法是將更多的訓(xùn)練樣本帶到桌面上 - 只要網(wǎng)絡(luò)的“心智能力”(可訓(xùn)練參數(shù)和架構(gòu)的數(shù)量)允許刷晋。 甚至是合成數(shù)據(jù):例如,如果我們沒有足夠的LiDAR覆蓋范圍用于給定的地理慎陵,建筑風(fēng)格或傳感器類型 - 可以使用ArcGIS Pro和CityEngine程序生成的3D內(nèi)容構(gòu)建合成訓(xùn)練樣本眼虱,其中包含有價值的內(nèi)容 我們試圖教導(dǎo)模型提取的信號。
Voxels and future work
我們不斷嘗試各種深度學(xué)習(xí)架構(gòu)席纽,以便找到最適合各種行業(yè)捏悬,用例和環(huán)境的架構(gòu)。 另一個令人興奮的DL模型系列在我們正在積極探索的體素空間中工作润梯。 以下是Esri數(shù)據(jù)科學(xué)家David Yu的最新消息:
雖然通常通過將不同的傾斜視圖拼接在一起來創(chuàng)建3D場景过牙,但是探索的一個想法是從單個2D圖像生成3D模型的可能性。 這可以實現(xiàn)纺铭,并且已經(jīng)過DCGANS的有限成功測試寇钉,DCGANS將變分自動編碼器生成輸入嵌入層。 這種方法需要為每類3D物體(例如汽車舶赔,樹木扫倡,燈柱,柵欄等)安裝一個獨特的模型竟纳,以使輸出具有足夠的變化撵溃,但也保持了該類的一般形式的保真度。 通過這種方法蚁袭,3D DCGAN與來自俯視鏡頭的潛在矢量相結(jié)合足以在3D中重建對象的獨特屬性。
選擇對象的體素表示石咬,因為雖然可以將生成模型的輸出表示為網(wǎng)格(AtlasNet)或甚至點云(PC-GAN)揩悄。 直觀地擴展原始GAN網(wǎng)絡(luò)以產(chǎn)生3d網(wǎng)格輸出(體素)而無需重新設(shè)計網(wǎng)絡(luò)。 來自ShapeNet等圖書館的體素訓(xùn)練數(shù)據(jù)的高可用性使這一過程變得簡單而輕松鬼悠。 此外删性,當(dāng)涉及表示不規(guī)則和非均勻填充的對象時,體素形狀是沒有顯式坐標(biāo)的點的集合具有某些優(yōu)點焕窝,例如置換不變性和存儲效率(與網(wǎng)格相比)蹬挺。 然而,當(dāng)涉及簡單對象或更高分辨率的對象時它掂,體素表示非常占用內(nèi)存巴帮,這就是為什么它更適合生成特定類別的對象而不是整個場景的原因溯泣。
在架構(gòu)方面,該模型有效地合并了兩個眾所周知的網(wǎng)絡(luò):變分自動編碼器(VAE)用于從3D對象的開銷鏡頭生成1D嵌入向量榕茧。 然后垃沦,在充當(dāng)GAN發(fā)生器的輸入之前,將該潛在矢量與噪聲連接用押。 生成器生成其自己的體素模型并將其傳遞給鑒別器肢簿,鑒別器嘗試將生成的輸入與實際輸入?yún)^(qū)分開,然后將錯誤傳播到生成器蜻拨。 截至目前池充,這種架構(gòu)能夠產(chǎn)生不錯的結(jié)果,但未來的擴展可能包括將顏色編碼結(jié)合到體素輸出以及將標(biāo)準(zhǔn)化流引入噪聲之前缎讼,以便模擬更不易受模式影響的更復(fù)雜的分布坍方收夸。
以下列出了我們目前正在開展的其他相關(guān)舉措 - 我們會及時向您通報最新進展情況。
1休涤、PointCNN不僅可以用于建筑物分類咱圆,還可以用于其他更復(fù)雜的點分類任務(wù),例如標(biāo)記電力線和相關(guān)設(shè)備功氨,鐵路設(shè)備序苏,隧道內(nèi)的電信設(shè)備等。換句話說捷凄,在使用確定性的區(qū)域 標(biāo)記算法是有限的忱详,或根本不存在。
2跺涤、Mask R-CNN方法需要大量的訓(xùn)練樣本匈睁。 我們正在制作CityEngine腳本,這將有助于合成培訓(xùn)樣本創(chuàng)建的自動化桶错。
3航唆、Building Footprint Regularization tool 將得到改進。
4院刁、RANSAC重建殼的簡化工具糯钙。