話不多說钙皮,直接介紹三維人體重建的非參數(shù)化方法澎现。
非參數(shù)化方法的命名相對于參數(shù)化方法延蟹。該類方法直接重建高維的人體表面網(wǎng)格伏社,而不是參數(shù)化方法中的低維人體參數(shù)表示抠刺。傳統(tǒng)的非參數(shù)化人體重建一般也需要借助特殊的數(shù)據(jù)采集設備塔淤,例如激光掃描儀、深度相機等速妖。
以商用人體掃描儀Vitronic為例(圖1)高蜂,待掃描人需身著緊身服裝,并站在掃描儀中間的平臺上罕容,隨后4個激光掃描探頭高速地從頭往下移動备恤,對整個人體進行掃描,每個激光掃描探頭獲得單一視角下的局部點云锦秒。在掃描完成后的幾秒鐘內(nèi)露泊,配套的軟件可以直接重建出三維人體網(wǎng)格。三維人體掃描儀能夠較快較準確地獲得靜態(tài)三維人體模型旅择,甚至能夠重建出難以觸及的身體部位滤淳,包括腋窩、腹股溝砌左。常用于電影脖咐、游戲、人體測量以及服裝定制等應用汇歹,也可以用于創(chuàng)建人體數(shù)據(jù)庫屁擅,例如SCAPE[2]。但是激光掃描儀價格昂貴产弹,且體積龐大派歌。很多研究者也嘗試利用消費級深度相機Kinect進行非參數(shù)化人體重建。
KinectFusion[33]是一種利用Kinect重建三維場景的經(jīng)典方法痰哨,它通過增量式融合采集得到的幾何信息來重建三維場景胶果。受KinectFusion啟發(fā),后續(xù)研究者提出針對人體的非參數(shù)化重建方法[34–36]斤斧。這類方法通常需要多個視圖下的人體深度圖早抠,可以通過多個圍繞在重建對象四周的深度相機同時拍攝獲得[34,37],也可利用單個深度相機圍繞重建對象運動獲得[35,36]撬讽。一般在掃描過程中蕊连,要求重建對象在采集的時候需保持特定不變的姿態(tài),且盡可能少地身穿服裝游昼。
Tong等人[41]搭建了一套人體掃描重建系統(tǒng)甘苍。采集環(huán)境如圖2所示,包含3臺精心布局的Kinect相機烘豌,該布局有助于消除點云重疊區(qū)域载庭。他們首先利用3臺Kinect捕獲的深度圖構造一個粗糙人體模板,隨后通過非剛性全局配準方法配準多幀深度圖像來完成人體重建。
Li等人[36]也使用單個Kinect囚聚,他們要求采集人員以固定姿態(tài)原地按照45度轉動8次靖榕,以此得到8個視圖下的深度圖。隨后采用ICP(Iterative Closest Point靡挥,迭代最近點)算法融合8個視圖下的點云序矩,并利用泊松曲面重建(Poisson Surface Reconstruction)得到三維人體網(wǎng)格模型鸯绿。與基于Kinect的參數(shù)化人體重建方法相同跋破,容易受到Kinect深度數(shù)據(jù)的噪聲影響。同時在采集過程中采集人的姿態(tài)可能會發(fā)生輕微變化瓶蝴,同樣會造成重建準確性下降毒返。
近年來,一些研究者開始利用深度學習方法從單張RGB圖像中重建非參數(shù)人體模型[38–40,42–45]舷手。Varol等人[42]提出利用三維體素表示人體拧簸,并設計了一個融合二維姿態(tài)估計、人體部件分割等多個人體任務監(jiān)督的人體體素預測網(wǎng)絡BodyNet男窟。
DeepHuman[39]利用參數(shù)化模型編碼的低分辨率人體三維體素以及二維語義地圖表示大致的三維人體盆赤,并將其與RGB圖像一起作為輸入,通過一個體素翻譯模型預測人體表面的幾何細節(jié)歉眷。如圖3所示牺六。這一結合參數(shù)化模型的思想隨后被[45]所采用。但是以體素表征的三維人體往往面臨著計算量過大汗捡、內(nèi)存占用率高等問題淑际,進而不得不降低體素分辨率進行預測,但這是以丟失人體表面細節(jié)為代價的扇住。
近年來春缕,針對非歐式數(shù)據(jù)的圖卷積(GraphConvolution)在三維重建中逐漸流行。相比于用體素來表示三維物體艘蹋,基于圖卷積的三維重建則將其轉化為網(wǎng)格表示(點锄贼、面)。Pixel2Mesh[46]是最早提出利用圖卷積從單張RGB圖像重建三維物體的工作女阀,該方法為所有輸入圖像中包含的重建物體都初始化為一個橢球咱娶,并利用從輸入圖像提取到的圖像特征逐步對橢球進行變形從而產(chǎn)生目標幾何形狀。
隨后的一些研究者[38,43]將圖卷積從通用物體的三維重建引入到人體的三維重建中强品。Kolotours等人[38]利用圖卷積顯式建模人體網(wǎng)格的拓撲關系膘侮,并且設計了一個從低分辨率網(wǎng)格到高分辨率網(wǎng)格重建的逐步優(yōu)化的網(wǎng)絡結構。如圖4所示的榛。該方法重建的三維人體在重建姿態(tài)上較為準確琼了,但是在重建體型上與輸入圖片差異較大。
還有一類方法則利用隱式函數(shù)來表示人體曲面[40,44]。Satio等人[45]提出一種從單張圖像重建出穿衣服人體的表面幾何細節(jié)和紋理信息雕薪。他們設計了一個區(qū)分三維點在物體表面內(nèi)外的隱式函數(shù)昧诱,在測試階段預測一個連續(xù)的空間內(nèi)/外概率場,并通過在概率場中提取概率值為0.5的等值面得到人體的模型表面所袁。如圖5所示盏档。
隨著SCAPE模型的成功,一些研究者在其基礎上不斷改進燥爷,提出了各種升級版本蜈亩,較為知名的如BlendScape[5],BreathScape[6]前翎,S-Scape[7]等等稚配。但是SCAPE模型的變形依賴于三角形面片的旋轉變形,而不是以動畫軟件中常用的頂點變形方法(如骨骼蒙皮)進行變形港华,因此SCAPE生成的人體幾何模型難以在現(xiàn)有的動畫軟件(如Maya,Blender等)直接使用道川。
非參數(shù)化方法就介紹到這里,下期我們介紹參數(shù)化方法中的SMPL方法立宜,喜歡的同學可以點贊冒萄,收藏,關注喲橙数。
參考文獻
接上篇參考文獻
……
[2] ANGUELOVD,SRINIVASANP,KOLLERD,etal.SCAPE:Shapecompletionandanimationofpeople[J].ACMTrans.Graph.,2005,24(3):408-416.
……
[5] HIRSHBERG D A, LOPER M, RACHLIN E, et al. Coregistration: Simultaneous alignment and modeling of articulated 3d shape[C]//European conference on computer vision. Springer, 2012: 242-255.
[6]?TSOLI A, MAHMOODN, BLACKM J. Breathing life into shape: Capturing, modeling and animating 3d human breathing[J]. ACM Transactions on graphics (TOG), 2014, 33(4):1-11.
[7] JAIN A, THORM?HLEN T, SEIDEL H P, et al. Moviereshape: Tracking and reshaping of?humans in videos[J]. ACM Transactions on Graphics (TOG), 2010, 29(6):1-10.
……
[33] NEWCOMBE R A, IZADI S, HILLIGES O, etal. Kinectfusion: Real-time dense surface mapping and tracking[C]//2011 10thIEEE international symposium on mixed and augmented reality. IEEE, 2011:127-136.
[34] TONG J, ZHOU J, LIU L, et al. Scanning3d full human bodies using kinects[J]. IEEE transactions on visualization andcomputer graphics, 2012, 18(4):643-650.
[35] CUI Y, CHANGW, N?LL T, et al.Kinectavatar: fully automatic body capture using a single kinect[C]//AsianConference on Computer Vision. Springer, 2012: 133-147.
[36] LI H, VOUGA E, GUDYM A, et al. 3dself-portraits[J]. ACM Transactions on Graphics (TOG), 2013, 32(6):1-9.
[37] WANG R, WEI L, VOUGA E, et al.Capturing dynamic textured surfaces of moving targets [C]//European Conferenceon Computer Vision. Springer, 2016: 271-288.
[38] KOLOTOUROS N, PAVLAKOS G, DANIILIDISK. Convolutional mesh regression for single-image human shapere construction [C] // Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. 2019: 4501-4510.
[39] ZHENG Z, YU T, WEI Y, et al.Deephuman: 3d human reconstruction from a single image [C]//Proceedings of theIEEE/CVF International Conference on Computer Vision. 2019: 7739-7749.
[40] SAITO S, HUANG Z, NATSUME R, et al.Pifu: Pixel-aligned implicit function for high-resolution clothed human digitization [C] // Proceedings of the IEEE/CVF International Conference onComputer Vision. 2019: 2304-2314.
[41] 童晶. 基于深度相機的三維物體與人體掃描重建[D]. 浙江大學, 2012. [42] VAROL G, CEYLAN D,RUSSELL B, et al. Bodynet: Volumetric inference of 3D human bodyshapes[C]//Proceedings of the European Conference on Computer Vision (ECCV).2018: 20-36.
[43] LITANY O, BRONSTEIN A, BRONSTEIN M, etal. Deformable shape completion with graph convolutionalautoencoders[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2018: 1886-1895.
[44] SAITO S, SIMON T, SARAGIH J, et al.Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3dhuman digitization [C] // Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2020: 84-93.
[45] ZHU H, ZUO X, WANG S, et al. Detailedhuman shape estimation from a single image by hierarchical meshdeformation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019:4491-4500.