三維人體形狀指的是以三維網格形式表示的人體幾何形狀模型。按照[1]中的分類方式贝淤,可以將三維人體形狀重建粗略的分為參數(shù)化方法與非參數(shù)化方法柒竞。本次先介紹參數(shù)化方法。
參數(shù)化人體形狀重建方法依賴于某個基于統(tǒng)計得到的人體參數(shù)化模型播聪,僅需一組低維向量(即人體參數(shù))即可描述人體形狀朽基。目前常見的參數(shù)化人體模型如SCAPE[2]、SMPL[3]离陶、SMPL-X[4]等稼虎。
以SCAPE為例,它定義了兩個獨立的低維參數(shù)空間:人體體型(Shape)空間與人體姿態(tài)(Pose)空間招刨。給定空間下的一組人體體型參數(shù)與人體姿態(tài)參數(shù)霎俩,即可直接合成一個人體形狀。其中人體體型空間是通過對相同姿態(tài)沉眶、不同體型的人體數(shù)據庫進行PCA(Principal Component Analysis打却,主成分分析)降維得到的子空間進行表示,體型參數(shù)則是該子空間中各個基的系數(shù)谎倔。圖1(a)顯示SCAPE體型基上的參數(shù)變化影響人體體型變化柳击。SCAPE的姿態(tài)參數(shù)則以17個人體部分相對于標準模板人體相應部分的旋轉表示。
隨著SCAPE模型的成功片习,一些研究者在其基礎上不斷改進捌肴,提出了各種升級版本彤守,較為知名的如Blend Scape[5],Breath Scape[6]哭靖,S-Scape[7]等等具垫。但是SCAPE模型的變形依賴于三角形面片的旋轉變形,而不是以動畫軟件中常用的頂點變形方法(如骨骼蒙皮)進行變形试幽,因此SCAPE生成的人體幾何模型難以在現(xiàn)有的動畫軟件(如Maya, Blender等)直接使用筝蚕。
最近,德國馬克思-普朗克研究所開源了一個基于頂點變形的人體參數(shù)化模型SMPL[3]铺坞。SMPL模型同樣由人體體型參數(shù)與人體姿態(tài)參數(shù)控制變形起宽。其體型參數(shù)與SCAPE的體型參數(shù)相同,都以PCA提取出的體型變形基的參數(shù)進行表示济榨。而姿態(tài)參數(shù)則是以人體的全局旋轉以及23個關節(jié)的關節(jié)角旋轉表示坯沪,并通過LBS(Linear Blend Skinning,線性混合蒙皮)進行人體姿態(tài)變形擒滑。SMPL的人體生成如圖1(b)所示腐晾。
傳統(tǒng)的參數(shù)化人體重建方法通常利用特殊的設備獲得人體的稠密三維點云數(shù)據或者深度數(shù)據,然后通過點云配準丐一、模板變形等方式擬合SCAPE參數(shù)藻糖,進而重建出三維人體形狀。
近年來库车,許多研究者利用Kinect深度相機捕獲的人體深度數(shù)據以及SCAPE模型重建三維人體形狀巨柒。Zhang等人[8]通過單個Kinect相機采集中間轉動人體的多視圖局部點云數(shù)據,并進行配準柠衍,然后采用類似SCAPE構建人體的方法對多個視圖的點云進行擬合洋满。
Weiss等人[9]也采用單個Kinect相機,不同于轉動人體來獲得多視圖局部點云珍坊,他們捕獲單人在Kinect前移動的多個單目深度圖牺勾,通過最小化SCAPE人體模型的輪廓重投影與深度圖輪廓之間的配準誤差進行優(yōu)化求解,如圖2所示垫蛆。但是該方法的求解過程非常耗時(重建一個人體需超過1小時)禽最。
Zhao等人[10]也提出了基于單個Kinect的參數(shù)化人體重建方法。他們首先利用Kinect拍攝人體正面和背面兩張深度圖袱饭,隨后分別利用這兩張深度圖重建人體的半身網格川无,最后將其縫合在一起。上述方法的人體重建結果依賴于Kinect采集的深度圖質量虑乖。但是由于Kinect的硬件限制懦趋,采集得到的深度圖往往含有較大的噪聲,嚴重影響重建質量疹味。
此外仅叫,其它一些工作并不依賴于特殊設備捕獲的稠密三維點云或者深度數(shù)據作為重建輸入帜篇,而采用諸如人體二維關節(jié)點坐標[12,14]、人體輪廓[11,15,16]诫咱、人體描述參數(shù)[17–21]等其它數(shù)據形式來約束參數(shù)化人體幾何形狀重建笙隙。
Guan等人[12]依靠手動標注的人體二維關節(jié)點位置以及GrabCut[22]自動分割的人體輪廓,通過SFS(shape from shading坎缭,明暗恢復形狀)的方式最小化渲染圖與人體輪廓的配準誤差來優(yōu)化SCAPE參數(shù)竟痰,如圖3所示。
SMPLify[14]則引入基于卷積神經網絡的人體二維姿態(tài)估計模型掏呼,他們通過最小化合成人體三維姿態(tài)與檢測得到的二維關節(jié)點的重投影配準誤差來優(yōu)化SMPL參數(shù)(包括體型與姿態(tài)參數(shù))坏快,同時加入人體穿透約束來降低從二維提升到三維的歧義性。但是該方法中并未對人體體型進行約束憎夷,而且容易陷入到局部最優(yōu)解導致重建失敗莽鸿。
Lassner等人[23]在SMPLify的基礎上,加入更加多的人體標記點約束(91個標記點)拾给,得到了更加準確的姿態(tài)重建結果祥得。同時他們提出使用隨機森林(RandomForest)模型學習人體輪廓到SMPL體型參數(shù)的映射關系。但是他們預測的人體輪廓質量較差鸣戴,嚴重影響體型的預測結果啃沪。
近年來,基于深度學習的參數(shù)化人體形狀重建方法開始變得流行[24]窄锅。Dibra等人[11]是最早利用CNN(Convolutionalneuralnetwork,卷積神經網絡)來估計人體體型參數(shù)缰雇,他們直接將站立姿態(tài)人體的特定視角掩碼作為卷積神經網絡輸入入偷,直接回歸SCAPE的體型參數(shù)。相比于人工設計特征械哟,CNN能夠自動提取體型特征疏之,得到了比較準確的體型預測結果。如圖4所示暇咆。
隨后锋爪,Dibra等人[25]又進一步提高了體型預測精度。他們首先學習了一個描述固定姿態(tài)下不同視角相同體型的特征隱空間爸业,然后學習從該隱空間到體型參數(shù)的回歸模型其骄。該方法對于其它視角的人體掩碼圖像也可以預測得到可靠的體型參數(shù)。單一視圖的人體掩碼圖像往往會缺失部分體型信息扯旷,比如男性的啤酒肚拯爽,在正面的掩碼圖像上無法顯示該特征。
為了解決該問題钧忽,Ji等人[16]設計了一個新穎的雙流網絡結構毯炮,同時將正面與側面的人體掩碼作為輸入來預測SCAPE形狀參數(shù)逼肯。
不僅僅預測人體體型,許多研究者利用深度學習方法直接從圖像[13,26–28]桃煎、視頻[29,30]中估計人體體型與姿態(tài)篮幢。
HMR[26]將人體關節(jié)點的重投影配準誤差加入到損失函數(shù)中,用于監(jiān)督SMPL的姿態(tài)參數(shù)與體型參數(shù)为迈。HMR借鑒了生成對抗網絡(Generative Adversarial Network三椿,GAN)[31]的思想,在損失函數(shù)中加入了一個判別器曲尸,用于監(jiān)督預測人體參數(shù)的合法性赋续。但是該方法并未有效對人體體型進行有效監(jiān)督,導致預測的人體更加接近于平均身材另患,同時人體姿態(tài)也與輸入圖像中的人體相差較大纽乱。
Pavlakos等人[28]提出將姿態(tài)參數(shù)與體型參數(shù)解耦成兩個子問題進行預測,分別利用預測得到的二維關節(jié)點熱圖和人體輪廓來分別回歸姿態(tài)參數(shù)和體型參數(shù)昆箕。
最近鸦列,Xu等人[13]創(chuàng)新地在損失函數(shù)中加入人體網格頂點的稠密重投影誤差。他們將Densepose[32]預測得到的IUV圖(表示稠密網格頂點與圖像像素的對應關系)作為輸入鹏倘,回歸得到的人體網格薯嗤,然后通過微分渲染器(Differential Renderer)渲染得到預測IUV圖,并與輸入IUV圖之間計算配準誤差纤泵。該方法在姿態(tài)和體型上都得到了更加準確的重建結果骆姐。如圖5所示。
下期將介紹三維人體重建的非參數(shù)方法捏题、SMPL人體參數(shù)化模型的詳細論述玻褪。喜歡的小伙伴們可以點贊與收藏噢。
參考文獻
[1] YE M, YANG R. Real-time simultaneouspose and shape estimation for articulated objects using a single depthcamera[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2345-2352.
[2] ANGUELOV D, SRINIVASAN P, KOLLER D, etal. SCAPE: Shape completion and animation of people[J]. ACM Trans. Graph.,2005, 24(3):408-416.
[3] LOPER M, MAHMOOD N, ROMERO J, et al.Smpl: A skinned multi-person linear model [J]. ACM transactions on graphics(TOG), 2015, 34(6):248.
[4] PAVLAKOS G, CHOUTAS V, GHORBANI N, etal. Expressive body capture: 3d hands, face, and body from a singleimage[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 10975-10985.
[5] HIRSHBERG D A, LOPER M, RACHLIN E, etal. Coregistration: Simultaneous alignment and modeling of articulated 3dshape[C]//European conference on computer vision. Springer, 2012: 242-255.
[6] TSOLI A, MAHMOODN, BLACKM J. Breathinglife into shape: Capturing, modeling and animating 3d human breathing[J]. ACMTransactions on graphics (TOG), 2014, 33(4):1-11.
[7] JAIN A, THORM?HLEN T, SEIDEL H P, etal. Moviereshape: Tracking and reshaping of humans in videos[J]. ACMTransactions on Graphics (TOG), 2010, 29(6):1-10.
[8] ZHANG Q, FU B, YE M, et al. Qualitydynamic human body modeling using a single lowcost depth camera[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition. 2014:676-683.
[9] WEISS A, HIRSHBERG D, BLACKM J. Home 3dbody scans from noisy image and range data[C]//2011 International Conference onComputer Vision. IEEE, 2011: 1951-1958.
[10] ZHAO T, LI S, NGAN K N, et al. 3-dreconstruction of human body shape from a single commodity depth camera[J].IEEE Transactions on Multimedia, 2018, 21(1):114-123.
[11] DIBRA E, JAIN H, OZTIRELI C, et al.Hs-nets: Estimating human body shape from silhouettes with convolutional neuralnetworks[C]//2016 fourth international conference on 3D vision (3DV). IEEE,2016: 108-117.
[12] GUAN P, WEISS A, BALAN A O, et al.Estimating human shape and pose from a single image[C]//IEEE InternationalConference on Computer Vision. 2009: 1381-1388.
[13] XUY, ZHUS C,TUNGT. Denserac: Joint 3dpose and shape estimation by dense render-and compare[C]//Proceedings of theIEEE International Conference on Computer Vision. 2019:7760 - 7770.
[14] BOGO F, KANAZAWA A, LASSNER C, et al.Keep it SMPL: Automatic estimation of 3D human pose and shape from a singleimage[C]//European Conference on Computer Vision. 2016: 561-578.
[15] SIGAL L, BALAN A, BLACK M. Combineddiscriminative and generative articulated pose and non-rigid shapeestimation[J]. Advances in neural information processing systems, 2007,20:1337-1344.
[16] JI Z, QI X, WANG Y, et al.Shape-from-mask: A deep learning based human body shape reconstruction frombinary mask images[J]. arXiv preprint arXiv:1806.08485, 2018.
[17] STREUBER S, QUIROS-RAMIREZ M A, HILL MQ, et al. Body talk: Crowdshaping realistic 3d avatars with words[J]. ACMTransactions on Graphics (TOG), 2016, 35(4):1-14.
[18] SEO H, MAGNENAT-THALMANN N. Anexample-based approach to human body manipulation[J]. Graphical Models, 2004,66(1):1-23.
[19] WUHRER S, SHU C. Estimating 3d humanshapes from measurements[J]. Machine vision and applications, 2013,24(6):1133-1147.
[20] ALLEN B, CURLESS B, POPOVI? Z. The space of human body shapes: reconstruction andparameterization from range scans[J]. ACM transactions on graphics (TOG), 2003,22 (3):587-594.
[21] 謝昊洋. 高精度三維人體重建及其在虛擬試衣中的應用[D]. 東華大學, 2020. [22] ROTHER C, KOLMOGOROVV, BLAKE A. ” grabcut” interactive foreground extraction using iterated graphcuts[J]. ACM transactions on graphics (TOG), 2004, 23(3):309-314.
[23] LASSNER C, ROMERO J, KIEFEL M, et al.Unite the people: Closing the loop between 3D and 2D humanrepresentations[C]//IEEE Conf. on Computer Vision and Pattern Recognition(CVPR). 2017: 6050-6059.
[24] 許豪燦, 李基拓, 陸國棟. 由 LeNet-5 從單張著裝圖像重建三維人體[J]. 浙江大學學報, 2021, 55(1):153-161.
[25] DIBRA E, JAIN H, OZTIRELI C, et al.Human shape from silhouettes using generative hks descriptors and cross-modalneural networks[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2017: 4826-4836.
[26] KANAZAWAA, BLACKM J, JACOBSDW, et al.End-to-end recovery ofhuman shape and pose[C]//IEEE Conference on ComputerVision and Pattern Recognition. 2018: 7122-7131.
[27] Joo H, Neverova N, Vedaldi A. Exemplarfine-tuning for 3d human pose fitting towards inthe-wild 3d human poseestimation[J]. arXiv preprint arXiv:2004.03686, 2020.
[28] ZIMMERMANN C, BROX T. Learning toestimate 3D hand pose from single RGB images [C]//IEEE International Conferenceon Computer Vision. 2017: 4903-4911.
[29] KOCABAS M,ATHANASIOUN, BLACKM J. Vibe:Video inference for human body pose and shape estimation[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020:5253-5263.
[30] KANAZAWA A, ZHANG J Y, FELSEN P, etal. Learning 3d human dynamics from video [C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2019: 5614-5623.
[31] GOODFELLOWI J, POUGET-ABADIE J,MIRZAM, et al. Generative adversarial networks [J]. arXiv preprintarXiv:1406.2661, 2014.
[32] GüLER R A, NEVEROVA N, KOKKINOS I.Densepose: Dense human pose estimation in the wild[C]//IEEE Conference onComputer Vision and Pattern Recognition. 2018: 7297-7306.