摘要
創(chuàng)建高保真的3D頭像一直是研究的熱點(diǎn),但在輕量級(jí)稀疏視圖設(shè)置下仍然存在很大的挑戰(zhàn)豁鲤。在本文中剂娄,提出了用可控3D高斯表示的高斯頭像來(lái)進(jìn)行高保真頭像建模蜕煌。該研究?jī)?yōu)化了中性三維高斯和完全學(xué)習(xí)的基于MLP的變形場(chǎng)剖张,以捕獲復(fù)雜的表達(dá)式。這兩部分相得益彰揩环,使得我們的方法能夠在保證表達(dá)準(zhǔn)確性的同時(shí)搔弄,對(duì)細(xì)粒度的動(dòng)態(tài)細(xì)節(jié)進(jìn)行建模。此外丰滑,為了保證訓(xùn)練過(guò)程的穩(wěn)定性和收斂性顾犹,我們?cè)O(shè)計(jì)了一種基于隱式SDF和Deep移動(dòng)四面體的幾何引導(dǎo)初始化策略。實(shí)驗(yàn)表明褒墨,我們的方法優(yōu)于其他先進(jìn)的稀疏視圖方法
1炫刷、Introduction
通常實(shí)現(xiàn)實(shí)現(xiàn)高保真動(dòng)畫(huà),它們需要從密集的多視角視頻中重建和跟蹤精確的幾何圖形郁妈,從而限制了它們?cè)谳p量級(jí)設(shè)置中的應(yīng)用浑玛。NeRF的應(yīng)用可以跳過(guò)幾何重建和跟蹤步驟,而是直接學(xué)習(xí)高質(zhì)量的基于NeRF的頭像噩咪,并且有工作已經(jīng)驗(yàn)證了NeRF可以應(yīng)用于稠密視圖或者系數(shù)視圖顾彰。文章提出了高斯頭像( Gaussian Head Avatar )极阅,這是一種利用3D高斯散斑進(jìn)行超高保真頭化身建模的新表達(dá)方式。
從前的頭像生成方式通常使用的是LBS方法涨享,但其無(wú)法表示夸張和細(xì)粒度的表情筋搏。三維頭部高斯提出了一個(gè)完全可學(xué)習(xí)的表情條件形變場(chǎng),避免了基于LBS的構(gòu)造方法的有限能力厕隧。具體來(lái)說(shuō)奔脐,我們將帶有表達(dá)系數(shù)的三維高斯的位置輸入到MLP中,直接預(yù)測(cè)從中性表達(dá)到目標(biāo)表達(dá)的位移吁讨。類(lèi)似地髓迎,我們以頭部姿態(tài)為條件來(lái)控制非面部區(qū)域的運(yùn)動(dòng),如頸部挡爵。3D高斯表示具有強(qiáng)大的重構(gòu)高頻細(xì)節(jié)的能力竖般,使我們的方法能夠?qū)W習(xí)到精確的形變場(chǎng)。反過(guò)來(lái)茶鹃,學(xué)習(xí)到的精確形變場(chǎng)有利于動(dòng)態(tài)高斯頭部模型擬合更多的動(dòng)態(tài)細(xì)節(jié)涣雕。因此,我們的方法能夠重建具有表現(xiàn)力的人頭更細(xì)粒度的動(dòng)態(tài)細(xì)節(jié)闭翩。
總結(jié)下來(lái)挣郭,該論文的貢獻(xiàn)可以概括為:
- 我們提出了一種新的頭像表示方法Gaussian Head Avatar,它使用可控的動(dòng)態(tài)3D高斯來(lái)建模表情豐富的人類(lèi)頭像疗韵,生成了2K分辨率的超高保真合成圖像兑障。
- 為了建模高頻動(dòng)態(tài)細(xì)節(jié),我們?cè)?D頭部高斯上使用了一個(gè)完全學(xué)習(xí)的變形場(chǎng)蕉汪,它精確地建模了極其復(fù)雜和夸張的面部表情流译。
- 我們精心設(shè)計(jì)了一種有效的初始化策略,利用隱式表示來(lái)初始化幾何和變形者疤,從而在訓(xùn)練Gaussian Head Avatar時(shí)實(shí)現(xiàn)了高效和魯棒的收斂福澡。
- 受益于這些貢獻(xiàn),我們的方法在光照下超過(guò)了最近的先進(jìn)方法
2驹马、相關(guān)工作
(1)3D頭像重建
三維頭部重建可大量應(yīng)用于電影行業(yè)革砸,然而這類(lèi)方法需要大量的計(jì)算,隨著研究的進(jìn)展有很多方法都能夠做到快速重建糯累,但是基于網(wǎng)格的頭像往往都會(huì)出現(xiàn)紋理模糊的問(wèn)題算利。最新的方法為基于NeRF的方法拓展到系數(shù)視圖重建任務(wù)中∮窘悖基于隱式SDF或基于NeRF的方法可以學(xué)習(xí)全頭模板效拭,而不受固定拓?fù)浣Y(jié)構(gòu)的限制,從而更好地建模復(fù)雜的發(fā)型和眼鏡。Cao等人采用了一種建立在網(wǎng)格表面上的局部NeRF的混合表示允耿,能夠?qū)崿F(xiàn)高保真渲染和靈活的表情控制借笙。從單目視頻中重建三維頭像也是一個(gè)熱門(mén)但具有挑戰(zhàn)性的研究課題。最新的方法探索了基于隱式SDF 较锡、點(diǎn)云或NeRF 構(gòu)建頭部化身模型业稼。
(2)基于點(diǎn)的渲染
點(diǎn)元作為一種離散的、非結(jié)構(gòu)化的表達(dá)方式蚂蕴,可以有效地?cái)M合具有任意拓?fù)浣Y(jié)構(gòu)的幾何低散。Gaussian拋雪球顯示了其優(yōu)越的性能,在新穎的視圖合成質(zhì)量和渲染速度方面都超過(guò)了NeRF骡楼。
3熔号、綜述
上圖展示的是高斯圖像重建的方法,首先對(duì)視頻的每張圖像后的背景鸟整,并聯(lián)合估計(jì)3DMM模型引镊,特征點(diǎn)和表情基。左邊綠色的框表示的是初始化階段篮条,首先我們重建一個(gè)基于SDF的中性幾何體(Neutral Mesh)弟头,并且從上面的圖像中訓(xùn)練出一個(gè)形變場(chǎng)(Deform MLP)和顏色場(chǎng)(Color MLP)。接下來(lái)涉茧,我們通過(guò)DMTet提取中性網(wǎng)格來(lái)初始化中性高斯赴恨,同時(shí)變形和顏色MLP也從初始化階段繼承下來(lái)。在高斯頭像的訓(xùn)練階段伴栓,給定驅(qū)動(dòng)表情系數(shù)作為條件伦连,通過(guò)動(dòng)態(tài)生成器(Dynamic Generator)將中性高斯變形為目標(biāo)表情。最后钳垮,給定相機(jī)視圖惜姐,將表達(dá)性高斯渲染為特征圖榕订,并將其輸入卷積超分辨率網(wǎng)絡(luò)蒿涎,生成高分辨率化身圖像刻像。整個(gè)模型在多視角RGB視頻的監(jiān)督下進(jìn)行優(yōu)化。
4短荐、具體方法
(1)頭像代表
X代表的是每一個(gè)點(diǎn)的位置倚舀,C代表多通道的顏色叹哭,Q代表旋轉(zhuǎn)忍宋,S代表尺度,A代表不透明度风罩,μ代表相機(jī)的參數(shù)糠排,I在論文中表示的是5125123的圖像。其中Q是一個(gè)四元數(shù)超升。文章的任務(wù)是重建一個(gè)由表情基控制的動(dòng)態(tài)頭像入宦。因此哺徊,文章將頭像建模成以表情為條件的動(dòng)態(tài)3D高斯。
具體來(lái)說(shuō)乾闰,作者首先構(gòu)造了一個(gè)與表情無(wú)關(guān)的中性高斯模型:{ X0落追,F(xiàn)0,Q0涯肩,S0轿钠,A0 }。F表示逐點(diǎn)特征向量作為其內(nèi)在屬性病苗。值得注意的是疗垛,公式中沒(méi)有定義中性顏色,而是直接從點(diǎn)特征向量F0中預(yù)測(cè)表情相關(guān)的動(dòng)態(tài)顏色硫朦。然后贷腕,我們構(gòu)造了一個(gè)基于MLP的表達(dá)式條件動(dòng)態(tài)生成器Φ來(lái)產(chǎn)生所有對(duì)中性模型的額外動(dòng)態(tài)變化∫д梗總體而言泽裳,整個(gè)高斯頭像可以表示為:
θ表示表情基,β代表的是頭部的姿態(tài)挚赊。Φ表示的是圖中的動(dòng)態(tài)生成器诡壁。最終獲得{ X,F(xiàn)荠割,Q妹卿,S,A }蔑鹦。
X‘就是圖中初始化中的Expressive Mesh夺克,X0表示的是中性模型點(diǎn)的位置,f exp是表情影響嚎朽,f pose是頭部位姿的影響铺纽。關(guān)于λ的計(jì)算如下:
具體來(lái)說(shuō),在數(shù)據(jù)預(yù)處理階段先通過(guò)3DMM模型估計(jì)出正則模型的3D地標(biāo)點(diǎn)P0哟忍。其中x∈X0表示一個(gè)中性高斯的位置狡门,dist( x , P0)表示點(diǎn)x到3D路標(biāo)P的最小距離。t1 = 0.15和t2 = 0.25是預(yù)定義的超參數(shù)锅很,當(dāng)頭部長(zhǎng)度設(shè)置為近似1時(shí)其馏。
上述是各種各樣的點(diǎn)的位置預(yù)測(cè),下面則是顏色的變化爆安,動(dòng)態(tài)細(xì)節(jié)的建模通常需要隨表情變化的動(dòng)態(tài)顏色叛复。
高斯的旋轉(zhuǎn)、尺度和不透明度也是需要?jiǎng)討B(tài)計(jì)算的,公式如下:
最后褐奥,我們對(duì)高斯函數(shù)施加剛性旋轉(zhuǎn)和平移T ( · )咖耘,將其從正則空間轉(zhuǎn)換到世界空間。值得注意的是撬码,該變換只針對(duì)方向變量{ X′儿倒,Q′},而多通道顏色呜笑、尺度和不透明度{ C′义桂,S′,A′}不具有方向性蹈垢,因此保持不變慷吊。
(2)訓(xùn)練過(guò)程 Traning
這部分主要是描述了訓(xùn)練的流程和損失函數(shù),在每一次迭代的過(guò)程中曹抬,首先我們要經(jīng)過(guò)上面的公式生成一個(gè)圖像I溉瓶,這是一個(gè)三通道的512512的圖像。然后將這個(gè)圖像送入到一個(gè)超分辨率的網(wǎng)絡(luò)中谤民,生成成三通道的20482048的圖像堰酿,這樣就可以恢復(fù)更多的細(xì)節(jié)信息了。
對(duì)于損失函數(shù)张足,文章使用前景RGB圖像作為Ground True触创,關(guān)于損失函數(shù),使用了L1 Loss和VGG感知損失为牍。
Ihr表示的是生成的圖片哼绑,用Ilr表示32通道圖像IC的前3個(gè)通道。我們?cè)O(shè)定權(quán)重λ vgg = 0.1碉咆,λlr = 0.1抖韩。
(3)幾何引導(dǎo)的初始化 Geometry-guided initialization
初始化的階段需要優(yōu)化一個(gè)guidance model,包括neutral mesh, deformation MLP和color MLP疫铜。
由于高斯表示是無(wú)序和非結(jié)構(gòu)化的茂浮,梯度傳播回一點(diǎn)后很難繼續(xù)傳播到空間中的鄰近點(diǎn)。因此壳咕,隨機(jī)初始化中性高斯通常會(huì)導(dǎo)致無(wú)法收斂席揽,用FLAME模型初始化無(wú)法建模長(zhǎng)發(fā)型和肩膀。為了克服這個(gè)問(wèn)題谓厘,我們提出使用隱式符號(hào)距離場(chǎng)( SDF )表示和深度四面體( DMTet )來(lái)首先重建一個(gè)中性網(wǎng)格來(lái)初始化高斯位置幌羞。文章還對(duì)顏色MLPs和形變MLPs進(jìn)行了粗略?xún)?yōu)化。
表示和渲染庞呕。具體來(lái)說(shuō)新翎,我們首先構(gòu)造一個(gè)MLP f sdf來(lái)表示一個(gè)符號(hào)距離場(chǎng)。此外住练,該網(wǎng)絡(luò)還將輸出每個(gè)點(diǎn)對(duì)應(yīng)的特征向量地啰,用于預(yù)測(cè)點(diǎn)的顏色。它可以表述為:
用s表示SDF值讲逛,η表示特征向量亏吝,x表示點(diǎn)的位置。SDF場(chǎng)通過(guò)Deep Marching Tetrahedra (DMTet) 轉(zhuǎn)化成mesh盏混,而頂點(diǎn)的顏色和形變通過(guò)MLP進(jìn)行預(yù)測(cè)蔚鸥。然后對(duì)mesh渲染RGB圖像和mask,在多視角RGB圖像的監(jiān)督下優(yōu)化網(wǎng)絡(luò)參數(shù)许赃。另外還用到landmarks作為監(jiān)督信號(hào)止喷,訓(xùn)練表情形變MLP』炝模可以差分地提取一個(gè)網(wǎng)格的頂點(diǎn)X弹谁,每個(gè)頂點(diǎn)的特征向量F和它的面。預(yù)測(cè)位移并將其添加到頂點(diǎn)位置句喜。將高斯位置X0替換為頂點(diǎn)位置X预愤。最后,我們還對(duì)變形的網(wǎng)格施加剛性的旋轉(zhuǎn)和平移咳胃,將其轉(zhuǎn)換到世界空間植康,并根據(jù)相機(jī)參數(shù)μ通過(guò)可微的光柵化將變形的網(wǎng)格渲染成圖像I和掩膜M。
損失函數(shù)與訓(xùn)練展懈。接下來(lái)销睁,我們可以構(gòu)造RGB損失和輪廓損失來(lái)訓(xùn)練引導(dǎo)模型:
其中,Igt和Mgt分別表示真值RGB圖像和掩膜存崖。IOU ( · )表示交并比度量榄攀。值得注意的是,只有32通道圖像I的前三個(gè)通道R金句,G檩赢,B受到真實(shí)RGB圖像的監(jiān)督。我們還使用了估計(jì)的3D面部特征點(diǎn)Pgt违寞,如Sec所述贞瞒。3為MLP的表達(dá)變形提供粗略的指導(dǎo)。具體來(lái)說(shuō)趁曼,我們將中性3D特征點(diǎn)P0輸入到表情形變MLP中军浆,以預(yù)測(cè)表情條件特征點(diǎn)P:
然后以3D人臉特征點(diǎn)Pgt作為監(jiān)督構(gòu)建損失函數(shù):
此外,我們引入3個(gè)約束:( 1 )正則項(xiàng)Loffset挡闰,懲罰所有非零位移乒融,以防止兩個(gè)變形MLP學(xué)習(xí)一個(gè)全局常量偏移量掰盘;( 2 )正則項(xiàng)Llmk,限制三維地標(biāo)處的SDF值接近于零赞季,使地標(biāo)位于網(wǎng)格表面愧捕;( 3 )拉普拉斯項(xiàng)Llap,在一定程度上保持提取的網(wǎng)格光滑申钩〈位妫總的來(lái)說(shuō),總損失函數(shù)被表述為:
用λ表示各項(xiàng)的權(quán)重撒遣,設(shè)置如下:λsil = 0.1邮偎,λdef = 1,λoffset = 0.01义黎,λlmk = 0.1禾进,λlap = 100。我們將上述MLPs與中性3D地標(biāo)P0聯(lián)合優(yōu)化廉涕,直到所有MLPs收斂命迈。
參數(shù)傳遞。最后火的,我們使用粗略訓(xùn)練好的引導(dǎo)模型來(lái)初始化高斯頭部模型壶愤。具體來(lái)說(shuō),我們通過(guò)DMTet提取具有頂點(diǎn)X和頂點(diǎn)特征F的中性網(wǎng)格馏鹤,并直接將它們的值分別分配給中性高斯的中性位置X0 = X和頂點(diǎn)特征向量F0 = F征椒。對(duì)于其他中性屬性,我們采用Gaussian拋雪球中的初始化策略湃累。然后勃救,我們?yōu)橄乱浑A段保留所有四個(gè)優(yōu)化的MLPs,同時(shí)隨機(jī)初始化兩個(gè)屬性MLPs和超分辨率網(wǎng)絡(luò)Ψ的參數(shù)治力。
5蒙秒、實(shí)驗(yàn)和總結(jié)
實(shí)驗(yàn)結(jié)果表明,所提出的高斯頭像方法優(yōu)于現(xiàn)有的國(guó)家的最先進(jìn)的方法在渲染質(zhì)量和表達(dá)精度宵统。具體而言晕讲,該方法實(shí)現(xiàn)了2K分辨率的超高保真度合成圖像,準(zhǔn)確地模擬了極其復(fù)雜和夸張的面部表情马澈,并在生成高頻細(xì)節(jié)方面表現(xiàn)出顯著的改進(jìn)瓢省。與以前的方法相比,該方法還顯示出峰值信噪比(PSNR)和結(jié)構(gòu)相似性指數(shù)(SSIM)的輕微改善痊班,以及學(xué)習(xí)感知圖像塊相似性(LPIPS)和Fréchet起始距離(FID)的顯著改善勤婚,表明上級(jí)圖像質(zhì)量和表達(dá)轉(zhuǎn)移準(zhǔn)確性。此外涤伐,與現(xiàn)有方法相比馒胆,該方法能夠合成更高保真的圖像缨称,具有更準(zhǔn)確的表情轉(zhuǎn)移和更豐富的情感。
本文介紹了一種稱(chēng)為高斯頭像的新方法祝迂,用于在2K分辨率下創(chuàng)建具有可控表情的高保真3D頭像睦尽。該方法利用可控的動(dòng)態(tài)3D高斯模型來(lái)模擬富有表現(xiàn)力的人類(lèi)頭部化身,并采用完全學(xué)習(xí)的變形場(chǎng)來(lái)準(zhǔn)確捕捉復(fù)雜和夸張的面部表情液兽。作者還提出了一種基于隱式表示的有效初始化策略,以確保穩(wěn)定的訓(xùn)練和收斂掌动。實(shí)驗(yàn)結(jié)果表明四啰,該方法優(yōu)于現(xiàn)有的國(guó)家的最先進(jìn)的方法在渲染質(zhì)量和表達(dá)的準(zhǔn)確性。此外粗恢,本文還討論了所提出的方法的局限性和倫理考慮柑晒。
6、應(yīng)用場(chǎng)景和領(lǐng)域
該技術(shù)可以用于所有面部生成的場(chǎng)景和領(lǐng)域眷射,例如:電影匙赞、游戲行業(yè)
論文:https://yuelangx.github.io/gaussianheadavatar/assets/Gaussian_Head_Avatar.pdf
項(xiàng)目網(wǎng)址:https://yuelangx.github.io/gaussianheadavatar/