CVPR 2024亮點研究 | Meta革新3D人體恢復技術

引言：3D人體姿態(tài)與形狀恢復的新視角

在3D人體姿態(tài)和形狀恢復領域，傳統(tǒng)的方法通常依賴于優(yōu)化技術蹂楣，通過將人體模型擬合到圖像觀測數(shù)據(jù)上來解決逆問題故痊。然而，這些方法存在多個局部最小值、對初始化敏感且通常較慢的缺點蜘欲。為了克服這些限制邪财，回歸方法被提出，通過訓練神經(jīng)網(wǎng)絡直接從圖像預測人體模型參數(shù)应狱。但現(xiàn)有的前饋系統(tǒng)尚未能同時實現(xiàn)準確的3D重建和圖像-模型對齊共郭，尤其是在單目設置中。我們提出了一種新的方法疾呻，Score-Guided Human Mesh Recovery（ScoreHMR）除嘹，它利用擴散模型作為學習到的先驗，通過在潛在空間中的得分引導來實現(xiàn)與圖像觀測的對齊岸蜗。ScoreHMR能夠有效解決多種應用中的逆問題尉咕，而無需對任務不可知的擴散模型進行特定任務的重新訓練。我們在單幀模型擬合璃岳、多視角重建以及視頻序列中重建人類動作等三種設置/應用中評估了我們的方法年缎。ScoreHMR在所有設置中始終優(yōu)于所有優(yōu)化基線。

論文標題：Score-Guided Diffusion for 3D Human Recovery

論文鏈接：https://arxiv.org/pdf/2403.09623.pdf

公眾號【AI論文解讀】后臺回復“論文解讀” 獲取論文PDF!

ScoreHMR方法概述：從2D圖像到3D重建的新途徑

1. 傳統(tǒng)方法的局限性

傳統(tǒng)的3D人體姿態(tài)和形狀恢復方法通常依賴于優(yōu)化技術铃慷，通過迭代擬合人體模型到2D圖像觀測數(shù)據(jù)单芜。然而，這種優(yōu)化過程存在多個局部最小值犁柜，對初始化的選擇敏感洲鸠，并且通常速度較慢。為了避免這些缺點馋缅，回歸方法訓練神經(jīng)網(wǎng)絡直接從圖像預測人體模型參數(shù)扒腕。但現(xiàn)有的前饋系統(tǒng)無法同時實現(xiàn)精確的3D重建和圖像-模型對齊，尤其是在單目設置中萤悴。盡管回歸和優(yōu)化范式之間已經(jīng)建立了協(xié)同關系瘾腰，但即使在這種情況下，優(yōu)化仍然具有挑戰(zhàn)性稚疹，需要多個先驗項才能獲得有意義的解決方案居灯。

2. ScoreHMR的核心思想

ScoreHMR（Score-Guided Human Mesh Recovery）是一種新穎的方法，它利用擴散模型來解決與人體網(wǎng)格恢復（HMR）相關的逆問題内狗。ScoreHMR模仿模型擬合方法怪嫌，但通過在擴散模型的潛在空間中的得分引導來實現(xiàn)與圖像觀測的對齊。擴散模型被訓練來捕獲給定輸入圖像的人體模型參數(shù)的條件分布柳沙。通過使用特定任務的得分來引導其去噪過程岩灭，ScoreHMR有效地解決了各種應用的逆問題，而無需對任務不可知的擴散模型進行重新訓練赂鲤。

ScoreHMR的工作流程：迭代精細化過程

1. 初始估計與逆向映射

ScoreHMR首先使用現(xiàn)有的回歸網(wǎng)絡獲得每幀3D估計的初始值噪径，然后將其通過DDIM逆向映射到擴散模型的相應潛在空間中柱恤。

2. 引導的去噪過程

在確定性DDIM采樣中，引導項作為標準優(yōu)化設置中的數(shù)據(jù)項找爱，而擴散模型則作為學習到的參數(shù)化先驗梗顺。通過引導項，ScoreHMR在去噪過程中注入了適當?shù)男畔⒊瞪悖愿倪M基于可用觀測的初始回歸估計寺谤。

3. 循環(huán)迭代直至收斂

ScoreHMR通過DDIM逆向映射和引導的DDIM采樣循環(huán)，直到人體模型與可用觀測對齊吮播。當引導損失的相對變化低于給定閾值時变屁，循環(huán)停止。這種方法可以被概念化為一種數(shù)據(jù)驅(qū)動的迭代擬合方法意狠，通過在擴散模型的潛在空間中的得分引導來實現(xiàn)與圖像觀測的對齊粟关。

應用場景：單幀擬合、多視角和視頻序列重建

1. 單幀模型擬合

單幀模型擬合是3D人體姿態(tài)和形狀重建中的一個基本任務环戈，它涉及將人體模型擬合到單個圖像幀的觀測數(shù)據(jù)上闷板。在這個過程中，通常需要解決的逆問題是從圖像中恢復出人體的3D姿態(tài)和形狀參數(shù)谷市。ScoreHMR通過在潛在空間中使用得分引導的方式蛔垢，有效地解決了這一逆問題击孩，而無需對任務不可知的擴散模型進行重新訓練迫悠。

2. 多視角重建

多視角重建是指從多個未校準視角重建人體的3D網(wǎng)格。在這種場景下巩梢，ScoreHMR利用跨視圖一致性引導來恢復一個在所有視點上保持一致的3D人體網(wǎng)格创泄。這種方法不僅提高了重建的準確性，而且顯著提高了處理速度括蝠。

3. 視頻序列中的人體運動重建

在視頻序列中重建人體運動涉及到從一系列圖像幀中恢復出時間上連貫的人體動作鞠抑。ScoreHMR通過時間一致性引導和（可選的）關鍵點重投影引導來細化每幀的回歸估計，從而實現(xiàn)了時間上連貫的人體動作重建忌警。

實驗驗證：評估ScoreHMR的性能

1. 數(shù)據(jù)集和評價指標

實驗使用了包括Human3.6M搁拙、MPI-INF-3DHP、COCO和MPII在內(nèi)的標準數(shù)據(jù)集進行訓練法绵，并在3DPW箕速、EMDB、Human3.6M和Mannequin Challenge等數(shù)據(jù)集上進行了評估朋譬。評價指標包括平均每關節(jié)位置誤差（MPJPE）盐茎、經(jīng)過骨架對齊的MPJPE（PA-MPJPE）以及加速度誤差（Acc Err）。

2. 定量評估與對比實驗

ScoreHMR在單幀模型擬合徙赢、多視角重建和視頻序列重建的各個應用場景中均展現(xiàn)出了優(yōu)異的性能字柠。在單幀模型擬合中探越，ScoreHMR在減少3D姿態(tài)誤差方面表現(xiàn)出了對不同圖像特征和偽真實姿態(tài)的魯棒性。在多視角重建中窑业，ScoreHMR通過跨視圖一致性引導钦幔，實現(xiàn)了比單視圖預測和基于優(yōu)化的方法更低的MPJPE錯誤。在視頻序列重建中常柄，ScoreHMR顯著提高了時間一致性节槐，并且在處理速度上也表現(xiàn)出色。

3. 定性結果展示

定性結果展示了ScoreHMR在不同場景下的應用效果拐纱。在單幀模型擬合中铜异，ScoreHMR能夠有效地將人體模型與檢測到的關鍵點對齊，即使初始回歸估計不準確秸架。在多視角重建中揍庄，ScoreHMR能夠整合來自不同視角的信息，改善手部等難以觀察區(qū)域的姿態(tài)估計东抹。在視頻序列重建中蚂子，ScoreHMR能夠生成時間上連貫且平滑的人體動作。此外，實驗還展示了ScoreHMR在處理失敗案例時的表現(xiàn)宴胧，即使在關鍵點檢測錯誤的情況下班套，ScoreHMR仍嘗試保持3D姿態(tài)與圖像證據(jù)的一致性。

討論：ScoreHMR的優(yōu)勢與潛在挑戰(zhàn)

1. 與優(yōu)化方法的比較

ScoreHMR是一種用于3D人體姿態(tài)和形狀重建的方法别渔，它通過在擴散模型的潛在空間中使用得分引導來實現(xiàn)與圖像觀察的對齊。與傳統(tǒng)的優(yōu)化技術相比惧互，ScoreHMR避免了多個局部最小值哎媚、對初始化選擇的敏感性以及通常較慢的問題。此外喊儡，ScoreHMR在單幀模型擬合拨与、多視角圖像重建以及視頻序列中的應用上，均一致性地超越了所有優(yōu)化基線艾猜，展現(xiàn)出其在處理3D人體恢復逆問題方面的優(yōu)勢买喧。

2. 多視角信息融合的有效性

ScoreHMR在處理多視角信息時，通過跨視圖一致性引導來恢復3D人體網(wǎng)格匆赃，保持了所有視點的一致性淤毛。這種方法不僅改善了每個視角的單幀預測，而且由于模型捕獲了SMPL姿態(tài)θ的聯(lián)合分布炸庞，因此在擴散模型的下一個噪聲水平上也影響了全局方向钱床。這是傳統(tǒng)優(yōu)化方法無法實現(xiàn)的，因為它們在優(yōu)化過程中僅更新身體姿勢埠居。

3. 視頻序列中的應用潛力

ScoreHMR在視頻序列中的應用展示了其在保持時間一致性和平滑預測方面的潛力查牌。通過引導損失事期，ScoreHMR能夠作為一個可學習的平滑操作，確保平滑的參數(shù)與圖像證據(jù)在圖像條件分布下保持一致纸颜。這種方法在時間一致性方面相比先前的工作有顯著提升兽泣，例如在3DPW和EMDB 1數(shù)據(jù)集上，相對于ProHMR-fitting胁孙，加速度誤差分別提高了21.3%和40.5%唠倦。

總結與未來工作展望

1. ScoreHMR在3D人體恢復中的地位

ScoreHMR通過在擴散模型的潛在空間中使用得分引導來實現(xiàn)與圖像觀察的對齊，有效地解決了3D人體恢復的逆問題涮较。它在各種基準測試和評估設置中表現(xiàn)出色稠鼻，特別是在具有挑戰(zhàn)性的數(shù)據(jù)集中，其性能超越了基于優(yōu)化的方法狂票。ScoreHMR的成功突顯了得分引導擴散過程作為解決3D人體恢復逆問題的一種比傳統(tǒng)基于優(yōu)化的方法更好的替代方案的潛力候齿。

2. 潛在的改進方向和應用前景

未來的工作可以探索將ScoreHMR應用于更廣泛的3D人體恢復場景，例如復雜的動作和多人互動環(huán)境闺属。此外慌盯，改進方向可能包括優(yōu)化擴散模型的訓練過程，以更好地捕獲人體姿態(tài)和形狀的多樣性掂器，以及提高模型對遮擋和異常姿勢的魯棒性亚皂。隨著計算能力的提升和算法的進一步發(fā)展，ScoreHMR有望在虛擬現(xiàn)實国瓮、增強現(xiàn)實灭必、游戲和電影產(chǎn)業(yè)中找到廣泛的應用。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末巍膘，一起剝皮案震驚了整個濱河市厂财，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌峡懈，老刑警劉巖，帶你破解...
沈念sama閱讀 218,122評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件与斤，死亡現(xiàn)場離奇詭異肪康，居然都是意外死亡，警方通過查閱死者的電腦和手機撩穿，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門磷支，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人食寡，你說我怎么就攤上這事雾狈。” “怎么了抵皱？”我有些...
開封第一講書人閱讀 164,491評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵善榛，是天一觀的道長辩蛋。經(jīng)常有香客問我，道長移盆，這世上最難降的妖魔是什么悼院？我笑而不...
開封第一講書人閱讀 58,636評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮咒循，結果婚禮上据途，老公的妹妹穿的比我還像新娘。我一直安慰自己叙甸，他們只是感情好颖医，可當我...
茶點故事閱讀 67,676評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著裆蒸，像睡著了一般便脊。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上光戈，一...
開封第一講書人閱讀 51,541評論 1贊 305
城市分裂傳說
那天哪痰，我揣著相機與錄音，去河邊找鬼久妆。笑死晌杰，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的筷弦。我是一名探鬼主播肋演，決...
沈念sama閱讀 40,292評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼烂琴！你這毒婦竟也來了爹殊？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 39,211評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤奸绷，失蹤者是張志新（化名）和其女友劉穎梗夸，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體号醉，經(jīng)...
沈念sama閱讀 45,655評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡反症，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,846評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了畔派。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铅碍。...
茶點故事閱讀 39,965評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖线椰，靈堂內(nèi)的尸體忽然破棺而出胞谈，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 35,684評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布烦绳，位于F島的核電站卿捎，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏爵嗅。R本人自食惡果不足惜娇澎，卻給世界環(huán)境...
茶點故事閱讀 41,295評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望睹晒。院中可真熱鬧趟庄，春花似錦、人聲如沸伪很。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,894評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽锉试。三九已至猫十，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間呆盖，已是汗流浹背拖云。一陣腳步聲響...
開封第一講書人閱讀 33,012評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留应又，地道東北人宙项。一個月前我還...
沈念sama閱讀 48,126評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像株扛，于是被迫代替她去往敵國和親尤筐。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,914評論 2贊 355