引言:3D人體姿態(tài)與形狀恢復的新視角
在3D人體姿態(tài)和形狀恢復領域,傳統(tǒng)的方法通常依賴于優(yōu)化技術蹂楣,通過將人體模型擬合到圖像觀測數(shù)據(jù)上來解決逆問題故痊。然而,這些方法存在多個局部最小值、對初始化敏感且通常較慢的缺點蜘欲。為了克服這些限制邪财,回歸方法被提出,通過訓練神經(jīng)網(wǎng)絡直接從圖像預測人體模型參數(shù)应狱。但現(xiàn)有的前饋系統(tǒng)尚未能同時實現(xiàn)準確的3D重建和圖像-模型對齊共郭,尤其是在單目設置中。我們提出了一種新的方法疾呻,Score-Guided Human Mesh Recovery(ScoreHMR)除嘹,它利用擴散模型作為學習到的先驗,通過在潛在空間中的得分引導來實現(xiàn)與圖像觀測的對齊岸蜗。ScoreHMR能夠有效解決多種應用中的逆問題尉咕,而無需對任務不可知的擴散模型進行特定任務的重新訓練。我們在單幀模型擬合璃岳、多視角重建以及視頻序列中重建人類動作等三種設置/應用中評估了我們的方法年缎。ScoreHMR在所有設置中始終優(yōu)于所有優(yōu)化基線。
論文標題:Score-Guided Diffusion for 3D Human Recovery
論文鏈接:https://arxiv.org/pdf/2403.09623.pdf
公眾號【AI論文解讀】后臺回復“論文解讀” 獲取論文PDF!
ScoreHMR方法概述:從2D圖像到3D重建的新途徑
1. 傳統(tǒng)方法的局限性
傳統(tǒng)的3D人體姿態(tài)和形狀恢復方法通常依賴于優(yōu)化技術铃慷,通過迭代擬合人體模型到2D圖像觀測數(shù)據(jù)单芜。然而,這種優(yōu)化過程存在多個局部最小值犁柜,對初始化的選擇敏感洲鸠,并且通常速度較慢。為了避免這些缺點馋缅,回歸方法訓練神經(jīng)網(wǎng)絡直接從圖像預測人體模型參數(shù)扒腕。但現(xiàn)有的前饋系統(tǒng)無法同時實現(xiàn)精確的3D重建和圖像-模型對齊,尤其是在單目設置中萤悴。盡管回歸和優(yōu)化范式之間已經(jīng)建立了協(xié)同關系瘾腰,但即使在這種情況下,優(yōu)化仍然具有挑戰(zhàn)性稚疹,需要多個先驗項才能獲得有意義的解決方案居灯。
2. ScoreHMR的核心思想
ScoreHMR(Score-Guided Human Mesh Recovery)是一種新穎的方法,它利用擴散模型來解決與人體網(wǎng)格恢復(HMR)相關的逆問題内狗。ScoreHMR模仿模型擬合方法怪嫌,但通過在擴散模型的潛在空間中的得分引導來實現(xiàn)與圖像觀測的對齊。擴散模型被訓練來捕獲給定輸入圖像的人體模型參數(shù)的條件分布柳沙。通過使用特定任務的得分來引導其去噪過程岩灭,ScoreHMR有效地解決了各種應用的逆問題,而無需對任務不可知的擴散模型進行重新訓練赂鲤。
ScoreHMR的工作流程:迭代精細化過程
1. 初始估計與逆向映射
ScoreHMR首先使用現(xiàn)有的回歸網(wǎng)絡獲得每幀3D估計的初始值噪径,然后將其通過DDIM逆向映射到擴散模型的相應潛在空間中柱恤。
2. 引導的去噪過程
在確定性DDIM采樣中,引導項作為標準優(yōu)化設置中的數(shù)據(jù)項找爱,而擴散模型則作為學習到的參數(shù)化先驗梗顺。通過引導項,ScoreHMR在去噪過程中注入了適當?shù)男畔⒊瞪悖愿倪M基于可用觀測的初始回歸估計寺谤。
3. 循環(huán)迭代直至收斂
ScoreHMR通過DDIM逆向映射和引導的DDIM采樣循環(huán),直到人體模型與可用觀測對齊吮播。當引導損失的相對變化低于給定閾值時变屁,循環(huán)停止。這種方法可以被概念化為一種數(shù)據(jù)驅(qū)動的迭代擬合方法意狠,通過在擴散模型的潛在空間中的得分引導來實現(xiàn)與圖像觀測的對齊粟关。
應用場景:單幀擬合、多視角和視頻序列重建
1. 單幀模型擬合
單幀模型擬合是3D人體姿態(tài)和形狀重建中的一個基本任務环戈,它涉及將人體模型擬合到單個圖像幀的觀測數(shù)據(jù)上闷板。在這個過程中,通常需要解決的逆問題是從圖像中恢復出人體的3D姿態(tài)和形狀參數(shù)谷市。ScoreHMR通過在潛在空間中使用得分引導的方式蛔垢,有效地解決了這一逆問題击孩,而無需對任務不可知的擴散模型進行重新訓練迫悠。
2. 多視角重建
多視角重建是指從多個未校準視角重建人體的3D網(wǎng)格。在這種場景下巩梢,ScoreHMR利用跨視圖一致性引導來恢復一個在所有視點上保持一致的3D人體網(wǎng)格创泄。這種方法不僅提高了重建的準確性,而且顯著提高了處理速度括蝠。
3. 視頻序列中的人體運動重建
在視頻序列中重建人體運動涉及到從一系列圖像幀中恢復出時間上連貫的人體動作鞠抑。ScoreHMR通過時間一致性引導和(可選的)關鍵點重投影引導來細化每幀的回歸估計,從而實現(xiàn)了時間上連貫的人體動作重建忌警。
實驗驗證:評估ScoreHMR的性能
1. 數(shù)據(jù)集和評價指標
實驗使用了包括Human3.6M搁拙、MPI-INF-3DHP、COCO和MPII在內(nèi)的標準數(shù)據(jù)集進行訓練法绵,并在3DPW箕速、EMDB、Human3.6M和Mannequin Challenge等數(shù)據(jù)集上進行了評估朋譬。評價指標包括平均每關節(jié)位置誤差(MPJPE)盐茎、經(jīng)過骨架對齊的MPJPE(PA-MPJPE)以及加速度誤差(Acc Err)。
2. 定量評估與對比實驗
ScoreHMR在單幀模型擬合徙赢、多視角重建和視頻序列重建的各個應用場景中均展現(xiàn)出了優(yōu)異的性能字柠。在單幀模型擬合中探越,ScoreHMR在減少3D姿態(tài)誤差方面表現(xiàn)出了對不同圖像特征和偽真實姿態(tài)的魯棒性。在多視角重建中窑业,ScoreHMR通過跨視圖一致性引導钦幔,實現(xiàn)了比單視圖預測和基于優(yōu)化的方法更低的MPJPE錯誤。在視頻序列重建中常柄,ScoreHMR顯著提高了時間一致性节槐,并且在處理速度上也表現(xiàn)出色。
3. 定性結果展示
定性結果展示了ScoreHMR在不同場景下的應用效果拐纱。在單幀模型擬合中铜异,ScoreHMR能夠有效地將人體模型與檢測到的關鍵點對齊,即使初始回歸估計不準確秸架。在多視角重建中揍庄,ScoreHMR能夠整合來自不同視角的信息,改善手部等難以觀察區(qū)域的姿態(tài)估計东抹。在視頻序列重建中蚂子,ScoreHMR能夠生成時間上連貫且平滑的人體動作。此外,實驗還展示了ScoreHMR在處理失敗案例時的表現(xiàn)宴胧,即使在關鍵點檢測錯誤的情況下班套,ScoreHMR仍嘗試保持3D姿態(tài)與圖像證據(jù)的一致性。
討論:ScoreHMR的優(yōu)勢與潛在挑戰(zhàn)
1. 與優(yōu)化方法的比較
ScoreHMR是一種用于3D人體姿態(tài)和形狀重建的方法别渔,它通過在擴散模型的潛在空間中使用得分引導來實現(xiàn)與圖像觀察的對齊。與傳統(tǒng)的優(yōu)化技術相比惧互,ScoreHMR避免了多個局部最小值哎媚、對初始化選擇的敏感性以及通常較慢的問題。此外喊儡,ScoreHMR在單幀模型擬合拨与、多視角圖像重建以及視頻序列中的應用上,均一致性地超越了所有優(yōu)化基線艾猜,展現(xiàn)出其在處理3D人體恢復逆問題方面的優(yōu)勢买喧。
2. 多視角信息融合的有效性
ScoreHMR在處理多視角信息時,通過跨視圖一致性引導來恢復3D人體網(wǎng)格匆赃,保持了所有視點的一致性淤毛。這種方法不僅改善了每個視角的單幀預測,而且由于模型捕獲了SMPL姿態(tài)θ的聯(lián)合分布炸庞,因此在擴散模型的下一個噪聲水平上也影響了全局方向钱床。這是傳統(tǒng)優(yōu)化方法無法實現(xiàn)的,因為它們在優(yōu)化過程中僅更新身體姿勢埠居。
3. 視頻序列中的應用潛力
ScoreHMR在視頻序列中的應用展示了其在保持時間一致性和平滑預測方面的潛力查牌。通過引導損失事期,ScoreHMR能夠作為一個可學習的平滑操作,確保平滑的參數(shù)與圖像證據(jù)在圖像條件分布下保持一致纸颜。這種方法在時間一致性方面相比先前的工作有顯著提升兽泣,例如在3DPW和EMDB 1數(shù)據(jù)集上,相對于ProHMR-fitting胁孙,加速度誤差分別提高了21.3%和40.5%唠倦。
總結與未來工作展望
1. ScoreHMR在3D人體恢復中的地位
ScoreHMR通過在擴散模型的潛在空間中使用得分引導來實現(xiàn)與圖像觀察的對齊,有效地解決了3D人體恢復的逆問題涮较。它在各種基準測試和評估設置中表現(xiàn)出色稠鼻,特別是在具有挑戰(zhàn)性的數(shù)據(jù)集中,其性能超越了基于優(yōu)化的方法狂票。ScoreHMR的成功突顯了得分引導擴散過程作為解決3D人體恢復逆問題的一種比傳統(tǒng)基于優(yōu)化的方法更好的替代方案的潛力候齿。
2. 潛在的改進方向和應用前景
未來的工作可以探索將ScoreHMR應用于更廣泛的3D人體恢復場景,例如復雜的動作和多人互動環(huán)境闺属。此外慌盯,改進方向可能包括優(yōu)化擴散模型的訓練過程,以更好地捕獲人體姿態(tài)和形狀的多樣性掂器,以及提高模型對遮擋和異常姿勢的魯棒性亚皂。隨著計算能力的提升和算法的進一步發(fā)展,ScoreHMR有望在虛擬現(xiàn)實国瓮、增強現(xiàn)實灭必、游戲和電影產(chǎn)業(yè)中找到廣泛的應用。