End-to-end Recovery of Human Shape and Pose
cvpr2018的文章,
有道云筆記:http://note.youdao.com/noteshare?id=2514205ee272234c20a29e92aedb089b
下載地址:https://arxiv.org/pdf/1712.06584.pdf
學(xué)習(xí)參考:https://blog.csdn.net/weixin_44599751/article/details/88877811
譯文:http://tongtianta.site/paper/1121
源碼:https://github.com/akanazawa/hmr
端到端的方式訓(xùn)練模型存在的挑戰(zhàn):
1. 缺乏對野外圖像的大規(guī)模地面真實(shí)3D注釋重挑,具有精確3D注釋的現(xiàn)有數(shù)據(jù)集的捕獲環(huán)境受限嗓化。在這些數(shù)據(jù)集上訓(xùn)練的模型并不能很好地概括現(xiàn)實(shí)世界中圖像的豐富性。2. 單視點(diǎn)二維到三維映射的固有區(qū)別:眾所周知的是深度模糊的問題谬哀,其中多個(gè)3D身體配置解釋相同的2D投影刺覆。這些配置中的許多可能不是人體測量學(xué)上合理的,例如不可能的關(guān)節(jié)角度或非常瘦的身體史煎。此外谦屑,估計(jì)相機(jī)明確引入了人物尺寸和相機(jī)距離之間的附加比例模糊度。
本文提出了一種新穎的網(wǎng)格重建方法解決這兩個(gè)挑戰(zhàn):
新穎網(wǎng)格重建方法:給定一個(gè)圖像劲室,網(wǎng)絡(luò)必須推斷3D網(wǎng)格參數(shù)和相機(jī)伦仍,使3D關(guān)鍵點(diǎn)與投影后的帶注釋的2D關(guān)鍵點(diǎn)匹配。為了解決模糊問題很洋,將這些參數(shù)發(fā)送到discriminator network充蓝,discriminator network的任務(wù)是確定3D參數(shù)是否對應(yīng)于真人的身體。
因此,鼓勵(lì)網(wǎng)絡(luò)在human manifold上輸出參數(shù)谓苟,而discriminator network則充當(dāng)弱監(jiān)督官脓。該網(wǎng)絡(luò)隱含地了解每個(gè)關(guān)節(jié)的角度限制,并且不鼓勵(lì)使用不尋常身體形狀的人涝焙。
預(yù)測身體模型參數(shù)的挑戰(zhàn):
預(yù)測身體模型參數(shù)的另一個(gè)挑戰(zhàn)是回歸到旋轉(zhuǎn)矩陣具有挑戰(zhàn)性卑笨。建議以反饋迭代的方式直接回歸這些值。我們的框架如圖2所示仑撞。
超越現(xiàn)有技術(shù)的方法:
1.我們直接從圖像特征推斷出3D赤兴,而以前的方法則是從2D關(guān)鍵點(diǎn)推斷3D。這不僅丟棄了大量的圖像信息隧哮,而且需要兩階段的訓(xùn)練桶良。
2.我們超越了骨架和輸出網(wǎng)格,這對于許多應(yīng)用來說更復(fù)雜沮翔,更合適陨帆。再次,不需要額外的推理步驟采蚀。
3.?我們的框架以端對端的方式進(jìn)行訓(xùn)練疲牵。我們在3D聯(lián)合誤差和運(yùn)行時(shí)間方面超出了先前輸出3D網(wǎng)格的方法
4. 我們顯示有和沒有成對2D-3D數(shù)據(jù)的結(jié)果。即使不使用任何配對的2D到3D監(jiān)督榆鼠,我們的方法也可以生成合理的3D重建纲爸。這是最令人興奮的,因?yàn)樗鼮閺拇罅?D數(shù)據(jù)中學(xué)習(xí)3D提供了可能性妆够。