摘要
? 若已知手部一系列參數(shù)(骨骼河质、尺寸辕坝、外形等)百揭,那么給定某個(gè)手勢(shì)一個(gè)視角的圖片恼五,是可以推測(cè)該手勢(shì)另一個(gè)視角的圖片的限府。反之策彤,基于兩個(gè)視角的圖片奥吩,可以推理出手部的一系列參數(shù)册养。論文基于這一觀點(diǎn)傲绣,設(shè)計(jì)網(wǎng)絡(luò)燥狰,使用同手勢(shì)雙視角圖片對(duì)來(lái)訓(xùn)練網(wǎng)絡(luò),網(wǎng)絡(luò)接收一個(gè)視角圖片為輸入斜筐,預(yù)測(cè)一組隱藏參數(shù)龙致,再基于這組參數(shù)預(yù)測(cè)輸出另一個(gè)視角的圖片作Loss。這組隱藏參數(shù)相當(dāng)于對(duì)手部參數(shù)化顷链,并且這組參數(shù)是特定于手勢(shì)的目代。而全過程無(wú)需標(biāo)注關(guān)節(jié)點(diǎn)數(shù)據(jù)。
介紹
-
表示某個(gè)手勢(shì)的參數(shù)嗤练,給定i(j)視角的手勢(shì)圖片
(
)存在一個(gè)映射
榛了,使得:
雖然是不同視角的圖片,但是同手勢(shì)煞抬,所以手勢(shì)參數(shù)是相同的霜大。
-
反之,基于一組手勢(shì)參數(shù)
革答,也應(yīng)存在逆映射
,使得:
-
所以基于同手勢(shì)雙視角圖片對(duì)战坤,有:
如果i和j相同(即同一圖片),那么上述就是一個(gè)自編碼器残拐,這在當(dāng)前情況下很難學(xué)習(xí)手勢(shì)信息途茫,所以在本文中
關(guān)鍵
-
編碼-解碼結(jié)構(gòu)
本文仍然使用了基于CNN的編碼-解碼器結(jié)構(gòu),
為編碼器,
為解碼器溪食。
接收
為輸入囊卜,輸出隱藏參數(shù)
。
接收
為輸入错沃,生成另一個(gè)視角的圖片
損失函數(shù)
其中即
距離
- 網(wǎng)絡(luò)結(jié)構(gòu)
需要使用3D關(guān)節(jié)點(diǎn)標(biāo)注數(shù)據(jù)訓(xùn)練栅组,完成手勢(shì)隱藏參數(shù)到3D坐標(biāo)的映射。
- 半監(jiān)督訓(xùn)練
用有標(biāo)注和無(wú)標(biāo)注同時(shí)訓(xùn)練網(wǎng)路枢析。當(dāng)使用標(biāo)注數(shù)據(jù)時(shí)玉掸,置為0
其中