Abstract We propose a new method to quickly and accurately predict 3D positions of body joints from a single depth image, using no temporal information. We take an object recognition approach, designing an intermediate body parts representation that maps the difficult pose estimation problem into a simpler per-pixel classification problem. Our large and highly varied training dataset allows the classifier to estimate body parts invariant to pose, body shape, clothing, etc. Finally we generate confidence-scored 3D proposals of several body joints by reprojecting the classification result and finding local modes. The system runs at 200 frames per second on consumer hardware. Our evaluation shows high accuracy on both synthetic and real test sets, and investigates the effect of several training parameters. We achieve state of the art accuracy in our comparison with related work and demonstrate improved generalization over exact whole-skeleton nearest neighbor matching.
導讀
論文提出了一種從單張深度圖片中實時識別人體姿態(tài)的方法翔横。主要思路是將這個問題轉化成從單張深度圖片識別每個像素屬于身體的那個部位以及對識別出來的身體部位進行3維關節(jié)點重建問題懈叹。
我們主要關注論文中如何使用隨機森林解決第一步轉化:從深度圖片來識別身體部位。
訓練數(shù)據的采集
如何得到大量,多樣的訓練數(shù)據是問題的關鍵栏妖。限制有二调俘,使用計算機圖形技術生成的真實圖像會受到大量的顏色和紋理的影響,使得原始數(shù)據的有效信息退化成二維剪影信息躺盛,即使深度相機可以避免顏色紋理的影響项戴,但是人體和衣服的形狀各樣性仍不能很好收集完全。
論文基于原始深度相機采集的圖像槽惫,結合人物模型特性輕微改變身高和體重來生成更多的合成圖像周叮,以此來覆蓋更多的人體形狀。合成圖像的目標是真實和多樣界斜。此外仿耽,結合用戶的使用場景,論文的數(shù)據采集目標是覆蓋人可能在娛樂場景中做出來的各種姿勢各薇。事實上项贺,并不需要采集所有可能的姿態(tài)的組合數(shù)據,只要采集到大量范圍廣的的姿態(tài)信息就足夠了峭判。對采集的連續(xù)姿態(tài)序列开缎,姿態(tài)之間相似冗余,因而使用定義了姿態(tài)間的歐式距離舍棄其中的部分冗余數(shù)據林螃。
此外奕删,為了進一步完善先前采集數(shù)據的缺失信息,可以迭代采集過程治宣,不斷完善數(shù)據庫急侥。
特征表達
論文使用深度比對來生成圖像 中某一個像素 的特征。
- 首先侮邀,對于像素 坏怪,定義一組位移探針 來獲取像素 附近兩個位置的深度差異。
- 基于 生成的兩個像素點可以表示成绊茧, 和 铝宵。
- 兩個像素探針的深度差可以計算如下
其中, 是通過正則化確保特征是深度無關的信息华畏。
實驗中鹏秋,對于每張圖片,每個像素點亡笑,定義了 2000 組這樣的探針侣夷,每個探針 構成了該像素點的其中一個特征,也即生成了2000個特征仑乌。
每個單獨的特征只提供了很弱的信號可以指示像素屬于身體的哪個部位百拓。但是對隨機森林來說琴锭,這足夠讓這些特征組合提供足夠的信息來準確分辨各個身體部分。
Insights
- a highly varied and large training set is required.
- 基于原始數(shù)據合成覆蓋更廣更多的數(shù)據衙传。要求合成的數(shù)據真實且多樣决帖。
- 采集訓練數(shù)據結合具體的測試場景。
- 對于RF蓖捶,訓練數(shù)據不需要窮盡所有的組合地回,只要數(shù)據分布廣數(shù)量足夠即可。
- 使用 furtherst neighbor clustering 丟棄相似冗余的數(shù)據俊鱼。
- 迭代采樣刻像,彌補缺失訓練數(shù)據
- 特征表達:使用足量的特征,每個特征提供(即使微弱的)信號