Newell等人在2016年提出Hourglass的結(jié)構(gòu)[1],通過重復(fù)自底向上和自頂向下并聯(lián)合中間結(jié)果的監(jiān)督用在人體姿態(tài)估計中可以很好地利用身體不同部位的空間關(guān)系喘先。
這個沙漏形狀的網(wǎng)絡(luò)按照以下的順序?qū)斎雸D像進行處理用shenxiaolu1984[2]繪制的圖可以很好地解釋:
- 輸入圖像分成兩路處理解幽,第一路保持不變(HxWxM)--卷積-->(HxWxN),第二路進行下采樣(HxWx3)-->(H/2xW/2xM)--卷積-->(H/2xW/2xN)
- 整個網(wǎng)絡(luò)結(jié)構(gòu)呈中心對稱烘苹,對稱的輸出圖像逐元素相加
- 完成相加的操作之后躲株,如果不是最后一層還需要再進行上采樣,上采樣也有很多種方式镣衡,有直接用鄰近插值霜定、雙線性插值的档悠,也有使用Deconvolution的方式。
- 最后的輸出根據(jù)需要檢測的關(guān)鍵點的數(shù)量決定
輸出是一個K通道的圖望浩,每個通道圖有且僅有一個部件的響應(yīng)信息 - 簡單地總結(jié)成:
每次降采樣之前辖所,分出上半路保留原尺度信息;
每次升采樣之后曾雕,和上一個尺度的數(shù)據(jù)相加奴烙;
兩次降采樣之間,使用三個Residual模塊提取特征剖张;
兩次相加之間切诀,使用一個Residual模塊提取特征。
人體姿態(tài)估計
Stacked Hourglass Networks在人體姿態(tài)估計是在人體姿態(tài)估計算法中提出的搔弄,
MPII Human Pose Dataset 數(shù)據(jù)處理:
- 采用MPII提供的scale和center標(biāo)注信息,以目標(biāo)人為中心炫刷,裁剪圖片
- Resized to 256x256
- Rotation (+/- 30 degrees)
- Scaling (.75-1.25)
未進行平移處理擎宝,因為圖像中目標(biāo)人的位置是很重要的信息.
在人體姿態(tài)估計上取得2016年的冠軍。
-
Stacked Hourglass Networks for Human Pose Estimation:https://arxiv.org/abs/1603.06937 ?