這是一篇比較經(jīng)典的人體姿態(tài)識別的文章至会,以下簡單介紹一下其重大的改進离咐。
整篇論文的基調(diào)在于一個關(guān)節(jié)點位置的回歸,使用DNN對人體關(guān)節(jié)節(jié)點位置進行定位奉件。因為CNN網(wǎng)絡(luò)對于圖像大小的限定宵蛀,而且對于多個關(guān)節(jié)點直接使用MSE的方式進行梯度下降,求解最優(yōu)县貌。但此種方法檢測關(guān)節(jié)點的定位精確度不是很高术陶。所以作者,在此提出現(xiàn)在一整幅圖像上進行粗略的姿態(tài)估計煤痕,然后又多個DNN-Based回歸器對關(guān)節(jié)點的領(lǐng)域子圖像進行優(yōu)化預(yù)測梧宫。
簡單來說,這是一個同一個網(wǎng)絡(luò)架構(gòu)摆碉,多個網(wǎng)絡(luò)模型的框架塘匣。可如下表示:
我們對其進行一個大致的抽象化:
對于其中每一個兆解,θ參數(shù)馆铁,我們相當(dāng)于都是訓(xùn)練了一整個網(wǎng)絡(luò)(有監(jiān)督的方式)。
對于上述方式锅睛,總結(jié)的數(shù)據(jù)公式:
y' = N^(?1)(ψ(N(x);θ))
其中y'為prediction埠巨,N代表normalization历谍,ψ代表網(wǎng)絡(luò),θ為network的parameters辣垒,x為input image
P.S: 在參考項目5中望侈,對于這個挖掘出來的點信息,如何設(shè)定其領(lǐng)域范圍勋桶。該項目的做法是如此的脱衙,它假定一個人體大小的區(qū)域范圍為,左右肩到左右膝蓋的距離例驹。根據(jù)這個距離相當(dāng)于是一個人體矩形框的大小捐韩,通過如此來設(shè)定這個截取框的范圍大小。
除此之外鹃锈,另外要提及該論文荤胁,作者為了消除圖片中的絕對位置帶來的影響,作者將其改為了相對位置屎债。(在參考資料項目5中仅政,使用的是先檢測人臉的位置,將所有坐標(biāo)點根據(jù)人臉做一個相對位置的處理盆驹;而在參考資料1中則是選用原始圖片的中心點信息)
總結(jié):該論文主要運用了圖片的相對位置以及級聯(lián)回歸的方式圆丹,將CNN網(wǎng)絡(luò)運用于人體的姿態(tài)識別。這兩種思想對后續(xù)的操作都產(chǎn)生了一定的影響躯喇。
【參考博客資料及論文】
- https://github.com/mitmul/deeppose 【項目,不過只提供 stage-1 的做法】
- https://blog.csdn.net/sky_asher/article/details/80187726
- https://arxiv.org/abs/1312.4659 【原論文】
- https://zhuanlan.zhihu.com/p/35696429
- https://github.com/takiyu/DeepPose 【項目2辫封,提供了 stage-2 的做法,不過做的比較復(fù)雜】