相關(guān)介紹
什么是人體骨骼關(guān)鍵點(diǎn)檢測喇喉?
-
人體骨骼關(guān)鍵點(diǎn)檢測也稱為Pose Estimation,主要檢測人體的關(guān)節(jié)暴区、五官等闯团,通過關(guān)鍵點(diǎn)描述人體骨骼信息辛臊。如下圖所示。
人體骨骼關(guān)鍵點(diǎn)
應(yīng)用
- 人體骨骼關(guān)鍵點(diǎn)檢測是計(jì)算機(jī)視覺的基礎(chǔ)性算法之一房交,在計(jì)算機(jī)視覺的其他相關(guān)領(lǐng)域的研究中都起到了基礎(chǔ)性的作用彻舰,如行為識別、人物跟蹤候味、步態(tài)識別等相關(guān)領(lǐng)域刃唤。具體應(yīng)用主要集中在智能視頻監(jiān)控,病人監(jiān)護(hù)系統(tǒng)白群,人機(jī)交互尚胞,虛擬現(xiàn)實(shí),人體動畫帜慢,智能家居笼裳,智能安防,運(yùn)動員輔助訓(xùn)練等等粱玲。
挑戰(zhàn)
- 由于人體具有相當(dāng)?shù)娜嵝怨恚瑫霈F(xiàn)各種姿態(tài)和形狀,人體任何一個(gè)部位的微小變化都會產(chǎn)生一種新的姿態(tài)抽减,同時(shí)其關(guān)鍵點(diǎn)的可見性受穿著允青、姿態(tài)、視角等影響非常大卵沉,而且還面臨著遮擋颠锉、光照法牲、霧等環(huán)境的影響,除此之外琼掠,2D人體關(guān)鍵點(diǎn)和3D人體關(guān)鍵點(diǎn)在視覺上會有明顯的差異皆串,身體不同部位都會有視覺上縮短的效果(foreshortening),使得人體骨骼關(guān)鍵點(diǎn)檢測成為計(jì)算機(jī)視覺領(lǐng)域中一個(gè)極具挑戰(zhàn)性的課題眉枕。
人體骨骼關(guān)鍵點(diǎn)檢測
人體骨骼關(guān)鍵點(diǎn)檢測方法主要分兩周:自上而下和自下而上恶复。
- 自上而下:先檢測人體,在檢測單人人體關(guān)鍵點(diǎn)速挑。
- 自下而上:先將圖片中所有的關(guān)鍵點(diǎn)檢測出來谤牡,再進(jìn)行關(guān)鍵點(diǎn)聚類。
關(guān)鍵點(diǎn)的ground truth
coordinate:坐標(biāo)
直接將關(guān)鍵點(diǎn)坐標(biāo)作為最后網(wǎng)絡(luò)需要回歸的目標(biāo)姥宝,這樣可以得到每個(gè)坐標(biāo)點(diǎn)的直接位置信息
heatmap:熱圖
每一類坐標(biāo)用一個(gè)概率圖來表示翅萤,對圖片中的每個(gè)像素位置都給一個(gè)概率,表示該點(diǎn)屬于對應(yīng)類別關(guān)鍵點(diǎn)的概率腊满。距離關(guān)鍵點(diǎn)位置越近的像素點(diǎn)的概率越接近于1套么,距離關(guān)鍵點(diǎn)越遠(yuǎn)的像素點(diǎn)的概率越接近于0。具體的一般使用高斯函數(shù)來模擬碳蛋。
offset:偏移量
表示距離目標(biāo)關(guān)鍵點(diǎn)一定范圍內(nèi)的像素位置與目標(biāo)關(guān)鍵點(diǎn)之間的關(guān)系胚泌。
自上而下的關(guān)鍵點(diǎn)檢測方法
Convolutional Pose Machines:本論文將深度學(xué)習(xí)應(yīng)用于人體姿態(tài)分析,同時(shí)用卷積圖層表達(dá)紋理信息和空間信息肃弟。主要網(wǎng)絡(luò)結(jié)構(gòu)分為多個(gè)stage玷室,其中第一個(gè)stage會產(chǎn)生初步的關(guān)鍵點(diǎn)的檢測效果,接下來的幾個(gè)stage均以前一個(gè)stage的預(yù)測輸出和從原圖提取的特征作為輸入笤受,進(jìn)一步提高關(guān)鍵點(diǎn)的檢測效果穷缤。具體的流程圖如下圖(摘自論文[1])所示。
Cascaded Pyramid Network for Multi-Person Pose Estimation:本論文將深度學(xué)習(xí)應(yīng)用于人體姿態(tài)分析箩兽,同時(shí)用卷積圖層表達(dá)紋理信息和空間信息津肛。主要網(wǎng)絡(luò)結(jié)構(gòu)分為多個(gè)stage,其中第一個(gè)stage會產(chǎn)生初步的關(guān)鍵點(diǎn)的檢測效果汗贫,接下來的幾個(gè)stage均以前一個(gè)stage的預(yù)測輸出和從原圖提取的特征作為輸入身坐,進(jìn)一步提高關(guān)鍵點(diǎn)的檢測效果。具體的流程圖如下圖(摘自論文[2])所示芳绩。
具體實(shí)現(xiàn)時(shí)掀亥,分為兩個(gè)stage,GlobalNet和RefineNet妥色。其中GlobalNet主要負(fù)責(zé)檢測容易檢測和較難檢測的關(guān)鍵點(diǎn)搪花,對于較難關(guān)鍵點(diǎn)的檢測,主要體現(xiàn)在網(wǎng)絡(luò)的較深層,通過進(jìn)一步更高層的語義信息來解決較難檢測的關(guān)鍵點(diǎn)問題撮竿;RefineNet主要解決更難或者不可見關(guān)鍵點(diǎn)的檢測吮便,這里對關(guān)鍵點(diǎn)進(jìn)行難易程度進(jìn)行界定主要體現(xiàn)在關(guān)鍵點(diǎn)的訓(xùn)練損失上,使用了常見的Hard Negative Mining策略幢踏,在訓(xùn)練時(shí)取損失較大的top-K個(gè)關(guān)鍵點(diǎn)計(jì)算損失髓需,然后進(jìn)行梯度更新,不考慮損失較小的關(guān)鍵點(diǎn)房蝉。
RMPE:本論文主要考慮的是自上而下的關(guān)鍵點(diǎn)檢測算法在目標(biāo)檢測產(chǎn)生Proposals的過程中僚匆,可能會出現(xiàn)檢測框定位誤差、對同一個(gè)物體重復(fù)檢測等問題搭幻。檢測框定位誤差咧擂,會出現(xiàn)裁剪出來的區(qū)域沒有包含整個(gè)人活著目標(biāo)人體在框內(nèi)的比例較小,造成接下來的單人人體骨骼關(guān)鍵點(diǎn)檢測錯(cuò)誤檀蹋;對同一個(gè)物體重復(fù)檢測松申,雖然目標(biāo)人體是一樣的,但是由于裁剪區(qū)域的差異可能會造成對同一個(gè)人會生成不同的關(guān)鍵點(diǎn)定位結(jié)果俯逾。本文提出了一種方法來解決目標(biāo)檢測產(chǎn)生的Proposals所存在的問題贸桶,即通過空間變換網(wǎng)絡(luò)將同一個(gè)人體的產(chǎn)生的不同裁剪區(qū)域(Proposals)都變換到一個(gè)較好的結(jié)果,如人體在裁剪區(qū)域的正中央桌肴,這樣就不會產(chǎn)生對于一個(gè)人體的產(chǎn)生的不同Proposals有不同關(guān)鍵點(diǎn)檢測效果皇筛。具體Pipeline如下圖(摘自論文[14])所示。
自下而上的人體骨骼關(guān)鍵點(diǎn)檢測方法
Part Segmentation:即對人體進(jìn)行不同部位分割识脆,而關(guān)鍵點(diǎn)都落在分割區(qū)域的特定位置设联,通過部位分割對關(guān)鍵點(diǎn)之間的關(guān)系進(jìn)行建模,既可以顯式的提供人體關(guān)鍵點(diǎn)的空間先驗(yàn)知識灼捂,指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí),同時(shí)在最后對不同人體關(guān)鍵點(diǎn)進(jìn)行聚類時(shí)也能起到相應(yīng)的連接關(guān)鍵點(diǎn)的作用换团。如下圖(論文[4])所示悉稠。
Part Affinity Fields:
- 使用置信圖進(jìn)行關(guān)鍵節(jié)點(diǎn)檢測,每一個(gè)關(guān)鍵節(jié)點(diǎn)對應(yīng)一個(gè)置信圖艘包,圖像中的每一個(gè)像素點(diǎn)都有一個(gè)置信度的猛,置信圖中每個(gè)點(diǎn)的值與ground truth的距離相關(guān)。如果檢測的是多個(gè)人想虎,將K個(gè)人的置信圖合并取該點(diǎn)的最大值卦尊。
- 使用PAF進(jìn)行身體部分組合,同時(shí)包含了位置和方向信息舌厨,每一個(gè)肢在關(guān)聯(lián)的兩個(gè)body part 之間都有一個(gè)親和區(qū)域岂却,其中的每一像素都有一個(gè)2D向量的描述方向。
網(wǎng)絡(luò)分為兩路結(jié)構(gòu),一路是上面的卷積層躏哩,用來獲得置信圖署浩;一路是下面的卷積層,用來獲得PAFs扫尺。網(wǎng)絡(luò)分為多個(gè)stage筋栋,每一個(gè)stage結(jié)束的時(shí)候都有中繼監(jiān)督。每一個(gè)stage結(jié)束之后正驻,S以及L都和stage1中的F合并弊攘。上下兩路的loss都是計(jì)算預(yù)測和理想值之間的L2 loss。
personlab
personlab方法介紹
personlab是一個(gè)自下而上的人體檢測和姿態(tài)估計(jì)算法姑曙。包括兩個(gè)步驟:
- 檢測K個(gè)關(guān)鍵點(diǎn)(17個(gè)關(guān)鍵點(diǎn))
-
將這些關(guān)鍵點(diǎn)聚類
personlab 系統(tǒng)框架
關(guān)鍵點(diǎn)檢測
關(guān)鍵點(diǎn)檢測階段的目標(biāo)是檢測屬于圖像(可能不止一個(gè)人)中任何人體的關(guān)鍵點(diǎn)肴颊。該階段生成一個(gè)熱圖和一個(gè)偏移量:
- heatmap:每個(gè)關(guān)鍵點(diǎn)一個(gè)通道。
- offset:每個(gè)關(guān)鍵點(diǎn)兩個(gè)通道渣磷,分別表示水平方向是豎直方向婿着。
假設(shè)是圖像中二維位置中的一個(gè),其中
是圖像的位置索引醋界,
是像素點(diǎn)的個(gè)數(shù)竟宋。
- 熱圖預(yù)測:如果點(diǎn)
距離第
類關(guān)鍵點(diǎn)在半徑
范圍內(nèi),則該點(diǎn)的概率
形纺,否則
丘侠。
- 偏移量預(yù)測:offset向量
使用Hough投票集合熱圖和偏移量,聚合成hough分?jǐn)?shù)映射逐样,
其中為圖像的每個(gè)位置蜗字,
為雙線性插值核。
關(guān)鍵點(diǎn)聚類
的局部最大值作為關(guān)鍵點(diǎn)的候選位置點(diǎn)脂新,但是
沒有與個(gè)體相關(guān)的信息挪捕,當(dāng)圖像中有多個(gè)個(gè)體存在時(shí),我們需要一個(gè)機(jī)制將關(guān)鍵點(diǎn)聚合在其對應(yīng)的個(gè)體上争便。
Mid-range pairwise offsets 為了達(dá)到以上目的级零,在網(wǎng)絡(luò)上加入一個(gè)分離的成對中射程2-D偏移域輸出用來連接成對的關(guān)鍵點(diǎn)。訓(xùn)練集中
滞乙,表示對于同一個(gè)個(gè)體
從第
個(gè)關(guān)鍵點(diǎn)到第
個(gè)關(guān)鍵點(diǎn)奏纪。
對于具有大量個(gè)體的情況,很難準(zhǔn)確的回歸斩启,使用更準(zhǔn)確的短射程偏移來遞歸的修正:
參考文獻(xiàn)
[1] Convolutional Pose Machines
[2] Cascaded Pyramid Network for Multi-Person Pose Estimation
[3] RMPE: Regional Multi-Person Pose Estimation