由上海大學(xué)發(fā)表在2020年的IEEE Access期刊上的論文《Global Relation Reasoning Graph Convolutional Networks for Human Pose Estimation》,使用了GCN實現(xiàn)全局關(guān)系推理,用于人體姿態(tài)估計任務(wù)。
概述
GRR-GCN (Global Relation Reasoning Graph Convolutional Networks) 是一個通用的"plug-and-play module"遥诉,可以嵌入到現(xiàn)有的human pose estimation網(wǎng)絡(luò)中笛辟,通過引入GCN實現(xiàn)"global relation reasoning"嬉愧。
創(chuàng)新點
-
Projection between feature space & graph space
使得GCN方法用于pixel level的Human Pose Estimation任務(wù)成為可能
-
Global Relation Reasoning
使用GCN建立了joints之間的全局推理沙庐,每個node中存儲了對應(yīng)關(guān)節(jié)點的feature信息
Motivation
Human Pose Estimation任務(wù)中的一個難點是occlusion等問題狡蝶,需要joints之間做reasoning【铌現(xiàn)有方法的解決思路通常是采用多個stages的思路痒蓬,在前幾個stages先predict出"simple" body joints,后面幾個stages通過不斷增加receptive field來提取joints之間的relationship從而predict "hard" joints滴劲。
Related works
(1) CPN的做法攻晒,GlobalNet先走了simple joints,然后RefineNet使用了GlobalNet上的pyramid features班挖,對于"hard" joints經(jīng)過了更deep的網(wǎng)絡(luò)結(jié)構(gòu)鲁捏。
(2) Stacked Hourglass則是implicitly的做法,通過intermediate supervision來訓(xùn)練網(wǎng)絡(luò)隱式的提取joints relationship萧芙。
注:上述方法全部使用純CNN來實現(xiàn)joints relationship reasoning给梅。
使用純CNN方法reasoning的缺陷
關(guān)節(jié)點之間的距離在RGB空間可能比較遠,純CNN的結(jié)構(gòu)需要經(jīng)過非常deep的網(wǎng)絡(luò)才能使得receptive field足夠大双揪,計算量非常大动羽,同時也會introduce進來一些noise信息。
現(xiàn)有的GCN主要用于行為識別和場景理解等classification問題渔期,對于pixel-level computer vision tasks目前仍缺少GCN的解決方法曹质。
因此在本工作中通過projection和reverse projection的操作,架起了CNN的Euclidian space和GCN的graph space的橋梁擎场,從而把Global Relation Reasoning運用到pixel-level的Human Pose Estimation任務(wù)中羽德。
Projection between feature space & graph space
研究意義
使得在Euclidean space無法直接進行的GCN推理成為可能,這對于檢測skeleton joints來說更方便對關(guān)節(jié)點之間的相關(guān)性建模迅办。推理完之后reverse projection到原來的domain宅静,可以讓skeleton joints推理后的信息反過來幫助網(wǎng)絡(luò)在圖上正確檢測關(guān)節(jié)點。
實現(xiàn)方式如下:
From feature space to graph space
網(wǎng)絡(luò)對skeleton joints提特征得到feature map后站欺,如果使用GCN進行推理姨夹,需要先把domain從feature space變換到graph space,這里的feature map的維度: (分別表示輸入feature map的寬高和channel數(shù))
由于GCN需要對整個人的skeleton進行整體推理矾策,因此projection的過程需要receptive field到全圖磷账。這里使用了weighted global pooling來實現(xiàn),獲得graph space的贾虽,其中weight的維度
逃糟,得到的
,其中
表示skeleton joint的個數(shù)。
實際上具體實現(xiàn)時為了減少輸入維度和網(wǎng)絡(luò)參數(shù)量绰咽,使用了一個的卷積來對
進行預(yù)處理為
菇肃,因此上式應(yīng)寫成:
。
From graph space back to feature space
從graph space使用GCN做完推理后取募,還需要mapping回原來Euclidean space的feature map琐谤,這里設(shè)GCN輸出的feature map的維度,這個reverse projection也是使用linear mapping來實現(xiàn):
玩敏,這里逆變換的系數(shù)矩陣使用正變換的transpose:
斗忌。這里系數(shù)D復(fù)用的好處是減少了訓(xùn)練的參數(shù)量和網(wǎng)絡(luò)計算量。
Global Relation Reasoning
GCN中的每個node為了代表對應(yīng)的skeleton joint旺聚,整個GCN的功能是建立關(guān)節(jié)點之間的推理织阳,也就是說讓各個node之間的feature相互聯(lián)系。
這部分為了讓所有的關(guān)節(jié)點之間都可以建立聯(lián)系(實現(xiàn)Global Relation Reasoning)翻屈,采用了全連接的方式,即對N個node采用了的adjacency matrix妻坝。
具體實現(xiàn)的流程如下圖伸眶。
從原始的feature space的經(jīng)過projection (圖中右側(cè)的那個
)得到graph space,同時
本身通過一個
的conv進行壓縮(減少輸入維度和網(wǎng)絡(luò)參數(shù)量)到
刽宪,這兩路做element-wise sum厘贼,得到
,這里編碼了所有N個node的feature圣拄,每個node表示對應(yīng)的那個skeleton joint嘴秸,此時使用一個全連接的graph
(adjacency matrix的維度是
) 用來實現(xiàn)nodes之間的信息傳遞(實際實現(xiàn)的時候是用一維卷積來實現(xiàn)
)。
然后使用了一維卷積來實現(xiàn)state update function庇谆,GCN得到的結(jié)果如下:
其中和
這兩個adjacency matrix的weights是隨機初始化岳掐,然后通過end-to-end方法進行訓(xùn)練。
實驗效果
分別使用了HR-Net和Simple-Baseline的方法作為基礎(chǔ)網(wǎng)絡(luò)饭耳。
COCO數(shù)據(jù)集上串述,AP提升了0.2 (HR-Net: 74.9 --> 75.1)和0.3 (Simple-Baseline: 71.5 --> 71.8)
MPII數(shù)據(jù)集上,PCKh@0.5提升了0.1 (HR-Net: 91.2 --> 91.3)
提升的地方主要在于partially occluded的person檢測的更準(zhǔn)確寞肖。
一些疑問
文中所提出的方法為什么沒有使用人體skeleton的自然連接方式對GCN的adjacency matrix做初始化纲酗,而是random初始化?
-
Global Relation Reasoning這部分新蟆,經(jīng)過壓縮的feature
與投影后graph空間的
融合方式為什么是相乘觅赊?
融合后的feature
為什么要減去他本身經(jīng)過fully-connected graph
的結(jié)果?
為什么
能實現(xiàn)state update function琼稻?
最后reverse projection后的結(jié)果與GRR部分的輸入又做了一次相加的意義何在吮螺?
對于這一塊的實現(xiàn)方式我表示有很多問號。
實驗結(jié)果只提升了很少,但是對于不同的pose estimation方法规脸,要分別設(shè)置GCN的引入位置坯约,花了這么多設(shè)計的代價換來很少的準(zhǔn)確率提升值得嗎?
-
文章的審稿質(zhì)量并不敢完全保證很好莫鸭,即使在publication的版本中闹丐,仍有英語語法錯誤,例如Sec. III-A中被因,
"However, because convolution operations can only model local relations, so most of the state-of-theart methods have to inefficiently build deep network layers to capture global relations between different human keypoints."
由此推測作者可能是先寫了中文草稿然后翻譯投稿的卿拴。
Reference
- R Wang, C Huang, X Wang. "Global Relation Reasoning Graph Convolutional Networks for Human Pose Estimation", IEEE Access, 2020.