論文合集 | 3D human body reconstruction 方向論文閱讀筆記整理

一 寫在前面

未經(jīng)允許泉哈,不得轉(zhuǎn)載帚桩,謝謝~~

最近方向從video recognition轉(zhuǎn)到了3D human body reconstruction瑟匆,所以剛剛開始看這方面的論文处渣,就把簡單的閱讀筆記都整理在這里了~

文章應(yīng)該會持續(xù)更新芦昔,大佬們見笑啦~~~

二 論文閱讀筆記

1. 3D Human pose estimation: A review of the literature and analysis of covariates

  • Computer Vision and Image Understanding 152(2016)1–20

1.1 整體情況

  1. 文章對給定RGB或者video的情況下對人體姿態(tài)估計的方法做了review;
  2. 根據(jù)輸入的不同將他們劃分為:
    • single image or video;
    • monocular or multi-vew;
  3. 我主要關(guān)注的是single image and monnocular的情況诱贿;

1.2 主要內(nèi)容

  1. 文章關(guān)注的輸入類型為RGB圖像;
  2. 除了RGB,還有一類很流行的RGB-D輸入珠十,文章沒有涉及料扰,但是給出了一篇2013年的paper review;
  3. 文章整理了2008-2015年間的single-view方法;
  4. 姿態(tài)估計的大概流程:


    • prior body model決定了方法是model-based還是model-free的焙蹭;
    • 利用2D pose information既可以用來作為額外的信息晒杈,又可以作為3D model 映射回2D時(projection)的參考。
    • 例如一些預(yù)處理技術(shù)孔厉,例如抽離背景部分拯钻;
    • 對特征進行提取,然后輸入2D pose estimation中進行評估撰豺;
    • 獲取初始3D pose,然后用優(yōu)化算法來評估3D姿態(tài)粪般;
    • 對姿態(tài)進行一些constrain,丟棄一些不可能出現(xiàn)的姿態(tài)污桦,最終得到估測好的3D pose;
  5. 文章根據(jù)模型方法的不同亩歹,又進行了以下分類:


    • generative model(model-based,top-down)
      1. 利用先驗知識進行建模,分成建模(model)和評估(estimation) 2個階段寡润,會用上很多人體結(jié)構(gòu)之類的信息捆憎;
      2. 在生成模型中有一類被稱為part-based(bottom-up)方法,由body part的集合來表示human skeleton;
      3. 文章給出了幾篇比較有名的論文:PSM, Deformable structures model, graphical model(SP);
    • discriminative model(model-free)
      1. 不需要假定特定的模型梭纹,直接學習從image到3D human body之間的映射關(guān)系躲惰;
      2. 這一類方法又可以進一步分為:learning-based和example-based;
      3. learning-based方法直接學習映射關(guān)系;
      4. example-based方法存儲一系列exemplars以及對應(yīng)的pose descriptors变抽,最終測試的時候直接通過相似度檢索得到幾個candidates然后進行插值础拨;
    • hybrid approaches
      1. 生成模型能夠更加準確的推斷出pose,具有更好的魯棒性绍载;
      2. 判別模型能夠更加快速的訓練诡宗,需要表示的信息更加低維;
      3. hybrid approaches能夠結(jié)合生成模型和判別模型击儡,從生成模型的可能性結(jié)果來驗證判別模型中的姿態(tài)估計塔沃。
  6. human body model and representation
    • human body 有很多的joints和limbs,因此分析起來很復(fù)雜阳谍;

    • model-based方法采用先驗知識對human body進行建模蛀柴;

    • 以前用的最常見的一種方法是將skeleton結(jié)合structure和shape, 其中skeleton共15個joints,然后鏈接起來矫夯,右邊是樹狀結(jié)構(gòu)鸽疾;


    • 不管是否用了body mode(model-based還是model-free),下一步都是特征提妊得病制肮;

    • 傳統(tǒng)的特征提取方法會剔除背景后利用一些低維信息:edges, optical flow, silhouettes...

    • 經(jīng)典的特征提取算法文章中提到:SIFT, SC(shape content)冒窍,APC(appearance and context content ), HoG,posebits...

  7. 文章還列了一些從單張圖像到3維人體估計的文章,但都是2016年以前的了豺鼻。

2. End-to-end Recovery of Human Shape and Pose

  • CVPR 2018

2.1 整體情況

  1. HMR(human mesh recovery):端到端的人體姿態(tài)和形態(tài)的對抗學習網(wǎng)絡(luò)综液;
  2. 實現(xiàn)了從single RGB image到full 3D mesh of human body的學習;
  3. HMR不需要成對的2D-to-3D監(jiān)督信息儒飒,不需要借助中間的2D keypoint deection意乓,而是直接從pixel到mesh;
  4. 給定人的bounding box的情況下约素,可以做到實時。
  5. 先來看一下整體實驗結(jié)果:


    • 上面兩行是用2D-3D監(jiān)督信息訓練的笆凌,下面一行是用完全弱監(jiān)督的方式訓練的圣猎,沒有2D-3D的監(jiān)督信息;

2.2 主要內(nèi)容

2.2.1 background

  1. 現(xiàn)有方法大多數(shù)利用joint信息乞而,但joint的位置比較稀疏送悔,不能判斷完整狀態(tài),本文用了更多的keypoints;
  2. 現(xiàn)有方法大多數(shù)是multi-stage的爪模,從estimate 2D joint locations再到estimate 3D model parameters;
  3. 本文是直接從image pixel to 3D model;
  4. 但是這樣會有幾個挑戰(zhàn):
    • lack of large-scale ground-truth 3D-annoation for in-the-wild image;
      (現(xiàn)在有準確3D注釋的都是受環(huán)境限制的)
    • inherent ambiguities in single-view 2D-to-3D mapping;
      (從2D重建回3D本身具有模糊性)
  5. keypoint(本文需要有以下數(shù)據(jù)集):
    • large-scale 2D keypoint annotations of in-the-wild dataset;
    • a separate large-scale dataset of 3D mesh of people with many poses
    • (這兩個是獨立的數(shù)據(jù)集欠啤,unpaired)

所以本文的key contribution:將兩個unpaired的數(shù)據(jù)集,用對抗學習的方式利用起來屋灌;

2.2.2 overview of the proposed network

  1. encoder: 用來提取圖像特征洁段;
  2. regression:可迭代3D回歸用來獲取3D mesh的參數(shù)以及相機參數(shù);
  3. 得到3D mesh的pose,shape,camera信息后又分成上下兩個部分:
    • 下面:進入判別器D共郭,與大規(guī)模3D human body數(shù)據(jù)集進行比較祠丝,判斷生成的human body是否真實。
      (弱監(jiān)督方式除嘹,使得跟wild dataset相比更合理)
    • 上面:將得到的3D mesh映射回2D写半,得到keypoints, 然后與原來image的ground-truth keypoints進行比較,得到一個loss尉咕。
      (強監(jiān)督方式叠蝇,使得跟輸入image的manifold更接近)

本文還對只有弱監(jiān)督方式的情況進行了實驗,效果也不錯年缎。

  1. 最后文章還考慮了文章本身帶有g(shù)round truth 3D information的情況悔捶,最終的整體目標函數(shù):


    • λ:超參數(shù)
    • reproj:上面那路
    • adv:下面那路
    • 3D:有3D ground-truth的情況

2.2.3 related work

  1. two-stage estimation
    • 首先獲取到2D joint locations(直接有標注或者用2D pose detector預(yù)測得到)
    • 然后預(yù)測3D joint locations(regression或者model fitting),常用的是探索learned dictionary of 3D skeletons晦款;
    • 這個過程可能limb length是主導炎功,也可能limb propotion,pose, angle是主導缓溅;
    • two-stage的方法更加魯棒蛇损,但是太依賴2D joints信息,且可能丟失很多圖像信息;
  2. direct estimation
    • 出現(xiàn)了一些帶有3D joint locations的數(shù)據(jù)集:HumanEva淤齐,Human3.6M股囊,使得直接學習有了強監(jiān)督label;
    • 大多數(shù)都是用FCN來做的更啄;
    • 很多都沒有解決camera稚疹,只是估計深度,用平均長度來定義全局的scale祭务;
    • 這類方法的問題是雖然有準確的3D annotation内狗,但是不能適用于真實世界;

3. DensePose: Dense Human Pose Estimation In The Wild

  • CVPR2018

3.1 整體情況

  1. DensePose:實現(xiàn)了從simgle RGB image 到 surface-based representation of human body义锥;
  2. DensePose-COCO:為COCO數(shù)據(jù)集中的50K perpon進行數(shù)據(jù)標注柳沙,形成新的數(shù)據(jù)集;
  3. 在DensePose-COCO數(shù)據(jù)集上用基于CNN的模型進行訓練和測試拌倍,嘗試了fully-conv networks 和region-based models兩種方式赂鲤,后者效果更好;
  4. 整體實驗結(jié)果:


3.2 主要內(nèi)容

3.2.1 background

  1. 大多數(shù)時候建立從image到surface-based model都需要用到深度信息(RGB-D)柱恤,但本文只使用了RGB圖像数初;
  2. 本文將重點放在human body身上,而且還支持dense場景梗顺;
  3. 本文采用完全的監(jiān)督學習泡孩,為此收集images以及對應(yīng)human body的詳細準確的ground-truth信息;
  4. 不像其他論文一樣在測試階段使用SMPL荚守,而是直接在訓練時候作為一種定義問題的方式珍德;
  5. 本文方法與mask-rcnn方法結(jié)合可以從復(fù)雜場景(10多個人)中有效計算出有效的區(qū)域;

3.2.2 Dense-Pose dataset

  1. 是一個large scale dataset for human pose estimation;
  2. ground-truth for 50K humans in COCO, more than 5 million manully annoated pairs;
  3. 數(shù)據(jù)集(image----> surface-based representations of human body)
    • 先將身體分成幾個語義分明的部分:head矗漾,torso, lower/upper arms...
    • 獲得24個UV field(如上圖右邊部分所示)(每個部分的獲取使用了不同的方法锈候,例如SMPL, multi-scale等)
    • 對各個部分運行k-means算法,得到各個部分的特征點敞贡;
    • 然后將對應(yīng)的點標注到渲染出來的part iamge上面泵琳;
    • 然后利用渲染出來的坐標,又重新將這些2D特征點定位到3D model上面誊役;


  4. 每個body surface都有24個part获列,每個part包含的標記點最多為14個;

3.2.3 model

基于DensePose-RCNN model蛔垢,實現(xiàn)一個全監(jiān)督學習模型击孩;

本文基于DenseReg + mask-RCNN ----> DensePose-RCNN, 又在此基礎(chǔ)上增加了級聯(lián)結(jié)構(gòu)。

嘗試了以下兩種結(jié)構(gòu):

1. fully-connected dense pose regression

  • 由于人體比較復(fù)雜鹏漆,所以將其分為幾個獨立的part巩梢,每個part用二維坐標表示创泄;
  • 基于這樣的表示,用classification+regression這2個任務(wù)括蝠,用fully-connected network來做鞠抑;
    • classification:判斷a pixel是屬于背景還是屬于surface part中的一個;
    • regression: 預(yù)測出這個pixel相對于所在part的準確坐標位置忌警;
  • 分類階段總共有25個類別(24 parts + 1 background)搁拙,用交叉熵損失;
  • 然后再為24個surface part分別訓練回歸器法绵,用L1 loss衡量箕速;

2. region-based dense pose regression

  • 以上基于FCN的任務(wù)比較簡單,但是需要完成太多的子任務(wù)朋譬;
  • 本文又采用region-based的方法:


  1. 先用mask-rnn得到ROI區(qū)域弧满;
  2. 再進行一次ROI區(qū)域Align;
    3.然后用FCN提取圖像特征此熬;
  3. 提取到的特征同樣分為上下兩個方面:一個用于分類出所屬的surface part,一個用于產(chǎn)生對應(yīng)的坐標值滑进,可以用跟fully-conv中一樣的方法進行優(yōu)化犀忱,但是這里多了一個前面的proposal監(jiān)督信息。

3.2.4 multi-task cascaded architectures

  1. 增加了keypoint-estimation和instance segmentation兩個任務(wù)扶关;
  2. 然后用多個任務(wù)做了一個結(jié)構(gòu)上的級聯(lián):


4. Unite the People: Closing the Loop Between 3D and 2D Human Representations

  • CVPR2017

4.1 整體情況

  1. 本文擴展了SMPLify方法阴汇,提出了實用多個人體姿態(tài)數(shù)據(jù)的3D body model;
  2. 產(chǎn)生了UP-3D數(shù)據(jù)集节槐,可以用來訓練discriminative模型搀庶,在沒有g(shù)ender或者pose的先驗條件下也能有較好的結(jié)果。

4.2 主要內(nèi)容

4.2.1 introduction

  1. 現(xiàn)有用來做bounding-box detection铜异,keypoint detection哥倔,body part segmentation的learning-based方法以及各自使用的數(shù)據(jù)集都是獨立分開的。
  2. 所以本文就想overcome這些separation揍庄,然后unit the people in different datasets and multiple tasks.即希望將多個數(shù)據(jù)集和任務(wù)連接起來咆蒿。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蚂子,隨后出現(xiàn)的幾起案子沃测,更是在濱河造成了極大的恐慌,老刑警劉巖食茎,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蒂破,死亡現(xiàn)場離奇詭異,居然都是意外死亡别渔,警方通過查閱死者的電腦和手機附迷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門惧互,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人挟秤,你說我怎么就攤上這事壹哺。” “怎么了艘刚?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵管宵,是天一觀的道長。 經(jīng)常有香客問我攀甚,道長箩朴,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任秋度,我火速辦了婚禮炸庞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘荚斯。我一直安慰自己埠居,他們只是感情好,可當我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布事期。 她就那樣靜靜地躺著滥壕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪兽泣。 梳的紋絲不亂的頭發(fā)上绎橘,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天,我揣著相機與錄音唠倦,去河邊找鬼称鳞。 笑死,一個胖子當著我的面吹牛稠鼻,可吹牛的內(nèi)容都是我干的冈止。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼候齿,長吁一口氣:“原來是場噩夢啊……” “哼靶瘸!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起毛肋,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤怨咪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后润匙,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诗眨,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年孕讳,在試婚紗的時候發(fā)現(xiàn)自己被綠了匠楚。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片巍膘。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖芋簿,靈堂內(nèi)的尸體忽然破棺而出峡懈,到底是詐尸還是另有隱情,我是刑警寧澤与斤,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布肪康,位于F島的核電站,受9級特大地震影響撩穿,放射性物質(zhì)發(fā)生泄漏磷支。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一食寡、第九天 我趴在偏房一處隱蔽的房頂上張望雾狈。 院中可真熱鬧,春花似錦抵皱、人聲如沸善榛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锭弊。三九已至,卻和暖如春擂错,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背樱蛤。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工钮呀, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人昨凡。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓爽醋,卻偏偏與公主長得像,于是被迫代替她去往敵國和親便脊。 傳聞我的和親對象是個殘疾皇子蚂四,可洞房花燭夜當晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 第二天30公里挑戰(zhàn),今天是突破自己哪痰!長這么大第一次走進大沙漠遂赠!看到沙漠奇觀~沙漠刀鋒!大自然的鬼斧神功晌杰!突破普通沙...
    c8092ba96944閱讀 218評論 0 0
  • 昨天晚上八點肋演,齊帆齊寫作班來了儲楊抑诸,給大家點評文章烂琴。儲楊是十點讀書的簽約作者,富蘭克林讀書會的專欄作家蜕乡。90后奸绷,年...
    碧蓮天閱讀 3,168評論 8 7
  • 發(fā)現(xiàn)現(xiàn)在好多社交軟件社交平臺号醉,為我們僅有的生活圈帶來了交際的窗口。身邊有的朋友称簿,很熱衷于玩這個扣癣,說可以...
    張景和閱讀 883評論 9 2
  • 摘抄: (第七章) 這無疑是無數(shù)夫妻生活故事的翻版,這種生活模式給人一種家庭的溫馨憨降。它會提醒你父虑,生活就像一條平靜的...
    月朦朧0鳥朦朧閱讀 182評論 1 0