Disentangled Person Image Generation

分解的人物圖片生成
摘要:
因為如前景、背景和姿勢信息等不同圖像因素之間的復雜的相互影響铅鲤,使得生成新的并且真實的人的圖片是一個具有挑戰(zhàn)的任務。本文中,我們旨在基于一個新的兩階段的重構流水線來生成這樣的圖片懒构,這個重構流水線學習前面提到的圖像因素的分解表達,與此同時產(chǎn)生新的人物圖片耘擂。首先胆剧,一個多分支的重構網(wǎng)絡被提出,以用來將三個因素分解和編碼到嵌入特征中醉冤,然后這些特征被結合起來用來重組輸入的圖片秩霍。其次滚朵,對應的三個映射函數(shù)以對抗的方式學習,用以分別對于每個因素將高斯噪聲映射到學習的嵌入特征空間前域。使用提出的框架辕近,我們可以控制輸入圖片的前景、背景和姿勢匿垄,并且采樣新的嵌入特征來產(chǎn)生這樣的目標操作移宅,這樣提供了對于產(chǎn)生過程的更多控制。在Market-1501和Deepfashion數(shù)據(jù)集上的實驗表明我們的模型不僅產(chǎn)生了真實的有新前景椿疗、背景和姿勢的人的圖片漏峰,而且也能控制產(chǎn)生的因素和修改內(nèi)在的狀態(tài)。另外一組在Market-1501的實驗表明我們的模型對于行人重識別任務也有幫助届榄。
這篇文章主要是提出浅乔,用兩階段的方法,來提取圖片中各種因素铝条,然后來生成新的圖片靖苇,文章中兩階段的架構如下圖所示:



第一階段,用多個encoder提取多個圖片因素所對應的feature班缰,然后用decoder將提取的feature作為輸入贤壁,重構原圖。這階段的模型會獨立的訓練埠忘,這樣會得到輸入feature脾拆,從feature還原到原圖的decoder。
第二階段莹妒,是訓練一個映射函數(shù)(說白了就是訓練一個神經(jīng)網(wǎng)絡)名船,將高斯噪聲作為輸入,然后生成盡可能接近第一階段的feature(采用對抗生成網(wǎng)絡的訓練方式旨怠,將真假feature輸入分辨器)渠驼。
最終,用第二階段訓練的feature生成器运吓,加上第一階段訓練的decoder渴邦,就可以生成新的圖片。
以生成行人重識別的數(shù)據(jù)庫的例子為例拘哨,第一階段的三個因素(姿勢谋梭,前景和背景)提取的網(wǎng)絡結構如下圖所示:



對于pose因素,就是一個encoder編碼成feature倦青,然后一個decoder解碼feature瓮床,生成feature對應的pose數(shù)據(jù)。
對于圖片的前景和背景部分,首先都是經(jīng)過CNN提取到中間層的feature隘庄。
對于前景部分踢步,由pose圖得到的人的mask圖和feature圖相乘,得到前景的feature圖丑掺,然后再使用7 Body Regions-Of-Interest(7 body ROI)的7個身體塊获印,對于7個塊,采用同一個encoder街州,編碼成對應的feature(7個塊兼丰,可以看做7次分別通過encoder,分別獲得對應的feature)唆缴。
對于背景部分鳍征,由pose圖得到人的mask圖的逆向圖,可以提取到背景的feature圖面徽,然后通過encoder可以得到最終的feature艳丛。
最后,通過連接和拼接上述兩部分的feature趟紊,加上pose的信息氮双,來重構之前的圖片。

第二階段就比較簡單织阳,對于不同的因素眶蕉,由不同的神經(jīng)網(wǎng)絡來將高斯噪聲砰粹,映射成其對應的feature唧躲,然后將前一階段對應的feature,一同送給分辨器辨別feature的真假碱璃,這樣訓練以達到用高斯噪聲生成feature的目的弄痹。

然后,將feature輸入第一階段訓練的decoder嵌器,就可以生成該feature對應的圖片肛真。(只是值得注意的是,生成pose的feature的網(wǎng)絡用的全連接網(wǎng)絡爽航,而其他都用的卷積網(wǎng)絡)

訓練過程:
重構圖片蚓让,采用了對抗生成網(wǎng)絡的訓練方式(也就是說,在結構圖中讥珍,并沒有畫出历极,第一段段的分辨器)。
對于前景和背景部分衷佃,辨別器D1和生成器G1的訓練loss分別如下:



其中h表示的是pose圖趟卸,λ參數(shù)表示L1損失的權重。
對于pose而言,其訓練就沒有對抗結構锄列,只有L2表示的重構Loss图云,其表示如下:



在第一階段的訓練完成之后,才會開始第二階段模型的訓練邻邮,而第二階段的訓練Loss較為簡單竣况,用D2表示第二階段對應的分辨器,用φ表示映射函數(shù)(等同于一個生成器)筒严,那么其訓練loss分別為:

實驗部分
1.生成圖片質量的比較
采用的比較指標有SSIM[1]帕翻,Inception Score(IS)[2],mask-SSIM[3], mask-IS[3]萝风,其對比的實驗結果如下:


2.插值高斯噪聲的實驗
驗證其分解出的不同的feature嘀掸,同時不同的高斯噪聲生成的feature還原,對應的改變了圖片的相關因素规惰。
3.行人重識別實驗:
這部分實驗分兩個睬塌,一個是檢測使用重構方法,來訓練的encoder提取的feature歇万,其在re-ID任務中起到了幫助揩晴;第二是用該模型擴充原有的re-ID的庫,然后用擴充庫訓練簡單的re-ID模型贪磺。第二個實驗充分證明了生成的圖片的質量硫兰,一般用生成的圖片來訓練分類模型,可能會導致準確率反而下降寒锚,但是在神經(jīng)網(wǎng)絡訓練中劫映,一般增加數(shù)據(jù)量,會提升準確率刹前,因而這樣可以表明泳赋,本文提出的生成模型生成的圖片可用于訓練(這也有可能是現(xiàn)在的re-ID問題中,一般圖片都比較不清晰喇喉,因而生成不太清晰祖今,但是特征明顯的數(shù)據(jù)就可以用于訓練,不同于人臉識別等等模型拣技,需要高清的圖片)千诬。
[1] Zhou Wang, Alan C. Bovik, Hamid R. Sheikh, and Eero P. Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE Trans. Image Processing, 13(4):600–612, 2004
[2] Tim Salimans, Ian J. Goodfellow,Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans. In NIPS, pages 2226–2234, 2016.
[3] L. Ma, J. Xu, Q. Sun, B. Schiele, T. Tuytelaars, and L. Van Gool. Pose guided person image generation. In NIPS, 2017. 1, 3, 4, 5, 6

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市膏斤,隨后出現(xiàn)的幾起案子徐绑,更是在濱河造成了極大的恐慌,老刑警劉巖掸绞,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泵三,死亡現(xiàn)場離奇詭異耕捞,居然都是意外死亡,警方通過查閱死者的電腦和手機烫幕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門俺抽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人较曼,你說我怎么就攤上這事磷斧。” “怎么了捷犹?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵弛饭,是天一觀的道長。 經(jīng)常有香客問我萍歉,道長侣颂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任枪孩,我火速辦了婚禮憔晒,結果婚禮上,老公的妹妹穿的比我還像新娘蔑舞。我一直安慰自己拒担,他們只是感情好,可當我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布攻询。 她就那樣靜靜地躺著从撼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪钧栖。 梳的紋絲不亂的頭發(fā)上低零,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天终惑,我揣著相機與錄音决乎,去河邊找鬼。 笑死,一個胖子當著我的面吹牛阴挣,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播纺腊,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼畔咧,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了揖膜?” 一聲冷哼從身側響起誓沸,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎壹粟,沒想到半個月后拜隧,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宿百,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年洪添,在試婚紗的時候發(fā)現(xiàn)自己被綠了垦页。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡干奢,死狀恐怖痊焊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情忿峻,我是刑警寧澤薄啥,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站逛尚,受9級特大地震影響垄惧,放射性物質發(fā)生泄漏。R本人自食惡果不足惜绰寞,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一赘艳、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧克握,春花似錦蕾管、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至停团,卻和暖如春旷坦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背佑稠。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工秒梅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人舌胶。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓捆蜀,卻偏偏與公主長得像,于是被迫代替她去往敵國和親幔嫂。 傳聞我的和親對象是個殘疾皇子辆它,可洞房花燭夜當晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內(nèi)容

  • 在NIPS2017上該團隊已經(jīng)為我們貢獻了:pose guided person image generation...
    DADADA開飛機的DATA閱讀 1,589評論 0 0
  • 不同圖像灰度不同,邊界處一般會有明顯的邊緣履恩,利用此特征可以分割圖像锰茉。需要說明的是:邊緣和物體間的邊界并不等同,邊緣...
    大川無敵閱讀 13,836評論 0 29
  • 五切心、Deep Learning的基本思想 假設我們有一個系統(tǒng)S飒筑,它有n層(S1,…Sn)片吊,它的輸入是I,輸出是O协屡,...
    dma_master閱讀 1,636評論 1 2
  • 承接前面的《淺談機器學習基礎》俏脊、《淺談深度學習基礎》和《淺談自然語言處理基礎》,主要參考了《解析深度學習:語音識別...
    我偏笑_NSNirvana閱讀 23,501評論 6 67
  • 萬里高空著瓶,云海联予。 坐飛機,原來材原,這一切沸久,不過眼里。而余蟹,如今卷胯,南航開禁,可以手機威酒,可以攝像窑睁。 只是,網(wǎng)絡沒有葵孤,不可以...
    魯長安閱讀 211評論 0 0