分解的人物圖片生成
摘要:
因為如前景、背景和姿勢信息等不同圖像因素之間的復雜的相互影響铅鲤,使得生成新的并且真實的人的圖片是一個具有挑戰(zhàn)的任務。本文中,我們旨在基于一個新的兩階段的重構流水線來生成這樣的圖片懒构,這個重構流水線學習前面提到的圖像因素的分解表達,與此同時產(chǎn)生新的人物圖片耘擂。首先胆剧,一個多分支的重構網(wǎng)絡被提出,以用來將三個因素分解和編碼到嵌入特征中醉冤,然后這些特征被結合起來用來重組輸入的圖片秩霍。其次滚朵,對應的三個映射函數(shù)以對抗的方式學習,用以分別對于每個因素將高斯噪聲映射到學習的嵌入特征空間前域。使用提出的框架辕近,我們可以控制輸入圖片的前景、背景和姿勢匿垄,并且采樣新的嵌入特征來產(chǎn)生這樣的目標操作移宅,這樣提供了對于產(chǎn)生過程的更多控制。在Market-1501和Deepfashion數(shù)據(jù)集上的實驗表明我們的模型不僅產(chǎn)生了真實的有新前景椿疗、背景和姿勢的人的圖片漏峰,而且也能控制產(chǎn)生的因素和修改內(nèi)在的狀態(tài)。另外一組在Market-1501的實驗表明我們的模型對于行人重識別任務也有幫助届榄。
這篇文章主要是提出浅乔,用兩階段的方法,來提取圖片中各種因素铝条,然后來生成新的圖片靖苇,文章中兩階段的架構如下圖所示:
第一階段,用多個encoder提取多個圖片因素所對應的feature班缰,然后用decoder將提取的feature作為輸入贤壁,重構原圖。這階段的模型會獨立的訓練埠忘,這樣會得到輸入feature脾拆,從feature還原到原圖的decoder。
第二階段莹妒,是訓練一個映射函數(shù)(說白了就是訓練一個神經(jīng)網(wǎng)絡)名船,將高斯噪聲作為輸入,然后生成盡可能接近第一階段的feature(采用對抗生成網(wǎng)絡的訓練方式旨怠,將真假feature輸入分辨器)渠驼。
最終,用第二階段訓練的feature生成器运吓,加上第一階段訓練的decoder渴邦,就可以生成新的圖片。
以生成行人重識別的數(shù)據(jù)庫的例子為例拘哨,第一階段的三個因素(姿勢谋梭,前景和背景)提取的網(wǎng)絡結構如下圖所示:
對于pose因素,就是一個encoder編碼成feature倦青,然后一個decoder解碼feature瓮床,生成feature對應的pose數(shù)據(jù)。
對于圖片的前景和背景部分,首先都是經(jīng)過CNN提取到中間層的feature隘庄。
對于前景部分踢步,由pose圖得到的人的mask圖和feature圖相乘,得到前景的feature圖丑掺,然后再使用7 Body Regions-Of-Interest(7 body ROI)的7個身體塊获印,對于7個塊,采用同一個encoder街州,編碼成對應的feature(7個塊兼丰,可以看做7次分別通過encoder,分別獲得對應的feature)唆缴。
對于背景部分鳍征,由pose圖得到人的mask圖的逆向圖,可以提取到背景的feature圖面徽,然后通過encoder可以得到最終的feature艳丛。
最后,通過連接和拼接上述兩部分的feature趟紊,加上pose的信息氮双,來重構之前的圖片。
第二階段就比較簡單织阳,對于不同的因素眶蕉,由不同的神經(jīng)網(wǎng)絡來將高斯噪聲砰粹,映射成其對應的feature唧躲,然后將前一階段對應的feature,一同送給分辨器辨別feature的真假碱璃,這樣訓練以達到用高斯噪聲生成feature的目的弄痹。
然后,將feature輸入第一階段訓練的decoder嵌器,就可以生成該feature對應的圖片肛真。(只是值得注意的是,生成pose的feature的網(wǎng)絡用的全連接網(wǎng)絡爽航,而其他都用的卷積網(wǎng)絡)
訓練過程:
重構圖片蚓让,采用了對抗生成網(wǎng)絡的訓練方式(也就是說,在結構圖中讥珍,并沒有畫出历极,第一段段的分辨器)。
對于前景和背景部分衷佃,辨別器D1和生成器G1的訓練loss分別如下:
其中h表示的是pose圖趟卸,λ參數(shù)表示L1損失的權重。
對于pose而言,其訓練就沒有對抗結構锄列,只有L2表示的重構Loss图云,其表示如下:
在第一階段的訓練完成之后,才會開始第二階段模型的訓練邻邮,而第二階段的訓練Loss較為簡單竣况,用D2表示第二階段對應的分辨器,用φ表示映射函數(shù)(等同于一個生成器)筒严,那么其訓練loss分別為:
實驗部分
1.生成圖片質量的比較
采用的比較指標有SSIM[1]帕翻,Inception Score(IS)[2],mask-SSIM[3], mask-IS[3]萝风,其對比的實驗結果如下:
2.插值高斯噪聲的實驗
驗證其分解出的不同的feature嘀掸,同時不同的高斯噪聲生成的feature還原,對應的改變了圖片的相關因素规惰。
3.行人重識別實驗:
這部分實驗分兩個睬塌,一個是檢測使用重構方法,來訓練的encoder提取的feature歇万,其在re-ID任務中起到了幫助揩晴;第二是用該模型擴充原有的re-ID的庫,然后用擴充庫訓練簡單的re-ID模型贪磺。第二個實驗充分證明了生成的圖片的質量硫兰,一般用生成的圖片來訓練分類模型,可能會導致準確率反而下降寒锚,但是在神經(jīng)網(wǎng)絡訓練中劫映,一般增加數(shù)據(jù)量,會提升準確率刹前,因而這樣可以表明泳赋,本文提出的生成模型生成的圖片可用于訓練(這也有可能是現(xiàn)在的re-ID問題中,一般圖片都比較不清晰喇喉,因而生成不太清晰祖今,但是特征明顯的數(shù)據(jù)就可以用于訓練,不同于人臉識別等等模型拣技,需要高清的圖片)千诬。
[1] Zhou Wang, Alan C. Bovik, Hamid R. Sheikh, and Eero P. Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE Trans. Image Processing, 13(4):600–612, 2004
[2] Tim Salimans, Ian J. Goodfellow,Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans. In NIPS, pages 2226–2234, 2016.
[3] L. Ma, J. Xu, Q. Sun, B. Schiele, T. Tuytelaars, and L. Van Gool. Pose guided person image generation. In NIPS, 2017. 1, 3, 4, 5, 6