用于真實的并且保留身份的側(cè)面合成的雙代理對抗生成網(wǎng)絡(luò)
摘要:
合成真實的側(cè)臉有希望通過用極端的姿態(tài)填充樣本以及避免煩躁的注釋工作视哑,來更高效地訓(xùn)練對于大規(guī)模的無約束人臉識別的深度姿態(tài)不變的模型客税。但是因為合成人臉和真實人臉圖片分布之間的差異饵隙,從合成的人臉中學(xué)習(xí)可能不會獲得想要的性能仰挣。為了縮小這一差異,我們提出了雙代理的對抗生成網(wǎng)絡(luò)(DA-GAN)模型牺氨,該模型能夠使用無標簽的真實人臉數(shù)據(jù)來提高人臉模擬器輸出的真實性锁施,在真實性改善的同時又保留身份信息。雙代理被特別設(shè)計為同時區(qū)分真假和身份信息泛领。特別需要指出的是荒吏,我們使用了現(xiàn)有的3D人臉模型作為模擬器來生成不同姿態(tài)的側(cè)面人臉圖像。DA-GAN采用了一個全卷積網(wǎng)絡(luò)作為生成器來生成高分辨率的圖像和一個有雙代理的自動編碼器作為分辨器渊鞋。除了新的架構(gòu)绰更,我們對于標準的GAN做了幾個關(guān)鍵的修改來保持姿態(tài)和紋理,保留身份信息以及穩(wěn)定訓(xùn)練過程:(i)一個姿態(tài)感知loss锡宋;(ii)一個身份感知loss儡湾;(iii)一個有邊界平衡正則項的對抗loss。實驗結(jié)果表明DA-GAN不僅帶來了非常有趣的感知結(jié)果执俩,而且在大規(guī)模并且具有挑戰(zhàn)的NIST IJB-A無限制人臉識別基準測試中顯著優(yōu)于現(xiàn)有技術(shù)徐钠。除此之外,提出的DA-GAN有望成為更有效解決一般的遷徙學(xué)習(xí)問題的新方法役首。DA-GAN是我們提交給2017 NIST IJB-A人臉識別比賽的基礎(chǔ)尝丐,在這個比賽中我們在驗證和識別方面獲得第一名。
這篇文章的目的旨在從單張人臉(正面)合成不同姿態(tài)下的不同人臉衡奥,來解決在實際的人臉識別數(shù)據(jù)集中爹袁,側(cè)面人臉訓(xùn)練樣本分布不平衡導(dǎo)致人臉識別模型對于具有少量樣本的姿態(tài)下的人臉識別失敗的問題。
合成多角度人臉的生成模型架構(gòu)如下圖所示矮固,整個架構(gòu)分為模擬器失息,生成器,辨別器三個部分档址。
1.模擬器:
模擬器是用來從正面人臉合成不同角度的人臉的工具盹兢。首先,從圖片中提取人臉感興趣的區(qū)域(the face Region of Interest, RoI)守伸,然后對于提取的人臉绎秒,通過論文(S. Xiao, J. Feng, J. Xing, H. Lai, S. Yan, and A. Kassim. Robust facial landmark detection via recurrent attentive-refinement networks. In European Conference on Computer Vision, pages 57–72. Springer, 2016.)估算68個面部關(guān)鍵點,最終采用論文(X. Zhu, J. Yan, D. Yi, Z. Lei, and S. Z. Li. Discriminative 3d morphable model fitting. In Automatic Face and Gesture Recognition (FG), 2015 11th IEEE International Conference and Workshops on, volume 1, pages 1–8. IEEE, 2015.)的工作尼摹,將2D的關(guān)鍵點轉(zhuǎn)換成3D形變模型(3D Morphable Model替裆, 3D MM)校辩。然后模擬不同旋轉(zhuǎn)角度下的人臉。
2.生成器
本文中的生成器并不是標準的GAN中辆童,從噪聲數(shù)據(jù)中直接模擬逼近給定的數(shù)據(jù)分布。這篇論文中的生成器更形象的表述應(yīng)該是一個精修器惠赫。因為作者發(fā)現(xiàn)采用模擬器生成的不同角度的人臉圖片把鉴,當旋轉(zhuǎn)的角度在[-90,-60]和[+60,+90]這兩個區(qū)間范圍內(nèi),其效果會很差儿咱,并且丟失大量紋理庭砍。因此這里生成器將模擬器中的輸出作為輸入,采用U型網(wǎng)絡(luò)結(jié)構(gòu)(先卷積混埠,再反卷積decovolution)怠缸,來生成最終的對應(yīng)角度的旋轉(zhuǎn)后的人臉圖片。
3.辨別器
與其說是兩個代理的辨別器钳宪,不如說就是兩個分辨器揭北,一個分辨圖片是仿造的,還是真實的吏颖;一個分辨給定輸入的圖片的類標簽(是否可以考慮這兩個網(wǎng)絡(luò)合成為一個搔体,同時輸出真假,以及類標簽半醉,類似Conditional Image Synthesis With Auxiliary Classifier GANs一文提出的AC-GAN)
loss設(shè)計
文章中訓(xùn)練網(wǎng)絡(luò)一共設(shè)計了3個loss項疚俱,分別是對抗學(xué)習(xí)的loss,身份感知的loss以及姿態(tài)感知的loss
對抗的loss
采用的是有邊界平衡正則項的Wasserstein距離缩多,具體描述見論文(Began: Boundary equilibrium generative adversarial networks)呆奕,其loss定義如下:
其中y是真實的人臉圖片,kt是一個邊界平衡正則項,其更新式如下:
其中α是kt更新的學(xué)習(xí)率衬吆。
身份感知loss
評判的是分辨器的類別輸出的問題梁钾,其定義如下:
其中Y是對應(yīng)的真實標簽,這就是一個交叉熵的形式咆槽,與之前的需要一個預(yù)訓(xùn)練的分類器不同陈轿,這里的分類標簽就是其中一個discriminator給出的分類結(jié)果
姿態(tài)感知loss
保證修改前后的圖片像素變化最小(這限制了圖片優(yōu)化過程的變化不會很大)
這篇文章提供了一個思路就是秦忿,在沒有需要生成樣本的指導(dǎo)下麦射,要怎樣采用GAN來生成樣本,來進行訓(xùn)練灯谣,其給出的思路是潜秋,找生成的近似的模型,然后使用GAN模型進行近一步的優(yōu)化胎许,這樣訓(xùn)練中就不需要有原圖——需要生成的圖峻呛,這樣一個訓(xùn)練對的出現(xiàn)罗售。因而在某種程度上,降低了訓(xùn)練GAN的成本钩述,訓(xùn)練GAN只需要設(shè)計好優(yōu)化的loss(但是關(guān)鍵是寨躁,要有近似解)
最后總結(jié)下這篇文章的貢獻,整體的生成圖片的框架牙勘,以及生成圖片的原因职恳,同時如何使用圖片的原理(平衡不同pose在數(shù)據(jù)集中的分布);3個loss方面,2個分辨器各司其職放钦。