深度身份感知的人臉屬性轉換器
摘要:
本篇論文提出了一個深度卷積網絡模型作為身份感知的人臉屬性轉換器(DIAT)埂息。給定源圖片和參照的屬性壁公,DIAT旨在生成一個人臉圖片(也就是說目標圖片),這個圖片不僅擁有參照的屬性旺拉,而且保持與輸入圖片一致或者相似的身份屬性锯蛀。我們研發(fā)了一個兩階段的方案來將輸入的圖片轉換到每個參照的屬性標簽能颁。一個前饋轉換網絡首先結合感覺身份感知的損失和基于GAN的屬性損失來訓練,接著一個人臉增強網絡被引入來提升視覺質量岩馍。我們近一步定義了屬性分辨器的卷積特征圖上的感知身份損失碉咆,得到了一個DIAT-A模型。我們DIAT和DIAT-A模型可以為很多例如表情轉換蛀恩,配飾移除疫铜,年齡演變和性別轉換等代表性的人臉屬性轉換任務提供一個統(tǒng)一的解決辦法。實驗結果證實了它們的有效性双谆。即使對于一些身份相關的屬性(例如性別)壳咕,我們的DIAT-A能夠通過轉換屬性席揽,與此同時最大化的保留源圖片的身份特征,來獲得視覺上令人印象深刻的結果谓厘。
原文地址:https://arxiv.org/abs/1610.05586
這篇文章提出了用于處理人臉屬性轉換的一個通用的模型幌羞,整個模型如下圖所示,包含了轉換網絡和增強網絡兩個部分庞呕,圖片先通過轉換網絡新翎,獲得轉換屬性后的人臉圖片;再通過增強網絡住练,去除噪聲地啰,保留細節(jié),從而得到最終的轉換圖片讲逛。網絡結構圖中命名有部分沒有在文章中表現(xiàn)亏吝,比如Pixel Loss,但是根據文章可以推測出來這個Loss的具體表示盏混。接下來就分兩部分介紹這個生成網絡:1.Face Transform Network人臉轉換網絡蔚鸥,對應上圖a部分
轉換網絡的loss的設置是文章思考較多的地方混聊,很多人臉屬性轉換的問題中弹谁,很難有ground truth的結果來用于訓練(比如類似于條件GAN的圖片對的訓練方式),因此需要小心的設計該網絡的loss句喜。
文中首先提出的是identity loss(身份損失)预愤,這個loss限制的是屬性轉換前后的圖片中,人臉的身份信息不會丟失咳胃。對于人臉的身份信息屬于高層的語義信息植康,文章認為并不能從圖片的像素角度來定義,因而選擇了卷積層的feature map來定義展懈,采用的是VGG網絡的第4層和第5層轉換前后圖片的feature map的平方差作為身份損失销睁,其具體在文中的定義如下:
這樣主要約束了轉換的圖片和轉換前的圖片在高層的語義信息盡可能一致,由于VGG是人臉識別的網絡存崖,那么這個高層的語義信息主要就是指用于人臉識別的高層語義信息榄攀,一般就是指身份信息。這里有點不是太清楚的是金句,為什么作者選擇了第4層和第5層作為這個損失的設計檩赢。
最后,還有一個感知正則項(Perceptual regularization)申钩,用來平滑圖片的次绘。一般的文章采用的Total variation Loss來平緩生成的圖片,但是文中指出了其在保留圖片細節(jié)上的不足撒遣,進而提出了采用重構網絡和去噪網絡來平滑生成圖片的思路邮偎。這部分有點復雜,所以分塊來說明:
首先訓練一個重構網絡g义黎,這個網絡的結構與轉換網絡一致禾进,其訓練Loss如下定義,這里的符號定義與identity loss里面的一致廉涕,是采用的VGG的卷基層得到的feature map來定義loss的:
有了重構網絡泻云,那么重構的圖片g(x)與圖片x本身的區(qū)別,就是圖片需要平滑的內容火的,因而接著引入去噪網絡f來減小這一區(qū)別壶愤,從而達到去噪效果淑倾,f的網絡結構為一個2層的卷積網絡馏鹤,3*3的核。f網絡的訓練loss如下:
最終,基于上述兩個網絡碍讨,感知正則項部分定義如下治力,T為轉換網絡,f為去噪網絡:
在最終的訓練部分豆村,采用ADAM訓練器液兽,在0.0001學習率下進行學習。
-
Face enhancement networks(人臉增強網絡)
對于局部屬性的人臉轉換涌庭,對于非屬性區(qū)域其實應該是保持不變的,文章中首先利用文章[1]中的68個人臉特征點欧宜,對于不同的屬性定義了由這些特征點組成凸包構成的屬性相關區(qū)域坐榆,由此得到屬性的掩碼m,凸包區(qū)域內冗茸,掩碼為1席镀,其余為0。因此夏漱,此時的圖片分為兩個部分豪诲,一個是屬性無關部分,其掩碼為0挂绰,應該要求其和原圖盡可能相似屎篱,因此這部分loss是增強圖片與轉換圖片的差值的平方;另一部分是屬性相關部分,要求的是增強圖片在卷積的特征層面上相似交播,或者盡可能一致专肪,因此這部分的loss是增強圖片與轉換圖片的特征的差值的平方,這里描述的loss定義總結如下:(其實在論文人臉去遮擋的GAN[2]中有用到類似的不變區(qū)域的概念堪侯,不過那篇文章中不變區(qū)域直接借助掩碼的方式嚎尤,由原圖直接生成,而變化區(qū)域才采納GAN生成的內容)
由圖片轉換網絡生成的圖片可能存在視覺上比較差的問題掌动,因而文中加入了一個人臉增強網絡四啰,來提高生成圖片的質量。由于屬性轉換有些屬性是局部的粗恢,比如張嘴柑晒,去除眼鏡等等,而有些屬性是全局的眷射,比如轉換性別匙赞,這些局部屬性部分存在一些特點,因此對于局部的屬性和全局的屬性會采用不同的網絡進行人臉增強的部分妖碉。
局部屬性:
全局屬性:
對于全局屬性很難定義出不變的區(qū)域伍宦,因而增強部分不應從保留和非保留部分下手芽死。增強網絡實際在做的是去除生成圖片中的噪聲和偽造痕跡,這在早期的圖片處理中采用高斯模糊就可以做到次洼,但是高斯模糊后的圖片本身也比較模糊关贵,因而對于全局的增強網絡是盡可能是的高斯模糊后的圖片與模糊前的圖片一致,因而對于全局屬性的增強網絡的loss為:
其中B(x)表示高斯模糊后的x卖毁,E為增強網絡揖曾。
這兩個部分的輸入差別是,對于局部屬性的增強網絡亥啦,輸入是原圖和轉換后的圖片炭剪;對于全局屬性的增強網絡,輸入是轉換后的圖片翔脱。
這就是這篇文章中提出的第一個被稱作DIAT的模型奴拦,在這個模型中,身份保持的Loss依賴于VGG網絡卷積層中提取的特征定義届吁,文中認為這樣額外的提取并不高效错妖,同時屬性分辨的分辨器也可能難以收斂(兩者之間不是因果關系),因此疚沐,文中覺得可以將身份保持和屬性分辨相聯(lián)系起來暂氯,利用分辨器的卷積層定義,這樣對于分辨器提供了額外的監(jiān)督信息亮蛔,同時身份保持的Loss不需要引入額外的網絡來定義痴施。這樣定義的身份保持loss被稱作自適應感知身份損失(Adaptive perceptual identity loss),其定義類似于之前的身份loss:
采用的自適應感知身份損失的模型被稱作DIAT-A尔邓,其訓練的總的Loss如下定義:
在DIAT-A模型中晾剖,分辨器的學習率降為0.00001锉矢,但是文中指出這么低的學習率梯嗽,訓練中DIAT-A收斂速度依舊比DIAT快。
實驗部分
實驗的比較部分都是采用的直觀的圖片比較方式來進行沽损,整個實驗部分設計了多組對比灯节。
局部屬性轉換實驗部分
測試了三種局部屬性轉換,嘴巴張開,嘴巴閉上炎疆,眼鏡移除卡骂。
全局屬性轉換實驗部分
測試了兩種全局屬性轉換,性別和年齡形入。對于性別的轉換全跨,只考慮男變女;對于年齡轉換亿遂,只考慮年齡大的變年輕的浓若。
上述兩部分的實驗,都與CNIA[3]進行了比較蛇数,在眼鏡移除的任務上挪钓,與語義去除[4]進行了比較。
除此之外耳舅,文章比較了有與沒有人臉增強網絡之間結果的區(qū)別碌上;比較了用自適應感知身份Loss的DIAT-A模型與DIAT模型之間結果的區(qū)別;探究了僅有屬性loss產生圖片與之前產生圖片的區(qū)別浦徊;最后比較了沒有感知正則項的DIAT模型與沒有增強網絡的DIAT模型之間結果的區(qū)別馏予。
最后總結下,本篇文章提出的是一個兩階段的人臉屬性轉換的通用框架盔性,第一階段采用GAN的架構完成圖片的轉換部分吗蚌,第二階段分兩種不同屬性,對于轉換后的圖片進行近一步加工增強纯出,來獲取最終屬性轉換圖片蚯妇。本篇文章運用GAN的生成能力,同時增加了其他方法暂筝,來提升圖片生成的質量箩言,這可以說是運用GAN的另一個角度,其他文章中也有用其他模型生成圖片(比如autoEncoder)焕襟,然后采用GAN的架構或者對抗Loss來近一步優(yōu)化生成圖片陨收。
[1] Zhang Z, Luo P, Chen C L, et al. Facial Landmark Detection by Deep Multi-task Learning[C]// European Conference on Computer Vision. 2014:94-108.
[2] Zhao F, Feng J, Jian Z, et al. Robust LSTM-Autoencoders for Face De-Occlusion in the Wild[J]. IEEE Transactions on Image Processing, 2016, PP(99):1-1.
[3] Li M, Zuo W, Zhang D. Convolutional Network for Attribute-driven and Identity-preserving Human Face Generation[J]. 2016.
[4] Yeh R, Chen C, Lim T Y, et al. Semantic Image Inpainting with Perceptual and Contextual Losses[J]. 2016.