Deep Identity-aware Transfer of Facial Attributes

深度身份感知的人臉屬性轉換器

摘要:
本篇論文提出了一個深度卷積網絡模型作為身份感知的人臉屬性轉換器(DIAT)埂息。給定源圖片和參照的屬性壁公,DIAT旨在生成一個人臉圖片(也就是說目標圖片),這個圖片不僅擁有參照的屬性旺拉,而且保持與輸入圖片一致或者相似的身份屬性锯蛀。我們研發(fā)了一個兩階段的方案來將輸入的圖片轉換到每個參照的屬性標簽能颁。一個前饋轉換網絡首先結合感覺身份感知的損失和基于GAN的屬性損失來訓練,接著一個人臉增強網絡被引入來提升視覺質量岩馍。我們近一步定義了屬性分辨器的卷積特征圖上的感知身份損失碉咆,得到了一個DIAT-A模型。我們DIAT和DIAT-A模型可以為很多例如表情轉換蛀恩,配飾移除疫铜,年齡演變和性別轉換等代表性的人臉屬性轉換任務提供一個統(tǒng)一的解決辦法。實驗結果證實了它們的有效性双谆。即使對于一些身份相關的屬性(例如性別)壳咕,我們的DIAT-A能夠通過轉換屬性席揽,與此同時最大化的保留源圖片的身份特征,來獲得視覺上令人印象深刻的結果谓厘。

原文地址:https://arxiv.org/abs/1610.05586

這篇文章提出了用于處理人臉屬性轉換的一個通用的模型幌羞,整個模型如下圖所示,包含了轉換網絡和增強網絡兩個部分庞呕,圖片先通過轉換網絡新翎,獲得轉換屬性后的人臉圖片;再通過增強網絡住练,去除噪聲地啰,保留細節(jié),從而得到最終的轉換圖片讲逛。網絡結構圖中命名有部分沒有在文章中表現(xiàn)亏吝,比如Pixel Loss,但是根據文章可以推測出來這個Loss的具體表示盏混。接下來就分兩部分介紹這個生成網絡:
網絡結構

1.Face Transform Network人臉轉換網絡蔚鸥,對應上圖a部分

人臉轉換的網絡是一個16層的全卷積網絡,其中包含了10層的殘差網絡许赃,其具體的設置如下圖所示止喷,其中每個resigual block由兩層卷積層構成。
網絡設置

轉換網絡的loss的設置是文章思考較多的地方混聊,很多人臉屬性轉換的問題中弹谁,很難有ground truth的結果來用于訓練(比如類似于條件GAN的圖片對的訓練方式),因此需要小心的設計該網絡的loss句喜。
文中首先提出的是identity loss(身份損失)预愤,這個loss限制的是屬性轉換前后的圖片中,人臉的身份信息不會丟失咳胃。對于人臉的身份信息屬于高層的語義信息植康,文章認為并不能從圖片的像素角度來定義,因而選擇了卷積層的feature map來定義展懈,采用的是VGG網絡的第4層和第5層轉換前后圖片的feature map的平方差作為身份損失销睁,其具體在文中的定義如下:

這樣主要約束了轉換的圖片和轉換前的圖片在高層的語義信息盡可能一致,由于VGG是人臉識別的網絡存崖,那么這個高層的語義信息主要就是指用于人臉識別的高層語義信息榄攀,一般就是指身份信息。這里有點不是太清楚的是金句,為什么作者選擇了第4層和第5層作為這個損失的設計檩赢。

除了身份損失,該網絡中還設計了Attribute Loss(屬性損失)。屬性損失的設計是約束轉換后的圖片要有指定的屬性(比如去除了眼睛贞瞒,或者張開了嘴巴等等)偶房。文章中認為有與沒有某種屬性的人臉,是兩種不同的數據分布军浆,進而引入了GAN的分辨器來判別這樣不同的分布棕洋,選出具有指定屬性的數據集(但不一定有轉換圖片帶有該屬性圖片),那么轉換圖片就成了分辨器需要分辨出的偽造分布乒融。既然有了分辨器掰盘,那么其對應的loss就是GAN常見的最小最大化的loss了,其定義如下赞季,patt是指有指定屬性圖片構成的數據集愧捕,T(x)指轉換圖片x后得到的圖片:

最后,還有一個感知正則項(Perceptual regularization)申钩,用來平滑圖片的次绘。一般的文章采用的Total variation Loss來平緩生成的圖片,但是文中指出了其在保留圖片細節(jié)上的不足撒遣,進而提出了采用重構網絡和去噪網絡來平滑生成圖片的思路邮偎。這部分有點復雜,所以分塊來說明:

首先訓練一個重構網絡g义黎,這個網絡的結構與轉換網絡一致禾进,其訓練Loss如下定義,這里的符號定義與identity loss里面的一致廉涕,是采用的VGG的卷基層得到的feature map來定義loss的:

有了重構網絡泻云,那么重構的圖片g(x)與圖片x本身的區(qū)別,就是圖片需要平滑的內容火的,因而接著引入去噪網絡f來減小這一區(qū)別壶愤,從而達到去噪效果淑倾,f的網絡結構為一個2層的卷積網絡馏鹤,3*3的核。f網絡的訓練loss如下:
其中后面f(x)-x部分娇哆,是為了防止去噪網絡過渡平滑一個本身就很干凈的圖片湃累。
最終,基于上述兩個網絡碍讨,感知正則項部分定義如下治力,T為轉換網絡,f為去噪網絡:

以上就是轉換網絡的loss設計部分勃黍,最終轉換網絡的訓練Loss為:

除此之外宵统,轉換網絡并不是一次性完成訓練的,其訓練的過程分為預訓練和訓練兩個階段覆获,在預訓練階段马澈,網絡的兩個部分瓢省,一個圖片轉換網絡,一個分辨器都分別進行了不同的預訓練痊班。對于圖片轉換網絡勤婚,在預訓練階段將其看做一個重構網絡,那么輸入圖片x涤伐,轉換后的圖片T(x)馒胆,兩者之間的差異要盡可能少,因而其預訓練階段的loss為:

對于分辨器凝果,在預訓練階段將其看做一個分類器訓練祝迂,分類輸入圖片的屬性標簽,因而其訓練的Loss為:

在最終的訓練部分豆村,采用ADAM訓練器液兽,在0.0001學習率下進行學習。

  1. Face enhancement networks(人臉增強網絡)
    由圖片轉換網絡生成的圖片可能存在視覺上比較差的問題掌动,因而文中加入了一個人臉增強網絡四啰,來提高生成圖片的質量。由于屬性轉換有些屬性是局部的粗恢,比如張嘴柑晒,去除眼鏡等等,而有些屬性是全局的眷射,比如轉換性別匙赞,這些局部屬性部分存在一些特點,因此對于局部的屬性和全局的屬性會采用不同的網絡進行人臉增強的部分妖碉。
    局部屬性:

    對于局部屬性的人臉轉換涌庭,對于非屬性區(qū)域其實應該是保持不變的,文章中首先利用文章[1]中的68個人臉特征點欧宜,對于不同的屬性定義了由這些特征點組成凸包構成的屬性相關區(qū)域坐榆,由此得到屬性的掩碼m,凸包區(qū)域內冗茸,掩碼為1席镀,其余為0。因此夏漱,此時的圖片分為兩個部分豪诲,一個是屬性無關部分,其掩碼為0挂绰,應該要求其和原圖盡可能相似屎篱,因此這部分loss是增強圖片與轉換圖片的差值的平方;另一部分是屬性相關部分,要求的是增強圖片在卷積的特征層面上相似交播,或者盡可能一致专肪,因此這部分的loss是增強圖片與轉換圖片的特征的差值的平方,這里描述的loss定義總結如下:(其實在論文人臉去遮擋的GAN[2]中有用到類似的不變區(qū)域的概念堪侯,不過那篇文章中不變區(qū)域直接借助掩碼的方式嚎尤,由原圖直接生成,而變化區(qū)域才采納GAN生成的內容)

    全局屬性:
    對于全局屬性很難定義出不變的區(qū)域伍宦,因而增強部分不應從保留和非保留部分下手芽死。增強網絡實際在做的是去除生成圖片中的噪聲和偽造痕跡,這在早期的圖片處理中采用高斯模糊就可以做到次洼,但是高斯模糊后的圖片本身也比較模糊关贵,因而對于全局的增強網絡是盡可能是的高斯模糊后的圖片與模糊前的圖片一致,因而對于全局屬性的增強網絡的loss為:

其中B(x)表示高斯模糊后的x卖毁,E為增強網絡揖曾。
這兩個部分的輸入差別是,對于局部屬性的增強網絡亥啦,輸入是原圖和轉換后的圖片炭剪;對于全局屬性的增強網絡,輸入是轉換后的圖片翔脱。
這就是這篇文章中提出的第一個被稱作DIAT的模型奴拦,在這個模型中,身份保持的Loss依賴于VGG網絡卷積層中提取的特征定義届吁,文中認為這樣額外的提取并不高效错妖,同時屬性分辨的分辨器也可能難以收斂(兩者之間不是因果關系),因此疚沐,文中覺得可以將身份保持和屬性分辨相聯(lián)系起來暂氯,利用分辨器的卷積層定義,這樣對于分辨器提供了額外的監(jiān)督信息亮蛔,同時身份保持的Loss不需要引入額外的網絡來定義痴施。這樣定義的身份保持loss被稱作自適應感知身份損失(Adaptive perceptual identity loss),其定義類似于之前的身份loss:


采用的自適應感知身份損失的模型被稱作DIAT-A尔邓,其訓練的總的Loss如下定義:



在DIAT-A模型中晾剖,分辨器的學習率降為0.00001锉矢,但是文中指出這么低的學習率梯嗽,訓練中DIAT-A收斂速度依舊比DIAT快。

實驗部分
實驗的比較部分都是采用的直觀的圖片比較方式來進行沽损,整個實驗部分設計了多組對比灯节。
局部屬性轉換實驗部分
測試了三種局部屬性轉換,嘴巴張開,嘴巴閉上炎疆,眼鏡移除卡骂。
全局屬性轉換實驗部分
測試了兩種全局屬性轉換,性別和年齡形入。對于性別的轉換全跨,只考慮男變女;對于年齡轉換亿遂,只考慮年齡大的變年輕的浓若。
上述兩部分的實驗,都與CNIA[3]進行了比較蛇数,在眼鏡移除的任務上挪钓,與語義去除[4]進行了比較。
除此之外耳舅,文章比較了有與沒有人臉增強網絡之間結果的區(qū)別碌上;比較了用自適應感知身份Loss的DIAT-A模型與DIAT模型之間結果的區(qū)別;探究了僅有屬性loss產生圖片與之前產生圖片的區(qū)別浦徊;最后比較了沒有感知正則項的DIAT模型與沒有增強網絡的DIAT模型之間結果的區(qū)別馏予。

最后總結下,本篇文章提出的是一個兩階段的人臉屬性轉換的通用框架盔性,第一階段采用GAN的架構完成圖片的轉換部分吗蚌,第二階段分兩種不同屬性,對于轉換后的圖片進行近一步加工增強纯出,來獲取最終屬性轉換圖片蚯妇。本篇文章運用GAN的生成能力,同時增加了其他方法暂筝,來提升圖片生成的質量箩言,這可以說是運用GAN的另一個角度,其他文章中也有用其他模型生成圖片(比如autoEncoder)焕襟,然后采用GAN的架構或者對抗Loss來近一步優(yōu)化生成圖片陨收。

[1] Zhang Z, Luo P, Chen C L, et al. Facial Landmark Detection by Deep Multi-task Learning[C]// European Conference on Computer Vision. 2014:94-108.
[2] Zhao F, Feng J, Jian Z, et al. Robust LSTM-Autoencoders for Face De-Occlusion in the Wild[J]. IEEE Transactions on Image Processing, 2016, PP(99):1-1.
[3] Li M, Zuo W, Zhang D. Convolutional Network for Attribute-driven and Identity-preserving Human Face Generation[J]. 2016.
[4] Yeh R, Chen C, Lim T Y, et al. Semantic Image Inpainting with Perceptual and Contextual Losses[J]. 2016.

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市鸵赖,隨后出現(xiàn)的幾起案子务漩,更是在濱河造成了極大的恐慌,老刑警劉巖它褪,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件饵骨,死亡現(xiàn)場離奇詭異,居然都是意外死亡茫打,警方通過查閱死者的電腦和手機居触,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進店門妖混,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人轮洋,你說我怎么就攤上這事制市。” “怎么了弊予?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵祥楣,是天一觀的道長。 經常有香客問我汉柒,道長炬守,這世上最難降的妖魔是什么渠旁? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任炕柔,我火速辦了婚禮象缀,結果婚禮上,老公的妹妹穿的比我還像新娘斋扰。我一直安慰自己渡八,他們只是感情好,可當我...
    茶點故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布传货。 她就那樣靜靜地躺著屎鳍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪问裕。 梳的紋絲不亂的頭發(fā)上逮壁,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天,我揣著相機與錄音粮宛,去河邊找鬼窥淆。 笑死,一個胖子當著我的面吹牛巍杈,可吹牛的內容都是我干的忧饭。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼筷畦,長吁一口氣:“原來是場噩夢啊……” “哼词裤!你這毒婦竟也來了?” 一聲冷哼從身側響起鳖宾,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤吼砂,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后鼎文,有當地人在樹林里發(fā)現(xiàn)了一具尸體渔肩,經...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年漂问,在試婚紗的時候發(fā)現(xiàn)自己被綠了赖瞒。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡蚤假,死狀恐怖栏饮,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情磷仰,我是刑警寧澤袍嬉,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站灶平,受9級特大地震影響伺通,放射性物質發(fā)生泄漏。R本人自食惡果不足惜逢享,卻給世界環(huán)境...
    茶點故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一罐监、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧瞒爬,春花似錦弓柱、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至禀横,卻和暖如春屁药,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背柏锄。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工酿箭, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人趾娃。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓七问,卻偏偏與公主長得像,于是被迫代替她去往敵國和親茫舶。 傳聞我的和親對象是個殘疾皇子械巡,可洞房花燭夜當晚...
    茶點故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內容