Valse2018參會(huì)小結(jié)——生成對(duì)抗網(wǎng)絡(luò)系列1

Valse2018參會(huì)小結(jié)——生成對(duì)抗網(wǎng)絡(luò)系列

?

目錄

?

1?引言

2?面向人臉的生成對(duì)抗網(wǎng)絡(luò)

2.1基于GAN的人臉生成及修復(fù)

2.2基于生成對(duì)抗網(wǎng)絡(luò)的超分辨率重建

2.3基于生成對(duì)抗網(wǎng)絡(luò)的人臉配準(zhǔn)

2.4基于條件生成對(duì)抗網(wǎng)絡(luò)的圖像遷移—人臉屬性

3?面向行人的生成對(duì)抗網(wǎng)絡(luò)

3.1?基于GAN的行人檢測(cè)

3.2?基于感知生成對(duì)抗網(wǎng)絡(luò)PGAN的行人再識(shí)別

3.3?人體解析—人體姿態(tài)估計(jì)

3.4?基于不同ReID數(shù)據(jù)集的行人圖片遷移PTGAN

4?面向醫(yī)學(xué)影像的生成對(duì)抗網(wǎng)絡(luò)

4.1?醫(yī)學(xué)圖像分割

4.2?醫(yī)學(xué)圖像分類

4.3?醫(yī)學(xué)圖像重構(gòu)

4.4?醫(yī)學(xué)圖像識(shí)別



1?引言

? ? ? ?近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺充尉、自然語言處理等諸多應(yīng)用領(lǐng)域中取得突破性進(jìn)展。現(xiàn)有的深度學(xué)習(xí)的模型可大致分為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNNs)拾氓、和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets, GANs)等〉矢桑現(xiàn)有深度學(xué)習(xí)方法對(duì)真實(shí)世界進(jìn)行建模需要大量先驗(yàn)知識(shí)税产,而建模的好壞直接影響生成模型的性能。鑒于此問題断傲,Goodfellow?所提出生成對(duì)抗網(wǎng)絡(luò)GAN逐步受到廣大學(xué)者和專家們的關(guān)注。GAN由生成網(wǎng)絡(luò)和對(duì)抗網(wǎng)絡(luò)組成智政,采用對(duì)抗訓(xùn)練機(jī)制進(jìn)行訓(xùn)練认罩,并使用優(yōu)化器(如隨機(jī)梯度下降(SGD,stochastic gradient descent),自適應(yīng)時(shí)刻估計(jì)方法(Adam续捂,Adaptive Moment Estimation)等)實(shí)現(xiàn)優(yōu)化垦垂,二者交替訓(xùn)練宦搬,直到達(dá)到納什均衡后停止訓(xùn)練。目前劫拗,GAN已成功應(yīng)用于圖像生成间校、圖像分類、圖像分割页慷、圖像理解憔足,圖像超分辨率等領(lǐng)域,同樣差购,深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的交叉應(yīng)用不容忽視四瘫,諸多研究工作表明GAN能夠與強(qiáng)化學(xué)習(xí)很好的結(jié)合。在應(yīng)用落地方面欲逃,Google找蜜、Facebook和?Twitter?等知名人工智能企業(yè)紛紛投入大量精力研究和拓展GAN的應(yīng)用。

?本文首先介紹GAN在面向人臉稳析、行人洗做、醫(yī)學(xué)影像等方面的最新研究進(jìn)展,然后分析與總結(jié)GAN在建模彰居、訓(xùn)練策略選擇等方面值得借鑒之處诚纸,最后指出生成式對(duì)抗網(wǎng)絡(luò)研究中亟待解決的問題。


2?面向人臉的生成對(duì)抗網(wǎng)絡(luò)

在監(jiān)控視頻陈惰、移動(dòng)多媒體應(yīng)用等領(lǐng)域畦徘,人臉對(duì)象作為重要的研究對(duì)象,具有重要的研究意義√Т常現(xiàn)有的面向人臉的技術(shù)主要分為預(yù)處理與后處理兩個(gè)大的方向井辆。其中人臉預(yù)處理包括人臉檢測(cè)、人臉配準(zhǔn)溶握、人臉修復(fù)等方向杯缺,人臉后處理則包括人臉超分辨率重建、人臉屬性轉(zhuǎn)換睡榆、人臉美化萍肆、人臉識(shí)別等方向。下面將對(duì)這幾類算法進(jìn)行詳細(xì)介紹胀屿。

2.1?基于GAN的人臉生成及修復(fù)

圖像修復(fù)任務(wù)主要基于圖像中已有信息塘揣,去還原圖像中的缺失部分。傳統(tǒng)算法主要采用圖像塊匹配(PatchMatch)碉纳,從已給數(shù)據(jù)集中搜尋相似圖片塊(Patch)來進(jìn)行圖像補(bǔ)全和合成殘缺圖片勿负,這類算法計(jì)算速度慢且效果較差。相比于這種方法,深度學(xué)習(xí)的方法采用“先驗(yàn)知識(shí)+CNN”的策略合成圖像殘缺部分的內(nèi)容奴愉。為了解決圖像修復(fù)問題琅摩,基于生成對(duì)抗網(wǎng)絡(luò)的方法相繼被提出,其中锭硼,CVPR 2017文獻(xiàn)[1]最具有代表性房资,該方法的整體結(jié)構(gòu)如下圖所示,整個(gè)模型主要由三個(gè)模塊構(gòu)成:一個(gè)生成器(G檀头,Generator)轰异,兩個(gè)鑒別器(D,Discriminator)暑始,一個(gè)語義解析網(wǎng)絡(luò)(SP搭独,Semantic Parsing network),三個(gè)模塊的損失函數(shù)分別對(duì)應(yīng)于重建損失(a reconstruction loss)廊镜、對(duì)抗損失(global and local adversarial losses)牙肝、感知稀疏損失(a semantic parsing loss)。

生成器G:采用一個(gè)VGG-19?的自動(dòng)編碼器得到人臉重建圖像嗤朴。該網(wǎng)絡(luò)的編碼層結(jié)構(gòu)encoder與解碼層decoder結(jié)構(gòu)相對(duì)稱配椭,其優(yōu)勢(shì)在于:1)自動(dòng)編碼器的特征提取能力較強(qiáng),2)殘缺圖片通過編碼層encoder映射成隱藏特征雹姊,得到很好的隱式表達(dá)股缸,3)編碼器的使用能夠避免圖像重建過程中噪聲的干擾。但是生成器生成的圖像往往會(huì)非常模糊吱雏,僅獲得粗略的人臉輪廓敦姻。

判別器D:為了解決以上問題,算法采用兩個(gè)判別器(local discriminator和global discriminator)對(duì)生成圖片的細(xì)節(jié)進(jìn)行完善歧杏,使得生成的圖片更加真實(shí)替劈。其優(yōu)勢(shì)在于,局部判別器能夠讓生成器生成圖片中補(bǔ)全的部分更加真實(shí)得滤,而整體判別器則使得整個(gè)生成的圖片看起來更加真實(shí)。但是盒犹,以上生成器與判別器的組合方式仍存在局限性懂更,例如生成圖像不包含人臉圖像正確屬性。

語義解析網(wǎng)絡(luò)SP:受文獻(xiàn)[2]啟發(fā)急膀,算法采用語義解析網(wǎng)絡(luò)改進(jìn)上述生成對(duì)抗網(wǎng)絡(luò)生成的圖片沮协,其生成的人臉圖像具有更加自然的形態(tài)。

2.2??基于生成對(duì)抗網(wǎng)絡(luò)的超分辨率重建

受多種因素影響卓嫂,視頻監(jiān)控中得到的人臉圖像往往含有模糊慷暂、噪聲、低分辨率、壓縮失真等降質(zhì)因素行瑞。大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的方法僅對(duì)正面人臉圖像進(jìn)行超分辨率重建奸腺,當(dāng)面對(duì)不同姿態(tài)的低分辨率圖像時(shí),這些方法重建人臉圖像的質(zhì)量較大血久,呈現(xiàn)姿態(tài)不可控的現(xiàn)象突照。為了解決人臉姿態(tài)可控的問題,哈工大左旺孟老師提出一種指導(dǎo)人臉重建的網(wǎng)絡(luò)(GFRNet, guided facerestoration network)氧吐。該方法的整體結(jié)構(gòu)如下圖所示讹蘑,整個(gè)模型主要由兩個(gè)模塊構(gòu)成:一個(gè)圖像扭曲網(wǎng)絡(luò)(WarpNet, warpingsubnetwork)?和一個(gè)重建網(wǎng)絡(luò)(RecNet,reconstruction subnetwork)筑舅。

圖像扭曲網(wǎng)絡(luò)WarpNet:主要用于指導(dǎo)生成圖像座慰,使重建圖像具有合適的姿態(tài)與表情。WarpNet具有encoder-decoder的網(wǎng)絡(luò)結(jié)構(gòu)翠拣,如下圖所示版仔,它還整合了landmark loss和TV regularizer。它的優(yōu)勢(shì)在于算法可以進(jìn)行可控姿態(tài)下的人臉重建心剥。

下圖第一列是待處理圖像邦尊,第二列是指導(dǎo)圖像,通過觀察可以看出优烧,與傳統(tǒng)的CNN方法(第三蝉揍、四列)相比,GFRNet(最后一列)能夠更好地重建人臉圖像畦娄。

2.3?基于生成對(duì)抗網(wǎng)絡(luò)的人臉配準(zhǔn)

?在人臉識(shí)別任務(wù)中又沾,非正面人臉識(shí)別的性能較低,如何根據(jù)側(cè)面照片合成正面人臉一直是個(gè)難題熙卡。為了解決人臉配準(zhǔn)杖刷、人臉合成的問題,中科院自動(dòng)化所(CASIA)提出了雙路徑GAN(TP-GAN驳癌,Two Path GAN)[3]滑燃,該方法綜合考慮了人臉整體和局部信息的整合,通過單一側(cè)面照片合成正面人臉圖像颓鲜,取得了較好的結(jié)果表窘。TP-GAN的結(jié)構(gòu)示意圖如下圖所示,主要包括生成網(wǎng)絡(luò)甜滨,判別網(wǎng)絡(luò)和人臉識(shí)別網(wǎng)絡(luò)乐严。

生成器包含兩個(gè)路徑,分別處理人臉全局信息及局部變換信息衣摩,通過融合特征圖得到合成圖像昂验;而判別器則用于合成正面人臉與真實(shí)人臉圖像;最后由人臉識(shí)別網(wǎng)絡(luò)對(duì)生成圖像進(jìn)行人臉驗(yàn)證。

? ? ?該方法的創(chuàng)新在于:它將從數(shù)據(jù)分布(對(duì)抗訓(xùn)練)得來的先驗(yàn)知識(shí)和人臉領(lǐng)域知識(shí)(對(duì)稱性既琴、身份保留損失)結(jié)合起來占婉,將對(duì)抗性損失(adversarial loss)、對(duì)稱性損失(symmetry loss)和身份保留損失(identity preserving loss)組合呛梆。這一損失的組合能夠利用正面臉部的分布和預(yù)訓(xùn)練識(shí)別深度臉部模型(pre-trained discriminative deep face models)锐涯,以此指導(dǎo)身份保留推理從正面臉部視圖合成側(cè)面照。如下圖所示填物,TP-GAN能夠?qū)⑷四槇D像的面部特征保留纹腌,包括胡須、眼鏡滞磺,且將人臉遮擋的前額和臉頰部分恢復(fù)升薯。

2.4?基于條件生成對(duì)抗網(wǎng)絡(luò)的圖像遷移人臉屬性

?人臉圖像含有多種屬性信息,包括年齡击困、性別涎劈、微笑程度、情緒阅茶、顏值蛛枚、視線、嘴部狀態(tài)脸哀、頭部姿態(tài)蹦浦、眼睛狀態(tài)、皮膚狀態(tài)撞蜂、人種等盲镶。在人臉屬性編輯任務(wù)中,傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)的方法為了實(shí)現(xiàn)在k個(gè)不同的風(fēng)格域上進(jìn)行遷移蝌诡,需要構(gòu)建k?(k?1)個(gè)生成器溉贿,人臉屬性編輯更加精確,但多模型會(huì)造成圖像編輯慢的問題浦旱。為了解決此問題宇色,文獻(xiàn)[4]提出一種屬性生成對(duì)抗網(wǎng)絡(luò)(AttGAN,Attribute GAN)颁湖,AttGAN的結(jié)構(gòu)示意圖如下圖所示代兵,主要包括生成網(wǎng)絡(luò)G,判別網(wǎng)絡(luò)D爷狈。在算法實(shí)現(xiàn)過程中,該方法采用單組的生成器G和判別器D學(xué)習(xí)人臉圖像在多個(gè)不同屬性域中的轉(zhuǎn)換裳擎。

?生成網(wǎng)絡(luò)G:包含一個(gè)編碼器和兩個(gè)解碼器涎永。其中,兩個(gè)解碼器分別完成原圖屬性、目標(biāo)屬性人臉圖像的重建羡微;這樣的網(wǎng)絡(luò)有利于多屬性人臉圖像重新組合谷饿。

判別網(wǎng)絡(luò)D:包括一個(gè)判別器和分類器。通過一個(gè)判別器決策重建圖像真?zhèn)温杈螅ㄟ^屬性約束網(wǎng)絡(luò)調(diào)優(yōu)屬性生成的準(zhǔn)確性博投。

如下圖所示,該方法可實(shí)現(xiàn)多屬性人臉圖像的編輯盯蝴,并且效果較好毅哗。

以上方法從圖像生成、圖像修補(bǔ)捧挺、超分辨率重建虑绵、人臉圖像配準(zhǔn)、人臉屬性編輯等方法深入探索了生成對(duì)抗網(wǎng)絡(luò)潛在的優(yōu)勢(shì)闽烙,為廣大學(xué)者帶來啟示翅睛。


參考文獻(xiàn)

[1]LiY, Liu S, Yang J, et al. Generative Face Completion[J]. 2017.https://github.com/Yijunmaverick/GenerativeFaceCompletion

[2]Yang,Jimei, et al. "Object contour detection with a fully convolutionalencoder-decoder network." Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. 2016.

[3]Huang R, Zhang S,Li T, et al. Beyond Face Rotation: Global and Local Perception GAN forPhotorealistic and Identity Preserving Frontal View Synthesis[J].2017:2458-2467.

[4]?Z.He, W. Zuo, M. Kan, S. Shan, X. Chen, Arbitrary Facial Attribute Editing: OnlyChange What You Want, arXiv:1711.10678, 2017.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市黑竞,隨后出現(xiàn)的幾起案子捕发,更是在濱河造成了極大的恐慌,老刑警劉巖很魂,帶你破解...
    沈念sama閱讀 218,451評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件扎酷,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡莫换,警方通過查閱死者的電腦和手機(jī)霞玄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拉岁,“玉大人坷剧,你說我怎么就攤上這事『芭” “怎么了惫企?”我有些...
    開封第一講書人閱讀 164,782評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)陵叽。 經(jīng)常有香客問我狞尔,道長(zhǎng),這世上最難降的妖魔是什么巩掺? 我笑而不...
    開封第一講書人閱讀 58,709評(píng)論 1 294
  • 正文 為了忘掉前任偏序,我火速辦了婚禮,結(jié)果婚禮上胖替,老公的妹妹穿的比我還像新娘研儒。我一直安慰自己豫缨,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評(píng)論 6 392
  • 文/花漫 我一把揭開白布端朵。 她就那樣靜靜地躺著好芭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪冲呢。 梳的紋絲不亂的頭發(fā)上舍败,一...
    開封第一講書人閱讀 51,578評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音敬拓,去河邊找鬼邻薯。 笑死,一個(gè)胖子當(dāng)著我的面吹牛恩尾,可吹牛的內(nèi)容都是我干的弛说。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼翰意,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼木人!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起冀偶,我...
    開封第一講書人閱讀 39,241評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤醒第,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后进鸠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體稠曼,經(jīng)...
    沈念sama閱讀 45,686評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評(píng)論 3 336
  • 正文 我和宋清朗相戀三年客年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了霞幅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,992評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡量瓜,死狀恐怖司恳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情绍傲,我是刑警寧澤扔傅,帶...
    沈念sama閱讀 35,715評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站烫饼,受9級(jí)特大地震影響猎塞,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜杠纵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評(píng)論 3 330
  • 文/蒙蒙 一荠耽、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧比藻,春花似錦铝量、人聲如沸伊履。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至群凶,卻和暖如春插爹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背请梢。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工赠尾, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人毅弧。 一個(gè)月前我還...
    沈念sama閱讀 48,173評(píng)論 3 370
  • 正文 我出身青樓气嫁,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親够坐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子寸宵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容