Valse2018參會(huì)小結(jié)——生成對(duì)抗網(wǎng)絡(luò)系列
?
目錄
?
1?引言
2?面向人臉的生成對(duì)抗網(wǎng)絡(luò)
2.1基于GAN的人臉生成及修復(fù)
2.2基于生成對(duì)抗網(wǎng)絡(luò)的超分辨率重建
2.3基于生成對(duì)抗網(wǎng)絡(luò)的人臉配準(zhǔn)
2.4基于條件生成對(duì)抗網(wǎng)絡(luò)的圖像遷移—人臉屬性
3?面向行人的生成對(duì)抗網(wǎng)絡(luò)
3.1?基于GAN的行人檢測(cè)
3.2?基于感知生成對(duì)抗網(wǎng)絡(luò)PGAN的行人再識(shí)別
3.3?人體解析—人體姿態(tài)估計(jì)
3.4?基于不同ReID數(shù)據(jù)集的行人圖片遷移PTGAN
4?面向醫(yī)學(xué)影像的生成對(duì)抗網(wǎng)絡(luò)
4.1?醫(yī)學(xué)圖像分割
4.2?醫(yī)學(xué)圖像分類
4.3?醫(yī)學(xué)圖像重構(gòu)
4.4?醫(yī)學(xué)圖像識(shí)別
1?引言
? ? ? ?近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺充尉、自然語言處理等諸多應(yīng)用領(lǐng)域中取得突破性進(jìn)展。現(xiàn)有的深度學(xué)習(xí)的模型可大致分為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNNs)拾氓、和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets, GANs)等〉矢桑現(xiàn)有深度學(xué)習(xí)方法對(duì)真實(shí)世界進(jìn)行建模需要大量先驗(yàn)知識(shí)税产,而建模的好壞直接影響生成模型的性能。鑒于此問題断傲,Goodfellow?所提出生成對(duì)抗網(wǎng)絡(luò)GAN逐步受到廣大學(xué)者和專家們的關(guān)注。GAN由生成網(wǎng)絡(luò)和對(duì)抗網(wǎng)絡(luò)組成智政,采用對(duì)抗訓(xùn)練機(jī)制進(jìn)行訓(xùn)練认罩,并使用優(yōu)化器(如隨機(jī)梯度下降(SGD,stochastic gradient descent),自適應(yīng)時(shí)刻估計(jì)方法(Adam续捂,Adaptive Moment Estimation)等)實(shí)現(xiàn)優(yōu)化垦垂,二者交替訓(xùn)練宦搬,直到達(dá)到納什均衡后停止訓(xùn)練。目前劫拗,GAN已成功應(yīng)用于圖像生成间校、圖像分類、圖像分割页慷、圖像理解憔足,圖像超分辨率等領(lǐng)域,同樣差购,深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的交叉應(yīng)用不容忽視四瘫,諸多研究工作表明GAN能夠與強(qiáng)化學(xué)習(xí)很好的結(jié)合。在應(yīng)用落地方面欲逃,Google找蜜、Facebook和?Twitter?等知名人工智能企業(yè)紛紛投入大量精力研究和拓展GAN的應(yīng)用。
?本文首先介紹GAN在面向人臉稳析、行人洗做、醫(yī)學(xué)影像等方面的最新研究進(jìn)展,然后分析與總結(jié)GAN在建模彰居、訓(xùn)練策略選擇等方面值得借鑒之處诚纸,最后指出生成式對(duì)抗網(wǎng)絡(luò)研究中亟待解決的問題。
2?面向人臉的生成對(duì)抗網(wǎng)絡(luò)
在監(jiān)控視頻陈惰、移動(dòng)多媒體應(yīng)用等領(lǐng)域畦徘,人臉對(duì)象作為重要的研究對(duì)象,具有重要的研究意義√Т常現(xiàn)有的面向人臉的技術(shù)主要分為預(yù)處理與后處理兩個(gè)大的方向井辆。其中人臉預(yù)處理包括人臉檢測(cè)、人臉配準(zhǔn)溶握、人臉修復(fù)等方向杯缺,人臉后處理則包括人臉超分辨率重建、人臉屬性轉(zhuǎn)換睡榆、人臉美化萍肆、人臉識(shí)別等方向。下面將對(duì)這幾類算法進(jìn)行詳細(xì)介紹胀屿。
2.1?基于GAN的人臉生成及修復(fù)
圖像修復(fù)任務(wù)主要基于圖像中已有信息塘揣,去還原圖像中的缺失部分。傳統(tǒng)算法主要采用圖像塊匹配(PatchMatch)碉纳,從已給數(shù)據(jù)集中搜尋相似圖片塊(Patch)來進(jìn)行圖像補(bǔ)全和合成殘缺圖片勿负,這類算法計(jì)算速度慢且效果較差。相比于這種方法,深度學(xué)習(xí)的方法采用“先驗(yàn)知識(shí)+CNN”的策略合成圖像殘缺部分的內(nèi)容奴愉。為了解決圖像修復(fù)問題琅摩,基于生成對(duì)抗網(wǎng)絡(luò)的方法相繼被提出,其中锭硼,CVPR 2017文獻(xiàn)[1]最具有代表性房资,該方法的整體結(jié)構(gòu)如下圖所示,整個(gè)模型主要由三個(gè)模塊構(gòu)成:一個(gè)生成器(G檀头,Generator)轰异,兩個(gè)鑒別器(D,Discriminator)暑始,一個(gè)語義解析網(wǎng)絡(luò)(SP搭独,Semantic Parsing network),三個(gè)模塊的損失函數(shù)分別對(duì)應(yīng)于重建損失(a reconstruction loss)廊镜、對(duì)抗損失(global and local adversarial losses)牙肝、感知稀疏損失(a semantic parsing loss)。
生成器G:采用一個(gè)VGG-19?的自動(dòng)編碼器得到人臉重建圖像嗤朴。該網(wǎng)絡(luò)的編碼層結(jié)構(gòu)encoder與解碼層decoder結(jié)構(gòu)相對(duì)稱配椭,其優(yōu)勢(shì)在于:1)自動(dòng)編碼器的特征提取能力較強(qiáng),2)殘缺圖片通過編碼層encoder映射成隱藏特征雹姊,得到很好的隱式表達(dá)股缸,3)編碼器的使用能夠避免圖像重建過程中噪聲的干擾。但是生成器生成的圖像往往會(huì)非常模糊吱雏,僅獲得粗略的人臉輪廓敦姻。
判別器D:為了解決以上問題,算法采用兩個(gè)判別器(local discriminator和global discriminator)對(duì)生成圖片的細(xì)節(jié)進(jìn)行完善歧杏,使得生成的圖片更加真實(shí)替劈。其優(yōu)勢(shì)在于,局部判別器能夠讓生成器生成圖片中補(bǔ)全的部分更加真實(shí)得滤,而整體判別器則使得整個(gè)生成的圖片看起來更加真實(shí)。但是盒犹,以上生成器與判別器的組合方式仍存在局限性懂更,例如生成圖像不包含人臉圖像正確屬性。
語義解析網(wǎng)絡(luò)SP:受文獻(xiàn)[2]啟發(fā)急膀,算法采用語義解析網(wǎng)絡(luò)改進(jìn)上述生成對(duì)抗網(wǎng)絡(luò)生成的圖片沮协,其生成的人臉圖像具有更加自然的形態(tài)。
2.2??基于生成對(duì)抗網(wǎng)絡(luò)的超分辨率重建
受多種因素影響卓嫂,視頻監(jiān)控中得到的人臉圖像往往含有模糊慷暂、噪聲、低分辨率、壓縮失真等降質(zhì)因素行瑞。大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的方法僅對(duì)正面人臉圖像進(jìn)行超分辨率重建奸腺,當(dāng)面對(duì)不同姿態(tài)的低分辨率圖像時(shí),這些方法重建人臉圖像的質(zhì)量較大血久,呈現(xiàn)姿態(tài)不可控的現(xiàn)象突照。為了解決人臉姿態(tài)可控的問題,哈工大左旺孟老師提出一種指導(dǎo)人臉重建的網(wǎng)絡(luò)(GFRNet, guided facerestoration network)氧吐。該方法的整體結(jié)構(gòu)如下圖所示讹蘑,整個(gè)模型主要由兩個(gè)模塊構(gòu)成:一個(gè)圖像扭曲網(wǎng)絡(luò)(WarpNet, warpingsubnetwork)?和一個(gè)重建網(wǎng)絡(luò)(RecNet,reconstruction subnetwork)筑舅。
圖像扭曲網(wǎng)絡(luò)WarpNet:主要用于指導(dǎo)生成圖像座慰,使重建圖像具有合適的姿態(tài)與表情。WarpNet具有encoder-decoder的網(wǎng)絡(luò)結(jié)構(gòu)翠拣,如下圖所示版仔,它還整合了landmark loss和TV regularizer。它的優(yōu)勢(shì)在于算法可以進(jìn)行可控姿態(tài)下的人臉重建心剥。
下圖第一列是待處理圖像邦尊,第二列是指導(dǎo)圖像,通過觀察可以看出优烧,與傳統(tǒng)的CNN方法(第三蝉揍、四列)相比,GFRNet(最后一列)能夠更好地重建人臉圖像畦娄。
2.3?基于生成對(duì)抗網(wǎng)絡(luò)的人臉配準(zhǔn)
?在人臉識(shí)別任務(wù)中又沾,非正面人臉識(shí)別的性能較低,如何根據(jù)側(cè)面照片合成正面人臉一直是個(gè)難題熙卡。為了解決人臉配準(zhǔn)杖刷、人臉合成的問題,中科院自動(dòng)化所(CASIA)提出了雙路徑GAN(TP-GAN驳癌,Two Path GAN)[3]滑燃,該方法綜合考慮了人臉整體和局部信息的整合,通過單一側(cè)面照片合成正面人臉圖像颓鲜,取得了較好的結(jié)果表窘。TP-GAN的結(jié)構(gòu)示意圖如下圖所示,主要包括生成網(wǎng)絡(luò)甜滨,判別網(wǎng)絡(luò)和人臉識(shí)別網(wǎng)絡(luò)乐严。
生成器包含兩個(gè)路徑,分別處理人臉全局信息及局部變換信息衣摩,通過融合特征圖得到合成圖像昂验;而判別器則用于合成正面人臉與真實(shí)人臉圖像;最后由人臉識(shí)別網(wǎng)絡(luò)對(duì)生成圖像進(jìn)行人臉驗(yàn)證。
? ? ?該方法的創(chuàng)新在于:它將從數(shù)據(jù)分布(對(duì)抗訓(xùn)練)得來的先驗(yàn)知識(shí)和人臉領(lǐng)域知識(shí)(對(duì)稱性既琴、身份保留損失)結(jié)合起來占婉,將對(duì)抗性損失(adversarial loss)、對(duì)稱性損失(symmetry loss)和身份保留損失(identity preserving loss)組合呛梆。這一損失的組合能夠利用正面臉部的分布和預(yù)訓(xùn)練識(shí)別深度臉部模型(pre-trained discriminative deep face models)锐涯,以此指導(dǎo)身份保留推理從正面臉部視圖合成側(cè)面照。如下圖所示填物,TP-GAN能夠?qū)⑷四槇D像的面部特征保留纹腌,包括胡須、眼鏡滞磺,且將人臉遮擋的前額和臉頰部分恢復(fù)升薯。
2.4?基于條件生成對(duì)抗網(wǎng)絡(luò)的圖像遷移—人臉屬性
?人臉圖像含有多種屬性信息,包括年齡击困、性別涎劈、微笑程度、情緒阅茶、顏值蛛枚、視線、嘴部狀態(tài)脸哀、頭部姿態(tài)蹦浦、眼睛狀態(tài)、皮膚狀態(tài)撞蜂、人種等盲镶。在人臉屬性編輯任務(wù)中,傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)的方法為了實(shí)現(xiàn)在k個(gè)不同的風(fēng)格域上進(jìn)行遷移蝌诡,需要構(gòu)建k?(k?1)個(gè)生成器溉贿,人臉屬性編輯更加精確,但多模型會(huì)造成圖像編輯慢的問題浦旱。為了解決此問題宇色,文獻(xiàn)[4]提出一種屬性生成對(duì)抗網(wǎng)絡(luò)(AttGAN,Attribute GAN)颁湖,AttGAN的結(jié)構(gòu)示意圖如下圖所示代兵,主要包括生成網(wǎng)絡(luò)G,判別網(wǎng)絡(luò)D爷狈。在算法實(shí)現(xiàn)過程中,該方法采用單組的生成器G和判別器D學(xué)習(xí)人臉圖像在多個(gè)不同屬性域中的轉(zhuǎn)換裳擎。
?生成網(wǎng)絡(luò)G:包含一個(gè)編碼器和兩個(gè)解碼器涎永。其中,兩個(gè)解碼器分別完成原圖屬性、目標(biāo)屬性人臉圖像的重建羡微;這樣的網(wǎng)絡(luò)有利于多屬性人臉圖像重新組合谷饿。
判別網(wǎng)絡(luò)D:包括一個(gè)判別器和分類器。通過一個(gè)判別器決策重建圖像真?zhèn)温杈螅ㄟ^屬性約束網(wǎng)絡(luò)調(diào)優(yōu)屬性生成的準(zhǔn)確性博投。
如下圖所示,該方法可實(shí)現(xiàn)多屬性人臉圖像的編輯盯蝴,并且效果較好毅哗。
以上方法從圖像生成、圖像修補(bǔ)捧挺、超分辨率重建虑绵、人臉圖像配準(zhǔn)、人臉屬性編輯等方法深入探索了生成對(duì)抗網(wǎng)絡(luò)潛在的優(yōu)勢(shì)闽烙,為廣大學(xué)者帶來啟示翅睛。
參考文獻(xiàn)
[1]LiY, Liu S, Yang J, et al. Generative Face Completion[J]. 2017.https://github.com/Yijunmaverick/GenerativeFaceCompletion
[2]Yang,Jimei, et al. "Object contour detection with a fully convolutionalencoder-decoder network." Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. 2016.
[3]Huang R, Zhang S,Li T, et al. Beyond Face Rotation: Global and Local Perception GAN forPhotorealistic and Identity Preserving Frontal View Synthesis[J].2017:2458-2467.
[4]?Z.He, W. Zuo, M. Kan, S. Shan, X. Chen, Arbitrary Facial Attribute Editing: OnlyChange What You Want, arXiv:1711.10678, 2017.