來源:https://en.wikipedia.org/wiki/Edmond_de_Belamy
五年前涛碑,Generative Adversarial Networks(GANs)在深度學(xué)習(xí)領(lǐng)域掀起了一場革命吓妆。這場革命產(chǎn)生了一些重大的技術(shù)突破玫霎。Ian Goodfellow等人在“Generative Adversarial Networks”中提出了生成對抗網(wǎng)絡(luò)。學(xué)術(shù)界和工業(yè)界都開始接受并歡迎GAN的到來想邦。GAN的崛起不可避免做祝。
首先,GAN最厲害的地方是它的學(xué)習(xí)性質(zhì)是無監(jiān)督的客燕。GAN也不需要標(biāo)記數(shù)據(jù),這使GAN功能強(qiáng)大狰贯,因為數(shù)據(jù)標(biāo)記的工作非骋泊辏枯燥赏廓。
其次,GAN的潛在用例使它成為交談的中心还绘。它可以生成高質(zhì)量的圖像楚昭,圖片增強(qiáng),從文本生成圖像拍顷,將圖像從一個域轉(zhuǎn)換為另一個域,隨年齡增長改變臉部外觀等等塘幅。這個名單是遠(yuǎn)遠(yuǎn)不夠的昔案。我們將在本文中介紹一些流行的GAN架構(gòu)。
第三电媳,圍繞GAN不斷的研究是如此令人著迷踏揣,以至于它吸引了其他所有行業(yè)的注意力。我們將在本文后面部分討論重大技術(shù)突破匾乓。
誕生
生成對抗網(wǎng)絡(luò)(GAN)具有兩個網(wǎng)絡(luò)捞稿,生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)。這兩個網(wǎng)絡(luò)可以是神經(jīng)網(wǎng)絡(luò)拼缝,從卷積神經(jīng)網(wǎng)絡(luò)娱局,遞歸神經(jīng)網(wǎng)絡(luò)到自動編碼器。在這種配置中咧七,兩個網(wǎng)絡(luò)參與競爭游戲并試圖相互超越衰齐,同時幫助他們完成自己的任務(wù)。經(jīng)過數(shù)千次迭代后继阻,如果一切順利耻涛,生成器網(wǎng)絡(luò)可以完美生成逼真的虛假圖像,并且鑒別器網(wǎng)絡(luò)可以很好地判斷的圖像是真實的還是虛假的瘟檩。換句話說抹缕,生成器網(wǎng)絡(luò)將來自潛在空間的隨機(jī)噪聲矢量(不是來自潛在空間的所有GAN樣本)變換為真實數(shù)據(jù)集的樣本。GAN的訓(xùn)練是一個非常直觀的過程墨辛。
GAN具有大量的實際用例卓研,如圖像生成,藝術(shù)品生成背蟆,音樂生成和視頻生成鉴分。此外,它還可以提高圖像質(zhì)量带膀,圖像風(fēng)格化或著色志珍,面部生成以及其他更多有趣的任務(wù)。
圖片來源:O'Reilly
上圖表示了一般的GAN網(wǎng)絡(luò)的架構(gòu)垛叨。首先伦糯,從潛在空間采樣D維的噪聲矢量并發(fā)送到生成器網(wǎng)絡(luò)柜某。生成器網(wǎng)絡(luò)將該噪聲矢量轉(zhuǎn)換為圖像。然后將生成的圖像發(fā)送到鑒別器網(wǎng)絡(luò)以進(jìn)行分類敛纲。鑒別器網(wǎng)絡(luò)不斷地從真實數(shù)據(jù)集和由發(fā)生器網(wǎng)絡(luò)生成的圖像獲得圖像喂击。它的工作是區(qū)分真實和虛假的圖像。所有GAN架構(gòu)都遵循這樣的設(shè)計淤翔。
青春期
在青春期翰绊,GAN產(chǎn)生了許多流行的架構(gòu),如DCGAN旁壮,StyleGAN监嗜,BigGAN,StackGAN抡谐,Pix2pix裁奇,Age-cGAN,CycleGAN等麦撵。這些結(jié)構(gòu)的結(jié)果都非常令人滿意刽肠。下面詳細(xì)討論這些GAN架構(gòu)。
DCGAN
這是第一次在GAN中使用卷積神經(jīng)網(wǎng)絡(luò)并取得了非常好的結(jié)果免胃。之前音五,CNN在計算機(jī)視覺方面取得了前所未有的成果。但在GAN中還沒有開始應(yīng)用CNNs杜秸。Alec Radford放仗,Luke Metz,Soumith Chintala等人“Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks”提出了DCGAN撬碟。這是GAN研究的一個重要里程碑诞挨,因為它提出了一個重要的架構(gòu)變化來解決訓(xùn)練不穩(wěn)定,模式崩潰和內(nèi)部協(xié)變量轉(zhuǎn)換等問題呢蛤。從那時起惶傻,基于DCGAN的架構(gòu)就被應(yīng)用到了許多GAN架構(gòu)。
來源:https://arxiv.org/pdf/1511.06434.pdf
BigGAN
這是GAN中用于圖像生成的最新進(jìn)展其障。一個谷歌的實習(xí)生和谷歌DeepMind部門的兩名研究人員發(fā)表了一篇“Large Scale GAN Training for High Fidelity Natural Image Synthesis”的論文银室。本文是來自Heriot-Watt大學(xué)的Andrew Brock與來自DeepMind的Jeff Donahue和Karen Simonyan合作的實習(xí)項目。
來源:https://arxiv.org/pdf/1809.11096.pdf
這些圖像都是由BigGAN生成励翼,正如你看到的蜈敢,圖像的質(zhì)量足以以假亂真。這是GAN首次生成具有高保真度和低品種差距的圖像汽抚。之前的最高初始得分為52.52抓狭,BigGAN的初始得分為166.3,比現(xiàn)有技術(shù)(SOTA)好100%造烁。此外否过,他們將Frechet初始距離(FID)得分從18.65提高到9.6午笛。這些都是非常令人印象深刻的結(jié)果。它最重要的改進(jìn)是對生成器的正交正則化苗桂。
來源:https://arxiv.org/pdf/1809.11096.pdf
StyleGAN
StyleGAN是GAN研究領(lǐng)域的另一項重大突破药磺。StyleGAN由Nvidia在題為“A Style-Based Generator Architecture for Generative Adversarial Network”的論文中介紹。
StyleGAN在面部生成任務(wù)中創(chuàng)造了新記錄煤伟。算法的核心是風(fēng)格轉(zhuǎn)移技術(shù)或風(fēng)格混合癌佩。除了生成面部外,它還可以生成高質(zhì)量的汽車便锨,臥室等圖像驼卖。這是GANs領(lǐng)域的另一項重大改進(jìn),也是深度學(xué)習(xí)研究人員的靈感來源鸿秆。
StackGAN
StackJANs由Han Zhang,Tao Xu怎囚,Hongsheng Li還有其他人在題為StackGAN: Text to Photo-Realistic Image Synthesis with Stacked Generative Adversarial Networks的論文中提出卿叽。他們使用StackGAN來探索文本到圖像的合成,得到了非常好的結(jié)果恳守。一個StackGAN由一對網(wǎng)絡(luò)組成考婴,當(dāng)提供文本描述時,可以生成逼真的圖像催烘。
來源:https://arxiv.org/pdf/1612.03242.pdf
正如上圖所看到的沥阱,提供文本描述時,StackGAN生成了逼真的鳥類圖像伊群。最重要的是生成的圖像正類似于所提供的文本考杉。文本到圖像合成有許多實際應(yīng)用,例如從一段文本描述中生成圖像舰始,將文本形式的故事轉(zhuǎn)換為漫畫崇棠,創(chuàng)建文本描述的內(nèi)部表現(xiàn)。
CycleGAN
CycleGAN有一些非常有趣的用例丸卷,例如將照片轉(zhuǎn)換為繪畫枕稀,將夏季拍攝的照片轉(zhuǎn)換為冬季拍攝的照片,將馬的照片轉(zhuǎn)換為斑馬照片谜嫉,或者相反萎坷。CycleGANs 由Jun-Yan Zhu,Taesung Park沐兰,Phillip Isola和Alexei A. Efros在題為“Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”的論文中提出哆档。CycleGAN用于不同的圖像到圖像翻譯。
來源:https://arxiv.org/pdf/1703.10593.pdf
Pix2pix
對于圖像到圖像的翻譯任務(wù)僧鲁,pix2pix也顯示出了令人印象深刻的結(jié)果虐呻。無論是將夜間圖像轉(zhuǎn)換為白天的圖像還是給黑白圖像著色象泵,或者將草圖轉(zhuǎn)換為逼真的照片等等,Pix2pix在這些例子中都表現(xiàn)非常出色斟叼。pix2pix網(wǎng)絡(luò)由Phillip Isola偶惠,Jun-Yan Zhu,Tinghui Zhou和Alexei A. Efros在他們的題為“Image-to-Image Translation with Conditional Adversarial Networks”的論文中提出朗涩。
來源:https://phillipi.github.io/pix2pix/
這是一個交互式的演示忽孽,從草圖生成真實圖像。
Age-cGAN(Age Conditional Generative Adversarial Networks)
面部老化有許多行業(yè)用例谢床,包括跨年齡人臉識別兄一,尋找失蹤兒童,或者用于娛樂识腿。Grigory Antipov出革,Moez Baccouche和Jean-Luc Dugelay在他們的題為“Face Aging with Conditional Generative Adversarial Networks”的論文中提出了用條件GAN進(jìn)行面部老化。
該圖顯示了Age-cGAN是怎樣從原來的年齡轉(zhuǎn)換為目標(biāo)年齡的渡讼。
這些都是非常流行的GAN架構(gòu)骂束。除了這些,還有數(shù)以千計的GAN架構(gòu)成箫。這取決于哪種架構(gòu)適合您的需求展箱。
崛起
正如著名理論物理學(xué)家理查德費曼所說:
“What I can’t create, I don’t understand”
GAN的思想是訓(xùn)練已知數(shù)據(jù)的網(wǎng)絡(luò)。GAN開始了解數(shù)據(jù)蹬昌,通過這種理解解創(chuàng)建逼真的圖像混驰。
Edmond de Belamy
由GAN創(chuàng)作的Edmond de Belamy在佳士得拍賣會上以432,500美元的價格成交。這是GAN發(fā)展的重要一步皂贩,全世界第一次目睹了GAN及其潛力栖榨。在此之前,GAN主要局限于研究實驗室先紫,并由機(jī)器學(xué)習(xí)工程師使用治泥。這一行為使GAN成為面向公眾的一個入口。
這個人并不存在
您可能會熟悉https://thispersondoesnotexist.com這個網(wǎng)站遮精。它是由優(yōu)步的軟件工程師Philip Wan創(chuàng)建居夹。他根據(jù)NVIDIA發(fā)布的名為StyleGAN的代碼創(chuàng)建了這個網(wǎng)站。每當(dāng)你刷新時本冲,它都會生成一個新的不存在的人臉准脂,看起來無法判斷它是否是假的。這項技術(shù)有可能創(chuàng)造一個完全的虛擬世界檬洞。
來源:https://thispersondoesnotexist.com/
實在是太棒了狸膏!
Deep Fakes
DeepFakes是另一個可怕的具有破壞性的技術(shù)√碚基于GAN湾戳,可以將人臉粘貼到視頻中的目標(biāo)人物上贤旷。人們找到這項技術(shù)的缺點,但對于AI研究人員來說砾脑,這是一個重大突破幼驶。這項技術(shù)有可能在電影行業(yè)節(jié)省數(shù)百萬美元,在那里需要數(shù)小時的編輯來改變面對的特技演員韧衣。
這項技術(shù)很可怕盅藻,但我們也可以把他用在對社會好的一面。
來源:https://thenextweb.com/artificial-intelligence/2018/02/21/deepfakes-algorithm-nails-donald-trump-in-most-convincing-fake-yet/
未來發(fā)展
StyleGAN目前是GitHub上第六熱門的python項目畅铭。到目前為止提出的GAN的數(shù)量已經(jīng)達(dá)到了數(shù)千氏淑。這個GitHub倉庫有一個受歡迎的GAN列表及論文:https://github.com/hindupuravinash/the-gan-zoo
現(xiàn)在
GAN已被用于增強(qiáng)游戲圖形。我對GAN的這種用例感到非常興奮硕噩。最近假残,NVIDIA發(fā)布了一個視頻,其中展示了如何使用GAN對視頻中的環(huán)境進(jìn)行游戲化炉擅。
結(jié)論
在本文中守问,我們看到了GAN如何發(fā)展壯大并成為一種全球現(xiàn)象。我希望在未來幾年GAN達(dá)到民主化坑资。在本文中,我們從GAN的誕生開始穆端,然后了解了一些流行的GAN架構(gòu)袱贮,最后,我們看到了GAN的崛起体啰。當(dāng)我看到關(guān)于GAN的負(fù)面新聞時感到有些困惑攒巍。我相信,我們有責(zé)任讓每個人都了解GAN帶來的影響荒勇,以及我們?nèi)绾伪M可能在倫理道德內(nèi)使用GAN柒莉。
作者:人工智能遇見磐創(chuàng)
鏈接:http://www.reibang.com/p/45ea32439d46
來源:簡書
簡書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處沽翔。