為什么GAN難以訓(xùn)練


翻譯博客:GAN?—?Why it is so hard to train Generative Adversarial Networks!

通常情況下垄开,識(shí)別莫奈的繪畫(huà)要比模仿莫奈的繪畫(huà)更容易膘滨。在GAN中也是同樣的道理吱涉,生成模型(創(chuàng)造數(shù)據(jù))要比判別模型(處理數(shù)據(jù))難很多蓖墅。通過(guò)研究,我們了解了在訓(xùn)練GAN過(guò)程中遇到的一些基本問(wèn)題勺择。我們將研究一些分歧贰锁,以便指明我們的研究方向。在研究這些問(wèn)題之前固以,我們回顧一下GAN方程式墩虹。

GAN

GAN采用標(biāo)準(zhǔn)或均勻分布來(lái)提供噪聲z,并利用深度網(wǎng)絡(luò)生成模型G來(lái)創(chuàng)建圖像x(x=G(z))憨琳。

在GAN中诫钓,我們?cè)黾恿伺袆e器來(lái)區(qū)分判別器的輸入是來(lái)自于真實(shí)數(shù)據(jù)還是生成的數(shù)據(jù)。輸出值D(x)來(lái)估計(jì)是真的概率栽渴。

目標(biāo)函數(shù)與梯度

GAN定義了通過(guò)極小極大化游戲尖坤,其目標(biāo)函數(shù)為:

以下圖標(biāo)總結(jié)了我們?nèi)绾问褂孟鄳?yīng)的梯度來(lái)訓(xùn)練判別器和生成器

GAN問(wèn)題

許多GAN模型面臨以下幾個(gè)主要問(wèn)題:

1.不收斂:模型參數(shù)震蕩,動(dòng)搖闲擦,不收斂慢味。

2.模式崩潰:有限的樣本導(dǎo)致生成器崩潰场梆。

3.梯度弱化:判別器太成功了,生成器梯度消失纯路,什么也沒(méi)學(xué)到或油。

生成器和辨別器不平衡導(dǎo)致過(guò)擬合,高度敏感的超參選擇驰唬。

模型

真實(shí)數(shù)據(jù)分布具有多模態(tài)性顶岸。例如,MNIST有10個(gè)模型從數(shù)字‘0’到數(shù)字‘9’叫编。以下樣本由兩個(gè)不同的GAN產(chǎn)生辖佣。上面一行生成了10個(gè)模型而下面一行只創(chuàng)建了一個(gè)模型(數(shù)字‘6’)。該問(wèn)題屬于模式崩潰當(dāng)只有少量的模型數(shù)據(jù)被生成搓逾。

納什均衡

GAN是基于零和非合作游戲The zero-sum non-cooperative game卷谈。如果一方贏則另一方輸。零和游戲也叫極小極大化游戲霞篡。你的對(duì)手想要最大化它的行為世蔗,但是你的行為是將他們最小化。在博弈過(guò)程中朗兵,當(dāng)判別模型和生成模型達(dá)到了納什均衡時(shí)GAN模型收斂污淋。這也是下面公式的最優(yōu)解:

因?yàn)殡p方都想破壞對(duì)方,所以當(dāng)一方無(wú)論對(duì)手可能做什么都不會(huì)改變其動(dòng)作時(shí)余掖,就會(huì)發(fā)生納什均衡寸爆。考慮兩個(gè)對(duì)手A和B盐欺,分別控制xy值而昨。A想最大化值xy而B(niǎo)想最小化它。

則納什均衡為x=y=0找田。這也是唯一狀態(tài)你的對(duì)手的任何行為都無(wú)關(guān)緊要了。對(duì)手的任何狀態(tài)都不會(huì)改變游戲的結(jié)果着憨。

那么是否可以通過(guò)梯度下降方法找到納什均衡呢墩衙?我們更新參數(shù)xy基于值函數(shù)的梯度。

其中\alpha是學(xué)習(xí)率甲抖。當(dāng)將x漆改,yxy的訓(xùn)練過(guò)程圖示出來(lái),我們意識(shí)到我們的解永遠(yuǎn)不會(huì)收斂准谚。

如果我們?cè)黾訉W(xué)習(xí)率或者訓(xùn)練模型的長(zhǎng)度挫剑,我們發(fā)現(xiàn)參數(shù)xy非常不穩(wěn)定。

我們的例子充分展示了一些代價(jià)函數(shù)不會(huì)因?yàn)樘荻认陆祵?dǎo)致收斂柱衔,特別是對(duì)于非凸函數(shù)樊破。我們可以直觀地看待這個(gè)問(wèn)題:你的對(duì)手總是對(duì)你的行為采取對(duì)策愉棱,這使得模型更難以收斂。

基于KL-Divergence的生成模型

為了理解GAN中的收斂問(wèn)題哲戚,我們將研究KL-divergence和JS-divergence奔滑。在提出GAN之前,很多生成模型創(chuàng)建模型\theta來(lái)最大化最大似然估計(jì)MLE顺少。例如朋其,找到最好的模型參數(shù)適合大部分的訓(xùn)練數(shù)據(jù)。

這與最小化KL-divergence相同脆炎,其測(cè)量概率分布q(估計(jì)分布)如何偏離預(yù)期概率分布p(實(shí)際分布)梅猿。

KL-divergence是非對(duì)稱(chēng)的

對(duì)于p(x)\to 0區(qū)域,KL(x)下降到0秒裕。例如袱蚓,在下面的圖右中,紅色的曲線對(duì)應(yīng)D(p,q)簇爆。當(dāng)x>2其中p接近0時(shí)癞松,紅色曲線下降到0。

這有什么含義入蛆?當(dāng)它失去圖像中的一些模型時(shí)响蓉,KL-divergenceDL(p,q)可以懲罰生成器:當(dāng)p(x)>0但是q(x)\to 0時(shí),懲罰率高哨毁。但是枫甲,它會(huì)接受一些看起來(lái)非真實(shí)的圖像。當(dāng)p(x)\to 0但是q(x)> 0時(shí)扼褪,懲罰率低想幻。(更好的質(zhì)量但是更少的樣本)。

一些生成模型采用MLE來(lái)生成模型话浇。最初認(rèn)為KL-divergence導(dǎo)致交叉的圖像質(zhì)量(模糊圖像)脏毯。但要注意的是,一些經(jīng)驗(yàn)實(shí)驗(yàn)可能會(huì)對(duì)這一說(shuō)法提出異議幔崖。

JS-Divergence

JS-divergence的定義如下:

JS-divergence是對(duì)稱(chēng)的食店。與KL-divergence不同,它將懲罰不良的圖片(當(dāng)p(x)\to 0q(x)>0)赏寇。在GAN中吉嫩,如果判別器是最優(yōu)的(在區(qū)分圖片時(shí)具有良好的性能),生成模型的目標(biāo)函數(shù)變?yōu)椋?/p>

因此嗅定,優(yōu)化生成模型被視為對(duì)JS-divergence進(jìn)行優(yōu)化自娩。在實(shí)驗(yàn)中,與使用KL-divergence的其它生成模型相比渠退,GAN能夠產(chǎn)生更好的圖像忙迁。因此脐彩,早期研究者設(shè)想優(yōu)化JS-divergence而不是KL-divergence來(lái)創(chuàng)建質(zhì)量高的但是缺乏多樣性的圖像。但是动漾,一些研究者已經(jīng)質(zhì)疑了這類(lèi)說(shuō)法丁屎,因?yàn)槭褂肕LE的GAN實(shí)驗(yàn)產(chǎn)生的圖像質(zhì)量相似但仍然存在圖像多樣性問(wèn)題。但是旱眯,在正對(duì)GAN訓(xùn)練中JS-divergence所面臨的缺陷方面晨川,已經(jīng)做了許多努力。無(wú)論辯論如何删豺,這些成功都非常重要共虑。因此,接下來(lái)我們將深入探討JS-divergence的問(wèn)題呀页。

JS-Divergence中的梯度消失

當(dāng)判別器最優(yōu)時(shí)妈拌,生成模型的目標(biāo)函數(shù)為:

當(dāng)生成的圖像的數(shù)據(jù)分布p與真實(shí)圖像的數(shù)據(jù)分布q不匹配時(shí),JS-divergence梯度會(huì)發(fā)生什么蓬蝶?考慮一個(gè)例子尘分,pq服從高斯分布,且p的均值為0丸氛。.考慮不同均值下的q來(lái)研究JS(p,q)的梯度培愁。

這里,我們給出了pq之間的JS-divergenceJS(p,q),其中q的均值在0到30之間。如下圖所示肩钠,JS-divergence的梯度消失了從q_1q_3。當(dāng)這些區(qū)域的代價(jià)飽和時(shí)输瓜,GAN的生成器的學(xué)習(xí)會(huì)極其緩慢。特別是在早期訓(xùn)練中,pq是非常不同的,并且生成器學(xué)習(xí)的非常慢倡鲸。

不穩(wěn)定的梯度

由于梯度消失,原始GAN論文提出了另一種代價(jià)函數(shù)來(lái)解決梯度消失問(wèn)題黄娘。

根據(jù)Arjovsky的另一篇論文旦签,相應(yīng)的梯度為:

它包括了一個(gè)反向KL-divergence項(xiàng),Arjovsky使用它來(lái)解釋為什么GAN與基于KL-divergence的生產(chǎn)模型相比具有更高的質(zhì)量但多樣性少的圖像寸宏。但同樣的分析聲稱(chēng)梯度波動(dòng)并導(dǎo)致模型不穩(wěn)定。為了說(shuō)明這一點(diǎn)偿曙,Arjovsky凍結(jié)生產(chǎn)器并持續(xù)訓(xùn)練判別器氮凝。隨著更大的變體,生成器的梯度開(kāi)始增加望忆。

上面的實(shí)驗(yàn)不是我們?nèi)绾斡?xùn)練GAN罩阵。然而竿秆,在數(shù)學(xué)上,Arjovsky顯示第一個(gè)GAN生成器的目標(biāo)函數(shù)具有消失的梯度稿壁,而替代代價(jià)函數(shù)具有波動(dòng)的梯度幽钢,導(dǎo)致模型的不穩(wěn)定性。自最初的GAN以來(lái)傅是,尋找新的代價(jià)函數(shù)匪燕,如LSGAN,WGAN喧笔,WGAN-GP帽驯,BEGAN等。有些方法基于新的數(shù)學(xué)模型书闸,其他方法基于直覺(jué)通過(guò)實(shí)驗(yàn)備份尼变。目標(biāo)是找到具有更平滑和非消失梯度的代價(jià)函數(shù)。

然而浆劲,2017年谷歌大腦論文“GAN創(chuàng)建平等嫌术?”聲稱(chēng):最終,我們沒(méi)有發(fā)現(xiàn)任何經(jīng)過(guò)測(cè)試的算法始終由于原始算法的證據(jù)牌借。

如果任何新提出的代價(jià)函數(shù)在提高圖像質(zhì)量方面取得了巨大成功度气,我們就不會(huì)有這種爭(zhēng)論。關(guān)于Arjovsky數(shù)學(xué)模型中原始代價(jià)函數(shù)的的世界末日?qǐng)D片也沒(méi)有完全實(shí)現(xiàn)走哺。但我會(huì)謹(jǐn)慎地提醒讀者過(guò)早的斷言代價(jià)函數(shù)并不重要蚯嫌。我認(rèn)為訓(xùn)練GAN容易失敗,不應(yīng)該在一開(kāi)始時(shí)嘗試許多成本函數(shù)丙躏,而是應(yīng)該在隨機(jī)嘗試代價(jià)函數(shù)之前調(diào)試設(shè)計(jì)和代碼择示。接下來(lái)嘗試調(diào)整超參數(shù),因?yàn)镚AN模型對(duì)它們很敏感晒旅。

為什么GAN中模式會(huì)崩潰栅盲?

模式崩潰是GAN中最難解決的問(wèn)題之一。徹底崩潰不常見(jiàn)废恋,但經(jīng)常發(fā)生部分崩潰谈秫。下面帶有相同下劃線顏色的圖像看起來(lái)相似,模式開(kāi)始崩潰鱼鼓。

讓我們來(lái)觀察它會(huì)發(fā)生什么拟烫。GAN生成器的目標(biāo)是創(chuàng)建可以最大程度地欺騙判別器D的圖像。

但是我們來(lái)考慮一個(gè)極端情況迄本,其中G被廣泛訓(xùn)練而沒(méi)有對(duì)D進(jìn)行更新硕淑。生成的圖像將會(huì)收斂找到最佳的圖像x^*,該圖像能夠糊弄D,從判別器角度看是最逼真的圖像置媳。在這個(gè)極端情況下于樟,x^*將獨(dú)立于z

模式崩潰為單點(diǎn)拇囊。與z相關(guān)的梯度接近0迂曲。

當(dāng)我們?cè)谂袆e器中重新開(kāi)始訓(xùn)練時(shí),檢測(cè)生成圖像的最有效方法是檢測(cè)這種單一模型寥袭。由于生成器已經(jīng)對(duì)z的影響不敏感路捧,因此來(lái)自判別器的梯度可能會(huì)將單點(diǎn)推到下一個(gè)最脆弱的模式。生成器在訓(xùn)練中產(chǎn)生這種不平衡的模式纠永,這會(huì)降低其檢測(cè)其它模型的能力△蕹ぃ現(xiàn)在,兩個(gè)網(wǎng)絡(luò)都過(guò)于適應(yīng)利用短期對(duì)手的弱點(diǎn)尝江。這變成了貓捉老鼠游戲涉波,模型不會(huì)收斂。

在下圖中炭序,Unroll GAN設(shè)法生成所有8種預(yù)期的數(shù)據(jù)模式啤覆。第二行顯示另一個(gè)GAN,當(dāng)判別器趕上時(shí)惭聂,模式崩潰并旋轉(zhuǎn)到另一個(gè)模式窗声。

在訓(xùn)練期間,不斷更新判別器以檢測(cè)對(duì)手辜纲。因此笨觅,生成器不太可能過(guò)度擬合。在實(shí)踐中耕腾,我們對(duì)模式崩潰的理解仍然有限见剩。我們上面的直觀解釋可能過(guò)于簡(jiǎn)單了。通過(guò)經(jīng)驗(yàn)實(shí)驗(yàn)開(kāi)發(fā)并驗(yàn)證了緩解方法扫俺。然而苍苞,GAN訓(xùn)練仍然是一個(gè)啟發(fā)式過(guò)程。部分崩潰仍然很常見(jiàn)狼纬。

但是模式崩潰并不都是壞消息羹呵。在使用GAN的樣式遷移中,我們很樂(lè)意將一個(gè)圖像轉(zhuǎn)換為一個(gè)好的圖像疗琉,而不是找到所有變體冈欢。實(shí)際上,局部模式崩潰的專(zhuān)業(yè)性有時(shí)會(huì)產(chǎn)生更高質(zhì)量的圖像盈简。

超參和訓(xùn)練

如果沒(méi)有合適的超參凑耻,沒(méi)有代價(jià)函數(shù)可以工作犯戏,調(diào)整它們需要時(shí)間和耐心。新的成本函數(shù)可能會(huì)引入具有敏感性能的超餐數(shù)拳话。

平衡判別器和生成器

不收斂以及模式崩潰經(jīng)常被解釋為判別器和生成器不平衡。顯而易見(jiàn)的解決方案是平衡它們的訓(xùn)練避免過(guò)擬合种吸。然而弃衍,很少取得進(jìn)展,但并非因?yàn)槿狈L試坚俗。一些研究人員認(rèn)為镜盯,這不是一個(gè)可行或理想的目標(biāo),因?yàn)榱己玫呐袆e器可以提供良好的反饋猖败。因此速缆,一些注意力轉(zhuǎn)移到具有非消失梯度的成本函數(shù)。

代價(jià)VS圖像質(zhì)量

在判別模型中恩闻,損失函數(shù)測(cè)量預(yù)測(cè)的準(zhǔn)確性艺糜,我們使用它來(lái)監(jiān)控訓(xùn)練的進(jìn)度。但是幢尚,GAN的損失函數(shù)測(cè)量我們比對(duì)手相比的表現(xiàn)破停。通常情況下,生成器代價(jià)會(huì)增加尉剩,但圖像質(zhì)量實(shí)際上正在提高真慢。我們回過(guò)頭來(lái)手動(dòng)檢查生成的圖像以驗(yàn)證進(jìn)度。這使得模型比較更加困難理茎,從而導(dǎo)致難以在一次運(yùn)行中選擇最佳模型黑界。這也使調(diào)優(yōu)過(guò)程變得復(fù)雜。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末皂林,一起剝皮案震驚了整個(gè)濱河市朗鸠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌式撼,老刑警劉巖童社,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異著隆,居然都是意外死亡扰楼,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)美浦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)弦赖,“玉大人,你說(shuō)我怎么就攤上這事浦辨〉攀” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)币厕。 經(jīng)常有香客問(wèn)我列另,道長(zhǎng),這世上最難降的妖魔是什么旦装? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任页衙,我火速辦了婚禮,結(jié)果婚禮上阴绢,老公的妹妹穿的比我還像新娘店乐。我一直安慰自己,他們只是感情好呻袭,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布眨八。 她就那樣靜靜地躺著,像睡著了一般左电。 火紅的嫁衣襯著肌膚如雪廉侧。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天券腔,我揣著相機(jī)與錄音伏穆,去河邊找鬼。 笑死纷纫,一個(gè)胖子當(dāng)著我的面吹牛枕扫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播辱魁,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼烟瞧,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了染簇?” 一聲冷哼從身側(cè)響起参滴,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎锻弓,沒(méi)想到半個(gè)月后砾赔,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡青灼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年暴心,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片杂拨。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡专普,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出弹沽,到底是詐尸還是另有隱情檀夹,我是刑警寧澤筋粗,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站炸渡,受9級(jí)特大地震影響娜亿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蚌堵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一暇唾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧辰斋,春花似錦、人聲如沸瘸味。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)旁仿。三九已至藕夫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間枯冈,已是汗流浹背毅贮。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留尘奏,地道東北人滩褥。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像炫加,于是被迫代替她去往敵國(guó)和親瑰煎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容