WGAN有時(shí)仍能生成不良樣本或者無法收斂的原因是因?yàn)槭褂脵?quán)重裁剪對(duì)評(píng)論家施加了Lipschitz約束,本文提出了一種削減權(quán)重的替代方法,能夠有效地解決上述問題。
介紹
作者貢獻(xiàn)如下:
- 在玩具數(shù)據(jù)集上灰殴,我們演示了批評(píng)者減重會(huì)如何導(dǎo)致不良行為。
- 我們提出了梯度罰分(WGAN-GP)掰邢,它不會(huì)遇到相同的問題牺陶。
- 我們演示了各種GAN架構(gòu)的穩(wěn)定訓(xùn)練,重量裁剪的性能改進(jìn)辣之,高質(zhì)量圖像生成以及字符級(jí)GAN語言模型掰伸,而無需任何離散采樣。
背景
GANs
生成對(duì)抗網(wǎng)絡(luò)GAN訓(xùn)練策略是定義兩個(gè)競爭網(wǎng)絡(luò)之間的博弈怀估。 發(fā)生器網(wǎng)絡(luò)將噪聲源映射到輸入空間狮鸭。 鑒別器網(wǎng)絡(luò)接收生成的樣本或真實(shí)數(shù)據(jù)樣本,并且必須區(qū)分兩者多搀。 訓(xùn)練了生成器以欺騙鑒別器歧蕉。
正式地,生成器G和鑒別器D之間的博弈是最小極大目標(biāo):
其中是數(shù)據(jù)分布康铭,而是由隱式定義的模型分布(生成器的輸入z是從一些簡單的噪聲分布p中采樣的,例如均勻分布 或球形高斯分布)从藤。
如果在每個(gè)生成器參數(shù)更新之前將鑒別器訓(xùn)練到最佳狀態(tài)催跪,則最小化值函數(shù)就等于最小化和之間的Jensen-Shannon散度,但這樣做通常會(huì)導(dǎo)致鑒別器飽和時(shí)梯度消失夷野。 在實(shí)踐中懊蒸,對(duì)生成器進(jìn)行訓(xùn)練,以使其最大化悯搔,這在某種程度上可以避免這種困難榛鼎。 但是,即使存在改進(jìn)的判別器鳖孤,即使修改后的損失函數(shù)也可能無法正常工作者娱。
Wasserstein GANs
認(rèn)為GAN通常將最小化的差異相對(duì)于生成器的參數(shù)而言可能不是連續(xù)的,從而導(dǎo)致訓(xùn)練困難苏揣。 他們建議改為使用Earth-Mover(也稱為Wasserstein-1)距離W(q黄鳍,p),非正式地將其定義為運(yùn)輸質(zhì)量的最小成本平匈,以便將分布q轉(zhuǎn)換為分布p(其中成本為 質(zhì)量乘以運(yùn)輸距離)框沟。 在溫和的假設(shè)下藏古,W(q,p)在任何地方都是連續(xù)的忍燥,幾乎在任何地方都是可微的拧晕。
使用Kantorovich-Rubinstein對(duì)偶構(gòu)造WGAN值函數(shù),以獲得:
其中D是1-Lipschitz函數(shù)的集合梅垄,再次是由隱式定義的模型分布。 在這種情況下队丝,在最佳判別器下(由于未經(jīng)過分類靡馁,因此在本文中稱為評(píng)論者),將針對(duì)生成器參數(shù)值函數(shù)最小化可使最小化臭墨。
WGAN值函數(shù)會(huì)生成一個(gè)注釋函數(shù),該注釋函數(shù)的輸入梯度要比GAN對(duì)應(yīng)函數(shù)更好膘盖,從而使生成器的優(yōu)化更加容易胧弛。 根據(jù)經(jīng)驗(yàn),還觀察到WGAN值函數(shù)似乎與樣品質(zhì)量相關(guān)侠畔,而GAN并非如此叶圃。
為了對(duì)評(píng)論家施加Lipschitz約束,建議將評(píng)論家的權(quán)重限制在緊湊的空間[-c践图,c]中掺冠。 滿足此約束的函數(shù)集是某些k的k-Lipschitz函數(shù)的子集,它取決于c和注釋器體系結(jié)構(gòu)码党。 在以下各節(jié)中德崭,我們將演示此方法的一些問題并提出替代方法。
最優(yōu)WGAN評(píng)論家屬性
為了理解為什么權(quán)重削減在WGAN評(píng)論家中是有問題的揖盘,并且為了激發(fā)我們的方法眉厨,我們在WGAN框架中重點(diǎn)介紹了最佳評(píng)論家的一些屬性。
命題1
讓和作為(一個(gè)緊湊的度量空間)的兩個(gè)分布兽狭。然后存在一個(gè)1-Lipschitz函數(shù)憾股,它是的最優(yōu)解。設(shè)是和之間的最佳耦合箕慧,定義為以下各項(xiàng)的最小化:,其中是聯(lián)合分布的集合,其邊界分別為和服球。然后,如果是可微的颠焦,,并且,則認(rèn)為
推論1
在和下幾乎到處都具有梯度1范數(shù)斩熊。
權(quán)重限制的困難
我們發(fā)現(xiàn),WGAN中的權(quán)重削減會(huì)導(dǎo)致優(yōu)化困難伐庭,并且即使優(yōu)化成功粉渠,所產(chǎn)生的批評(píng)者也可能具有病理性的價(jià)值表面。 我們在下面解釋這些問題并演示其效果霸株; 但是,我們不主張每個(gè)人在實(shí)踐中總是存在坡椒,也不是它們是唯一的這種機(jī)制。
我們的實(shí)驗(yàn)使用來自WGAN的權(quán)重約束的特定形式(每個(gè)權(quán)重的大小的硬限幅)箫攀,但我們還嘗試了其他權(quán)重約束(L2范數(shù)限幅幼衰,權(quán)重歸一化)以及軟約束(L1和L2權(quán)重衰減),并發(fā)現(xiàn)它們也存在類似的問題渡嚣。
在一定程度上梢睛,可以通過批注者中的批處理規(guī)范化來緩解這些問題,WGAN在他們的所有實(shí)驗(yàn)中都使用了批處理規(guī)范化识椰。 但是腹鹉,即使使用批處理歸一化,我們也觀察到非常深刻的WGAN評(píng)論家經(jīng)常無法收斂 愉阎。
WGAN評(píng)論家的價(jià)值表面使用(頂部)權(quán)重裁剪和(底部)梯度懲罰對(duì)玩具數(shù)據(jù)集進(jìn)行了優(yōu)化訓(xùn)練榜旦。 受過權(quán)重削減訓(xùn)練的評(píng)論家無法捕捉到更高的數(shù)據(jù)分布時(shí)刻景殷。 “發(fā)生器”固定為實(shí)際數(shù)據(jù)加上高WGAN評(píng)論家在Swiss Roll數(shù)據(jù)集上訓(xùn)練期間的高斯噪聲猿挚。
第一個(gè)圖,當(dāng)WGAN使用權(quán)重裁剪時(shí)會(huì)爆炸或消失休偶,但使用梯度罰分時(shí)則不會(huì)爆炸踏兜。下圖權(quán)重裁剪(頂部)將權(quán)重推向兩個(gè)值(裁剪范圍的極限),與梯度懲罰(底部)不同:WGAN中的梯度懲罰不會(huì)表現(xiàn)出諸如權(quán)重裁剪的不良行為肉盹。
能力未充分使用
通過權(quán)重裁剪實(shí)現(xiàn)k-Lipshitz約束會(huì)使評(píng)論家偏向更簡單的功能。 如先前在推論1中所述上忍,最優(yōu)的WGAN評(píng)論家?guī)缀踉?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cmathbb%7BP%7D_r" alt="\mathbb{P}_r" mathimg="1">和下的任何地方都有單位梯度范數(shù)窍蓝。 在權(quán)重削減約束下繁成,我們觀察到試圖達(dá)到最大梯度范數(shù)k的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)最終學(xué)習(xí)了非常簡單的函數(shù)巾腕。為了證明這一點(diǎn)尊搬,我們訓(xùn)練了WGAN評(píng)論家,權(quán)重削減在多個(gè)玩具分布上都達(dá)到了最優(yōu)幌墓。 生成器分布固定為實(shí)際分布加上單位方差高斯噪聲冀泻。 我們在第一張圖中繪制了批評(píng)家的價(jià)值面腔长。 我們在批注者中省略了批量標(biāo)準(zhǔn)化捞附。 在每種情況下,經(jīng)過權(quán)重裁剪訓(xùn)練的評(píng)論家都忽略了數(shù)據(jù)分布的更高時(shí)刻胆绊,而是對(duì)最佳函數(shù)進(jìn)行了非常簡單的近似建模欧募。 相反,我們的方法不受此行為的影響镣丑。
梯度消失和爆炸
我們注意到娱两,由于權(quán)重約束和成本函數(shù)之間的相互作用十兢,WGAN優(yōu)化過程很困難,這導(dǎo)致梯度的消失或爆炸而沒有仔細(xì)調(diào)整限幅閾值c遥缕。
為了證明這一點(diǎn)单匣,我們在Swiss Roll玩具數(shù)據(jù)集上訓(xùn)練了WGAN烤蜕,在中更改了裁剪閾值c堪藐,并針對(duì)連續(xù)圖層繪制了評(píng)論者損失梯度的范數(shù) 的激活礁竞。 生成器和j鑒別器都是12層ReLU MLP,沒有批量標(biāo)準(zhǔn)化捶朵。 第二張圖顯示综看,對(duì)于這些值中的每一個(gè)岖食,隨著我們在網(wǎng)絡(luò)中移回更遠(yuǎn)泡垃,梯度都會(huì)呈指數(shù)增長或衰減羡鸥。 我們發(fā)現(xiàn)我們的方法產(chǎn)生了既不消失也不爆炸的更穩(wěn)定的梯度兄春,從而可以訓(xùn)練更復(fù)雜的網(wǎng)絡(luò)赶舆。
梯度懲罰
我們現(xiàn)在提出一種替代的方法來執(zhí)行Lipschitz約束祭饭。 一個(gè)可微分函數(shù)是1-Lipschtiz倡蝙,當(dāng)且僅當(dāng)該梯度在任何地方都具有最多1范數(shù)的漸變時(shí),因此我們考慮相對(duì)其輸入直接限制評(píng)論家輸出的梯度范數(shù)猪钮。 為了規(guī)避易處理性問題烤低,我們對(duì)約束條件的軟版本進(jìn)行了約束笆载,對(duì)隨機(jī)樣本的梯度范數(shù)進(jìn)行了懲罰凉驻。 我們的新目標(biāo)是:
采樣分布
我們隱含地定義從數(shù)據(jù)分布和發(fā)生器分布沿兩對(duì)點(diǎn)之間的直線均勻地進(jìn)行采樣雄家。 這是由以下事實(shí)引起的:最佳評(píng)論家包含具有梯度1范數(shù)的直線胀滚,這些直線連接和的耦合點(diǎn)(請參閱命題1)蛛淋。 鑒于在任何地方強(qiáng)制執(zhí)行單位梯度范數(shù)約束都是棘手的褐荷,僅沿這些直線執(zhí)行它似乎已足夠,并且在實(shí)驗(yàn)上會(huì)產(chǎn)生良好的性能层宫。
懲罰系數(shù)
本文中的所有實(shí)驗(yàn)均使用λ= 10萌腿,我們發(fā)現(xiàn)該系數(shù)在從玩具任務(wù)到大型ImageNet CNN的各種體系結(jié)構(gòu)和數(shù)據(jù)集上均能很好地工作。
無需評(píng)論家批處理規(guī)范化
大多數(shù)先前的GAN實(shí)現(xiàn)都在生成器和鑒別器中使用批處理規(guī)范化來幫助穩(wěn)定訓(xùn)練米死,但是批處理規(guī)范化將鑒別器問題的形式從將單個(gè)輸入映射到單個(gè)輸出轉(zhuǎn)換為 從整批輸入映射到整批輸出峦筒。 在這種情況下物喷,我們受懲罰的訓(xùn)練目標(biāo)不再有效遮斥,因?yàn)槲覀冡槍?duì)每個(gè)輸入而不是整個(gè)批次對(duì)評(píng)論者的漸變規(guī)范進(jìn)行了懲罰术吗。 為了解決這個(gè)問題,我們只是在模型的批注者中省略了批量歸一化材蹬,發(fā)現(xiàn)沒有它們,它們的表現(xiàn)很好末贾。 我們的方法適用于規(guī)范化方案拱撵,不會(huì)在示例之間引入相關(guān)性表蝙。 特別是府蛇,我們建議使用層歸一化作為批次歸一化的替代品。
雙向懲罰
我們鼓勵(lì)漸變的范數(shù)趨向于1(雙向懲罰)务荆,而不是僅僅保持在1(雙向懲罰)以下函匕。 從經(jīng)驗(yàn)上看盅惜,這似乎并沒有太大地限制評(píng)論家,這可能是因?yàn)檠拾玻罴训腤GAN評(píng)論家無論如何都在和下以及中間的大部分區(qū)域中都出現(xiàn)了范數(shù)為1的梯度妆棒。 在我們的早期觀察中糕珊,我們發(fā)現(xiàn)此方法的效果略好一些毅糟,但我們并未對(duì)此進(jìn)行全面調(diào)查姆另。
實(shí)驗(yàn)
在一組中訓(xùn)練隨機(jī)體系結(jié)構(gòu)
我們實(shí)驗(yàn)性地證明了模型具有訓(xùn)練大量我們認(rèn)為對(duì)訓(xùn)練有用的體系結(jié)構(gòu)的能力迹辐。 從DCGAN架構(gòu)開始,我們通過將表1中的模型設(shè)置更改為隨機(jī)的對(duì)應(yīng)值來定義一組架構(gòu)變體间学。我們認(rèn)為低葫,對(duì)該集合中的許多架構(gòu)進(jìn)行可靠的訓(xùn)練是一個(gè)有用的目標(biāo)嘿悬,但是我們不主張集合是有用架構(gòu)的整個(gè)空間的無偏或有代表性的樣本:它旨在證明我們方法的成功機(jī)制善涨,讀者應(yīng)評(píng)估它是否包含與預(yù)期應(yīng)用相似的架構(gòu)。
從這個(gè)集合中,我們對(duì)200種架構(gòu)進(jìn)行采樣娶靡,并在具有WGAN-GP和標(biāo)準(zhǔn)GAN目標(biāo)的32×32 ImageNet上進(jìn)行訓(xùn)練姿锭。 表2列出了以下情況的數(shù)量:僅標(biāo)準(zhǔn)GAN成功呻此、僅WGAN-GP成功焚鲜、都成功或都失敗,其中成功定義為初始分?jǐn)?shù)>最低分?jǐn)?shù)糯彬。 對(duì)于大多數(shù)分?jǐn)?shù)閾值選擇撩扒,WGAN-GP成功地訓(xùn)練了該集合中的許多架構(gòu)搓谆,而我們無法使用標(biāo)準(zhǔn)GAN目標(biāo)進(jìn)行訓(xùn)練豪墅。
針對(duì)不同的成功閾值螃诅,訓(xùn)練200個(gè)隨機(jī)體系結(jié)構(gòu)的結(jié)果状囱。 為了進(jìn)行比較亭枷,我們的標(biāo)準(zhǔn)DCGAN得分為7.24叨粘。
上圖使用不同方法訓(xùn)練的不同GAN架構(gòu)升敲。 我們僅使用WGAN-GP成功地通過共享的超參數(shù)集訓(xùn)練了每種架構(gòu)驴党。
在LSUN臥室上訓(xùn)練各種體系結(jié)構(gòu)
為了展示我們的模型使用默認(rèn)設(shè)置都能來訓(xùn)練許多體系結(jié)構(gòu)的能力,我們在LSUN臥室數(shù)據(jù)集上訓(xùn)練了六種不同的GAN體系結(jié)構(gòu)倔既。 除了基準(zhǔn)DCGAN架構(gòu)外渤涌,我們還選擇了六種架構(gòu)实蓬,這些架構(gòu)的成功訓(xùn)練證明了:
(1)生成器中沒有BN且濾波器數(shù)量恒定瞳秽,像WGAN所述率翅。
(2)4層512 -dim ReLU MLP生成器冕臭,如WGAN中所述
(3)鑒別器或生成器中均無歸一化
(4)門控乘法非線性辜贵,如[24]中所示
(5)tanh非線性
(6)101層ResNet 生成器和鑒別器托慨。
盡管我們并不聲稱沒有我們的方法是不可能的厚棵,但據(jù)我們所知,這是首次在GAN環(huán)境中成功訓(xùn)練非常深的殘差網(wǎng)絡(luò)狠轻。 對(duì)于每種架構(gòu)向楼,我們使用四種不同的GAN方法訓(xùn)練模型:WGAN-GP湖蜕,帶權(quán)重裁剪的WGAN,DCGAN 和Least-Squares GAN 箭阶。 對(duì)于每個(gè)目標(biāo)仇参,我們使用了該工作中建議的默認(rèn)優(yōu)化器超參數(shù)集(LSGAN除外诈乒,我們在其中搜索學(xué)習(xí)率)怕磨。
對(duì)于WGAN-GP消约,我們將鑒別符中的任何批處理歸一化替換為層歸一化。 我們訓(xùn)練每個(gè)模型進(jìn)行200K迭代导饲,并在圖2中顯示示例渣锦。我們僅使用WGAN-GP成功地使用共享的超參數(shù)集訓(xùn)練每個(gè)體系結(jié)構(gòu)。
對(duì)于其他所有訓(xùn)練方法氢哮,這些體系結(jié)構(gòu)中的某些體系都是不穩(wěn)定的或遭受模式崩潰的袋毙。
權(quán)重裁剪后提升性能
權(quán)重裁剪的方法的優(yōu)勢之一是訓(xùn)練速度和樣品質(zhì)量得到提高。為了證明這一點(diǎn)冗尤,我們在圖3的訓(xùn)練過程中使用權(quán)重裁剪訓(xùn)練WGAN听盖,并在CIFAR10上訓(xùn)練梯度罰分,并繪制初始得分裂七。對(duì)于WGAN-GP皆看,我們使用相同的優(yōu)化程序(RMSProp )和學(xué)習(xí)率訓(xùn)練具有權(quán)重裁剪的WGAN,以及另一個(gè)具有Adam和較高學(xué)習(xí)率的模型悬蔽。 即使使用相同的優(yōu)化程序,我們的方法也比權(quán)重裁剪更快捉兴,收斂性更好蝎困。 使用Adam可以進(jìn)一步提高性能。 我們還繪制了DCGAN的性能圖倍啥,發(fā)現(xiàn)我們的方法(在規(guī)定時(shí)間內(nèi))收斂得比DCGAN慢禾乘,但其分?jǐn)?shù)在收斂時(shí)更穩(wěn)定。
四個(gè)模型在生成器迭代(左)或掛鐘時(shí)間(右)上的CIFAR-10初始得分:帶權(quán)重裁剪的WGAN虽缕,帶RMSProp和Adam的WGAN-GP(用于控制優(yōu)化器)和DCGAN始藕。 WGAN-GP明顯優(yōu)于減重,并且性能與DCGAN相當(dāng)氮趋。
$$$$CIFAR-10和LSUN臥室的樣品質(zhì)量
對(duì)于同等架構(gòu)伍派,我們的方法可達(dá)到與標(biāo)準(zhǔn)GAN目標(biāo)相當(dāng)?shù)臉悠焚|(zhì)量。 但是剩胁,提高的穩(wěn)定性使我們能夠通過探索更廣泛的架構(gòu)來提高樣品質(zhì)量诉植。 為了證明這一點(diǎn),我們發(fā)現(xiàn)了一種在無人監(jiān)督的CIFAR-10上建立了最新的Inception得分的架構(gòu)(表3)昵观。 當(dāng)我們添加標(biāo)簽信息時(shí)晾腔,除了SGAN之外,相同的體系結(jié)構(gòu)都優(yōu)于其他所有已發(fā)布的模型啊犬。
CIFAR-10的初始得分灼擂。 我們的無監(jiān)督模型可實(shí)現(xiàn)最先進(jìn)的性能,我們的條件模型優(yōu)于除SGAN之外的所有其他模型觉至。
我們還在128×128 LSUN臥室上訓(xùn)練了一個(gè)深層的ResNet剔应,并在圖4中顯示了示例。我們相信语御,對(duì)于該數(shù)據(jù)集领斥,在任何分辨率下,這些示例至少都具有迄今為止所報(bào)告的最好結(jié)果.
損失曲線和檢測過度擬合的意義
權(quán)重裁剪的WGAN的一個(gè)重要好處是沃暗,其損失與樣品質(zhì)量相關(guān)月洛,并趨于最小。 為了證明我們的方法保留了此屬性孽锥,我們在LSUN臥室數(shù)據(jù)集上訓(xùn)練了WGAN-GP 嚼黔,并在圖5中繪制了評(píng)論家損失的負(fù)值。我們看到損耗隨著發(fā)生器最小化而收斂唬涧。如果容量足夠大且培訓(xùn)數(shù)據(jù)太少,則GAN可能會(huì)過擬合盛撑。 為了探究網(wǎng)絡(luò)過擬合時(shí)損失曲線的行為碎节,我們在MNIST的隨機(jī)1000圖像子集上訓(xùn)練了大型不規(guī)則WGAN,并在圖5b的訓(xùn)練集和驗(yàn)證集上繪制了負(fù)的評(píng)論家損失抵卫。 在WGAN和WGAN-GP中狮荔,這兩個(gè)損失是不同的胎撇,這表明批評(píng)者過分?jǐn)M合并提供了的不準(zhǔn)確估計(jì)殖氏,此時(shí)所有關(guān)于樣本質(zhì)量相關(guān)性的押注都被取消晚树。 但是,在WGAN-GP中雅采,即使驗(yàn)證損失下降爵憎,訓(xùn)練損失也會(huì)逐漸增加。
在解碼器生成模型的定量分析研究中還通過估計(jì)生成器的對(duì)數(shù)似然來衡量GAN中的過擬合婚瓜。 與這項(xiàng)工作相比宝鼓,我們的方法檢測評(píng)論家(而不是生成器)中的過度擬合,并針對(duì)網(wǎng)絡(luò)最小化的相同損失來測量過度擬合巴刻。
結(jié)論
在這項(xiàng)工作中愚铡,我們演示了WGAN中的權(quán)重削減問題,并在批評(píng)家損失中采用了懲罰條款的替代方案冈涧,該替代方案沒有出現(xiàn)相同的問題茂附。 使用我們的方法,我們展示了強(qiáng)大的建模性能和跨各種架構(gòu)的穩(wěn)定性督弓。 現(xiàn)在营曼,我們有了用于訓(xùn)練GAN的更穩(wěn)定的算法,我們希望我們的工作為在大型圖像數(shù)據(jù)集和語言上實(shí)現(xiàn)更強(qiáng)的建模性能開辟道路愚隧。 另一個(gè)有趣的方向是使懲罰項(xiàng)適應(yīng)標(biāo)準(zhǔn)GAN目標(biāo)函數(shù)蒂阱,在這種情況下,可以鼓勵(lì)鑒別器學(xué)習(xí)更平滑的決策邊界狂塘,從而穩(wěn)定訓(xùn)練录煤。