WGANs-GP - 簡書

WGAN有時(shí)仍能生成不良樣本或者無法收斂的原因是因?yàn)槭褂脵?quán)重裁剪對(duì)評(píng)論家施加了Lipschitz約束，本文提出了一種削減權(quán)重的替代方法，能夠有效地解決上述問題。

介紹

作者貢獻(xiàn)如下：

1. 在玩具數(shù)據(jù)集上灰殴，我們演示了批評(píng)者減重會(huì)如何導(dǎo)致不良行為。
1. 我們提出了梯度罰分（WGAN-GP）掰邢，它不會(huì)遇到相同的問題牺陶。

1. 我們演示了各種GAN架構(gòu)的穩(wěn)定訓(xùn)練，重量裁剪的性能改進(jìn)辣之，高質(zhì)量圖像生成以及字符級(jí)GAN語言模型掰伸，而無需任何離散采樣。

背景

GANs

生成對(duì)抗網(wǎng)絡(luò)GAN訓(xùn)練策略是定義兩個(gè)競爭網(wǎng)絡(luò)之間的博弈怀估。發(fā)生器網(wǎng)絡(luò)將噪聲源映射到輸入空間狮鸭。鑒別器網(wǎng)絡(luò)接收生成的樣本或真實(shí)數(shù)據(jù)樣本，并且必須區(qū)分兩者多搀。訓(xùn)練了生成器以欺騙鑒別器歧蕉。
正式地，生成器G和鑒別器D之間的博弈是最小極大目標(biāo)：
$\underset{G}{min}\underset{D}{max}\underset{x\in \mathbb{P}_r}{\mathbb{E}}[log(1-D(\tilde{x}))] \tag 1$
其中 $\mathbb{P}_r$ 是數(shù)據(jù)分布康铭，而 $\mathbb{P}_g$ 是由 $\tilde{x}= G（z）惯退，z?p（z）$ 隱式定義的模型分布（生成器的輸入z是從一些簡單的噪聲分布p中采樣的，例如均勻分布或球形高斯分布）从藤。
如果在每個(gè)生成器參數(shù)更新之前將鑒別器訓(xùn)練到最佳狀態(tài)催跪，則最小化值函數(shù)就等于最小化 $\mathbb{P}_r$ 和 $\mathbb{P}_g$ 之間的Jensen-Shannon散度，但這樣做通常會(huì)導(dǎo)致鑒別器飽和時(shí)梯度消失夷野。在實(shí)踐中懊蒸，對(duì)生成器進(jìn)行訓(xùn)練，以使其最大化 $\mathbb{E}_{\tilde{x} ～\mathbb{P}_g} [log（D（\tilde{x}））]$ 悯搔，這在某種程度上可以避免這種困難榛鼎。但是，即使存在改進(jìn)的判別器鳖孤，即使修改后的損失函數(shù)也可能無法正常工作者娱。

Wasserstein GANs

認(rèn)為GAN通常將最小化的差異相對(duì)于生成器的參數(shù)而言可能不是連續(xù)的，從而導(dǎo)致訓(xùn)練困難苏揣。他們建議改為使用Earth-Mover（也稱為Wasserstein-1）距離W（q黄鳍，p），非正式地將其定義為運(yùn)輸質(zhì)量的最小成本平匈，以便將分布q轉(zhuǎn)換為分布p（其中成本為質(zhì)量乘以運(yùn)輸距離）框沟。在溫和的假設(shè)下藏古，W（q，p）在任何地方都是連續(xù)的忍燥，幾乎在任何地方都是可微的拧晕。
使用Kantorovich-Rubinstein對(duì)偶構(gòu)造WGAN值函數(shù)，以獲得：
$\underset{G}{min}\underset{D\in D}{max}\underset{{x\sim\mathbb{P}_r}}{\mathbb{E}}[D(\tilde{x})] \tag 2$
其中D是1-Lipschitz函數(shù)的集合梅垄， $\mathbb{P}_g$ 再次是由 $\tilde{x}= G（z）厂捞，z?p（z）$ 隱式定義的模型分布。在這種情況下队丝，在最佳判別器下（由于未經(jīng)過分類靡馁，因此在本文中稱為評(píng)論者），將針對(duì)生成器參數(shù)值函數(shù)最小化可使 $W（\mathbb{P}_r机久，\mathbb{P}_g）$ 最小化臭墨。
WGAN值函數(shù)會(huì)生成一個(gè)注釋函數(shù)，該注釋函數(shù)的輸入梯度要比GAN對(duì)應(yīng)函數(shù)更好膘盖，從而使生成器的優(yōu)化更加容易胧弛。根據(jù)經(jīng)驗(yàn)，還觀察到WGAN值函數(shù)似乎與樣品質(zhì)量相關(guān)侠畔，而GAN并非如此叶圃。
為了對(duì)評(píng)論家施加Lipschitz約束，建議將評(píng)論家的權(quán)重限制在緊湊的空間[-c践图，c]中掺冠。滿足此約束的函數(shù)集是某些k的k-Lipschitz函數(shù)的子集，它取決于c和注釋器體系結(jié)構(gòu)码党。在以下各節(jié)中德崭，我們將演示此方法的一些問題并提出替代方法。

最優(yōu)WGAN評(píng)論家屬性

為了理解為什么權(quán)重削減在WGAN評(píng)論家中是有問題的揖盘，并且為了激發(fā)我們的方法眉厨，我們在WGAN框架中重點(diǎn)介紹了最佳評(píng)論家的一些屬性。

命題1

讓 $\mathbb{P}_r$ 和 $\mathbb{P}_g$ 作為 $\mathcal{X}$ （一個(gè)緊湊的度量空間）的兩個(gè)分布兽狭。然后存在一個(gè)1-Lipschitz函數(shù) $f^*$ 憾股，它是 $max_{\Vert f\Vert_{L \le 1}}\mathbb{E}_{y\sim \mathbb{P}_g}[f(x)]$ 的最優(yōu)解。設(shè) $\pi$ 是 $\mathbb{P}_r$ 和 $\mathbb{P}_g$ 之間的最佳耦合箕慧，定義為以下各項(xiàng)的最小化： $W(\mathbb{P}_r,\mathbb{P}_g) = inf_{\pi\in\prod(\mathbb{P}_r),\mathbb{P}_g}\mathbb{E}_{(x,y)\sim\pi}[\Vert x -y\Vert$ ,其中 $\prod(\mathbb{P}_r,\mathbb{P}_g)$ 是聯(lián)合分布的集合 $\pi(x,y)$ ,其邊界分別為 $\mathbb{P}_r$ 和 $\mathbb{P}_g$ 服球。然后，如果 $f^*$ 是可微的颠焦， $\pi(x=y)=0$ ,并且 $x_t=tx+(1-t)y 且0\le t\le 1$ ,則認(rèn)為 $\mathbb{P}_{(x,y)\sim \pi}[\nabla f^*(x_t)=\dfrac{y-x_t}{\Vert y-x_t\Vert}] = 1$

推論1

$f^*$ 在 $\mathbb{P}_r$ 和 $\mathbb{P}_g$ 下幾乎到處都具有梯度1范數(shù)斩熊。

權(quán)重限制的困難

我們發(fā)現(xiàn)，WGAN中的權(quán)重削減會(huì)導(dǎo)致優(yōu)化困難伐庭，并且即使優(yōu)化成功粉渠，所產(chǎn)生的批評(píng)者也可能具有病理性的價(jià)值表面。我們在下面解釋這些問題并演示其效果霸株；但是，我們不主張每個(gè)人在實(shí)踐中總是存在坡椒，也不是它們是唯一的這種機(jī)制。
我們的實(shí)驗(yàn)使用來自WGAN的權(quán)重約束的特定形式（每個(gè)權(quán)重的大小的硬限幅）箫攀，但我們還嘗試了其他權(quán)重約束（L2范數(shù)限幅幼衰，權(quán)重歸一化）以及軟約束（L1和L2權(quán)重衰減），并發(fā)現(xiàn)它們也存在類似的問題渡嚣。
在一定程度上梢睛，可以通過批注者中的批處理規(guī)范化來緩解這些問題，WGAN在他們的所有實(shí)驗(yàn)中都使用了批處理規(guī)范化识椰。但是腹鹉，即使使用批處理歸一化，我們也觀察到非常深刻的WGAN評(píng)論家經(jīng)常無法收斂愉阎。

WGAN\WGAN-GP

WGAN評(píng)論家的價(jià)值表面使用（頂部）權(quán)重裁剪和（底部）梯度懲罰對(duì)玩具數(shù)據(jù)集進(jìn)行了優(yōu)化訓(xùn)練榜旦。受過權(quán)重削減訓(xùn)練的評(píng)論家無法捕捉到更高的數(shù)據(jù)分布時(shí)刻景殷。 “發(fā)生器”固定為實(shí)際數(shù)據(jù)加上高WGAN評(píng)論家在Swiss Roll數(shù)據(jù)集上訓(xùn)練期間的高斯噪聲猿挚。

WC\GP

第一個(gè)圖，當(dāng)WGAN使用權(quán)重裁剪時(shí)會(huì)爆炸或消失休偶，但使用梯度罰分時(shí)則不會(huì)爆炸踏兜。下圖權(quán)重裁剪（頂部）將權(quán)重推向兩個(gè)值（裁剪范圍的極限），與梯度懲罰（底部）不同：WGAN中的梯度懲罰不會(huì)表現(xiàn)出諸如權(quán)重裁剪的不良行為肉盹。

能力未充分使用

通過權(quán)重裁剪實(shí)現(xiàn)k-Lipshitz約束會(huì)使評(píng)論家偏向更簡單的功能。如先前在推論1中所述上忍，最優(yōu)的WGAN評(píng)論家?guī)缀踉?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cmathbb%7BP%7D_r" alt="\mathbb{P}_r" mathimg="1">和 $mathbb{P}_g$ 下的任何地方都有單位梯度范數(shù)窍蓝。在權(quán)重削減約束下繁成，我們觀察到試圖達(dá)到最大梯度范數(shù)k的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)最終學(xué)習(xí)了非常簡單的函數(shù)巾腕。為了證明這一點(diǎn)尊搬，我們訓(xùn)練了WGAN評(píng)論家，權(quán)重削減在多個(gè)玩具分布上都達(dá)到了最優(yōu)幌墓。生成器分布 $\mathbb{P}_g$ 固定為實(shí)際分布加上單位方差高斯噪聲冀泻。我們在第一張圖中繪制了批評(píng)家的價(jià)值面腔长。我們在批注者中省略了批量標(biāo)準(zhǔn)化捞附。在每種情況下，經(jīng)過權(quán)重裁剪訓(xùn)練的評(píng)論家都忽略了數(shù)據(jù)分布的更高時(shí)刻胆绊，而是對(duì)最佳函數(shù)進(jìn)行了非常簡單的近似建模欧募。相反，我們的方法不受此行為的影響镣丑。

梯度消失和爆炸

我們注意到娱两，由于權(quán)重約束和成本函數(shù)之間的相互作用十兢，WGAN優(yōu)化過程很困難，這導(dǎo)致梯度的消失或爆炸而沒有仔細(xì)調(diào)整限幅閾值c遥缕。
為了證明這一點(diǎn)单匣，我們在Swiss Roll玩具數(shù)據(jù)集上訓(xùn)練了WGAN烤蜕，在 $[10^{-1}讽营、10^{-2}橱鹏、10^{-3}]$ 中更改了裁剪閾值c堪藐，并針對(duì)連續(xù)圖層繪制了評(píng)論者損失梯度的范數(shù) 的激活礁竞。生成器和j鑒別器都是12層ReLU MLP，沒有批量標(biāo)準(zhǔn)化捶朵。第二張圖顯示综看，對(duì)于這些值中的每一個(gè)岖食，隨著我們在網(wǎng)絡(luò)中移回更遠(yuǎn)泡垃，梯度都會(huì)呈指數(shù)增長或衰減羡鸥。我們發(fā)現(xiàn)我們的方法產(chǎn)生了既不消失也不爆炸的更穩(wěn)定的梯度兄春，從而可以訓(xùn)練更復(fù)雜的網(wǎng)絡(luò)赶舆。

梯度懲罰

我們現(xiàn)在提出一種替代的方法來執(zhí)行Lipschitz約束祭饭。一個(gè)可微分函數(shù)是1-Lipschtiz倡蝙，當(dāng)且僅當(dāng)該梯度在任何地方都具有最多1范數(shù)的漸變時(shí)，因此我們考慮相對(duì)其輸入直接限制評(píng)論家輸出的梯度范數(shù)猪钮。為了規(guī)避易處理性問題烤低，我們對(duì)約束條件的軟版本進(jìn)行了約束笆载，對(duì)隨機(jī)樣本 $\hat{x}?\mathbb{P}_\hat{x}$ 的梯度范數(shù)進(jìn)行了懲罰凉驻。我們的新目標(biāo)是:
$L=\underbrace{\underset{\hat{x}\sim \mathbb{P}_g}{\mathbb{E}}[D(\hat{x})]-\underset{x\sim\mathbb{P}_r}{\mathbb{E}}[D(x)]}_{Original critic loss}+\underbrace{\lambda\underset{\hat{x}\sim\mathbb{P}_\hat{x}}{\mathbb{E}}[(\Vert \nabla_\hat{x}D(\hat{x})\Vert_2-1)^2]}_{Our gradient penalty} \tag 3$

采樣分布

我們隱含地定義從數(shù)據(jù)分布 $\mathbb{P}_r$ 和發(fā)生器分布 $\mathbb{P}_g$ 沿兩對(duì)點(diǎn)之間的直線均勻地進(jìn)行 $\mathbb{P}_\hat{x}$ 采樣雄家。這是由以下事實(shí)引起的：最佳評(píng)論家包含具有梯度1范數(shù)的直線胀滚，這些直線連接 $\mathbb{P}_r$ 和 $\mathbb{P}_g$ 的耦合點(diǎn)（請參閱命題1）蛛淋。鑒于在任何地方強(qiáng)制執(zhí)行單位梯度范數(shù)約束都是棘手的褐荷，僅沿這些直線執(zhí)行它似乎已足夠，并且在實(shí)驗(yàn)上會(huì)產(chǎn)生良好的性能层宫。

懲罰系數(shù)

本文中的所有實(shí)驗(yàn)均使用λ= 10萌腿，我們發(fā)現(xiàn)該系數(shù)在從玩具任務(wù)到大型ImageNet CNN的各種體系結(jié)構(gòu)和數(shù)據(jù)集上均能很好地工作。

無需評(píng)論家批處理規(guī)范化

大多數(shù)先前的GAN實(shí)現(xiàn)都在生成器和鑒別器中使用批處理規(guī)范化來幫助穩(wěn)定訓(xùn)練米死，但是批處理規(guī)范化將鑒別器問題的形式從將單個(gè)輸入映射到單個(gè)輸出轉(zhuǎn)換為從整批輸入映射到整批輸出峦筒。在這種情況下物喷，我們受懲罰的訓(xùn)練目標(biāo)不再有效遮斥，因?yàn)槲覀冡槍?duì)每個(gè)輸入而不是整個(gè)批次對(duì)評(píng)論者的漸變規(guī)范進(jìn)行了懲罰术吗。為了解決這個(gè)問題，我們只是在模型的批注者中省略了批量歸一化材蹬，發(fā)現(xiàn)沒有它們，它們的表現(xiàn)很好末贾。我們的方法適用于規(guī)范化方案拱撵，不會(huì)在示例之間引入相關(guān)性表蝙。特別是府蛇，我們建議使用層歸一化作為批次歸一化的替代品。

雙向懲罰

我們鼓勵(lì)漸變的范數(shù)趨向于1（雙向懲罰）务荆，而不是僅僅保持在1（雙向懲罰）以下函匕。從經(jīng)驗(yàn)上看盅惜，這似乎并沒有太大地限制評(píng)論家，這可能是因?yàn)檠拾玻罴训腤GAN評(píng)論家無論如何都在 $\mathbb{P}_r$ 和 $\mathbb{P}_g$ 下以及中間的大部分區(qū)域中都出現(xiàn)了范數(shù)為1的梯度妆棒。在我們的早期觀察中糕珊，我們發(fā)現(xiàn)此方法的效果略好一些毅糟，但我們并未對(duì)此進(jìn)行全面調(diào)查姆另。

實(shí)驗(yàn)

在一組中訓(xùn)練隨機(jī)體系結(jié)構(gòu)

我們實(shí)驗(yàn)性地證明了模型具有訓(xùn)練大量我們認(rèn)為對(duì)訓(xùn)練有用的體系結(jié)構(gòu)的能力迹辐。從DCGAN架構(gòu)開始，我們通過將表1中的模型設(shè)置更改為隨機(jī)的對(duì)應(yīng)值來定義一組架構(gòu)變體间学。我們認(rèn)為低葫，對(duì)該集合中的許多架構(gòu)進(jìn)行可靠的訓(xùn)練是一個(gè)有用的目標(biāo)嘿悬，但是我們不主張集合是有用架構(gòu)的整個(gè)空間的無偏或有代表性的樣本：它旨在證明我們方法的成功機(jī)制善涨，讀者應(yīng)評(píng)估它是否包含與預(yù)期應(yīng)用相似的架構(gòu)。

Table1

從這個(gè)集合中，我們對(duì)200種架構(gòu)進(jìn)行采樣娶靡，并在具有WGAN-GP和標(biāo)準(zhǔn)GAN目標(biāo)的32×32 ImageNet上進(jìn)行訓(xùn)練姿锭。表2列出了以下情況的數(shù)量：僅標(biāo)準(zhǔn)GAN成功呻此、僅WGAN-GP成功焚鲜、都成功或都失敗，其中成功定義為初始分?jǐn)?shù)>最低分?jǐn)?shù)糯彬。對(duì)于大多數(shù)分?jǐn)?shù)閾值選擇撩扒，WGAN-GP成功地訓(xùn)練了該集合中的許多架構(gòu)搓谆，而我們無法使用標(biāo)準(zhǔn)GAN目標(biāo)進(jìn)行訓(xùn)練豪墅。

Table2

針對(duì)不同的成功閾值螃诅，訓(xùn)練200個(gè)隨機(jī)體系結(jié)構(gòu)的結(jié)果状囱。為了進(jìn)行比較亭枷，我們的標(biāo)準(zhǔn)DCGAN得分為7.24叨粘。

Figure:2

上圖使用不同方法訓(xùn)練的不同GAN架構(gòu)升敲。我們僅使用WGAN-GP成功地通過共享的超參數(shù)集訓(xùn)練了每種架構(gòu)驴党。

在LSUN臥室上訓(xùn)練各種體系結(jié)構(gòu)

為了展示我們的模型使用默認(rèn)設(shè)置都能來訓(xùn)練許多體系結(jié)構(gòu)的能力，我們在LSUN臥室數(shù)據(jù)集上訓(xùn)練了六種不同的GAN體系結(jié)構(gòu)倔既。除了基準(zhǔn)DCGAN架構(gòu)外渤涌，我們還選擇了六種架構(gòu)实蓬，這些架構(gòu)的成功訓(xùn)練證明了：
（1）生成器中沒有BN且濾波器數(shù)量恒定瞳秽，像WGAN所述率翅。
（2）4層512 -dim ReLU MLP生成器冕臭，如WGAN中所述
（3）鑒別器或生成器中均無歸一化
（4）門控乘法非線性辜贵，如[24]中所示
（5）tanh非線性
（6）101層ResNet 生成器和鑒別器托慨。
盡管我們并不聲稱沒有我們的方法是不可能的厚棵，但據(jù)我們所知，這是首次在GAN環(huán)境中成功訓(xùn)練非常深的殘差網(wǎng)絡(luò)狠轻。對(duì)于每種架構(gòu)向楼，我們使用四種不同的GAN方法訓(xùn)練模型：WGAN-GP湖蜕，帶權(quán)重裁剪的WGAN，DCGAN 和Least-Squares GAN 箭阶。對(duì)于每個(gè)目標(biāo)仇参，我們使用了該工作中建議的默認(rèn)優(yōu)化器超參數(shù)集（LSGAN除外诈乒，我們在其中搜索學(xué)習(xí)率）怕磨。
對(duì)于WGAN-GP消约，我們將鑒別符中的任何批處理歸一化替換為層歸一化。我們訓(xùn)練每個(gè)模型進(jìn)行200K迭代导饲，并在圖2中顯示示例渣锦。我們僅使用WGAN-GP成功地使用共享的超參數(shù)集訓(xùn)練每個(gè)體系結(jié)構(gòu)。
對(duì)于其他所有訓(xùn)練方法氢哮，這些體系結(jié)構(gòu)中的某些體系都是不穩(wěn)定的或遭受模式崩潰的袋毙。

權(quán)重裁剪后提升性能

權(quán)重裁剪的方法的優(yōu)勢之一是訓(xùn)練速度和樣品質(zhì)量得到提高。為了證明這一點(diǎn)冗尤，我們在圖3的訓(xùn)練過程中使用權(quán)重裁剪訓(xùn)練WGAN听盖，并在CIFAR10上訓(xùn)練梯度罰分，并繪制初始得分裂七。對(duì)于WGAN-GP皆看，我們使用相同的優(yōu)化程序（RMSProp ）和學(xué)習(xí)率訓(xùn)練具有權(quán)重裁剪的WGAN，以及另一個(gè)具有Adam和較高學(xué)習(xí)率的模型悬蔽。即使使用相同的優(yōu)化程序，我們的方法也比權(quán)重裁剪更快捉兴，收斂性更好蝎困。使用Adam可以進(jìn)一步提高性能。我們還繪制了DCGAN的性能圖倍啥，發(fā)現(xiàn)我們的方法（在規(guī)定時(shí)間內(nèi)）收斂得比DCGAN慢禾乘，但其分?jǐn)?shù)在收斂時(shí)更穩(wěn)定。

Figure:3

四個(gè)模型在生成器迭代（左）或掛鐘時(shí)間（右）上的CIFAR-10初始得分：帶權(quán)重裁剪的WGAN虽缕，帶RMSProp和Adam的WGAN-GP（用于控制優(yōu)化器）和DCGAN始藕。 WGAN-GP明顯優(yōu)于減重，并且性能與DCGAN相當(dāng)氮趋。
$$$$CIFAR-10和LSUN臥室的樣品質(zhì)量
對(duì)于同等架構(gòu)伍派，我們的方法可達(dá)到與標(biāo)準(zhǔn)GAN目標(biāo)相當(dāng)?shù)臉悠焚|(zhì)量。但是剩胁，提高的穩(wěn)定性使我們能夠通過探索更廣泛的架構(gòu)來提高樣品質(zhì)量诉植。為了證明這一點(diǎn)，我們發(fā)現(xiàn)了一種在無人監(jiān)督的CIFAR-10上建立了最新的Inception得分的架構(gòu)（表3）昵观。當(dāng)我們添加標(biāo)簽信息時(shí)晾腔，除了SGAN之外，相同的體系結(jié)構(gòu)都優(yōu)于其他所有已發(fā)布的模型啊犬。

Table3

CIFAR-10的初始得分灼擂。我們的無監(jiān)督模型可實(shí)現(xiàn)最先進(jìn)的性能，我們的條件模型優(yōu)于除SGAN之外的所有其他模型觉至。
我們還在128×128 LSUN臥室上訓(xùn)練了一個(gè)深層的ResNet剔应，并在圖4中顯示了示例。我們相信语御，對(duì)于該數(shù)據(jù)集领斥，在任何分辨率下，這些示例至少都具有迄今為止所報(bào)告的最好結(jié)果.

Figure:4

損失曲線和檢測過度擬合的意義

權(quán)重裁剪的WGAN的一個(gè)重要好處是沃暗，其損失與樣品質(zhì)量相關(guān)月洛，并趨于最小。為了證明我們的方法保留了此屬性孽锥，我們在LSUN臥室數(shù)據(jù)集上訓(xùn)練了WGAN-GP 嚼黔，并在圖5中繪制了評(píng)論家損失的負(fù)值。我們看到損耗隨著發(fā)生器最小化 $W（\mathbb{P}_r惜辑，\mathbb{P}_g）$ 而收斂唬涧。如果容量足夠大且培訓(xùn)數(shù)據(jù)太少，則GAN可能會(huì)過擬合盛撑。為了探究網(wǎng)絡(luò)過擬合時(shí)損失曲線的行為碎节，我們在MNIST的隨機(jī)1000圖像子集上訓(xùn)練了大型不規(guī)則WGAN，并在圖5b的訓(xùn)練集和驗(yàn)證集上繪制了負(fù)的評(píng)論家損失抵卫。在WGAN和WGAN-GP中狮荔，這兩個(gè)損失是不同的胎撇，這表明批評(píng)者過分?jǐn)M合并提供了 $W（\mathbb{P}_r，\mathbb{P}_g）$ 的不準(zhǔn)確估計(jì)殖氏，此時(shí)所有關(guān)于樣本質(zhì)量相關(guān)性的押注都被取消晚树。但是，在WGAN-GP中雅采，即使驗(yàn)證損失下降爵憎，訓(xùn)練損失也會(huì)逐漸增加。
在解碼器生成模型的定量分析研究中還通過估計(jì)生成器的對(duì)數(shù)似然來衡量GAN中的過擬合婚瓜。與這項(xiàng)工作相比宝鼓，我們的方法檢測評(píng)論家（而不是生成器）中的過度擬合，并針對(duì)網(wǎng)絡(luò)最小化的相同損失來測量過度擬合巴刻。

結(jié)論

在這項(xiàng)工作中愚铡，我們演示了WGAN中的權(quán)重削減問題，并在批評(píng)家損失中采用了懲罰條款的替代方案冈涧，該替代方案沒有出現(xiàn)相同的問題茂附。使用我們的方法，我們展示了強(qiáng)大的建模性能和跨各種架構(gòu)的穩(wěn)定性督弓。現(xiàn)在营曼，我們有了用于訓(xùn)練GAN的更穩(wěn)定的算法，我們希望我們的工作為在大型圖像數(shù)據(jù)集和語言上實(shí)現(xiàn)更強(qiáng)的建模性能開辟道路愚隧。另一個(gè)有趣的方向是使懲罰項(xiàng)適應(yīng)標(biāo)準(zhǔn)GAN目標(biāo)函數(shù)蒂阱，在這種情況下，可以鼓勵(lì)鑒別器學(xué)習(xí)更平滑的決策邊界狂塘，從而穩(wěn)定訓(xùn)練录煤。