Improving Techniques for Training GANs

介紹

生成對抗網(wǎng)絡(luò)（GAN）是一類基于博弈論的生成模型學(xué)習(xí)方法。 GAN的目標(biāo)是訓(xùn)練生成器網(wǎng)絡(luò) $G（z;θ^{（G）}）$ 蛔六，該生成器網(wǎng)絡(luò)通過將噪聲z的向量轉(zhuǎn)換為 $x = G（z;θ^{（G）}）$ 荆永，從數(shù)據(jù)分布 $p_{data}（x）$ 生成樣本。G的訓(xùn)練信號由一個鑒別器網(wǎng)絡(luò)D（x）提供国章，該鑒別器網(wǎng)絡(luò)D（x）被訓(xùn)練以區(qū)分樣本和真實數(shù)據(jù)中的生成器分布 $p_{model}（x）$ 屁魏。繼而訓(xùn)練生成器網(wǎng)絡(luò)G，以欺騙鑒別器接受其輸出為真實的捉腥。
GAN的最新應(yīng)用表明氓拼，它們可以產(chǎn)生出色的樣品。但是抵碟，訓(xùn)練GAN需要找到具有連續(xù)高維參數(shù)的非凸博弈的Nash平衡桃漾。 GAN通常使用梯度下降技術(shù)進(jìn)行訓(xùn)練，梯度下降技術(shù)旨在發(fā)現(xiàn)成本函數(shù)的低值拟逮，而不是尋找游戲的納什均衡撬统。當(dāng)用于尋求納什均衡時，這些算法可能無法收斂敦迄。在這項工作中恋追，我們介紹了幾種旨在鼓勵GAN游戲融合的技術(shù)凭迹。這些技術(shù)是由對非收斂問題的啟發(fā)式理解所激發(fā)的。它們可以改善半監(jiān)督學(xué)習(xí)性能并改善樣本生成苦囱。我們希望其中一些可以構(gòu)成未來工作的基礎(chǔ)嗅绸，為融合提供正式保證。

走向融合GAN訓(xùn)練

訓(xùn)練GAN的目的在于找到兩人非合作游戲的納什均衡深夯。每個參與者都希望最小化自己的成本函數(shù)，鑒別器的 $J^{（D）}（θ^{（D）}诺苹，θ^{（G）}）$ 和生成器的 $J^{（G）}（θ^{（D）}咕晋，θ^{（G）}）$ 。 Nash平衡點是一個點 $θ^{(（D）}收奔，θ^{（G）}）$ 掌呜，使得 $J^{（D）}$ 相對于 $θ^{（D）}$ 最小，而 $J^{（G）}$ 相對于 $θ^{（G）}$ 最小坪哄。不幸的是质蕉，找到納什均衡是一個非常困難的問題。存在針對特殊情況的算法翩肌，但是我們不知道適用于GAN游戲的任何可行算法模暗，其中成本函數(shù)是非凸的，參數(shù)是連續(xù)的念祭，并且參數(shù)空間的維數(shù)很高兑宇。
當(dāng)每個玩家的成本都最低時就會出現(xiàn)納什均衡的想法似乎在直觀上激發(fā)了使用傳統(tǒng)的基于梯度的最小化技術(shù)同時最小化每個玩家的成本的想法。不幸的是粱坤，減小 $J^{（D）}$ 的 $θ^{（D）}$ 的修改可以增加 $J^{（G）}$ 隶糕，減小 $J^{（G）}$ 的 $θ^{（G）}$ 的修改可以增加 $J^{（D）}$ 瓷产。因此，梯度下降無法在許多游戲中收斂枚驻。例如濒旦，當(dāng)一個參與者相對于x最小化xy，而另一個參與者相對于y最小化-xy時测秸，梯度下降進(jìn)入一個穩(wěn)定的軌道，而不是收斂到期望的平衡點x = y = 0 灾常。因此霎冯，盡管缺乏保證該程序會收斂的方法，但以前的GAN訓(xùn)練方法卻同時在每個玩家的費用上應(yīng)用了梯度下降钞瀑。我們介紹以下啟發(fā)式鼓勵融合的技術(shù)：

特征匹配

特征匹配通過為生成器指定一個新的目標(biāo)來防止GAN不穩(wěn)定沈撞，以防止其在當(dāng)前鑒別器上過度訓(xùn)練。新目標(biāo)不是直接使鑒別器的輸出最大化雕什，而是要求生成器生成與實際數(shù)據(jù)的統(tǒng)計信息匹配的數(shù)據(jù)缠俺，在這里，我們僅使用鑒別器來指定我們認(rèn)為值得匹配的統(tǒng)計信息贷岸。具體來說壹士，我們訓(xùn)練生成器以使其與鑒別器中間層上的要素的期望值匹配。這是生成器要匹配的統(tǒng)計信息的自然選擇偿警，因為通過訓(xùn)練鑒別器躏救，我們要求鑒別器找到對真實數(shù)據(jù)與當(dāng)前模型生成的數(shù)據(jù)最能區(qū)分的那些特征。
令f（x）表示鑒別器中間層上的激活螟蒸，生成器的新目標(biāo)定義為： $|| E_{x?p_{data}} f（x）-E_{z?p_{z}（z）}f（G（z））||_2^2$ 盒使。鑒別器以及f（x）以常規(guī)方式訓(xùn)練。與常規(guī)GAN訓(xùn)練一樣七嫌，該目標(biāo)有一個固定點少办，其中G與訓(xùn)練數(shù)據(jù)的分布完全匹配。在實踐中诵原，我們無法保證達(dá)到此固定點英妓，但是我們的經(jīng)驗結(jié)果表明，在常規(guī)GAN變得不穩(wěn)定的情況下绍赛，特征匹配確實有效鞋拟。

最小批量判別

GAN的主要故障模式之一是在始終與輸出相同點的參數(shù)設(shè)置使得生成器崩潰。當(dāng)即將崩潰為單一模式時惹资，對于許多相似點贺纲，鑒別器的梯度可能指向相似方向。由于鑒別器獨立地處理每個示例褪测，因此其梯度之間沒有協(xié)調(diào)猴誊，因此也沒有機制可以告訴生成器的輸出彼此之間變得越來越不相似潦刃。取而代之的是，所有輸出都朝著鑒別器當(dāng)前認(rèn)為高度現(xiàn)實的單個點競爭懈叹。
發(fā)生崩潰后乖杠，鑒別器得知該點來自生成器，但是梯度下降無法分離相同的輸出澄成。然后胧洒，鑒別器的梯度將生成器產(chǎn)生的單個點永遠(yuǎn)推向空間周圍，并且該算法無法收斂到具有正確熵量的分布墨状。避免此類失敗的一種明顯策略是卫漫，允許鑒別器組合查看多個數(shù)據(jù)示例，并執(zhí)行我們所謂的小批量鑒別肾砂。
最小批量判別的概念非沉惺辏籠統(tǒng)：任何將多個示例組合而不是孤立地查看多個示例的辨別器模型都可能有助于避免生成器崩潰。實際上镐确，Radford等人成功地將批歸一化應(yīng)用到了鑒別器中。但是源葫，到目前為止诗越，我們已經(jīng)將實驗限制在明確旨在識別特別靠近的發(fā)生器樣本的模型上。一個成功的用于對小批量中的示例之間的緊密度進(jìn)行建模的規(guī)范如下：令 $f（x_i）∈\mathbb{R}^A$ 表示由判別器中的某個中間層生成的輸入 $x_i$ 的特征向量息堂。然后我們將向量 $f（x_i）$ 乘以張量 $T∈\mathbb{R}^{A×B×C}$ 掺喻，得出矩陣 $M_i∈\mathbb{R}^{ B×C}$ 。然后储矩，我們計算樣本 $i∈\{1感耙、2，...n\}$ 之間的結(jié)果矩陣 $M_i$ 的行之間的L1距離并應(yīng)用負(fù)指數(shù)（圖1）： $c_b（x_i持隧，x_j）= exp（-|| M_{i即硼，b}-M_{j，b} ||_{L1}）∈\mathbb{R}$ 屡拨。然后將樣本 $x_i$ 的此小批量生產(chǎn)層的輸出 $o（x_i）$ 定義為 $c_b（x_i只酥，x_j）$ 與所有其他樣本的和：
$\omicron(\mathcal{x}_i)_b=\underset{j=1}{\overset{n}\sum}c_b(x_i,x_j)\in\mathbb{R} \\ \omicron(x_i)=[\omicron(x_i)_1,\omicron(x_i)_2,...,\omicron(x_i)_B]\in\mathbb{R}^B \\ \omicron(X)\in\mathbb{R}^{n*B}$

Figure

圖描繪了小批量鑒別的工作原理。來自樣本 $x_i$ 的特征 $f（x_i）$ 通過張量T相乘呀狼，并計算交叉樣本距離裂允。

接下來，我們將小批量生產(chǎn)層的輸出 $o（x_i）$ 與作為其輸入的中間特征 $f（x_i）$ 連接起來哥艇，并將結(jié)果饋送到鑒別器的下一層绝编。我們分別針對生成器和訓(xùn)練數(shù)據(jù)中的樣本計算這些小批量功能。像以前一樣，仍然需要鑒別器為每個示例輸出一個數(shù)字十饥，以指示該數(shù)據(jù)來自訓(xùn)練數(shù)據(jù)的可能性：鑒別器的任務(wù)因此仍然有效地將單個示例分類為真實數(shù)據(jù)或生成的數(shù)據(jù)窟勃，但是現(xiàn)在可以將minibatch中的其他示例用作輔助信息。最小批量判別使我們能夠非扯憾拢快速地生成視覺上吸引人的樣本秉氧，在這方面，它優(yōu)于特征匹配蜒秤。但是汁咏，有趣的是，如果目標(biāo)是使用第5節(jié)中描述的半監(jiān)督學(xué)習(xí)方法來獲得強大的分類器作媚，那么特征匹配會更好地工作攘滩。

歷史平均

在應(yīng)用此技術(shù)時，我們修改每個玩家的損失使其包括項 $||θ? \dfrac{1}{t} \sum_{i=1}^{t}θ[i] ||^2$ 掂骏，其中θ[i]是過去時間i的參數(shù)值轰驳。可以以在線方式更新參數(shù)的歷史平均值厚掷，因此該學(xué)習(xí)規(guī)則可以很好地擴展到長時間序列弟灼。這種方法受到虛擬玩法算法的寬松啟發(fā)，該算法可以在其他類型的游戲中找到平衡點冒黑。我們發(fā)現(xiàn)田绑，我們的方法能夠找到低維連續(xù)非凸游戲的平衡點，例如一個擁有一個控制x的玩家抡爹，另一個控制y以及值函數(shù)（f（x）? 1）（ y ? 1）掩驱，其中對于x <0，f（x）= x冬竟，否則f（x）= $x^2$ 欧穴。對于這些相同的玩具游戲，梯度下降由于進(jìn)入不接近平衡點的擴展軌道而失敗泵殴。

單面標(biāo)簽平滑

標(biāo)簽平滑涮帘，一種來自1980年代的技術(shù)，最近由Szegedy等人獨立發(fā)現(xiàn)笑诅。用平滑值（如.9或.1）替換了分類器的0和1目標(biāo)调缨，并且最近被證明可以降低神經(jīng)網(wǎng)絡(luò)對對抗性示例的脆弱性。
用α替換正分類目標(biāo)吆你，用β替換負(fù)分類目標(biāo)弦叶，最佳鑒別符變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=D%EF%BC%88x%EF%BC%89%3D%5Cdfrac%7B%CE%B1p_%7Bdata%7D%EF%BC%88x%EF%BC%89%2B%CE%B2p_%7Bmodel%7D%EF%BC%88x%EF%BC%89%7D%7Bp_%7Bdata%7D%EF%BC%88x%EF%BC%89%2B%20p_%7Bmodel%7D%EF%BC%88x%EF%BC%89%7D" alt="D（x）=\dfrac{αp_{data}（x）+βp_{model}（x）}{p_{data}（x）+ p_{model}（x）}" mathimg="1">召边。分子中 $p_{model}$ 的存在是有問題的基茵，因為在 $p_{data}$ 近似為零且 $p_{model}$ 大的區(qū)域中途蒋，來自 $p_{model}$ 的錯誤樣本沒有動力靠近數(shù)據(jù)世曾。因此闷愤，我們僅將正標(biāo)簽平滑為α，將負(fù)標(biāo)簽設(shè)置為0何暇。

虛擬批處理標(biāo)準(zhǔn)化

批處理標(biāo)準(zhǔn)化極大地改善了神經(jīng)網(wǎng)絡(luò)的優(yōu)化句柠，并被證明對DCGAN非常有效。但是桃序，它會使輸入示例x的神經(jīng)網(wǎng)絡(luò)輸出高度依賴于同一小批處理中的其他幾個輸入x'杖虾。為避免此問題，我們引入了虛擬批次歸一化（VBN）媒熊，其中奇适，每個示例x都是基于對參考批次的樣本進(jìn)行統(tǒng)計而標(biāo)準(zhǔn)化的，這些參考批次被選擇一次并在訓(xùn)練開始時固定不變芦鳍，并且基于x本身嚷往。參考批次僅使用其自己的統(tǒng)計數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。 VBN在計算上很昂貴柠衅，因為它需要在兩個小批量數(shù)據(jù)上進(jìn)行正向傳播皮仁，因此我們僅在生成器網(wǎng)絡(luò)中使用它。

圖像質(zhì)量評估

生成的對抗網(wǎng)絡(luò)缺乏目標(biāo)功能菲宴，這使得比較不同模型的性能變得困難贷祈。通過讓人類判別者判斷樣本的視覺質(zhì)量，可以獲得一種直觀的性能指標(biāo)喝峦。我們使用圖2中的Web界面（使用http://infinite-chamber-35121.herokuapp.com/ cifar-minibatch /）通過Web界面使用Amazon Mechanical Turk（MTurk）自動化該過程势誊，我們使用它來詢問判別者能否區(qū)分生成的數(shù)據(jù)和真實的數(shù)據(jù)。我們對模型進(jìn)行的質(zhì)量評估將在第6節(jié)中進(jìn)行描述谣蠢。使用人工判別者的缺點是粟耻，度量標(biāo)準(zhǔn)會根據(jù)任務(wù)的設(shè)置和注釋器的動機而變化。我們還發(fā)現(xiàn)眉踱，當(dāng)我們向判別者提供有關(guān)他們的錯誤的反饋時挤忙，結(jié)果會發(fā)生巨大的變化：通過從此類反饋中學(xué)習(xí)，判別者可以更好地指出生成圖像中的缺陷谈喳，從而給出更加悲觀的質(zhì)量評估册烈。圖2的左列顯示了注釋過程的屏幕，而右列顯示了我們?nèi)绾胃嬷⑨屨咤e誤叁执。

Figure2

Web界面提供給注釋者茄厘。要求注釋者將計算機生成的圖像與真實的圖像區(qū)分開。

作為人類判別者的替代方法谈宛，我們提出了一種自動評估樣本的方法次哈，我們發(fā)現(xiàn)該方法與人類評估具有很好的相關(guān)性：我們將Inception model應(yīng)用于每個生成的圖像，以獲得條件標(biāo)簽分布 $p（\mathcal{y} | x）$ 吆录。包含有意義對象的圖像應(yīng)具有低熵的條件標(biāo)簽分布 $p（\mathcal{y} | x）$ 窑滞。此外，我們希望模型能夠生成變化的圖像，因此邊際 $\int p（\mathcal{y} | x = G（\mathcal{z}））d\mathcal{z}$ 應(yīng)該具有較高的熵哀卫。結(jié)合這兩個要求巨坊，我們建議的度量標(biāo)準(zhǔn)是： $exp（\mathbb{E}_xKL（p（\mathcal{y} | x）|| p（\mathcal{y}）））$ ，在這里我們對結(jié)果求冪此改，以便更容易比較這些值趾撵。我們的Inception分?jǐn)?shù)與用于訓(xùn)練CatGAN中的生成模型的目標(biāo)緊密相關(guān)：盡管使用這種目標(biāo)進(jìn)行訓(xùn)練的成功率較低，但我們發(fā)現(xiàn)這是一種很好的評估指標(biāo)共啃，與人類的判斷力非常相關(guān)占调。我們發(fā)現(xiàn)，在足夠多的樣本（即50k）上評估指標(biāo)很重要移剪，這是該指標(biāo)衡量多樣性的一部分究珊。

半監(jiān)督學(xué)習(xí)

考慮一個標(biāo)準(zhǔn)分類器，用于將數(shù)據(jù)點x分類為K個可能的分類之一纵苛。這樣的模型將x作為輸入剿涮，并輸出 $logits \{l_1,…,l_K\}$ 的K維向量，則可以通過應(yīng)用softmax將其轉(zhuǎn)換為類概率： $p_{model}（y = j | x）= \dfrac{ exp（l_j）}{\sum_K^{K = 1} exp（l_k）}$ 攻人。在監(jiān)督學(xué)習(xí)中取试，通過最小化觀察到的標(biāo)簽與模型預(yù)測分布 $p_{model}（y | x）$ 之間的交叉熵來訓(xùn)練這種模型。
我們可以通過將來自GAN生成器G的樣本添加到我們的數(shù)據(jù)集中贝椿，使用新的“生成的”類別y = K + 1對其進(jìn)行標(biāo)記想括，然后相應(yīng)地增加分類器輸出的維度陷谱，從而對任何標(biāo)準(zhǔn)分類器進(jìn)行半監(jiān)督學(xué)習(xí)烙博。 K到K + 1。然后烟逊，我們可以使用 $p_{model}（y = K + 1 | x）$ 來提供x為假的概率渣窜，對應(yīng)于原始GAN框架中的1- D（x）。現(xiàn)在我們還可以從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)宪躯，只要我們知道通過最大化 $log \ p_{model}（y∈{1乔宿，...，K} | x）$ 它對應(yīng)于K類真實數(shù)據(jù)之一即可访雪。
假設(shè)我們的數(shù)據(jù)集的一半包含真實數(shù)據(jù)详瑞，并且生成了一半（這是任意的），那么我們訓(xùn)練分類器的損失函數(shù)就變?yōu)?
$L=-\mathbb{E}_{x,y\sim p_{data}}[log\ p_{model}(y|x)]-\mathbb{E}_{x\sim G}[log\ p_{model}(y=K+1|x)] \\ =L_{supervised}+L_{unsupervised},\ where \\ L_{supervised} = -\mathbb{E}_{x,y\sim p_{data}} log\ p_{model}(y|x,y<K+1) \\ L_{unsupervised}=-\{\mathbb{E}_{x\sim p_{data}}log[1-p_{model}(y=K+1|x)]+\mathbb{E}_{x\sim G}log[p_{model}(y=K+1|x]\},$
我們將總交叉熵?fù)p失分解為標(biāo)準(zhǔn)監(jiān)督損失函數(shù) $L_{supervised}$ （來自真實數(shù)據(jù)的標(biāo)簽的對數(shù)概率）和無監(jiān)督損失 $L_{unsupervised}$ 臣缀，實際上是標(biāo)準(zhǔn)GAN博弈值坝橡。當(dāng)我們將 $D（x）= 1 ? p_{model}（y = K + 1 | x）$ 代入表達(dá)式時，很明顯：
$L_{unsupervised} = -\{\mathbb{E}_{x\sim p_{data}(x)}log\ D(x)+\mathbb{E}_{z\sim noise}log (1-D(G(z)))\}$
最小化 $L_{supervised}$ 和 $L_{unsupervised}$ 的最佳解決方案是對于某些不確定的縮放函數(shù)c（x）讓 $exp [l_j（x）] = c（x）p（y = j精置，x）?j<K + 1$ 和 $exp [l_{K + 1}（x）] = c （x）p_G（x）$ 计寇。因此，在Sutskever等人的意義上，無監(jiān)督損失與有監(jiān)督損失是一致的番宁。我們可以希望通過共同最小化這兩個損失函數(shù)元莫，從數(shù)據(jù)中更好地估計該最優(yōu)解。在實踐中蝶押， $L_{unsupervised}$ 僅在最小化分類器時會有所幫助踱蠢，因此我們需要訓(xùn)練G來近似數(shù)據(jù)分布。一種方法是使用我們的鑒別器定義的鑒別符D來訓(xùn)練G以最小化GAN游戲值棋电。這種方法引入了G和我們尚未完全理解的分類器之間的交互作用朽基，但是根據(jù)經(jīng)驗，我們發(fā)現(xiàn)使用特征匹配GAN優(yōu)化G可以很好地用于半監(jiān)督學(xué)習(xí)离陶，而使用GAN結(jié)合小批量判別來訓(xùn)練G則無法實現(xiàn)稼虎。在這里，我們使用這種方法展示了我們的經(jīng)驗結(jié)果招刨。使用這種方法對D和G之間的相互作用進(jìn)行完整的理論理解還留待以后的工作霎俩。
最后，請注意沉眶，我們的K + 1個輸出的分類器是超參數(shù)：從每個輸出logit減去通用函數(shù)f（x）打却，即設(shè)置 $l_j（x）←\ l_j（x）? f（x）?j$ 不會更改softmax的輸出。這意味著我們可以等價于 $l_{K + 1}（x）=0?x$ 谎倔，在這種情況下柳击， $L_{supervised}$ 成為我們原始分類器具有K個分類的標(biāo)準(zhǔn)監(jiān)督損失函數(shù)，而鑒別器D由 $D（x）= \dfrac{Z（x ）}{Z（x）+1}$ 片习，其中 $Z（x）= \sum_{k=1}^K exp [l_k（x）]$ 捌肴。

標(biāo)簽對圖像質(zhì)量的重要性

除了在半監(jiān)督學(xué)習(xí)中獲得最新技術(shù)成果外，上述方法還具有令人驚訝的效果藕咏，可以改善人工判斷者判斷的生成圖像的質(zhì)量状知。原因似乎是人的視覺系統(tǒng)非常適合圖像統(tǒng)計數(shù)據(jù)，可以幫助推斷圖像代表的對象類別孽查，而對局部統(tǒng)計數(shù)據(jù)的敏感性較低饥悴，而局部統(tǒng)計數(shù)據(jù)對于解釋圖像的重要性不那么重要。我們發(fā)現(xiàn)人類判斷者報告的質(zhì)量與我們在第4節(jié)中開發(fā)的初始得分之間的高度相關(guān)性支持了這一點盲再，該得分明確地構(gòu)造為測量生成圖像的“客觀性”西设。通過使鑒別符D對圖像中顯示的對象進(jìn)行分類，我們使它偏向于開發(fā)一種內(nèi)部表示答朋，該內(nèi)部表示將重點放在人類強調(diào)的相同功能上贷揽。可以將這種效果理解為一種轉(zhuǎn)移學(xué)習(xí)的方法，并且有可能被更廣泛地應(yīng)用绿映。我們將進(jìn)一步探討這種可能性擒滑，以備將來之用腐晾。

實驗

我們在MNIST，CIFAR-10和SVHN上進(jìn)行了半監(jiān)督實驗丐一，并在MNIST藻糖，CIFAR-10，SVHN和ImageNet上進(jìn)行了樣本生成實驗库车。

MNIST

MNIST數(shù)據(jù)集包含60巨柒，000個帶數(shù)字標(biāo)簽的數(shù)字圖像。考慮到包含20柠衍、50洋满、100和200個標(biāo)記示例的設(shè)置，我們使用其中的一小部分隨機抽取的值執(zhí)行半監(jiān)督訓(xùn)練珍坊。結(jié)果是對標(biāo)記數(shù)據(jù)的10個隨機子集取平均牺勾，每個子集被選擇為每個類具有均衡數(shù)量的示例。提供的其余訓(xùn)練圖像沒有標(biāo)簽阵漏。我們的網(wǎng)絡(luò)每個都有5個隱藏層驻民。我們使用權(quán)重歸一化，并將高斯噪聲添加到鑒別器每一層的輸出履怯。表1總結(jié)了我們的結(jié)果回还。

Table1

排列不變MNIST上半監(jiān)督設(shè)置的分類錯誤的測試示例數(shù)。結(jié)果平均超過10個種子叹洲。

在使用特性匹配的半監(jiān)督學(xué)習(xí)過程中柠硕，生成器生成的樣本看起來沒有視覺吸引力（圖3）。通過使用小批量判別运提，我們可以改善它們的視覺質(zhì)量蝗柔。在MTurk上，判別者能夠區(qū)分52.4％的案例（總計2000票）中的樣本糙捺，其中50％將通過隨機猜測獲得诫咱。同樣笙隙，我們機構(gòu)的研究人員無法找到任何可以區(qū)分樣本的人工制品洪灯。但是，具有小批量判別的半監(jiān)督學(xué)習(xí)不能產(chǎn)生與特征匹配一樣好的分類器竟痰。

Figure3

模型在半監(jiān)督訓(xùn)練期間生成的（左）樣本签钩。可以將樣本與來自MNIST數(shù)據(jù)集的圖像區(qū)分開來。（右）以小批量鑒別產(chǎn)生的樣品坏快。樣本與數(shù)據(jù)集圖像完全無法區(qū)分铅檩。

CIFAR-10

CIFAR-10是一個小型的，適用于學(xué)習(xí)的32×32自然圖像的數(shù)據(jù)集莽鸿。我們使用此數(shù)據(jù)集來研究半監(jiān)督學(xué)習(xí)昧旨，以及檢查可以實現(xiàn)的樣本的視覺質(zhì)量拾给。對于我們GAN中的鑒別器，我們使用具有dropout和權(quán)重歸一化的9層深度卷積網(wǎng)絡(luò)兔沃。生成器是具有批歸一化功能的4層深CNN蒋得。表2總結(jié)了我們在半監(jiān)督學(xué)習(xí)任務(wù)中的結(jié)果。

Table2

Figure4

在CIFAR-10的半監(jiān)督訓(xùn)練期間生成的樣本乒疏，具有特征匹配（第3.1節(jié)额衙，左）和小批量鑒別（第3.2節(jié)，右）怕吴。

當(dāng)展示由我們最好的CIFAR-10模型生成的50％真實數(shù)據(jù)和50％假數(shù)據(jù)時窍侧，MTurk用戶正確地對78.7％的圖像進(jìn)行了正確分類。但是转绷，MTurk用戶可能對CIFAR-10圖像不夠熟悉或缺乏動力伟件。我們自己能夠以> 95％的準(zhǔn)確度對圖像進(jìn)行分類。我們通過觀察當(dāng)根據(jù)Inception分?jǐn)?shù)僅使用樣本的前1％來過濾數(shù)據(jù)時议经，MTurk準(zhǔn)確性下降至71.4％锋爪，從而驗證了上述Inception分?jǐn)?shù)。我們進(jìn)行了一系列消融實驗爸业，以證明我們提出的技術(shù)可以改善表3所示的Inception得分其骄。我們還提供了這些消融實驗的圖像-我們認(rèn)為，Inception得分與我們對圖像質(zhì)量的主觀判斷密切相關(guān)扯旷。來自數(shù)據(jù)集的樣本達(dá)到最高值拯爽。所有甚至部分崩潰的模型得分都相對較低。我們提醒您钧忽，應(yīng)將Inception分?jǐn)?shù)用作評估通過某些獨立準(zhǔn)則訓(xùn)練的模型的粗略指南毯炮；直接優(yōu)化Inception分?jǐn)?shù)將導(dǎo)致生成對抗性示例。

Figure5

（左）SVHN的錯誤率耸黑。（右）來自發(fā)生器的SVHN樣本桃煎。

Table3

各種模型針對50，000張圖像生成的樣本的初始得分表大刊。分?jǐn)?shù)與人類的判斷高度相關(guān)为迈，自然圖像可獲得最佳分?jǐn)?shù)。生成折疊樣本的模型得分較低缺菌。此度量標(biāo)準(zhǔn)使我們避免依賴人工評估葫辐。 “我們的方法”包括本文中介紹的所有技術(shù)，但特征匹配和歷史平均除外伴郁。其余實驗是消融實驗耿战，表明我們的技術(shù)有效。如DCGAN中一樣焊傅，“-VBN + BN”將生成器中的VBN替換為BN剂陡。這會導(dǎo)致CIFAR樣品質(zhì)量略有下降狈涮。 VBN對于ImageNet更為重要。 “ -L + HA”從訓(xùn)練過程中刪除標(biāo)簽鸭栖，并添加歷史平均值以進(jìn)行補償薯嗤。 HA使仍然可以生成一些可識別的對象。沒有HA纤泵，樣品質(zhì)量會大大降低（請參閱“ -L”）骆姐。相對于“我們的方法”，“-LS”消除了標(biāo)簽平滑并導(dǎo)致性能顯著下降捏题。 “ -MBF”刪除了小批量功能并導(dǎo)致性能大大下降玻褪，甚至比除去標(biāo)簽導(dǎo)致的性能下降更大。添加HA無法防止此問題公荧。

ImageNet

我們在ILSVRC2012數(shù)據(jù)集測試了我們的技術(shù)：該數(shù)據(jù)集中有128個類別的128×128張圖像带射。據(jù)我們所知，以前沒有將生成模型應(yīng)用于具有如此大的分辨率和如此眾多的對象類的數(shù)據(jù)集循狰。由于GAN傾向于低估分布中的熵窟社，因此大量的對象類別對GAN尤其具有挑戰(zhàn)性。我們使用TensorFlow廣泛修改了DCGANs的公共可用實現(xiàn)绪钥，以使用多GPU實現(xiàn)實現(xiàn)高性能灿里。未經(jīng)修改的DCGAN會學(xué)習(xí)一些基本的圖像統(tǒng)計信息，并生成具有某種自然色彩和紋理的連續(xù)形狀程腹，但不會學(xué)習(xí)任何對象匣吊。利用本文中描述的技術(shù)，GAN學(xué)會了生成類似于動物但解剖結(jié)構(gòu)不正確的對象寸潦。結(jié)果如圖6所示色鸳。

Figure6

從ImageNet數(shù)據(jù)集生成的樣本。（左）由DCGAN生成的樣本见转。（右）使用本工作中提出的技術(shù)生成的樣本命雀。新技術(shù)使GAN能夠?qū)W習(xí)動物的可識別特征，例如毛皮，眼睛和鼻子，但是這些特征沒有正確組合以形成具有逼真的解剖結(jié)構(gòu)的動物花竞。

結(jié)論

生成對抗網(wǎng)絡(luò)是一種很有前途的生成模型，迄今為止戴卜，由于不穩(wěn)定的訓(xùn)練和缺乏適當(dāng)?shù)脑u估指標(biāo)泳桦，生成模型一直受到阻礙。這項工作提出了這兩個問題的部分解決方案芳誓。我們提出了幾種穩(wěn)定訓(xùn)練的技術(shù)，這些技術(shù)使我們能夠訓(xùn)練以前無法訓(xùn)練的模型褥符。此外叽讳，我們提出的評估指標(biāo)（初始得分）為我們比較這些模型的質(zhì)量提供了基礎(chǔ)坟募。我們將我們的技術(shù)應(yīng)用于半監(jiān)督學(xué)習(xí)的問題岛蚤，從而在計算機視覺中的許多不同數(shù)據(jù)集上獲得了最新的結(jié)果。這項工作的貢獻(xiàn)是實用的懈糯；我們希望在以后的工作中發(fā)展出更嚴(yán)格的理論理解涤妒。