GAN的評價:An empirical study on evaluation metrics of generative adversarial networks

這篇paper的作者評價了各自度量GAN優(yōu)劣性的指標合住,并給出了實際工程方面的經(jīng)驗宅粥。

現(xiàn)有GAN評價指標存在哪些問題偎血?

  • 評價指標本身好壞志群,缺乏一個評價體系
  • 現(xiàn)有許多評價指標雖然和人的主觀比較一致哟玷∈桑可是與人的主觀一致并不一定就代表GAN是好的。

現(xiàn)有的一些評價指標巢寡,比如Inception score和MMD等喉脖,雖然可以在一定程度上評價GAN。但是這些評價指標的適用場景卻依然是一個疑問抑月。換句話說树叽,什么場景下,Inception score評價有效谦絮,什么時候Inception score會誤導卻未知题诵。此外,如果一個GAN過擬合了层皱,那么生成的樣本會非常真實性锭,人類主觀評價得分會非常高,可是這并不是一個好的GAN叫胖。

這里也就引出了作者的目的了草冈,那就是如何評價GAN的這些評價指標!

作者做了哪些工作瓮增?

作者通過進行大量實驗怎棱,比較了現(xiàn)在example-based的評價方法。嘗試回答了一下問題:

  • 現(xiàn)有指標哪個會更加合理绷跑,科學拳恋?
  • 現(xiàn)有指標的優(yōu)缺點,應(yīng)該首選哪些指標砸捏?

實際實驗發(fā)現(xiàn)谬运,MMD和1-NN two-sample test是最為合適的評價指標隙赁,這兩個指標可以較好的區(qū)分:真實樣本和生成的樣本,mode dropping, mode collapsing梆暖。且計算高效鸳谜。

什么是mode collapsing?

某個模式(mode)出現(xiàn)大量重復樣本式廷,例如:


model collpsing

上圖左側(cè)的藍色五角星表示真實樣本空間咐扭,黃色的是生成的。生成樣本缺乏多樣性滑废,存在大量重復蝗肪。比如上圖右側(cè)中,紅框里面人物反復出現(xiàn)蠕趁。

什么是mode dropping薛闪?

這個相對于好理解一下,顧名思義俺陋,某些模式(mode)沒有豁延,同樣也缺乏多樣性。例如下圖中的人物腊状,除了膚色變化诱咏,人物沒有任何變化。


mode dropping

GAN的常見評價指標

符號對照

P_g:生成數(shù)據(jù)分布缴挖,P_r表示真實數(shù)據(jù)分布
E:數(shù)學期望
x:輸入樣本袋狞,x\sim P_g表示x為生成樣本的采樣,x\sim P_r表示x為真實樣本的采樣映屋。
y:樣本標簽
M:分類網(wǎng)絡(luò)苟鸯,通常選擇Inception network

現(xiàn)有的example-based(顧名思義,基于樣本層面做評價棚点。)方法早处,均是對生成樣本與真實樣本提取特征,然后在特征空間做距離度量瘫析。具體框架如下:


example-based評價方法的框架

下面分別對常見的評價指標進行一一介紹:

Inception Score:

對于一個在ImageNet訓練良好的GAN砌梆,其生成的樣本丟給Inception網(wǎng)絡(luò)進行測試的時候,得到的判別概率應(yīng)該具有如下特性:

  • 對于同一個類別的圖片颁股,其輸出的概率分布應(yīng)該趨向于一個脈沖分布么库∩邓浚可以保證生成樣本的準確性甘有。
  • 對于所有類別,其輸出的概率分布應(yīng)該趨向于一個均勻分布葡缰,這樣才不會出現(xiàn)mode dropping等亏掀,可以保證生成樣本的多樣性忱反。

因此,可以設(shè)計如下指標:
IS(P_g)=e^{E_{x\sim P_g}[KL(p_M(y|x)\Vert{p_M(y)})]}
根據(jù)前面分析滤愕,如果是一個訓練良好的GAN温算,p_M(y|x)趨近于脈沖分布,p_M(y)趨近于均勻分布间影。二者KL散度會很大注竿。Inception Score自然就高。實際實驗表明魂贬,Inception Score和人的主觀判別趨向一致巩割。IS的計算沒有用到真實數(shù)據(jù),具體值取決于模型M的選擇

特點:可以一定程度上衡量生成樣本的多樣性和準確性付燥,但是無法檢測過擬合宣谈。Mode Score也是如此。不推薦在和ImageNet數(shù)據(jù)集差別比較大的數(shù)據(jù)上使用键科。

Mode Score:

Mode Score作為Inception Score的改進版本闻丑,添加了關(guān)于生成樣本和真實樣本預測的概率分布相似性度量一項。具體公式如下:
MS(P_g)=e^{E_{x\sim P_g}[KL(p_M(y|x)\Vert{p_M(y)})-KL(p_M(y)\Vert p_M(y^*))]}

Kernel MMD (Maximum Mean Discrepancy)

計算公式如下:
MMD^2(P_r,P_g)=E_{x_r\sim{P_r},x_g\sim{P_g}}[\lVert\Sigma_{i=1}^{n1}k(x_r)-\Sigma_{i=1}^{n2}k(x_g)\rVert]
對于Kernel MMD值的計算勋颖,首先需要選擇一個核函數(shù)k嗦嗡,這個核函數(shù)把樣本映射到再生希爾伯特空間(Reproducing Kernel Hilbert Space, RKHS) ,RKHS相比于歐幾里得空間有許多優(yōu)點饭玲,對于函數(shù)內(nèi)積的計算是完備的酸钦。將上述公式展開即可得到下面的計算公式:
MMD^2(P_r,P_g)=E_{x_r,x_r{'}\sim{P_r},x_g,x_g{'}\sim{P_g}}[k(x_r,x_r{'})-2k(x_r,x_g)+k(x_g,x_g{'})]
MMD值越小,兩個分布越接近咱枉。

特點:可以一定程度上衡量模型生成圖像的優(yōu)劣性卑硫,計算代價小。推薦使用蚕断。

Wasserstein distance

Wasserstein distance在最優(yōu)傳輸問題中通常也叫做推土機距離欢伏。這個距離的介紹在WGAN中有詳細討論。公式如下:
WD(P_r,P_g)=min_{\omega\in\mathbb{R}^{m\times n}}\Sigma_{i=1}^n\Sigma_{i=1}^m\omega_{ij}d(x_i^r,x_j^g)
s.t. \Sigma_{i=1}^mw_{i,j}=p_r(x_i^r), \forall i;\Sigma_{j=1}^nw_{i,j}=p_g(x_j^g), \forall j
Wasserstein distance可以衡量兩個分布之間的相似性亿乳。距離越小硝拧,分布越相似。

特點:如果特征空間選擇合適葛假,會有一定的效果障陶。但是計算復雜度為O(n^3)太高

Fre?chet Inception Distance (FID)

FID距離計算真實樣本,生成樣本在特征空間之間的距離聊训。首先利用Inception網(wǎng)絡(luò)來提取特征抱究,然后使用高斯模型對特征空間進行建模。根據(jù)高斯模型的均值和協(xié)方差來進行距離計算带斑。具體公式如下:
FID(\mathbb P_r,\mathbb P_g)=\lVert\mu_r-\mu_g\rVert+Tr(C_r+C_g-2(C_rC_g)^{1/2})
\mu,C分別代表協(xié)方差和均值鼓寺。

特點:盡管只計算了特征空間的前兩階矩勋拟,但是魯棒,且計算高效妈候。

1-Nearest Neighbor classifier

使用留一法敢靡,結(jié)合1-NN分類器(別的也行)計算真實圖片,生成圖像的精度苦银。如果二者接近啸胧,則精度接近50%,否則接近0%幔虏。對于GAN的評價問題吓揪,作者分別用正樣本的分類精度,生成樣本的分類精度去衡量生成樣本的真實性所计,多樣性柠辞。

  • 對于真實樣本x_r,進行1-NN分類的時候主胧,如果生成的樣本越真實叭首。則真實樣本空間\mathbb R將被生成的樣本x_g包圍。那么x_r的精度會很低踪栋。
  • 對于生成的樣本x_g焙格,進行1-NN分類的時候,如果生成的樣本多樣性不足夷都。由于生成的樣本聚在幾個mode眷唉,則x_g很容易就和x_r區(qū)分,導致精度會很高囤官。

特點:理想的度量指標冬阳,且可以檢測過擬合。

其他評價方法

AIS党饮,KDE方法也可以用于評價GAN肝陪,但這些方法不是model agnostic metrics。也就是說刑顺,這些評價指標的計算無法只利用:生成的樣本氯窍,真實樣本來計算。

實驗

實驗部分進行了詳細對比蹲堂。此處不表狼讨。
值得注意的是,上述指標對于特征空間的選擇尤其重要柒竞,特征空間選擇不當政供,可能得出相反的結(jié)果。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市鲫骗,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌踩晶,老刑警劉巖执泰,帶你破解...
    沈念sama閱讀 211,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異渡蜻,居然都是意外死亡术吝,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評論 3 385
  • 文/潘曉璐 我一進店門茸苇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來排苍,“玉大人,你說我怎么就攤上這事学密√匝茫” “怎么了?”我有些...
    開封第一講書人閱讀 157,435評論 0 348
  • 文/不壞的土叔 我叫張陵腻暮,是天一觀的道長彤守。 經(jīng)常有香客問我,道長哭靖,這世上最難降的妖魔是什么具垫? 我笑而不...
    開封第一講書人閱讀 56,509評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮试幽,結(jié)果婚禮上筝蚕,老公的妹妹穿的比我還像新娘。我一直安慰自己铺坞,他們只是感情好起宽,可當我...
    茶點故事閱讀 65,611評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著济榨,像睡著了一般燎含。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上腿短,一...
    開封第一講書人閱讀 49,837評論 1 290
  • 那天屏箍,我揣著相機與錄音,去河邊找鬼橘忱。 笑死赴魁,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的钝诚。 我是一名探鬼主播颖御,決...
    沈念sama閱讀 38,987評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了潘拱?” 一聲冷哼從身側(cè)響起疹鳄,我...
    開封第一講書人閱讀 37,730評論 0 267
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎芦岂,沒想到半個月后瘪弓,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,194評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡禽最,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,525評論 2 327
  • 正文 我和宋清朗相戀三年腺怯,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片川无。...
    茶點故事閱讀 38,664評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡呛占,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出懦趋,到底是詐尸還是另有隱情晾虑,我是刑警寧澤,帶...
    沈念sama閱讀 34,334評論 4 330
  • 正文 年R本政府宣布仅叫,位于F島的核電站走贪,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏惑芭。R本人自食惡果不足惜坠狡,卻給世界環(huán)境...
    茶點故事閱讀 39,944評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望遂跟。 院中可真熱鬧逃沿,春花似錦、人聲如沸幻锁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,764評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽哄尔。三九已至假消,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間岭接,已是汗流浹背富拗。 一陣腳步聲響...
    開封第一講書人閱讀 31,997評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鸣戴,地道東北人啃沪。 一個月前我還...
    沈念sama閱讀 46,389評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像窄锅,于是被迫代替她去往敵國和親创千。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,554評論 2 349

推薦閱讀更多精彩內(nèi)容