這篇paper的作者評價了各自度量GAN優(yōu)劣性的指標合住,并給出了實際工程方面的經(jīng)驗宅粥。
現(xiàn)有GAN評價指標存在哪些問題偎血?
- 評價指標本身好壞志群,缺乏一個評價體系
- 現(xiàn)有許多評價指標雖然和人的主觀比較一致哟玷∈桑可是與人的主觀一致并不一定就代表GAN是好的。
現(xiàn)有的一些評價指標巢寡,比如Inception score和MMD等喉脖,雖然可以在一定程度上評價GAN。但是這些評價指標的適用場景卻依然是一個疑問抑月。換句話說树叽,什么場景下,Inception score評價有效谦絮,什么時候Inception score會誤導卻未知题诵。此外,如果一個GAN過擬合了层皱,那么生成的樣本會非常真實性锭,人類主觀評價得分會非常高,可是這并不是一個好的GAN叫胖。
這里也就引出了作者的目的了草冈,那就是如何評價GAN的這些評價指標!
作者做了哪些工作瓮增?
作者通過進行大量實驗怎棱,比較了現(xiàn)在example-based的評價方法。嘗試回答了一下問題:
- 現(xiàn)有指標哪個會更加合理绷跑,科學拳恋?
- 現(xiàn)有指標的優(yōu)缺點,應(yīng)該首選哪些指標砸捏?
實際實驗發(fā)現(xiàn)谬运,MMD和1-NN two-sample test是最為合適的評價指標隙赁,這兩個指標可以較好的區(qū)分:真實樣本和生成的樣本,mode dropping, mode collapsing梆暖。且計算高效鸳谜。
什么是mode collapsing?
某個模式(mode)出現(xiàn)大量重復樣本式廷,例如:
上圖左側(cè)的藍色五角星表示真實樣本空間咐扭,黃色的是生成的。生成樣本缺乏多樣性滑废,存在大量重復蝗肪。比如上圖右側(cè)中,紅框里面人物反復出現(xiàn)蠕趁。
什么是mode dropping薛闪?
這個相對于好理解一下,顧名思義俺陋,某些模式(mode)沒有豁延,同樣也缺乏多樣性。例如下圖中的人物腊状,除了膚色變化诱咏,人物沒有任何變化。
GAN的常見評價指標
符號對照
:生成數(shù)據(jù)分布缴挖,表示真實數(shù)據(jù)分布
:數(shù)學期望
:輸入樣本袋狞,表示為生成樣本的采樣,表示為真實樣本的采樣映屋。
:樣本標簽
:分類網(wǎng)絡(luò)苟鸯,通常選擇Inception network
現(xiàn)有的example-based(顧名思義,基于樣本層面做評價棚点。)方法早处,均是對生成樣本與真實樣本提取特征,然后在特征空間做距離度量瘫析。具體框架如下:
下面分別對常見的評價指標進行一一介紹:
Inception Score:
對于一個在ImageNet訓練良好的GAN砌梆,其生成的樣本丟給Inception網(wǎng)絡(luò)進行測試的時候,得到的判別概率應(yīng)該具有如下特性:
- 對于同一個類別的圖片颁股,其輸出的概率分布應(yīng)該趨向于一個脈沖分布么库∩邓浚可以保證生成樣本的準確性甘有。
- 對于所有類別,其輸出的概率分布應(yīng)該趨向于一個均勻分布葡缰,這樣才不會出現(xiàn)mode dropping等亏掀,可以保證生成樣本的多樣性忱反。
因此,可以設(shè)計如下指標:
根據(jù)前面分析滤愕,如果是一個訓練良好的GAN温算,趨近于脈沖分布,趨近于均勻分布间影。二者KL散度會很大注竿。Inception Score自然就高。實際實驗表明魂贬,Inception Score和人的主觀判別趨向一致巩割。IS的計算沒有用到真實數(shù)據(jù),具體值取決于模型M的選擇
特點:可以一定程度上衡量生成樣本的多樣性和準確性付燥,但是無法檢測過擬合宣谈。Mode Score也是如此。不推薦在和ImageNet數(shù)據(jù)集差別比較大的數(shù)據(jù)上使用键科。
Mode Score:
Mode Score作為Inception Score的改進版本闻丑,添加了關(guān)于生成樣本和真實樣本預測的概率分布相似性度量一項。具體公式如下:
Kernel MMD (Maximum Mean Discrepancy)
計算公式如下:
對于Kernel MMD值的計算勋颖,首先需要選擇一個核函數(shù)嗦嗡,這個核函數(shù)把樣本映射到再生希爾伯特空間(Reproducing Kernel Hilbert Space, RKHS) ,RKHS相比于歐幾里得空間有許多優(yōu)點饭玲,對于函數(shù)內(nèi)積的計算是完備的酸钦。將上述公式展開即可得到下面的計算公式:
MMD值越小,兩個分布越接近咱枉。
特點:可以一定程度上衡量模型生成圖像的優(yōu)劣性卑硫,計算代價小。推薦使用蚕断。
Wasserstein distance
Wasserstein distance在最優(yōu)傳輸問題中通常也叫做推土機距離欢伏。這個距離的介紹在WGAN中有詳細討論。公式如下:
Wasserstein distance可以衡量兩個分布之間的相似性亿乳。距離越小硝拧,分布越相似。
特點:如果特征空間選擇合適葛假,會有一定的效果障陶。但是計算復雜度為太高
Fre?chet Inception Distance (FID)
FID距離計算真實樣本,生成樣本在特征空間之間的距離聊训。首先利用Inception網(wǎng)絡(luò)來提取特征抱究,然后使用高斯模型對特征空間進行建模。根據(jù)高斯模型的均值和協(xié)方差來進行距離計算带斑。具體公式如下:
分別代表協(xié)方差和均值鼓寺。
特點:盡管只計算了特征空間的前兩階矩勋拟,但是魯棒,且計算高效妈候。
1-Nearest Neighbor classifier
使用留一法敢靡,結(jié)合1-NN分類器(別的也行)計算真實圖片,生成圖像的精度苦银。如果二者接近啸胧,則精度接近50%,否則接近0%幔虏。對于GAN的評價問題吓揪,作者分別用正樣本的分類精度,生成樣本的分類精度去衡量生成樣本的真實性所计,多樣性柠辞。
- 對于真實樣本,進行1-NN分類的時候主胧,如果生成的樣本越真實叭首。則真實樣本空間將被生成的樣本包圍。那么的精度會很低踪栋。
- 對于生成的樣本焙格,進行1-NN分類的時候,如果生成的樣本多樣性不足夷都。由于生成的樣本聚在幾個mode眷唉,則很容易就和區(qū)分,導致精度會很高囤官。
特點:理想的度量指標冬阳,且可以檢測過擬合。
其他評價方法
AIS党饮,KDE方法也可以用于評價GAN肝陪,但這些方法不是model agnostic metrics。也就是說刑顺,這些評價指標的計算無法只利用:生成的樣本氯窍,真實樣本來計算。
實驗
實驗部分進行了詳細對比蹲堂。此處不表狼讨。
值得注意的是,上述指標對于特征空間的選擇尤其重要柒竞,特征空間選擇不當政供,可能得出相反的結(jié)果。