用輔助分類器的GANs的條件圖像合成
摘要
合成高分辨率并且真實的圖片在機器學(xué)習是一個一直存在的挑戰(zhàn)。在本文中我們引入新的方法,來提高用于圖像合成的生成對抗網(wǎng)絡(luò)(GANs)的訓(xùn)練。我們利用標簽條件構(gòu)造了GANs的變種熟尉,它產(chǎn)生了128128像素的樣本并展示出了全局一致性。我們通過擴展之前用于圖像質(zhì)量評估的工作,來提供兩種新的分析方法來評估以類為條件的圖片合成模型中菊碟,生成樣本的可分辨性和多樣性。這些分析方法表明高分辨率的樣本提供了低分辨率樣本中沒有的類別信息在刺。在ImageNet的1000類別中逆害,128128的樣本比起人工變小的32*32大小的樣本的分辨性的兩倍以上。除此之外蚣驼,比起真實的ImageNet數(shù)據(jù)魄幕,84.7%的這些類有樣本顯示出了多樣性。
全文:https://arxiv.org/abs/1610.09585
本文提出了一個新的條件對抗生成網(wǎng)絡(luò)的框架颖杏,其具體的網(wǎng)絡(luò)結(jié)果如下圖所示:生成器的輸入除了GAN結(jié)構(gòu)中常見的噪聲Z以外纯陨,還加入了類標簽,而分辨器的判別也不再僅限于輸入數(shù)據(jù)真?zhèn)蔚呐袛嗔舸ⅲ瑫r會給出數(shù)據(jù)所屬類標簽的判斷翼抠,因而分辨器成了強化的分類器(雖然之前也是二分類的分類器,但是其監(jiān)督信號并不是很強)欲鹏。如此設(shè)計的GAN在文中被稱作AC-GAN(auxiliary classifier GAN机久,有輔助分類器的GAN)。
因為修改了分辨器赔嚎,所以AC-GAN的訓(xùn)練Loss更改如下:
其中分辨器的Loss為最大化Ls+Lc膘盖,生成器的Loss為最大化Lc-Ls,其中S表示判斷圖片的來源(Source)尤误,C表示判斷圖片的類標簽(Class Label)侠畔,這樣的描述可能比較復(fù)雜,因而轉(zhuǎn)換成MaxMin Game描述Loss如下:
具體的網(wǎng)絡(luò)構(gòu)成损晤,可以見文章的附錄部分软棺。
隨后,本文就提出的圖片生成模型尤勋,認為生成圖片的網(wǎng)絡(luò)喘落,不能是將低分辨率的圖片進行簡單的線性插值而生成高分辨率的圖片茵宪,與此同時,生成的圖片不能犯GAN常見的模式崩塌的問題瘦棋,產(chǎn)生單一并不多樣化的圖片稀火。
測試生成的圖片的分辨力
如上所述,生成高分辨率的圖片赌朋,需要不是簡單的將低分辨率的圖片進行線性插值來生成凰狞,因而要量化的分析生成的圖片的質(zhì)量,可以從其分辨力沛慢。從低分辨率通過插值生成的高分辨率圖片赡若,其本質(zhì)上沒有增加多余信息,只是低分辨率的模糊版团甲。結(jié)合這樣的思路逾冬,高分辨率的圖片提供了更多的信息,這些信息結(jié)合到AC-GAN結(jié)構(gòu)躺苦,每個生成圖片都有其對應(yīng)的標簽粉渠,因而這個更多的信息,可以通過分類來表明圾另,也就是說更多的信息,可以用于分類雕沉,也就是文中所說的分辨力(Discriminability)集乔。
因此,文中采用了Inception網(wǎng)絡(luò)對于生成的圖片進行分類坡椒,查看其被分類為正確類別的比率扰路,以此來判定生成的圖片質(zhì)量。下圖中倔叼,圖中左下的圖汗唱,黑色的線,是真實圖片丈攒,因而其達到的準確率可以說是生成圖片的準確率的上限哩罪,紅色的線表示的是生成的128128分辨率的圖片的準確率表現(xiàn),藍色的線是生成的6464分辨率的圖片的準確率表現(xiàn)巡验,對于比其高或低分辨率的圖片的準確率际插,是通過插值的方式縮放以后得到的圖片得出的準確率表現(xiàn),可以看到显设,降低分辨率確實降低了準確率框弛,明確表明低分辨率的類信息更少;同樣通過插值方式提高分辨率并不會帶來更多的類信息捕捂,同時也不會損害已有的類信息瑟枫,因而準確率保持不變斗搞。圖中右下的圖,每個點代表不同的類別慷妙,其坐標分別代碼不同的分辨率下的準確率僻焚,其中藍色的線是y=x的函數(shù)線,也就表明位于藍色線上方的點景殷,含義是該類別的圖片在3232分辨率條件下準確率高于128128條件下的準確率溅呢,反之,在下方的點表明3232的準確率低于128128的準確率猿挚。文中統(tǒng)計了在線下方的點的比例為84.4%咐旧,也可以說大部分的圖片在高分辨率的情況下,用于分類準確率會高于低分辨率绩蜻。
測試圖片的多樣性
GAN有個最常見的問題就是模式坍塌的問題铣墨,就是模型找到一種方式,無論輸入的內(nèi)容是什么办绝,生成的圖片都只有一種伊约,然而這種圖片能大概率欺騙過分辨器。因而孕蝉,產(chǎn)生的圖片具有多樣性屡律,也是可以評估GAN模型好壞的指標。文中采用了圖片的多尺度結(jié)構(gòu)相似度來衡量圖片與圖片之間的相似度(multi-scale structural similarity降淮,MS-SSIM)超埋,這個相似度在0和1之間取值,越大說明圖片之間越相似佳鳖。文中在一個給定類中取圖片對霍殴,計算兩者之間的MS-SSIM,如果圖片多樣性程度越高系吩,那么這個MS-SSIM的分數(shù)應(yīng)該越低来庭。ImageNet的訓(xùn)練數(shù)據(jù)的平均MS-SSIM值最高的為0.25,這部分的實驗結(jié)果如下圖所示穿挨,圖中左下角的圖月弛,圖中每個點代表一個類,分別對應(yīng)訓(xùn)練數(shù)據(jù)和生成數(shù)據(jù)的MS-SSIM的數(shù)值絮蒿,藍色的線依舊為y=x的函數(shù)線尊搬。但是這塊并不是看生成數(shù)據(jù)MS-SSIM比訓(xùn)練數(shù)據(jù)的MS-SSIM大或者小的部分(因為這并沒有什么意義,生成的數(shù)據(jù)多樣性比訓(xùn)練數(shù)據(jù)高或低沒有太多意義)土涝,而是要看紅色的分界線佛寿,紅色的線為MS-SSIM為0.25,因而低于0.25的數(shù)據(jù),可以說生成的數(shù)據(jù)是比較接近真實圖片的冀泻,文中統(tǒng)計了這根紅線下面的類的數(shù)量為847個常侣,也就是說84.7%的AC-GAN生成的類數(shù)據(jù)的多樣性超過了訓(xùn)練集中最小變化量的類(仔細思考下,這樣的比較方式可能存在一點問題弹渔,個人覺得用所有類的MS-SSIM的平均值可能會更具有代表性)胳施。圖中右下角的圖,文中表示紅色的線是生成數(shù)據(jù)的MS-SSIM平均值在訓(xùn)練過程中的變化(一直在上升肢专,是不是說明有崩塌的可能舞肆,而且接近1了);同時圖中黑色的線博杖,應(yīng)該是訓(xùn)練完成后生成的圖片的多樣性(文中提及同樣標準測試了訓(xùn)練數(shù)據(jù)椿胯,和完成后的生成樣本,但是這里存在問題的是剃根,訓(xùn)練完成后的橫坐標按理是不存在的哩盲,或者,這個缺陷應(yīng)該不會波動很大狈醉,這里也可以理解為橫坐標為訓(xùn)練最大次數(shù)廉油,然后計算平均的MS-SSIM的數(shù)值,不過這里確實沒交代太清楚)苗傅。
文中除了分開的探索生成圖片的分辨力和多樣性抒线,也探索了生成圖片的分辨力和多樣性的相關(guān)性,如下圖所示渣慕,文中得到兩者相關(guān)性為負相關(guān)(相關(guān)系數(shù)r=-0.16)十兢,因此認為AC-GAN的模型并沒有以分辨力為代價,來產(chǎn)生多樣性的樣本摇庙。(這里得注意,分辨力的參數(shù)是越大越好遥缕,多樣性的參數(shù)是越小越好)卫袒。
除了說明生成的圖片具有分辨力的同時也具有多樣性外,文中通過Inception Score比較了AC-GAN生成的樣本的質(zhì)量单匣,獲得了8.25±0.07的分數(shù)夕凝。同時由于在生成ImageNet的1000個類的數(shù)據(jù)時,采用了100個AC-GAN來生成數(shù)據(jù)户秤,每個AC-GAN只需要關(guān)注10個類的數(shù)據(jù)的生成(GAN在存在多個類的情況下码秉,生成的樣本效果并不好,這也是GAN的一個研究方向)鸡号,因此在附錄中转砖,文中還探索了這樣劃分類是否會使得AC-GAN生成效果更好。
在探索AC-GAN是否存在過擬合的實驗中,文中提出了兩種思路府蔗,第一種思路是比較L1距離最近的生成的圖片晋控,看起是否類似于訓(xùn)練的數(shù)據(jù),從而判定是否存在過擬合姓赤,給出的實驗結(jié)果圖比較赡译,依舊是人為的評定是否相似。除此方法之前不铆,文中提出了線性插值噪聲z和類標簽c蝌焚,查看其變化,其認為如果是過擬合的模型誓斥,那么產(chǎn)生的圖片在插值的輸入面前會發(fā)生圖片只洒,結(jié)果依舊需要認為判斷,不過這樣判斷是否發(fā)生突變會比之前的容易(感覺可以用MS-SSIM來確定插值后產(chǎn)生的圖片是否依舊比較大之類的)岖食。
總結(jié)
本文提出的GAN結(jié)構(gòu)红碑,修改了Generator,除了輸入噪聲z之外泡垃,還提供了需要生成數(shù)據(jù)的類標簽c析珊;修改了Discriminator,除了判斷圖片的真?zhèn)沃饷镅ǎ€需要判斷圖片的類標簽忠寻。這樣,在加入了監(jiān)督信號的情況下存和,提升了GAN生成圖片質(zhì)量奕剃,并且沒有出現(xiàn)GAN容易出現(xiàn)的模式坍塌現(xiàn)象。在評估GAN生成的圖片驗證上捐腿,提出了采用生成圖片分類結(jié)果準確性來證實生成圖片的質(zhì)量纵朋,與此同時采用MS-SSIM參數(shù)的評估,來檢驗AC-GAN生成數(shù)據(jù)的多樣性茄袖,提出這些數(shù)值評估的情況擎淤,在某種程度上而言婚度,這些量化的分析粘我,都可以設(shè)計成對應(yīng)的Loss近一步提升GAN的生成圖片的能力瞭亮。除此之外,還定性分析了AC-GAN模型的是否產(chǎn)生過擬合的問題蝗羊。