code
摘要:
這篇論文描述了InfoGAN,一種對于對抗生成網(wǎng)絡(luò)的信息理論上的擴(kuò)展讽营,它能夠以完全無監(jiān)督的方式學(xué)習(xí)分離的表達(dá)说铃。InfoGAN是一個對抗生成網(wǎng)絡(luò),它也會最大化隱藏變量的一個小的子集和觀察數(shù)據(jù)之間的互信息雹顺。我們推出了可以被高效優(yōu)化的互信息目標(biāo)函數(shù)的下界。特別地說廊遍,InfoGAN成功了從MNIST數(shù)據(jù)集的數(shù)字形狀中分離出了書寫風(fēng)格嬉愧,從3D渲染圖片的光照中分離出了姿態(tài),以及SVHN數(shù)據(jù)集的中央數(shù)字中分離出了背景數(shù)字喉前。它也從CelebA人臉數(shù)據(jù)集中發(fā)現(xiàn)了一些包絡(luò)發(fā)型没酣,是否戴眼鏡和表情等視覺概念。實(shí)驗(yàn)表明卵迂,InfoGAN學(xué)習(xí)到了可解釋的表達(dá)裕便,這些表達(dá)比現(xiàn)有的監(jiān)督方法學(xué)習(xí)到的表達(dá)更有競爭力。
本文提出的GAN的架構(gòu)如下圖所示见咒,生成器G的輸入不僅僅是噪聲z偿衰,而是增加了一個隱含變量的c,這個隱含變量在無監(jiān)督學(xué)習(xí)中改览,并不明確其具體指定的含義下翎,但是就是需要分離度語義信息。辨別器D其實(shí)存在兩個宝当,一個依舊是分別數(shù)據(jù)真?zhèn)谓Y(jié)果视事,一個給出的是條件概率分布Q(c|x),但是這兩個辨別器(D/Q)共用前面所有的卷積層庆揩,只是最后分別用不同的全連接層得到最后的輸出結(jié)果俐东。
這樣的網(wǎng)絡(luò)設(shè)計(jì),在原有的GAN訓(xùn)練的loss函數(shù)中订晌,加入了一個互信息項(xiàng)的loss虏辫,以鼓勵生成器G在生成數(shù)據(jù)的時候,不僅僅使用噪聲z锈拨,同時也利用隱藏變量c砌庄。設(shè)計(jì)過程中,是要求c與生成的數(shù)據(jù)的互信息形成新的loss項(xiàng),但是需要計(jì)算條件分布存在困難鹤耍,于是進(jìn)行的數(shù)學(xué)換算過程肉迫,然后加入Q的輔助分布輔助這一計(jì)算,因此加入的loss項(xiàng)如下:
在LI(G,Q)中稿黄,將H(c)看做常數(shù)項(xiàng)喊衫,那么優(yōu)化過程中,只要優(yōu)化公式5中的前面一部分杆怕。對于離散變量c族购,文中指出其概率是將Q(c|x)通過softmax計(jì)算獲得的結(jié)果(softmax一般用于概率的計(jì)算,然后Q(c|x)輸出被認(rèn)為本身就帶有其概率陵珍,因而用softmax做概率的歸一處理)寝杖;對于連續(xù)的變量c,文中指出采用高斯分布來計(jì)算其概率互纯,也就是說直接使用正態(tài)分布的概率密度函數(shù)直接計(jì)算某數(shù)值的概率即可瑟幕。最終整個模型的訓(xùn)練的loss如下:
這篇文章中采用的互信息的內(nèi)容,來保證輸入的noise和產(chǎn)生的圖片之間的聯(lián)系留潦,并且使用由此設(shè)計(jì)的Loss來強(qiáng)約束兩者之間的關(guān)系只盹,最終確保了模型學(xué)到了從noise中學(xué)到對應(yīng)的語義信息來生成圖片。從某種意義上而言兔院,除了互信息的約束殖卑,可以嘗試其他的約束來綁定noise和生成的圖片之間的聯(lián)系,從而設(shè)計(jì)新的loss坊萝,可以得到新的GAN的模型用來生成與noise息息相關(guān)的圖片孵稽。