模型
生成式對抗網(wǎng)絡(luò)
整個GANs的架構(gòu)可以解釋為兩個對抗體的博弈過程尸变,一個叫生成器耍属,一個叫判別器晋控。生成器的作用是模擬現(xiàn)有的訓(xùn)練數(shù)據(jù)的數(shù)據(jù)分布生成數(shù)據(jù)此改,判別器則用來判斷接受的輸入是不是真的。GANs之父Goodfellow把生成器比作造假者而把鑒別器比作警察雏蛮,在相互博弈并多次迭代的過程中涎嚼,造假者和警察都會逐漸提升,知道造假者的假貨足以亂真挑秉。
作者這里把Goodfellow文章里的東西用自己的話又復(fù)述了一遍法梯,不再贅譯了,總之犀概,GANs的目標(biāo)函數(shù)如下:
圖像翻譯
將GANs用作一個通用的解決方案來應(yīng)付圖像翻譯任務(wù)是Isola首次提出的立哑,產(chǎn)生了大名鼎鼎的pix2pix。GANs的輸入圖像被附加上了標(biāo)簽信息為了能夠生成用戶真正想要的圖像(而不是隨機地亂搞一通)姻灶。為了實現(xiàn)這種功能铛绰,GANs的判別器中加入了Loss來對圖像是否與標(biāo)簽匹配進行度量。
在遙感圖像生成領(lǐng)域产喉,因為常常有云層覆蓋的原因捂掰,發(fā)現(xiàn)同一個地點的不同域之間的圖像之間的相關(guān)關(guān)系并不容易敢会,為了實現(xiàn)這種需求,CycleGAN模型橫空出世这嚣。這種結(jié)構(gòu)包含了兩個主要的部分鸥昏,除了“翻譯過去”之外,還需要“翻譯回來”姐帚。這兩個部分都加上了一個循環(huán)一致性Loss吏垮,如果拿自然語言處理的例子解釋,相當(dāng)于先英譯漢后漢譯英罐旗,最好的結(jié)果當(dāng)然是轉(zhuǎn)了一圈又原原本本地回到了初始狀態(tài)膳汪。所以在CycleGAN中,兩個部分是互逆九秀,對稱的遗嗽。給定的兩個生成器叫做G和F的話,它的目標(biāo)函數(shù)可以這樣表達:
其中的就是所謂的原始的對抗損失颤霎,而循環(huán)一致性損失是這樣計算的:
深度交叉質(zhì)量評估
對GANs的結(jié)果進行評估一直都是研究熱點問題媳谁,產(chǎn)生了很多相似度度量工具涂滴,比如Frechet距離友酱,這個東西被嵌入到Inception-v3網(wǎng)絡(luò)在ImageNet上做預(yù)訓(xùn)練產(chǎn)生的特定的層里,為了產(chǎn)生交叉特征柔纵。兩個多元高斯特征被擬合成這些特征缔杉,并產(chǎn)生Frechet距離。另一種比較常用的是Wassterstein-2距離搁料,它可以衡量兩個高斯分布之間的距離或详,計算公式是這樣的:
本文中,我們介紹一種方式衡量不匹配的圖像翻譯任務(wù)中生成圖像的質(zhì)量郭计,我們用了一種和Frechet距離有點相似的方式霸琴,用一個預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)去嵌入生成圖像中。我們選擇的是Resnet-50昭伸,同樣梧乘,也是在ImageNet上預(yù)訓(xùn)練的。即使在沒有微調(diào)過的情況下庐杨,在交叉空間里的相似度搜索也效果不錯选调。既然生成結(jié)果的質(zhì)量不僅取決于訓(xùn)練圖像的質(zhì)量,也和他們是否與目標(biāo)域足夠“親密”有關(guān)系灵份,我們就用了在Resnet-50的交叉空間里每個生成圖像和真實圖像的平均余弦距離(作為主要工具)仁堪。Resnet余弦距離(Cosine Resnet Distance,CRD)可以如下計算:
式子不難,解釋不譯填渠,我們也算了Frechet距離弦聂,比劃比劃到底Inception-v3和Resnet誰在這個遙感圖像應(yīng)用上更牛逼鸟辅。