本文講解的是通過(guò)GAN網(wǎng)絡(luò)的方式來(lái)進(jìn)行圖像的藝術(shù)驅(qū)動(dòng)方式的增強(qiáng)亭螟。
本文的增強(qiáng)方式和其他的增強(qiáng)有很大區(qū)別吕嘀,其實(shí)就是改變像素的顏色宴猾。用這么深的網(wǎng)絡(luò)就為了學(xué)幾個(gè)參數(shù)枢析。
整個(gè)網(wǎng)絡(luò)分生成(G)和判別(D)網(wǎng)絡(luò),判別網(wǎng)絡(luò)很好理解店归,像一般的GAN一樣阎抒,將真圖和假圖一起輸入,用的是RESNET網(wǎng)絡(luò)消痛,最后輸出一個(gè)分?jǐn)?shù)且叁,判別圖像質(zhì)量的優(yōu)劣。
這里生成網(wǎng)絡(luò)就和一般的不一樣秩伞,其中a步驟和一般的網(wǎng)絡(luò)一樣逞带,用低質(zhì)量圖輸入质涛,輸出fxf的特征map,有2048個(gè)通道掰担。
然后b步驟汇陆,要根據(jù)c步驟來(lái)具體實(shí)施,如按c中的1带饱,所謂Piecewise Color Enhancer毡代,就是將原圖轉(zhuǎn)化到LAB圖像空間,也是三通道勺疼,增強(qiáng)的方式就是將每個(gè)通道的像素教寂,逐像素改變一下值,改變的方式是执庐,如下:
上式是改變L通道的方式酪耕,就是根據(jù)每個(gè)像素原來(lái)的值得大小m,落在某一范圍內(nèi)轨淌,然后用對(duì)應(yīng)的式子改變他迂烁,這里有四個(gè)未知數(shù),a,b,p,q递鹉,
在其他兩個(gè)通道轉(zhuǎn)換的方式如下:
這里的未知數(shù)是alpha和beta盟步,那么一共有6個(gè)未知數(shù),如果求到了他們6個(gè)值就用他們改變每個(gè)通道的值躏结,然后再拼起來(lái)成一張圖却盘。
而a,b兩個(gè)步驟就是用來(lái)求這6個(gè)數(shù)的媳拴,a輸出的是2048個(gè)channel黄橘,到b時(shí),通過(guò)一個(gè)卷積層變成fxf的大小屈溉,(6+1層)特征塞关,6是前面6個(gè)未知數(shù),還有1是表示這6個(gè)數(shù)是最優(yōu)解的概率语婴。但是現(xiàn)在有fxf組的未知數(shù)的值描孟,這里就用top k池化算法驶睦,挑選出概率值最高的k組作為候選項(xiàng)砰左,然后再用這個(gè)概率值做加權(quán)平均,得到最后的一組值场航,然后用這組值來(lái)求優(yōu)化的圖像缠导。這就是Piecewise Color Enhancer方式的生成模型。
然后第2種Deep Filtering-based Enhancer溉痢,說(shuō)是為了避免1方法的局限僻造,這里優(yōu)化的方式是使用一些現(xiàn)成的濾波器對(duì)圖像處理憋他,因?yàn)槭褂昧硕鄠€(gè)濾波器,這里求得是這幾個(gè)濾波器濾波后加權(quán)的權(quán)值髓削。如果有N個(gè)濾波器竹挡,b步驟就要有N+1個(gè)通道。
第三種是Image Cropping Operator立膛,就是求圖像的一個(gè)最后剪裁方式揪罕,那么有[x,y,w,h]四個(gè)參數(shù),一共5個(gè)通道宝泵。
損失函數(shù):
訓(xùn)練生成模型時(shí)的損失函數(shù)由以下構(gòu)成:
沿用WGAN的提出的損失函數(shù)好啰,D的輸出不經(jīng)過(guò)sigmod,不加log儿奶,直接求輸出的最小值框往,具體看wgan原文
也是感知損失,就是將圖輸入VGG闯捎,去其中的一個(gè)特征層椰弊,計(jì)算兩張圖的差別,就是要求不要改的太過(guò)分瓤鼻,內(nèi)容還是要一樣的男应,
就是要求優(yōu)化后的圖像不能比原圖還差。
訓(xùn)練判別模型:
用的也是wgan的損失函數(shù)娱仔。
以上是個(gè)人閱讀論文筆記沐飘,如有錯(cuò)誤,希望大家批評(píng)指正牲迫,謝謝
參考:參考博客