這是發(fā)在 ECCV 2016的文章舞骆。
Abstract
考慮圖像轉(zhuǎn)換問題邪乍,其中輸入圖像被轉(zhuǎn)換為輸出圖像讨惩。
最近的方法問題通常使用輸出圖像與真實(shí)圖像之間的每像素?fù)p失來訓(xùn)練前饋卷積神經(jīng)網(wǎng)絡(luò)产弹。
并行工作表明剑勾,可以基于從預(yù)訓(xùn)練網(wǎng)絡(luò)中提取的高級(jí)特征來定義和優(yōu)化感知損失函數(shù)量窘,從而生成高質(zhì)量圖像雇寇。
作者結(jié)合了兩種方法的優(yōu)勢(shì),并提出了使用感知損失函數(shù)進(jìn)行訓(xùn)練圖像轉(zhuǎn)換的前饋網(wǎng)絡(luò)。
展示了圖像樣式轉(zhuǎn)換的結(jié)果谢床,其中訓(xùn)練了前饋網(wǎng)絡(luò)以實(shí)時(shí)解決Gatys等人提出的優(yōu)化問題兄一。
與基于優(yōu)化的方法相比,文章的網(wǎng)絡(luò)給出了相似的定性結(jié)果识腿,但速度快了三個(gè)數(shù)量級(jí)出革。 我們還嘗試了單圖像超分辨率,其中用感知損失替換每個(gè)像素的損失在視覺上令人愉悅渡讼。
1. Introduction
解決圖像變換任務(wù)的一種方法是以有監(jiān)督的方式訓(xùn)練前饋卷積神經(jīng)網(wǎng)絡(luò)骂束,使用每一個(gè)像素?fù)p失函數(shù)來測(cè)量輸出圖像與真實(shí)圖像之間的差異。
但是成箫,這個(gè)方法使用的每一個(gè)像素?fù)p失無法捕獲輸出圖像與真實(shí)圖像之間的感知差異展箱;例如考慮兩個(gè)相同的圖像,彼此偏移一個(gè)像素蹬昌; 盡管它們?cè)诟兄舷嗨苹斐郏疵肯袼負(fù)p失衡量,它們還是有很大差異的皂贩。
同時(shí)栖榨,最近的工作表明,可以使用感知損失函數(shù)生成高質(zhì)量圖像明刷,而不是基于像素之間的差異婴栽,而是基于從預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取的高級(jí)圖像特征表示之間的差異。通過最小化損失函數(shù)來生成圖片辈末,盡管這些方法能生成高質(zhì)量的圖片愚争,但是速度很慢。
這篇文章中挤聘,我們聯(lián)合了兩個(gè)方法的優(yōu)點(diǎn)轰枝。訓(xùn)練前饋?zhàn)儞Q網(wǎng)絡(luò)來執(zhí)行圖像變換任務(wù),而不是僅根據(jù)低級(jí)像素信息使用每像素?fù)p失函數(shù)檬洞,而是使用依賴于預(yù)訓(xùn)練損失網(wǎng)絡(luò)中高級(jí)特征的感知損失函數(shù)訓(xùn)練網(wǎng)絡(luò)狸膏。在訓(xùn)練過程中沟饥,感知損失比每像素?fù)p失更能可靠地測(cè)量圖像相似性添怔,并且在測(cè)試時(shí),轉(zhuǎn)換網(wǎng)絡(luò)實(shí)時(shí)運(yùn)行贤旷。
文章嘗試了兩項(xiàng)任務(wù):樣式轉(zhuǎn)換和單圖像超分辨率广料。 兩者都是天生的不適。 對(duì)于樣式轉(zhuǎn)換幼驶,沒有單個(gè)正確的輸出艾杏,對(duì)于超分辨率,可能有許多高分辨率圖像生成相同的低分辨率輸入盅藻。
這兩項(xiàng)任務(wù)的成功都需要有關(guān)輸入圖像的語(yǔ)義推理购桑。 對(duì)于樣式轉(zhuǎn)換畅铭,盡管顏色和紋理發(fā)生了巨大變化,但輸出在語(yǔ)義上必須與輸入相似勃蜘。 對(duì)于超分辨率硕噩,必須從視覺上模糊的低分辨率輸入中推斷出精細(xì)的細(xì)節(jié)。
原則上缭贡,為每項(xiàng)任務(wù)訓(xùn)練的高容量神經(jīng)網(wǎng)絡(luò)都可以隱式學(xué)習(xí)推理相關(guān)語(yǔ)義的能力炉擅; 但是在實(shí)踐中我們不需要從頭學(xué)習(xí):感知損失函數(shù)的使用允許將語(yǔ)義知識(shí)從損失網(wǎng)絡(luò)轉(zhuǎn)移到轉(zhuǎn)換網(wǎng)絡(luò)。
2. Related Work
2.1 Feed-forward image transformation
最近幾年前饋圖像轉(zhuǎn)換任務(wù)應(yīng)用十分廣泛阳惹,很多轉(zhuǎn)換任務(wù)都用了逐像素求差的方式來訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)谍失。
本文的轉(zhuǎn)換網(wǎng)絡(luò)的架構(gòu)是由一些先前的工作所啟發(fā)的,它們使用網(wǎng)絡(luò)內(nèi)下采樣來減少特征圖的空間范圍莹汤,然后使用網(wǎng)絡(luò)內(nèi)上采樣來生成最終的輸出圖像快鱼。
2.2 Perceptual optimization
有一些論文用到了優(yōu)化的方法來產(chǎn)生圖像,它們的對(duì)象是具有感知性的纲岭,感知性取決于從CNN中提取到的高層次特征攒巍。
Dosovitskiy和Brox的工作是跟文章的工作最相關(guān)的,他們訓(xùn)練了一個(gè)前饋神經(jīng)網(wǎng)絡(luò)去倒置卷積特征荒勇,快速的逼近了之前論文中提出的優(yōu)化問題的結(jié)局方案柒莉,然而他們的前饋網(wǎng)絡(luò)是用的逐像素重建損失函數(shù)來訓(xùn)練,而文章的網(wǎng)絡(luò)是直接用了特征重建損失函數(shù)沽翔。
2.3 Style Transfer
Gatys等人實(shí)現(xiàn)了藝術(shù)風(fēng)格轉(zhuǎn)換兢孝,包含一張內(nèi)容圖和一個(gè)風(fēng)格圖,通過聯(lián)合最小化特征重構(gòu)損失和基于從預(yù)訓(xùn)練好的卷積網(wǎng)絡(luò)提取的特征的風(fēng)格重構(gòu)損失仅偎。
一個(gè)相似的方法之前也被用于做紋理合成跨蟹。然而他們的方法產(chǎn)出了很高質(zhì)量的結(jié)果,但是計(jì)算代價(jià)非常的昂貴橘沥,因?yàn)槊恳淮蔚鷥?yōu)化都需要經(jīng)過前饋窗轩、反饋預(yù)訓(xùn)練好的整個(gè)網(wǎng)絡(luò)。
為了克服這樣一個(gè)計(jì)算量的負(fù)擔(dān)座咆,我們訓(xùn)練了一個(gè)前饋神經(jīng)網(wǎng)絡(luò)去快速獲得可行解痢艺。
Image super-resolution
圖像超分辨率重建是一個(gè)經(jīng)典的問題,很多人提出了非常廣泛的技術(shù)手段來做圖像超分辨率重建介陶。
3. Method
如 Figure 2 所示堤舒,文章的系統(tǒng)由兩部分構(gòu)成:圖像轉(zhuǎn)換網(wǎng)絡(luò),損失網(wǎng)絡(luò)
(用來定義一系列損失函數(shù)
)
圖像變換網(wǎng)絡(luò)是由權(quán)重參數(shù)化的深度殘差卷積神經(jīng)網(wǎng)絡(luò)哺呜;它通過映射
把輸入圖像
轉(zhuǎn)換為輸出圖像
舌缤。每一個(gè)損失函數(shù)計(jì)算一個(gè)標(biāo)量值
來測(cè)量輸出圖像
和目標(biāo)圖像
的差。使用隨機(jī)梯度下降訓(xùn)練圖像變換網(wǎng)絡(luò),以最小化損失函數(shù)的加權(quán)組合国撵,
為了解決每一個(gè)像素?fù)p失的缺點(diǎn)陵吸,并使損失函數(shù)更好地衡量圖像之間的感知和語(yǔ)義差異,我們從最近的工作中汲取了靈感介牙,這些工作通過優(yōu)化來生成圖像走越。
這些方法的關(guān)鍵思想在于,經(jīng)過預(yù)訓(xùn)練的圖像分類卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)學(xué)會(huì)了對(duì)我們希望在損失函數(shù)中測(cè)量的感知和語(yǔ)義信息進(jìn)行編碼耻瑟。因此旨指,為了定義損失函數(shù),將對(duì)圖像分類進(jìn)行預(yù)訓(xùn)練的網(wǎng)絡(luò)用作固定損失網(wǎng)絡(luò)喳整。
損失網(wǎng)絡(luò)被用來定義特征重構(gòu)損失
和風(fēng)格重構(gòu)損失
來測(cè)量?jī)?nèi)容圖片和風(fēng)格圖片直接的差谆构。
對(duì)于每一個(gè)輸入圖像,有內(nèi)容目標(biāo)
和風(fēng)格目標(biāo)
框都。
對(duì)于風(fēng)格轉(zhuǎn)換搬素,內(nèi)容目標(biāo)是輸入圖像
,輸出圖像
應(yīng)該將
的內(nèi)容與
的樣式結(jié)合起來魏保。為每一個(gè)目標(biāo)風(fēng)格訓(xùn)練一個(gè)網(wǎng)絡(luò)熬尺。
對(duì)于單圖像超分辨率,輸入圖像是低分辨率的谓罗,內(nèi)容目標(biāo)
是高分辨率的真實(shí)地表圖片粱哼,風(fēng)格重建損失沒有使用。為每一個(gè)超分辨率因子訓(xùn)練一個(gè)網(wǎng)絡(luò)檩咱。
3.1 Image Transformation Networks
文中的圖像轉(zhuǎn)換網(wǎng)絡(luò)結(jié)構(gòu)大致上遵循Radford提出的指導(dǎo)方針揭措。沒有使用池化層,而是使用步幅卷積或微步幅卷積做網(wǎng)絡(luò)內(nèi)的上采樣或者下采樣刻蚯。文章的神經(jīng)網(wǎng)絡(luò)有五個(gè)殘差塊組成绊含。除輸出層外,所有非殘差卷積層都遵循空間批量歸一化和ReLU非線性激活炊汹,輸出層則是使用縮放的tanh來確保輸出圖像的像素范圍為[0; 255]躬充。除開第一個(gè)和最后一個(gè)層用9x9的kernel,其他所有卷積層都用3x3的kernels讨便,
3.1.1 Inputs and Outputs
對(duì)于風(fēng)格遷移充甚,輸入和輸出都是彩色圖像,大小是256 x 256 x 3器钟。
對(duì)于上采樣因子為的超分辨率津坑,輸出形狀為288 x 288 x 3的高分辨率圖像塊,而輸入形狀為 288/f x 288/f x 3的低分辨率塊傲霸。由于圖像轉(zhuǎn)換網(wǎng)絡(luò)是完全卷積的,因此在測(cè)試時(shí)可以將它們應(yīng)用于任何分辨率的圖像。
3.1.2 Downsampling and Upsampling
對(duì)于超分辨率重建昙啄,有一個(gè)上采樣因子穆役。用了幾個(gè)殘差塊跟著步長(zhǎng)為
的
卷積網(wǎng)絡(luò),不依賴于任何一個(gè)固定的上采樣插值函數(shù)梳凛,微步長(zhǎng)卷積允許上采樣函數(shù)和網(wǎng)絡(luò)的其他部分一起訓(xùn)練耿币。
對(duì)于風(fēng)格變換,在幾個(gè)殘差快之后韧拒,使用步長(zhǎng)為2的卷積來下采樣淹接,然后兩個(gè)步長(zhǎng)為的卷積網(wǎng)絡(luò)來上采樣。(先下采樣叛溢,再上采樣)塑悼。
首當(dāng)其沖的好處是計(jì)算復(fù)雜性。核的大小是 3 x 3楷掉,個(gè)過濾器厢蒜,對(duì)于一個(gè)輸入大小為
,需要
次運(yùn)算烹植。這個(gè)代價(jià)和3 x3 卷積有
個(gè)過濾器斑鸦,輸入尺寸
是一樣的。在下采樣之后草雕,我們可以因此在相同計(jì)算代價(jià)下用一個(gè)更大的網(wǎng)絡(luò)巷屿。
第二個(gè)好處是有效的感受野大小。高質(zhì)量的風(fēng)格轉(zhuǎn)換需要一致的改變圖片的一大塊地方墩虹;因此這個(gè)優(yōu)勢(shì)就在于在輸出中的每個(gè)像素都有輸入中的大面積有效的感受野攒庵。除開下采樣,每一個(gè)附加的3x3卷積層都能把感受野的大小增加2倍败晴。
在用因子D進(jìn)行下采樣后浓冒,每個(gè)3x3的卷積不是增加了感受野的大小到2D,給出了更大的感受野大小但有著相同數(shù)量的層尖坤。
3.1.3 Residual Connection
殘差連接使得網(wǎng)絡(luò)很容易的學(xué)的恒等映射稳懒,這對(duì)于圖像轉(zhuǎn)換網(wǎng)絡(luò)很有吸引力。因此文章的網(wǎng)絡(luò)的大體由幾個(gè)殘差塊組成慢味,每個(gè)包含兩個(gè)3x3的卷積層场梆。
3.2 Perceptual Loss Functions
定義了兩個(gè)感受損失函數(shù)來測(cè)量圖像間的高水平的感受和語(yǔ)義的區(qū)別。
利用為圖像分類而預(yù)先訓(xùn)練的損失網(wǎng)絡(luò)纯路,這意味著這些感知損失函數(shù)本身就是深度卷積神經(jīng)網(wǎng)絡(luò)或油。
在文章中,是在ImageNet數(shù)據(jù)集上訓(xùn)練的VGG-16驰唬。
3.2.1 Feature Reconstruction Loss
與其鼓勵(lì)輸出圖像的像素與目標(biāo)圖像
的像素完全匹配顶岸,不如鼓勵(lì)它們具有與損失網(wǎng)絡(luò)
相似的特征表示腔彰。當(dāng)處理圖像
的時(shí)候,讓
是網(wǎng)絡(luò)
里面第
層的激活辖佣,如果
是卷積層霹抛,那么
將是形狀為
的特征圖。那么特征重構(gòu)損失是特征表示之間的(平方卷谈,標(biāo)準(zhǔn)化)的歐式距離:
從圖三可以看出杯拐,找到一個(gè)圖像使較低的層的特征損失最小,往往能產(chǎn)生在視覺上和
不太能區(qū)分的圖像世蔗,如果用高層來重建端逼,內(nèi)容和全局結(jié)構(gòu)會(huì)被保留,但是顏色紋理和精確的形狀不復(fù)存在污淋。用一個(gè)特征損失來訓(xùn)練我們的圖像轉(zhuǎn)換網(wǎng)絡(luò)能讓輸出
非常接近目標(biāo)圖像
顶滩,但并不是讓他們做到完全的匹配。
3.2.2 Style Reconstruction Loss
feature reconstruction loss 懲罰了是輸出圖像當(dāng)其在內(nèi)容上便宜了目標(biāo)
芙沥。同時(shí)诲祸,我們也希望在風(fēng)格上(顏色,紋理而昨,共同的模式)出現(xiàn)了偏差的時(shí)候進(jìn)行懲罰救氯。為了達(dá)到這一效果,Gatys等人提出了如下的風(fēng)格重構(gòu)損失歌憨。
的定義和 3.2.1里面一樣着憨,定義Gram矩陣
把看出一個(gè)
維的特征,每一個(gè)特征是
的矩陣务嫡,那么
是與
維度特征的無中心協(xié)方差成比例的甲抖。
Gram矩陣能夠被有效的計(jì)算通過把變成矩陣
那么
。
那么風(fēng)格重構(gòu)損失為:
如Figure 4心铃,能生成一張圖片使得風(fēng)格損失最小准谚,從而保存了風(fēng)格上的特征,但是不保存空間上的結(jié)構(gòu)特征去扣。
要從一系列網(wǎng)絡(luò)而不是單層
進(jìn)行風(fēng)格重構(gòu)柱衔,定義
是每一層損失函數(shù)的和
()。
3.3 Simple Loss Functions
除了感知損失愉棱,還定義了兩種簡(jiǎn)單損失函數(shù)唆铐,僅僅用了低維的像素信息
3.3.1 Pixel Loss
像素?fù)p失是輸入圖像與目標(biāo)圖像
的(標(biāo)準(zhǔn)化)的歐式距離。
如果形狀都是奔滑,那么像素?fù)p失是:
這只能被用在有真實(shí)地標(biāo)的目標(biāo)時(shí)候艾岂,讓這個(gè)網(wǎng)絡(luò)去做完全匹配。
3.3.2 Total Variation Regularization
為了讓輸出圖像空間比較順滑朋其, 遵循了前人在特征反演上的研究王浴,超分辨率重建上的研究并且使用了全變差正則化
參考資料:
Perceptual Losses for Real-Time Style Transfer and Super-Resolution