Perceptual Losses for Real-Time Style Transfer and Super-Resolution 筆記

這是發(fā)在 ECCV 2016的文章舞骆。

Abstract

考慮圖像轉(zhuǎn)換問題邪乍,其中輸入圖像被轉(zhuǎn)換為輸出圖像讨惩。

最近的方法問題通常使用輸出圖像與真實(shí)圖像之間的每像素?fù)p失來訓(xùn)練前饋卷積神經(jīng)網(wǎng)絡(luò)产弹。

并行工作表明剑勾,可以基于從預(yù)訓(xùn)練網(wǎng)絡(luò)中提取的高級(jí)特征來定義和優(yōu)化感知損失函數(shù)量窘,從而生成高質(zhì)量圖像雇寇。

作者結(jié)合了兩種方法的優(yōu)勢(shì),并提出了使用感知損失函數(shù)進(jìn)行訓(xùn)練圖像轉(zhuǎn)換的前饋網(wǎng)絡(luò)。

展示了圖像樣式轉(zhuǎn)換的結(jié)果谢床,其中訓(xùn)練了前饋網(wǎng)絡(luò)以實(shí)時(shí)解決Gatys等人提出的優(yōu)化問題兄一。

與基于優(yōu)化的方法相比,文章的網(wǎng)絡(luò)給出了相似的定性結(jié)果识腿,但速度快了三個(gè)數(shù)量級(jí)出革。 我們還嘗試了單圖像超分辨率,其中用感知損失替換每個(gè)像素的損失在視覺上令人愉悅渡讼。

1. Introduction

解決圖像變換任務(wù)的一種方法是以有監(jiān)督的方式訓(xùn)練前饋卷積神經(jīng)網(wǎng)絡(luò)骂束,使用每一個(gè)像素?fù)p失函數(shù)來測(cè)量輸出圖像與真實(shí)圖像之間的差異。

但是成箫,這個(gè)方法使用的每一個(gè)像素?fù)p失無法捕獲輸出圖像與真實(shí)圖像之間的感知差異展箱;例如考慮兩個(gè)相同的圖像,彼此偏移一個(gè)像素蹬昌; 盡管它們?cè)诟兄舷嗨苹斐郏疵肯袼負(fù)p失衡量,它們還是有很大差異的皂贩。

同時(shí)栖榨,最近的工作表明,可以使用感知損失函數(shù)生成高質(zhì)量圖像明刷,而不是基于像素之間的差異婴栽,而是基于從預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取的高級(jí)圖像特征表示之間的差異。通過最小化損失函數(shù)來生成圖片辈末,盡管這些方法能生成高質(zhì)量的圖片愚争,但是速度很慢

這篇文章中挤聘,我們聯(lián)合了兩個(gè)方法的優(yōu)點(diǎn)轰枝。訓(xùn)練前饋?zhàn)儞Q網(wǎng)絡(luò)來執(zhí)行圖像變換任務(wù),而不是僅根據(jù)低級(jí)像素信息使用每像素?fù)p失函數(shù)檬洞,而是使用依賴于預(yù)訓(xùn)練損失網(wǎng)絡(luò)中高級(jí)特征的感知損失函數(shù)訓(xùn)練網(wǎng)絡(luò)狸膏。在訓(xùn)練過程中沟饥,感知損失比每像素?fù)p失更能可靠地測(cè)量圖像相似性添怔,并且在測(cè)試時(shí),轉(zhuǎn)換網(wǎng)絡(luò)實(shí)時(shí)運(yùn)行贤旷。

文章嘗試了兩項(xiàng)任務(wù):樣式轉(zhuǎn)換和單圖像超分辨率广料。 兩者都是天生的不適。 對(duì)于樣式轉(zhuǎn)換幼驶,沒有單個(gè)正確的輸出艾杏,對(duì)于超分辨率,可能有許多高分辨率圖像生成相同的低分辨率輸入盅藻。

這兩項(xiàng)任務(wù)的成功都需要有關(guān)輸入圖像的語(yǔ)義推理购桑。 對(duì)于樣式轉(zhuǎn)換畅铭,盡管顏色和紋理發(fā)生了巨大變化,但輸出在語(yǔ)義上必須與輸入相似勃蜘。 對(duì)于超分辨率硕噩,必須從視覺上模糊的低分辨率輸入中推斷出精細(xì)的細(xì)節(jié)。

原則上缭贡,為每項(xiàng)任務(wù)訓(xùn)練的高容量神經(jīng)網(wǎng)絡(luò)都可以隱式學(xué)習(xí)推理相關(guān)語(yǔ)義的能力炉擅; 但是在實(shí)踐中我們不需要從頭學(xué)習(xí):感知損失函數(shù)的使用允許將語(yǔ)義知識(shí)從損失網(wǎng)絡(luò)轉(zhuǎn)移到轉(zhuǎn)換網(wǎng)絡(luò)。

Figure 1

2. Related Work

2.1 Feed-forward image transformation

最近幾年前饋圖像轉(zhuǎn)換任務(wù)應(yīng)用十分廣泛阳惹,很多轉(zhuǎn)換任務(wù)都用了逐像素求差的方式來訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)谍失。

本文的轉(zhuǎn)換網(wǎng)絡(luò)的架構(gòu)是由一些先前的工作所啟發(fā)的,它們使用網(wǎng)絡(luò)內(nèi)下采樣來減少特征圖的空間范圍莹汤,然后使用網(wǎng)絡(luò)內(nèi)上采樣來生成最終的輸出圖像快鱼。

2.2 Perceptual optimization

有一些論文用到了優(yōu)化的方法來產(chǎn)生圖像,它們的對(duì)象是具有感知性的纲岭,感知性取決于從CNN中提取到的高層次特征攒巍。

Dosovitskiy和Brox的工作是跟文章的工作最相關(guān)的,他們訓(xùn)練了一個(gè)前饋神經(jīng)網(wǎng)絡(luò)去倒置卷積特征荒勇,快速的逼近了之前論文中提出的優(yōu)化問題的結(jié)局方案柒莉,然而他們的前饋網(wǎng)絡(luò)是用的逐像素重建損失函數(shù)來訓(xùn)練,而文章的網(wǎng)絡(luò)是直接用了特征重建損失函數(shù)沽翔。

2.3 Style Transfer

Gatys等人實(shí)現(xiàn)了藝術(shù)風(fēng)格轉(zhuǎn)換兢孝,包含一張內(nèi)容圖和一個(gè)風(fēng)格圖,通過聯(lián)合最小化特征重構(gòu)損失和基于從預(yù)訓(xùn)練好的卷積網(wǎng)絡(luò)提取的特征的風(fēng)格重構(gòu)損失仅偎。

一個(gè)相似的方法之前也被用于做紋理合成跨蟹。然而他們的方法產(chǎn)出了很高質(zhì)量的結(jié)果,但是計(jì)算代價(jià)非常的昂貴橘沥,因?yàn)槊恳淮蔚鷥?yōu)化都需要經(jīng)過前饋窗轩、反饋預(yù)訓(xùn)練好的整個(gè)網(wǎng)絡(luò)。

為了克服這樣一個(gè)計(jì)算量的負(fù)擔(dān)座咆,我們訓(xùn)練了一個(gè)前饋神經(jīng)網(wǎng)絡(luò)去快速獲得可行解痢艺。

Image super-resolution

圖像超分辨率重建是一個(gè)經(jīng)典的問題,很多人提出了非常廣泛的技術(shù)手段來做圖像超分辨率重建介陶。

3. Method

Figure 2

如 Figure 2 所示堤舒,文章的系統(tǒng)由兩部分構(gòu)成:圖像轉(zhuǎn)換網(wǎng)絡(luò)f_{W},損失網(wǎng)絡(luò)\phi(用來定義一系列損失函數(shù)l_{1},l_{2},...,l_{k}

圖像變換網(wǎng)絡(luò)是由權(quán)重W參數(shù)化的深度殘差卷積神經(jīng)網(wǎng)絡(luò)哺呜;它通過映射\hat{y}=f_{W}(x)把輸入圖像x轉(zhuǎn)換為輸出圖像\hat{y}舌缤。每一個(gè)損失函數(shù)計(jì)算一個(gè)標(biāo)量值l_{i}(\hat{y},y_{i})來測(cè)量輸出圖像\hat{y}和目標(biāo)圖像y_{i}的差。使用隨機(jī)梯度下降訓(xùn)練圖像變換網(wǎng)絡(luò),以最小化損失函數(shù)的加權(quán)組合国撵,

公式1

為了解決每一個(gè)像素?fù)p失的缺點(diǎn)陵吸,并使損失函數(shù)更好地衡量圖像之間的感知和語(yǔ)義差異,我們從最近的工作中汲取了靈感介牙,這些工作通過優(yōu)化來生成圖像走越。

這些方法的關(guān)鍵思想在于,經(jīng)過預(yù)訓(xùn)練的圖像分類卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)學(xué)會(huì)了對(duì)我們希望在損失函數(shù)中測(cè)量的感知和語(yǔ)義信息進(jìn)行編碼耻瑟。因此旨指,為了定義損失函數(shù),將對(duì)圖像分類進(jìn)行預(yù)訓(xùn)練的網(wǎng)絡(luò)\phi用作固定損失網(wǎng)絡(luò)喳整。

損失網(wǎng)絡(luò)\phi被用來定義特征重構(gòu)損失l_{feat}^{\phi}和風(fēng)格重構(gòu)損失l_{style}^{\phi}來測(cè)量?jī)?nèi)容圖片和風(fēng)格圖片直接的差谆构。

對(duì)于每一個(gè)輸入圖像x,有內(nèi)容目標(biāo)y_{c}和風(fēng)格目標(biāo)y_{s}框都。

對(duì)于風(fēng)格轉(zhuǎn)換搬素,內(nèi)容目標(biāo)y_{c}是輸入圖像x,輸出圖像\hat{y}應(yīng)該將x = y_{c}的內(nèi)容與y_{s}的樣式結(jié)合起來魏保。為每一個(gè)目標(biāo)風(fēng)格訓(xùn)練一個(gè)網(wǎng)絡(luò)熬尺。

對(duì)于單圖像超分辨率,輸入圖像x是低分辨率的谓罗,內(nèi)容目標(biāo)y_{c}是高分辨率的真實(shí)地表圖片粱哼,風(fēng)格重建損失沒有使用。為每一個(gè)超分辨率因子訓(xùn)練一個(gè)網(wǎng)絡(luò)檩咱。

3.1 Image Transformation Networks

文中的圖像轉(zhuǎn)換網(wǎng)絡(luò)結(jié)構(gòu)大致上遵循Radford提出的指導(dǎo)方針揭措。沒有使用池化層,而是使用步幅卷積或微步幅卷積做網(wǎng)絡(luò)內(nèi)的上采樣或者下采樣刻蚯。文章的神經(jīng)網(wǎng)絡(luò)有五個(gè)殘差塊組成绊含。除輸出層外,所有非殘差卷積層都遵循空間批量歸一化和ReLU非線性激活炊汹,輸出層則是使用縮放的tanh來確保輸出圖像的像素范圍為[0; 255]躬充。除開第一個(gè)和最后一個(gè)層用9x9的kernel,其他所有卷積層都用3x3的kernels讨便,

3.1.1 Inputs and Outputs

對(duì)于風(fēng)格遷移充甚,輸入和輸出都是彩色圖像,大小是256 x 256 x 3器钟。

對(duì)于上采樣因子為f的超分辨率津坑,輸出形狀為288 x 288 x 3的高分辨率圖像塊,而輸入形狀為 288/f x 288/f x 3的低分辨率塊傲霸。由于圖像轉(zhuǎn)換網(wǎng)絡(luò)是完全卷積的,因此在測(cè)試時(shí)可以將它們應(yīng)用于任何分辨率的圖像。

3.1.2 Downsampling and Upsampling

對(duì)于超分辨率重建昙啄,有一個(gè)上采樣因子f穆役。用了幾個(gè)殘差塊跟著步長(zhǎng)為\frac{1}{2}Log2f卷積網(wǎng)絡(luò),不依賴于任何一個(gè)固定的上采樣插值函數(shù)梳凛,微步長(zhǎng)卷積允許上采樣函數(shù)和網(wǎng)絡(luò)的其他部分一起訓(xùn)練耿币。

對(duì)于風(fēng)格變換,在幾個(gè)殘差快之后韧拒,使用步長(zhǎng)為2的卷積來下采樣淹接,然后兩個(gè)步長(zhǎng)為\feac{1}{2}的卷積網(wǎng)絡(luò)來上采樣。(先下采樣叛溢,再上采樣)塑悼。

首當(dāng)其沖的好處是計(jì)算復(fù)雜性。核的大小是 3 x 3楷掉,C個(gè)過濾器厢蒜,對(duì)于一個(gè)輸入大小為H\times W\times C,需要9HWC^{2}次運(yùn)算烹植。這個(gè)代價(jià)和3 x3 卷積有DC個(gè)過濾器斑鸦,輸入尺寸DC\times H/D\times W/D是一樣的。在下采樣之后草雕,我們可以因此在相同計(jì)算代價(jià)下用一個(gè)更大的網(wǎng)絡(luò)巷屿。

第二個(gè)好處是有效的感受野大小。高質(zhì)量的風(fēng)格轉(zhuǎn)換需要一致的改變圖片的一大塊地方墩虹;因此這個(gè)優(yōu)勢(shì)就在于在輸出中的每個(gè)像素都有輸入中的大面積有效的感受野攒庵。除開下采樣,每一個(gè)附加的3x3卷積層都能把感受野的大小增加2倍败晴。
在用因子D進(jìn)行下采樣后浓冒,每個(gè)3x3的卷積不是增加了感受野的大小到2D,給出了更大的感受野大小但有著相同數(shù)量的層尖坤。

3.1.3 Residual Connection

殘差連接使得網(wǎng)絡(luò)很容易的學(xué)的恒等映射稳懒,這對(duì)于圖像轉(zhuǎn)換網(wǎng)絡(luò)很有吸引力。因此文章的網(wǎng)絡(luò)的大體由幾個(gè)殘差塊組成慢味,每個(gè)包含兩個(gè)3x3的卷積層场梆。

3.2 Perceptual Loss Functions

定義了兩個(gè)感受損失函數(shù)來測(cè)量圖像間的高水平的感受和語(yǔ)義的區(qū)別。

利用為圖像分類而預(yù)先訓(xùn)練的損失網(wǎng)絡(luò)\phi纯路,這意味著這些感知損失函數(shù)本身就是深度卷積神經(jīng)網(wǎng)絡(luò)或油。

在文章中,\phi是在ImageNet數(shù)據(jù)集上訓(xùn)練的VGG-16驰唬。

3.2.1 Feature Reconstruction Loss

與其鼓勵(lì)輸出圖像\hat{y}= f_{W}(x)的像素與目標(biāo)圖像y的像素完全匹配顶岸,不如鼓勵(lì)它們具有與損失網(wǎng)絡(luò)\phi相似的特征表示腔彰。當(dāng)處理圖像x的時(shí)候,讓\phi_{j}(x)是網(wǎng)絡(luò)\phi里面第j層的激活辖佣,如果j是卷積層霹抛,那么\phi_{j}(x)將是形狀為H_{j}\times W_{j} \times C_{j}的特征圖。那么特征重構(gòu)損失是特征表示之間的(平方卷谈,標(biāo)準(zhǔn)化)的歐式距離:

公式 2

從圖三可以看出杯拐,找到一個(gè)圖像\hat{y}使較低的層的特征損失最小,往往能產(chǎn)生在視覺上和y不太能區(qū)分的圖像世蔗,如果用高層來重建端逼,內(nèi)容和全局結(jié)構(gòu)會(huì)被保留,但是顏色紋理和精確的形狀不復(fù)存在污淋。用一個(gè)特征損失來訓(xùn)練我們的圖像轉(zhuǎn)換網(wǎng)絡(luò)能讓輸出\hat{y}非常接近目標(biāo)圖像y顶滩,但并不是讓他們做到完全的匹配。

Figure 3

3.2.2 Style Reconstruction Loss

feature reconstruction loss 懲罰了是輸出圖像\hat{y}當(dāng)其在內(nèi)容上便宜了目標(biāo)y芙沥。同時(shí)诲祸,我們也希望在風(fēng)格上(顏色,紋理而昨,共同的模式)出現(xiàn)了偏差的時(shí)候進(jìn)行懲罰救氯。為了達(dá)到這一效果,Gatys等人提出了如下的風(fēng)格重構(gòu)損失歌憨。

\phi_{j}(x)的定義和 3.2.1里面一樣着憨,定義Gram矩陣G_{j}^{\phi}(x)\in \mathbb{R}^{C_{j}\times C_{j}}

公式 3

\phi(x)看出一個(gè)C_{j}維的特征,每一個(gè)特征是H_{j}\times W_{j}的矩陣务嫡,那么G_{j}^{\phi}(x)是與C_{j}維度特征的無中心協(xié)方差成比例的甲抖。

Gram矩陣能夠被有效的計(jì)算通過把\phi_{j}(x)變成矩陣\varphi\in \mathbb{R}^{C_{j}\times H_{j}W_{j}}那么G_{j}^{\phi}(x)=\varphi \varphi^{T}/C_{j}H_{J}W_{J}

那么風(fēng)格重構(gòu)損失為:


公式 4

如Figure 4心铃,能生成一張圖片\hat{y}使得風(fēng)格損失最小准谚,從而保存了風(fēng)格上的特征,但是不保存空間上的結(jié)構(gòu)特征去扣。

Figure 4

要從一系列網(wǎng)絡(luò)J而不是單層j進(jìn)行風(fēng)格重構(gòu)柱衔,定義l_{style}^{\phi,J}(\hat{y},y)是每一層損失函數(shù)的和
j\in J)。

3.3 Simple Loss Functions

除了感知損失愉棱,還定義了兩種簡(jiǎn)單損失函數(shù)唆铐,僅僅用了低維的像素信息

3.3.1 Pixel Loss

像素?fù)p失是輸入圖像\hat{y}與目標(biāo)圖像y的(標(biāo)準(zhǔn)化)的歐式距離。

如果形狀都是H\times W \times C奔滑,那么像素?fù)p失是:

像素?fù)p失

這只能被用在有真實(shí)地標(biāo)的目標(biāo)時(shí)候艾岂,讓這個(gè)網(wǎng)絡(luò)去做完全匹配。

3.3.2 Total Variation Regularization

為了讓輸出圖像\hat{y}空間比較順滑朋其, 遵循了前人在特征反演上的研究王浴,超分辨率重建上的研究并且使用了全變差正則化l_{TV}(\hat{y})

Figure 6-1
Figure 6-2
Figure 6-3
Figure 7

參考資料:
Perceptual Losses for Real-Time Style Transfer and Super-Resolution

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末脆炎,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子叼耙,更是在濱河造成了極大的恐慌腕窥,老刑警劉巖粒没,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件筛婉,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡癞松,警方通過查閱死者的電腦和手機(jī)爽撒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來响蓉,“玉大人硕勿,你說我怎么就攤上這事》慵祝” “怎么了源武?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)想幻。 經(jīng)常有香客問我粱栖,道長(zhǎng),這世上最難降的妖魔是什么脏毯? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任闹究,我火速辦了婚禮,結(jié)果婚禮上食店,老公的妹妹穿的比我還像新娘渣淤。我一直安慰自己,他們只是感情好吉嫩,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布价认。 她就那樣靜靜地躺著,像睡著了一般自娩。 火紅的嫁衣襯著肌膚如雪用踩。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天椒功,我揣著相機(jī)與錄音捶箱,去河邊找鬼。 笑死动漾,一個(gè)胖子當(dāng)著我的面吹牛丁屎,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播旱眯,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼晨川,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼证九!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起共虑,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤愧怜,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后妈拌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拥坛,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年尘分,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了猜惋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡培愁,死狀恐怖著摔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情定续,我是刑警寧澤谍咆,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站私股,受9級(jí)特大地震影響摹察,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜庇茫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一港粱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧旦签,春花似錦查坪、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至羔巢,卻和暖如春望忆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背竿秆。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國(guó)打工启摄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人幽钢。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓歉备,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親匪燕。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蕾羊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355