圖像風(fēng)格轉(zhuǎn)移Automatic Photo Adjustment Using Deep Neural Networks

P圖技術(shù)日新月異还最,有些P圖大神的作品倍啥,讓我們駐足相忘~嗷嗷溜畅,如何使用神經(jīng)網(wǎng)絡(luò)對(duì)這些大神的P圖風(fēng)格進(jìn)行學(xué)習(xí)庇楞,我們這篇論文就提出了下面的方法榜配。我認(rèn)為這篇文章能很好的幫助我們?nèi)ダ斫鉁\層的神經(jīng)網(wǎng)絡(luò)否纬,然后他提出了一個(gè)描述子【文中花很大篇幅介紹這個(gè)描述子】作為網(wǎng)絡(luò)的輸入吕晌,再然后在選擇訓(xùn)練圖片上【得到有代表性的圖片】,提出了自己的方法临燃。


框架最開始是選擇有代表性的圖片睛驳,比如選出了下面的這個(gè)圖片烙心。


整個(gè)框架流程,藍(lán)色框表示描述子的生成

我們需要知道乏沸,我們訓(xùn)練的目的是什么淫茵?既然提到了神經(jīng)網(wǎng)絡(luò),人家是怎樣把一個(gè)圖片調(diào)整的問(wèn)題使用神經(jīng)網(wǎng)絡(luò)去解決呢蹬跃?

接下來(lái)匙瘪,我們先回答下這兩個(gè)問(wèn)題,然后按照框架的流程蝶缀,依次來(lái)解釋他是如何做到的丹喻。

圖片調(diào)整示例,上面是原圖翁都,下面是調(diào)整后的GroundTruth碍论,藝術(shù)家調(diào)整后的圖


1.訓(xùn)練目的?

首先,描述下圖片調(diào)整的流程柄慰,假設(shè)鳍悠,我們存在很多圖像對(duì),上面車車的示例只是其中一對(duì)坐搔,看原圖中右上角的黃色標(biāo)記(右側(cè)黑弧線上起點(diǎn)處)藏研,便于理解,把這個(gè)黃色的標(biāo)記看成是一個(gè)像素概行,把這個(gè)像素表示為描述子【高維向量】遥倦,通過(guò)一個(gè)映射函數(shù)F,得到對(duì)應(yīng)像素的顏色值(黑色弧線下終點(diǎn)占锯,深黃色)袒哥。

我們網(wǎng)絡(luò)訓(xùn)練的目的就是,訓(xùn)練得到一個(gè)F映射函數(shù)消略,對(duì)于輸入的所有描述子堡称,輸出得到像素的值與對(duì)應(yīng)像素真實(shí)值的差異最小->也就是我們的目標(biāo)函數(shù)。

2.如何使用神經(jīng)網(wǎng)絡(luò)去解決圖片調(diào)整的問(wèn)題艺演??

神經(jīng)網(wǎng)絡(luò)可以表示任意復(fù)雜的連續(xù)函數(shù)却紧,所以可以使用神經(jīng)網(wǎng)絡(luò)得到上面提到的映射函數(shù)F,【Hornik et al.1989論文下載】胎撤,舉個(gè)可以理解的例子晓殊,我假設(shè)大家了解了CNN的基礎(chǔ)知識(shí)了,對(duì)于CNN的框架伤提,我們輸入是一張 ??長(zhǎng)*寬*通道數(shù)? ? 這么大的圖片巫俺,最終得到的是高維向量表示這張圖片。對(duì)于我們的圖片調(diào)整的例子呢肿男?我們輸入的是一個(gè)高維向量介汹,得到的是調(diào)整后對(duì)應(yīng)像素的顏色值却嗡。這兩個(gè)過(guò)程都是由多->少的過(guò)程,所以嘹承,我們也可以用神經(jīng)網(wǎng)絡(luò)來(lái)解決圖片調(diào)整的問(wèn)題窗价。【實(shí)際上是神經(jīng)網(wǎng)絡(luò)可以解決回歸問(wèn)題(多自變量對(duì)一個(gè)因變量)】

這兩個(gè)問(wèn)題解決完了叹卷,我們按照框架流程撼港,依次解釋他要做什么和他怎么做到的。


一骤竹、選取有代表性的圖片

為什么要選取有代表性的圖片呢餐胀?

基于圖像對(duì)的增強(qiáng),需要藝術(shù)家對(duì)圖片操作瘤载,得到對(duì)應(yīng)的圖片否灾。既然要讓藝術(shù)家處理,總不能讓人家處理上萬(wàn)幅圖片吧----累死他了鸣奔。所以我們要向找出有代表性的圖片墨技,選取的是盡量少的圖片包含的物體類別最豐富,作為我們的訓(xùn)練樣本的同時(shí)挎狸,讓藝術(shù)家減少工作量【省錢啊】扣汪。

延伸下,如果現(xiàn)實(shí)有這種大量數(shù)據(jù)圖像對(duì)存在的話锨匆,我認(rèn)為可以把他們用深層的網(wǎng)絡(luò)直接對(duì)圖片進(jìn)行訓(xùn)練崭别。可以參考Let there be Color!

如何選取呢恐锣?

首先茅主,我們有一堆原圖,如何選出一個(gè)有代表性的子集讓藝術(shù)家來(lái)處理土榴,文中提出了交叉熵的方法诀姚。第一部分用的是BOW【關(guān)于BOW詳細(xì)介紹請(qǐng)看我的另一篇文章】,然后呢玷禽,使用信息熵來(lái)選取了赫段。


BOW得到每張圖片的直方圖 ? ? 算法的變量解釋
每次向子集加入一張圖片,使得擴(kuò)展后的子集交叉熵最大矢赁,I*表示熵最大時(shí)選出的當(dāng)前子集

首先糯笙,我們知道當(dāng)一個(gè)隨機(jī)變量均勻分布時(shí),熵值最大撩银,這里的隨機(jī)變量指的直方圖的橫坐標(biāo)物體類別數(shù)即BOW中的【codewords】给涕,我們就是想要codeword都盡可能出現(xiàn),并且出現(xiàn)的概率是一樣的,這樣選出的圖片中的類別就很豐富稠炬。


二焕阿、選取有代表性的像素點(diǎn)

為什么要選取有代表性的像素呢咪啡?

比如首启,一張圖片中人只占圖片的一小部分,天空占據(jù)整張圖片的絕大部分撤摸,如果用圖片的所有像素進(jìn)行訓(xùn)練毅桃,映射函數(shù)中就會(huì)包含很多天空的映射信息,導(dǎo)致訓(xùn)練很不平衡准夷。這樣就保證了映射函數(shù)中不同類別均衡钥飞。此外,過(guò)度密集的像素會(huì)增加訓(xùn)練代價(jià)衫嵌。

如何選取呢读宙?

對(duì)一張圖片I,我們使用基于圖的分割楔绞,從每個(gè)不規(guī)則的區(qū)域中结闸,選取固定數(shù)量的pixel。

三酒朵、新的描述子用于這些有代表性的像素

如何描述桦锄?

首先,先使用場(chǎng)景分割蔫耽,和物體分割结耀。【用于之后的描述】

生成語(yǔ)義標(biāo)簽圖

先進(jìn)行場(chǎng)景分割匙铡,主要分割出草地图甜、路、天空鳖眼,得到Parsing map具则。類別數(shù)Sp【SceneParsing】

在進(jìn)行目標(biāo)分割,主要分割出人、車具帮、建筑物博肋,得到每個(gè)類別的detection置信圖。最后蜂厅,把這些融合起來(lái)匪凡,在每個(gè)像素位置,選出置信度最高的值掘猿,作為這個(gè)像素的類別病游,得到Detecion map。類別數(shù)Od【Object Detection】

然后,將上面兩個(gè)分割結(jié)果合并衬衬,合并時(shí)买猖,我們把目標(biāo)分割置信值大于一個(gè)閾值的像素label保留,去直接覆蓋場(chǎng)景分割的label滋尉。對(duì)于最終合并的圖玉控,會(huì)有一些噪聲,我們使用了別人的算法解決這些噪聲狮惜,得到最終的語(yǔ)義標(biāo)簽map高诺。

對(duì)于給定分割好的語(yǔ)義圖,我們找到之前得到的那些像素點(diǎn)碾篡,對(duì)這些像素點(diǎn)操作虱而,找出一個(gè)P作為示例,下面是得到他的描述子過(guò)程开泽。


紅點(diǎn)為P點(diǎn)牡拇,不同形狀表示不同label類別

根據(jù)分割的結(jié)果,在P的周圍劃出一個(gè)正方形區(qū)域穆律,區(qū)域生成是以等比數(shù)列倍數(shù)為3生成惠呼,如上圖所示,根據(jù)框里的內(nèi)容众旗,生成一個(gè)直方圖罢杉,橫坐標(biāo)是 ? ?場(chǎng)景類別+物體類別=所有的label標(biāo)簽,類似于bow中的直方圖橫坐標(biāo)codeword贡歧√沧猓縱坐標(biāo)是劃分區(qū)域之后對(duì)應(yīng)label類別出現(xiàn)的次數(shù)。我們直接串聯(lián)所有的lebel對(duì)應(yīng)的數(shù)值利朵,生成具有上下文意義的描述律想。試驗(yàn)中,作者使用積分圖簡(jiǎn)化計(jì)算绍弟,詳細(xì)可以私信講技即。

這樣,具有上下文信息的特征就得到了樟遣,我們?cè)偃诤舷袼乇旧硖卣?全局特征得到最終的描述子而叼。


四、我們的深度神經(jīng)網(wǎng)絡(luò)模型



網(wǎng)絡(luò)模型

訓(xùn)練模型的輸入是我們之前得到的那些描述子豹悬,虛線之下的輸出是φ(θ葵陵,Xv),在我們實(shí)驗(yàn)里有30個(gè)神經(jīng)元,把他看為3*10的矩陣瞻佛,與基向量V(cj)10*1相乘脱篙,得到pixel的Lab的值,計(jì)算他與真實(shí)值的距離——相減的二范數(shù)。目標(biāo)函數(shù)就是這個(gè)绊困。測(cè)試時(shí)文搂,輸出是像素值。


v是superpixel,Sv是從superpixel中采樣的pixel秤朗,Xv是靠近superpixel質(zhì)心位置的特征向量(描述子)

也就是說(shuō)煤蹭,輸入到網(wǎng)絡(luò)中訓(xùn)練的是superPixel那么多個(gè),論文中一張圖片7000個(gè)川梅。變化的是V(cj)疯兼,pixel的基向量然遏。

我們測(cè)試的時(shí)候贫途,選出的也是superpixel中靠近質(zhì)心的pixel作為輸入,得到φ(θ待侵,Xv)這個(gè)顏色轉(zhuǎn)換矩陣丢早,對(duì)這個(gè)superpixel中的所有像素φ(θ,Xv)*V(cj),得到最后顏色值秧倾。

然后怨酝,我們就大功告成了。


實(shí)驗(yàn)部分

實(shí)驗(yàn)很多那先,也很有趣农猬,我們只在這講兩個(gè)。


提出的方法與Hwang作比較

上面的圖售淡,兩個(gè)方法使用相同的數(shù)據(jù)集斤葱,橫坐標(biāo)是像素點(diǎn)L2錯(cuò)誤直方圖。隨機(jī)選擇250張圖的那個(gè)直方圖揖闸,我們的方法出現(xiàn)2-3個(gè)錯(cuò)誤的圖片個(gè)數(shù)是60多揍堕,7--12個(gè)錯(cuò)誤的有大概110個(gè),我們可以看出汤纸,我們的方法出現(xiàn)少量錯(cuò)誤的圖片占據(jù)大部分衩茸。


驗(yàn)證交叉熵選圖片的好處

圖中,我們可以獲取兩個(gè)信息贮泞,選擇圖片張數(shù)超過(guò)50張的時(shí)候楞慈,L2錯(cuò)誤不再減少。在選取少量圖片的時(shí)候啃擦,比如10張囊蓝,我們的錯(cuò)誤率最少。



論文講完了议惰,巨累慎颗,該跑實(shí)驗(yàn)了,理解的不對(duì)的地方歡迎指正。

實(shí)驗(yàn)詳細(xì)介紹:

比較坑的是俯萎,實(shí)驗(yàn)中中沒(méi)有給如何選有代表性的圖片和如何選有代表性的點(diǎn)傲宜,木有辦法拿自己的圖片在他給的代碼里實(shí)現(xiàn)

Automatic Photo Adjustment Using Deep Neural Networks 論文實(shí)驗(yàn)

Automatic Photo Adjustment Using Deep Neural Networks 論文實(shí)驗(yàn)訓(xùn)練測(cè)試部分

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市夫啊,隨后出現(xiàn)的幾起案子函卒,更是在濱河造成了極大的恐慌,老刑警劉巖撇眯,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件报嵌,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡熊榛,警方通過(guò)查閱死者的電腦和手機(jī)锚国,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)玄坦,“玉大人血筑,你說(shuō)我怎么就攤上這事〖彘梗” “怎么了豺总?”我有些...
    開封第一講書人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)择懂。 經(jīng)常有香客問(wèn)我喻喳,道長(zhǎng),這世上最難降的妖魔是什么困曙? 我笑而不...
    開封第一講書人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任表伦,我火速辦了婚禮,結(jié)果婚禮上赂弓,老公的妹妹穿的比我還像新娘绑榴。我一直安慰自己,他們只是感情好盈魁,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開白布翔怎。 她就那樣靜靜地躺著,像睡著了一般杨耙。 火紅的嫁衣襯著肌膚如雪赤套。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,475評(píng)論 1 312
  • 那天珊膜,我揣著相機(jī)與錄音容握,去河邊找鬼梗掰。 笑死祭钉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的遣妥。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼谈跛,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼羊苟!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起感憾,我...
    開封第一講書人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蜡励,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后阻桅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凉倚,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年嫂沉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了稽寒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡输瓜,死狀恐怖瓦胎,靈堂內(nèi)的尸體忽然破棺而出芬萍,到底是詐尸還是另有隱情尤揣,我是刑警寧澤,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布柬祠,位于F島的核電站北戏,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏漫蛔。R本人自食惡果不足惜嗜愈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望莽龟。 院中可真熱鬧蠕嫁,春花似錦、人聲如沸毯盈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)搂赋。三九已至赘阀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間脑奠,已是汗流浹背基公。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留宋欺,地道東北人轰豆。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓胰伍,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親酸休。 傳聞我的和親對(duì)象是個(gè)殘疾皇子喇辽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 五、Deep Learning的基本思想 假設(shè)我們有一個(gè)系統(tǒng)S雨席,它有n層(S1,…Sn)菩咨,它的輸入是I,輸出是O陡厘,...
    dma_master閱讀 1,650評(píng)論 1 2
  • 以下三種情況是我目前遇到的三種導(dǎo)致連接不到服務(wù)器的情況抽米,進(jìn)行簡(jiǎn)要介紹。 不理解的話可以繼續(xù)百度糙置。 1. filez...
    HD1992閱讀 49,226評(píng)論 0 6
  • 從觀音到鄭月 ‘是觀音么云茸?’ ‘還如來(lái)呢,你打錯(cuò)電話了吧谤饭!’ ‘沒(méi)錯(cuò)标捺,我是快遞員,有個(gè)叫關(guān)陰的快遞寫的是您的電話揉抵。...
    魚小飛_閱讀 571評(píng)論 0 1