P圖技術(shù)日新月異还最,有些P圖大神的作品倍啥,讓我們駐足相忘~嗷嗷溜畅,如何使用神經(jīng)網(wǎng)絡(luò)對(duì)這些大神的P圖風(fēng)格進(jìn)行學(xué)習(xí)庇楞,我們這篇論文就提出了下面的方法榜配。我認(rèn)為這篇文章能很好的幫助我們?nèi)ダ斫鉁\層的神經(jīng)網(wǎng)絡(luò)否纬,然后他提出了一個(gè)描述子【文中花很大篇幅介紹這個(gè)描述子】作為網(wǎng)絡(luò)的輸入吕晌,再然后在選擇訓(xùn)練圖片上【得到有代表性的圖片】,提出了自己的方法临燃。
框架最開始是選擇有代表性的圖片睛驳,比如選出了下面的這個(gè)圖片烙心。
我們需要知道乏沸,我們訓(xùn)練的目的是什么淫茵?既然提到了神經(jīng)網(wǎng)絡(luò),人家是怎樣把一個(gè)圖片調(diào)整的問(wèn)題使用神經(jīng)網(wǎng)絡(luò)去解決呢蹬跃?
接下來(lái)匙瘪,我們先回答下這兩個(gè)問(wèn)題,然后按照框架的流程蝶缀,依次來(lái)解釋他是如何做到的丹喻。
1.訓(xùn)練目的?
首先,描述下圖片調(diào)整的流程柄慰,假設(shè)鳍悠,我們存在很多圖像對(duì),上面車車的示例只是其中一對(duì)坐搔,看原圖中右上角的黃色標(biāo)記(右側(cè)黑弧線上起點(diǎn)處)藏研,便于理解,把這個(gè)黃色的標(biāo)記看成是一個(gè)像素概行,把這個(gè)像素表示為描述子【高維向量】遥倦,通過(guò)一個(gè)映射函數(shù)F,得到對(duì)應(yīng)像素的顏色值(黑色弧線下終點(diǎn)占锯,深黃色)袒哥。
我們網(wǎng)絡(luò)訓(xùn)練的目的就是,訓(xùn)練得到一個(gè)F映射函數(shù)消略,對(duì)于輸入的所有描述子堡称,輸出得到像素的值與對(duì)應(yīng)像素真實(shí)值的差異最小->也就是我們的目標(biāo)函數(shù)。
2.如何使用神經(jīng)網(wǎng)絡(luò)去解決圖片調(diào)整的問(wèn)題艺演??
神經(jīng)網(wǎng)絡(luò)可以表示任意復(fù)雜的連續(xù)函數(shù)却紧,所以可以使用神經(jīng)網(wǎng)絡(luò)得到上面提到的映射函數(shù)F,【Hornik et al.1989論文下載】胎撤,舉個(gè)可以理解的例子晓殊,我假設(shè)大家了解了CNN的基礎(chǔ)知識(shí)了,對(duì)于CNN的框架伤提,我們輸入是一張 ??長(zhǎng)*寬*通道數(shù)? ? 這么大的圖片巫俺,最終得到的是高維向量表示這張圖片。對(duì)于我們的圖片調(diào)整的例子呢肿男?我們輸入的是一個(gè)高維向量介汹,得到的是調(diào)整后對(duì)應(yīng)像素的顏色值却嗡。這兩個(gè)過(guò)程都是由多->少的過(guò)程,所以嘹承,我們也可以用神經(jīng)網(wǎng)絡(luò)來(lái)解決圖片調(diào)整的問(wèn)題窗价。【實(shí)際上是神經(jīng)網(wǎng)絡(luò)可以解決回歸問(wèn)題(多自變量對(duì)一個(gè)因變量)】
這兩個(gè)問(wèn)題解決完了叹卷,我們按照框架流程撼港,依次解釋他要做什么和他怎么做到的。
一骤竹、選取有代表性的圖片
為什么要選取有代表性的圖片呢餐胀?
基于圖像對(duì)的增強(qiáng),需要藝術(shù)家對(duì)圖片操作瘤载,得到對(duì)應(yīng)的圖片否灾。既然要讓藝術(shù)家處理,總不能讓人家處理上萬(wàn)幅圖片吧----累死他了鸣奔。所以我們要向找出有代表性的圖片墨技,選取的是盡量少的圖片包含的物體類別最豐富,作為我們的訓(xùn)練樣本的同時(shí)挎狸,讓藝術(shù)家減少工作量【省錢啊】扣汪。
延伸下,如果現(xiàn)實(shí)有這種大量數(shù)據(jù)圖像對(duì)存在的話锨匆,我認(rèn)為可以把他們用深層的網(wǎng)絡(luò)直接對(duì)圖片進(jìn)行訓(xùn)練崭别。可以參考Let there be Color!
如何選取呢恐锣?
首先茅主,我們有一堆原圖,如何選出一個(gè)有代表性的子集讓藝術(shù)家來(lái)處理土榴,文中提出了交叉熵的方法诀姚。第一部分用的是BOW【關(guān)于BOW詳細(xì)介紹請(qǐng)看我的另一篇文章】,然后呢玷禽,使用信息熵來(lái)選取了赫段。
首先糯笙,我們知道當(dāng)一個(gè)隨機(jī)變量均勻分布時(shí),熵值最大撩银,這里的隨機(jī)變量指的直方圖的橫坐標(biāo)物體類別數(shù)即BOW中的【codewords】给涕,我們就是想要codeword都盡可能出現(xiàn),并且出現(xiàn)的概率是一樣的,這樣選出的圖片中的類別就很豐富稠炬。
二焕阿、選取有代表性的像素點(diǎn)
為什么要選取有代表性的像素呢咪啡?
比如首启,一張圖片中人只占圖片的一小部分,天空占據(jù)整張圖片的絕大部分撤摸,如果用圖片的所有像素進(jìn)行訓(xùn)練毅桃,映射函數(shù)中就會(huì)包含很多天空的映射信息,導(dǎo)致訓(xùn)練很不平衡准夷。這樣就保證了映射函數(shù)中不同類別均衡钥飞。此外,過(guò)度密集的像素會(huì)增加訓(xùn)練代價(jià)衫嵌。
如何選取呢读宙?
對(duì)一張圖片I,我們使用基于圖的分割楔绞,從每個(gè)不規(guī)則的區(qū)域中结闸,選取固定數(shù)量的pixel。
三酒朵、新的描述子用于這些有代表性的像素
如何描述桦锄?
首先,先使用場(chǎng)景分割蔫耽,和物體分割结耀。【用于之后的描述】
先進(jìn)行場(chǎng)景分割匙铡,主要分割出草地图甜、路、天空鳖眼,得到Parsing map具则。類別數(shù)Sp【SceneParsing】
在進(jìn)行目標(biāo)分割,主要分割出人、車具帮、建筑物博肋,得到每個(gè)類別的detection置信圖。最后蜂厅,把這些融合起來(lái)匪凡,在每個(gè)像素位置,選出置信度最高的值掘猿,作為這個(gè)像素的類別病游,得到Detecion map。類別數(shù)Od【Object Detection】
然后,將上面兩個(gè)分割結(jié)果合并衬衬,合并時(shí)买猖,我們把目標(biāo)分割置信值大于一個(gè)閾值的像素label保留,去直接覆蓋場(chǎng)景分割的label滋尉。對(duì)于最終合并的圖玉控,會(huì)有一些噪聲,我們使用了別人的算法解決這些噪聲狮惜,得到最終的語(yǔ)義標(biāo)簽map高诺。
對(duì)于給定分割好的語(yǔ)義圖,我們找到之前得到的那些像素點(diǎn)碾篡,對(duì)這些像素點(diǎn)操作虱而,找出一個(gè)P作為示例,下面是得到他的描述子過(guò)程开泽。
根據(jù)分割的結(jié)果,在P的周圍劃出一個(gè)正方形區(qū)域穆律,區(qū)域生成是以等比數(shù)列倍數(shù)為3生成惠呼,如上圖所示,根據(jù)框里的內(nèi)容众旗,生成一個(gè)直方圖罢杉,橫坐標(biāo)是 ? ?場(chǎng)景類別+物體類別=所有的label標(biāo)簽,類似于bow中的直方圖橫坐標(biāo)codeword贡歧√沧猓縱坐標(biāo)是劃分區(qū)域之后對(duì)應(yīng)label類別出現(xiàn)的次數(shù)。我們直接串聯(lián)所有的lebel對(duì)應(yīng)的數(shù)值利朵,生成具有上下文意義的描述律想。試驗(yàn)中,作者使用積分圖簡(jiǎn)化計(jì)算绍弟,詳細(xì)可以私信講技即。
這樣,具有上下文信息的特征就得到了樟遣,我們?cè)偃诤舷袼乇旧硖卣?全局特征得到最終的描述子而叼。
四、我們的深度神經(jīng)網(wǎng)絡(luò)模型
訓(xùn)練模型的輸入是我們之前得到的那些描述子豹悬,虛線之下的輸出是φ(θ葵陵,Xv),在我們實(shí)驗(yàn)里有30個(gè)神經(jīng)元,把他看為3*10的矩陣瞻佛,與基向量V(cj)10*1相乘脱篙,得到pixel的Lab的值,計(jì)算他與真實(shí)值的距離——相減的二范數(shù)。目標(biāo)函數(shù)就是這個(gè)绊困。測(cè)試時(shí)文搂,輸出是像素值。
也就是說(shuō)煤蹭,輸入到網(wǎng)絡(luò)中訓(xùn)練的是superPixel那么多個(gè),論文中一張圖片7000個(gè)川梅。變化的是V(cj)疯兼,pixel的基向量然遏。
我們測(cè)試的時(shí)候贫途,選出的也是superpixel中靠近質(zhì)心的pixel作為輸入,得到φ(θ待侵,Xv)這個(gè)顏色轉(zhuǎn)換矩陣丢早,對(duì)這個(gè)superpixel中的所有像素φ(θ,Xv)*V(cj),得到最后顏色值秧倾。
然后怨酝,我們就大功告成了。
實(shí)驗(yàn)部分
實(shí)驗(yàn)很多那先,也很有趣农猬,我們只在這講兩個(gè)。
上面的圖售淡,兩個(gè)方法使用相同的數(shù)據(jù)集斤葱,橫坐標(biāo)是像素點(diǎn)L2錯(cuò)誤直方圖。隨機(jī)選擇250張圖的那個(gè)直方圖揖闸,我們的方法出現(xiàn)2-3個(gè)錯(cuò)誤的圖片個(gè)數(shù)是60多揍堕,7--12個(gè)錯(cuò)誤的有大概110個(gè),我們可以看出汤纸,我們的方法出現(xiàn)少量錯(cuò)誤的圖片占據(jù)大部分衩茸。
圖中,我們可以獲取兩個(gè)信息贮泞,選擇圖片張數(shù)超過(guò)50張的時(shí)候楞慈,L2錯(cuò)誤不再減少。在選取少量圖片的時(shí)候啃擦,比如10張囊蓝,我們的錯(cuò)誤率最少。
論文講完了议惰,巨累慎颗,該跑實(shí)驗(yàn)了,理解的不對(duì)的地方歡迎指正。
實(shí)驗(yàn)詳細(xì)介紹:
比較坑的是俯萎,實(shí)驗(yàn)中中沒(méi)有給如何選有代表性的圖片和如何選有代表性的點(diǎn)傲宜,木有辦法拿自己的圖片在他給的代碼里實(shí)現(xiàn)
Automatic Photo Adjustment Using Deep Neural Networks 論文實(shí)驗(yàn)
Automatic Photo Adjustment Using Deep Neural Networks 論文實(shí)驗(yàn)訓(xùn)練測(cè)試部分