這篇是Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network論文的總結(jié)键闺。原文鏈接:https://arxiv.org/pdf/1609.05158.pdf
摘要:
當(dāng)前基于深度神經(jīng)網(wǎng)絡(luò)的方法對于單圖片的超分辨率在重建效率和計(jì)算量方面有了很大的成功。但是澈驼,這些方法中辛燥,都是用低分辨率的圖片通過單一的濾波器,通常是雙三次插值法,變成高分辨率的圖片挎塌。這意味著超分辨率的工作是在高分辨率的基礎(chǔ)上完成的徘六。這種方法是次最優(yōu)并且計(jì)算量很大。
該論文提出了一種方法榴都,將低分辨率的圖片直接通過CNN來做超分辨率待锈。另外,提出了一種有效的子像素卷積層嘴高,這層能學(xué)習(xí)到一組擴(kuò)大濾波器去將低分辨率的特征映射到高分辨率的輸出竿音。這樣做,我們就省去了雙三次插值法拴驮,也減輕了計(jì)算量春瞬。
1. 簡介:
大部分的超分辨率問題都假設(shè)低分辨率的數(shù)據(jù)是高分辨率數(shù)據(jù)的低通濾波,下采樣和噪聲產(chǎn)生的莹汤。由于在不可逆的低通濾波和子采樣操作期間發(fā)生的高頻信息的丟失快鱼,這是一個(gè)非常惡劣的問題。另外纲岭,從低分辨率到高分辨率的映射過程抹竹,超分辨率有許多的選擇≈钩保基于許多超分辨率技術(shù)的一個(gè)關(guān)鍵假設(shè)是大部分高頻數(shù)據(jù)是冗余的窃判,因此可以從低頻分量精確地重構(gòu)。因此喇闸,超分辨率是一個(gè)推理問題袄琳,因此依賴于我們關(guān)于圖像統(tǒng)計(jì)的模型。
許多方法假設(shè)多個(gè)圖像可用作具有不同視角的相同場景的低分辨率實(shí)例燃乍,即具有唯一的先前仿射變換唆樊。這些可以歸類為多圖像超分辨率方法,并通過限制不正確的問題附加信息并嘗試反轉(zhuǎn)下采樣過程來利用顯式冗余刻蟹。然而逗旁,這些方法通常需要計(jì)算復(fù)雜的圖像配準(zhǔn)和融合階段,其準(zhǔn)確性直接影響結(jié)果的質(zhì)量舆瘪。一種替代的方法是單圖像超分辨率(SISR)技術(shù)片效。這些技術(shù)尋求學(xué)習(xí)自然數(shù)據(jù)中存在的隱性冗余,以從單個(gè)低分辨率實(shí)例中恢復(fù)丟失的高分辨率信息英古。這通常以圖像的局部空間相關(guān)性和視頻中的附加時(shí)間相關(guān)性的形式出現(xiàn)淀衣。在這種情況下,需要以重建約束的形式的先前信息來限制重構(gòu)的解空間召调。
1.1 相關(guān)工作:
最近最流行的SISR方法可以分為:edge-based, image statistics-based和patch-based膨桥。另外蛮浑,最新蓬勃發(fā)展的技術(shù)是sparsity-based techniques(稀疏性技術(shù))。稀疏編碼是一個(gè)有效的機(jī)制国撵,它假設(shè)任何的自然圖片都能夠在轉(zhuǎn)換區(qū)域被稀疏的表達(dá)陵吸。這種轉(zhuǎn)換域通常是一個(gè)圖像原子性的字典,能通過發(fā)現(xiàn)低分辨率和高分辨率之間的對應(yīng)關(guān)系學(xué)習(xí)到介牙。這個(gè)字典能夠嵌入先驗(yàn)知識(shí)以限制上面提到的惡劣的問題。但是稀疏性技術(shù)的缺點(diǎn)是將稀疏性限制引入到非線性重建中時(shí)澳厢,通常需要較大的計(jì)算代價(jià)环础。
除此之外,通過神經(jīng)網(wǎng)絡(luò)來習(xí)得圖像的表達(dá)對于SISR也是很常見的剩拢。這些方法线得,通過在大型的圖片數(shù)據(jù)庫,比如ImageNet徐伐,進(jìn)行反向傳播訓(xùn)練贯钩,學(xué)習(xí)到低分辨率到高分辨率的映射關(guān)系。堆疊的協(xié)同本地自編碼被用作一層層的去做低分辨率圖片的超分辨率办素。有學(xué)者建議用預(yù)測卷積稀疏編碼框架來做SISR角雷。于是,基于稀疏編碼的多層卷積神經(jīng)網(wǎng)絡(luò)被提出性穿。該方法提出使用多階段可訓(xùn)練非線性反應(yīng)擴(kuò)散(TNRD)作為CNN的替代方法勺三,其中權(quán)重和非線性是可訓(xùn)練的。還有人從LISTA得到靈感(學(xué)習(xí)迭代收縮和閾值算法)訓(xùn)練了一個(gè)端到端的級聯(lián)的稀疏編碼網(wǎng)絡(luò)需曾,以充分利用圖像的自然稀疏性吗坚。這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)不僅限制于神經(jīng)網(wǎng)絡(luò)商源,比如隨機(jī)森林同樣可以成功的利用牡彻。
1.2 動(dòng)機(jī)和貢獻(xiàn)
有兩種方法去提高分辨率。一種是在神經(jīng)網(wǎng)絡(luò)的中間層逐漸增加逃顶,另一種是在喂入神經(jīng)網(wǎng)絡(luò)第一層之前就增加分辨率讨便。后者的方法有許多的缺點(diǎn)。第一以政,計(jì)算代價(jià)大霸褒。第二,插值法并沒有解決ill-posed的問題盈蛮。
這篇論文中废菱,和之前不一樣的,提出了一種在神經(jīng)網(wǎng)絡(luò)的末端增加分辨率的方法衰倦。這解決了一個(gè)問題,那就是大部分的超分辨率操作沒有必要在較大的高分辨率圖片上面執(zhí)行旁理。所以樊零,我們采用了高效的子像素卷積層去學(xué)習(xí)倍增分辨率的操作。
這個(gè)方法有兩個(gè)好處:
1. upscaling在神經(jīng)網(wǎng)絡(luò)的末端執(zhí)行孽文。這意味著將低分辨率圖片喂入神經(jīng)網(wǎng)絡(luò)沉衣,并且特者提取是發(fā)生在低分辨率空間的非線性卷積操作。因?yàn)檩斎氲姆直媛式档土思跷覀兛梢杂行У乩幂^小的過濾器去合成同樣的信息豌习。分辨率和濾波器大小的減小,極大的減小了運(yùn)算量和存儲(chǔ)空間以至于超分辨率能夠?qū)崟r(shí)地在HD的錄像上完成拔疚。
2. 沒有使用插值法肥隆,這意味著網(wǎng)絡(luò)能明確地學(xué)習(xí)到對超分辨率有用的東西。因此草雕,比起在第一層用一個(gè)固定的倍增濾波器巷屿,這個(gè)網(wǎng)絡(luò)能學(xué)習(xí)到一個(gè)更好的從低分辨率到高分辨率的映射。這能導(dǎo)致重建正確率的提高墩虹。
2. 方法
輸入是用高分辨率的圖片嘱巾,采取r的倍增速率,通過高斯濾波器诫钓,壓縮成低分辨率的圖片旬昭。所以低分辨率圖片的大小是H*W*C,高分辨率圖片的大小是rH*rW*C(C是channel的數(shù)量)菌湃。
為了恢復(fù)高分辨率的圖片问拘,該論文用了3層的卷積神經(jīng)網(wǎng)絡(luò),如下圖惧所。
在結(jié)構(gòu)中骤坐,直接作用了l層神經(jīng)網(wǎng)絡(luò)在低分辨率圖像上,然后用了一個(gè)子像素卷積層下愈,將低分辨率的特征映射到超分辨率上纽绍。
2.1 反卷積層
附加的反卷積層是從max-pooling層和其他圖像的下采樣層中恢復(fù)高分辨率的一個(gè)很流行的選擇。這種方法已經(jīng)成功地用于可視化層激活势似,并且用于使用來自網(wǎng)絡(luò)的高級特征來生成語義分割拌夏。這表明SRCNN中使用的雙三次插值是反卷積層的一種特殊情況僧著。反卷積層可以看作是每個(gè)輸入像素乘以一個(gè)濾波器單元與步幅r,并且在所得到的輸出窗口上也稱為向后卷積障簿。
2.2 高效的子像素卷積層
另外一種方法去倍增低分辨率圖像是用一個(gè)步長為分?jǐn)?shù)的1/r的卷積作用域低分辨率空間盹愚。
3. 實(shí)驗(yàn)
3.1 數(shù)據(jù)集
用5000張隨機(jī)從ImageNet數(shù)據(jù)集中選擇出來的圖片用來訓(xùn)練。