Abstract
????最近基于深度學習的方法已經顯示出在圖像中修復大的缺失區(qū)域的挑戰(zhàn)性任務的有希望的結果。這些方法可以生成視覺上合理的圖像結構和紋理寿酌,但通常會產生扭曲的結構或與周圍區(qū)域不一致的模糊紋理哟忍。這主要是由于卷積神經網絡明顯地從遠處空間位置借用或復制信息帶來的不合理性。另一方面,傳統(tǒng)的紋理和補丁合成方法效果還行當從周圍區(qū)域借用紋理時暇仲。受這些觀察的啟發(fā)夺蛇,我們提出了一種新的基于深度生成模型的方法疚漆,該方法不僅可以合成新穎的圖像結構,還可以在網絡訓練中明確地利用周圍的圖像特征作為參考刁赦,從而做出更好的預測娶聘。該模型是一個前饋,完全卷積神經網絡截型,可以在任意位置處理具有多個孔趴荸,任意大小的圖像.
1.Introduction
????不幸的是,這些基于CNN的方法經常產生邊界偽影宦焦,扭曲的結構和與周圍區(qū)域不一致的模糊紋理发钝。我們發(fā)現(xiàn)這可能是由于卷積神經網絡在模擬遠距離上下文信息和空洞區(qū)域之間的長期相關性方面的無效性.例如顿涣,為了允許像素受到64像素的內容影響,它需要至少6層3×3卷積酝豪,擴張系數為2或等效.然而涛碑,擴張的卷積樣本來自規(guī)則和對稱網格的特征,因此可能無法權衡感興趣的特征相對其他特征孵淘。最近的工作嘗試通過優(yōu)化生成的補丁與已知區(qū)域中的匹配補丁之間的紋理相似性來解決外觀差異蒲障。雖然提高了視覺質量,但是這種方法被數百個梯度下降迭代拖拽瘫证,并且花費幾分鐘來處理GPU上分辨率為512×512的圖像揉阎。
????我們提出了一個統(tǒng)一的前饋生成網絡,其具有用于圖像修復的新穎的上下文關注層背捌。我們提議的網絡包括兩個階段毙籽。 第一階段是一個簡單的擴張卷積網絡,訓練有重建損失以粗略地丟失缺失的內容毡庆。 上下文關注集成在第二階段坑赡。 上下文關注的核心思想是使用已知補丁的特征作為卷積過濾器來處理生成的補丁。它是通過卷積設計和實現(xiàn)的么抗,用于將生成的補丁與已知的上下文補丁匹配毅否,通道方式softmax用于權衡相關補丁和解卷積以使用上下文補丁重建生成的補丁。上下文關注模塊還具有空間傳播層以鼓勵注意力的空間一致性蝇刀。 為了讓網絡產生幻覺新內容螟加,我們還有另一個與語境注意路徑并行的卷積路徑。將這兩個路徑聚合并饋入單個解碼器以獲得最終輸出熊泵。 整個網絡經過端到端的重建損失和兩次Wasserstein GAN損失仰迁,其中一個判別器關注全局圖像,另一個判別器看著局部區(qū)域顽分。
2. 1 Related Work
???? 現(xiàn)有的圖像修復工作主要可分為兩種徐许。第一組代表傳統(tǒng)的基于擴散或基于補丁的方法,具有低級別的特征卒蘸。第二組試圖通過基于學習的方法來解決修復問題雌隅,例如訓練深度卷積神經網絡來預測缺失區(qū)域的像素。
????傳統(tǒng)的擴散或基于斑塊的方法缸沃,如[2恰起,4,10趾牧,11]通常使用變分算法或斑塊相似性來將信息從背景區(qū)域傳播到空穴检盼。這些方法適用于固定紋理,但限于非平穩(wěn)數據翘单,如自然圖像吨枉。
????然而蹦渣,斑塊相似性的密集計算是非常昂貴的操作,這禁止了這種方法的實際應用貌亭。 為了解決這一挑戰(zhàn)柬唯,已經提出了一種稱為PatchMatch的快速最近鄰域算法,它已經為包括修復在內的圖像編輯應用展示了重要的實用價值圃庭。
????最近锄奢,深度學習和基于GAN的方法已成為圖像修復的有前途的范例。 最初的努力訓練卷積神經網絡用于小區(qū)域的去噪和修復剧腻。 上下文編碼器首先訓練深度神經網絡以修復大洞拘央。訓練在128×128圖像中完成64×64的中心區(qū)域,以2像素重建損失和生成對抗性損失為目標函數恕酸。最近堪滨,Iizuka等人通過引入全球和地方鑒別器作為對抗性損失來改進它胯陋。 全局鑒別器評估完成的圖像是否作為整體是連貫的蕊温,而局部鑒別器關注以生成的區(qū)域為中心的小區(qū)域以強制本地一致性。此外遏乔,Iizuka在修復網絡中使用擴張卷積來代替上下文編碼器中采用的通道方式完全連接層义矛,這兩種技術都被提出用于增加輸出神經元的感受域。 同時盟萨,有幾項研究側重于生成性面部修復凉翻。Yeh在受損圖像的潛在空間中搜索最接近的編碼并解碼以獲得完成的圖像。 李為面部完成引入額外的面部解析損失捻激。 然而制轰,這些方法通常需要后處理步驟,例如圖像混合操作胞谭,以在孔邊界附近強制顏色一致性垃杖。
????一些作品遵循圖像樣式化的想法,將修復作為優(yōu)化問題制定丈屹。 例如调俘,Yang提出了一種基于圖像內容和紋理約束的聯(lián)合優(yōu)化的多尺度神經補片合成方法,它不僅保留了上下文結構旺垒,而且通過匹配和調整補丁與最相似的中間層特征相關性來產生高頻細節(jié)彩库。 深層次的分類網絡。 這種方法顯示出有前途的視覺效果先蒋,但由于優(yōu)化過程而非常緩慢骇钦。
2.2注意力模型(Attention Modeling)
????在深度卷積神經網絡中已經有許多關于學習空間注意力的研究。 在這里竞漾,我們選擇回顧一些與提議的情境關注模型相關的代表性問題眯搭。Jaderberg首先提出了一種稱為空間變換網絡(STN)的參數空間注意模塊皇忿,用于對象分類任務。 該模型具有一個定位模塊坦仍,用于預測全局仿射變換到扭曲特征的參數鳍烁。但是,該模型假設全局轉換繁扎,因此不適合建模補丁注意幔荒。Zhou引入了一個外觀流程來預測偏移矢量,指定輸入視圖中應該移動哪些像素以重建目標視圖以進行新穎的視圖合成梳玫。 根據我們的實驗爹梁,該方法被證明對于匹配相同物體的相關視圖是有效的,但是在預測從背景區(qū)域到孔的流場方面是無效的提澎。最近姚垃,Dai和Jeon建議學習空間專注或主動卷積內核。 這些方法可以更好地利用信息在訓練期間使卷積內核形狀變形盼忌,但是當我們需要從背景中借用精確特征時积糯,這些方法可能仍然有限。
3.1 Improved Generative Inpainting Network
????我們首先通過重現(xiàn)并改進最近最先進的修補模型來構建我們的基線生成圖像修補網絡谦纱,該模型在臉部圖像嘉栓、建筑立面和自然圖像的修補中顯示出良好的視覺效果缭付。
????粗到精網絡體系結構:我們改進的模型的網絡體系結構如圖2所示究履。我們遵循與[17]中用于訓練和推理的輸入和輸出配置相同的配置亡笑,即,生成器網絡將具有填充在孔中的白色像素的圖像和指示孔區(qū)域的二進制掩碼作為輸入對祠乃,并輸出最終完成的圖像梦重。我們將輸入與相應的二進制掩模配對,以處理具有可變大小亮瓷、形狀和位置的孔琴拧。該網絡的輸入端是一幅256×256圖像,在訓練過程中隨機抽取矩形缺失區(qū)域寺庄,訓練后的模型可以采集到不同尺寸的多孔圖像艾蓝。
????在圖像修復任務中,感受野的大小應該足夠大斗塘,Iizuka為此目的采用擴張卷積赢织。 為了進一步擴大感受野并穩(wěn)定訓練,我們引入了兩個粗到細網絡架構馍盟,其中第一個網絡進行初始粗略預測于置,第二個網絡將粗略預測作為輸入并預測精細結果。 粗略網絡用明確的重建損失進行訓練贞岭,而細化網絡用重建以及GAN損失進行訓練八毯。 直觀地搓侄,細化網絡看到比具有缺失區(qū)域的原始圖像更完整的場景,因此其編碼器可以比粗網絡學習更好的特征表示话速。 這種兩階段網絡架構在精神上與殘留學習[15]或深度監(jiān)督相似讶踪。
????此外,我們的修復網絡采用薄而深的方案設計泊交,以提高效率乳讥,并且參數少于[17]中的參數。 在層實現(xiàn)方面廓俭,我們對所有卷積層使用鏡像填充并刪除批量標準化層[18](我們發(fā)現(xiàn)它會降低顏色一致性)云石。 此外,我們在[17]中使用ELU [7]作為激活函數而不是ReLU研乒,并剪切輸出濾波器值而不是使用tanh或sigmoid函數汹忠。 此外,我們發(fā)現(xiàn)GAN訓練的全局和局部特征表示分離比[17]中的特征級聯(lián)更好雹熬。
????Global and local Wasserstein GANs
????wgan代替dcgan宽菜,wgan的略過...
????對于圖像修復,我們只嘗試預測孔區(qū)域橄唬,因此梯度損失應僅應用于孔內的像素赋焕。 這可以通過梯度和輸入掩碼m的乘法來實現(xiàn),如下所示:
????其中掩碼值為0表示缺失像素仰楚,1表示其他地方。 在所有實驗中λ設定為10
直觀地犬庇,像素方式的重建損失直接將空洞回歸到當前地面實況圖像僧界,而WGAN隱含地學習匹配可能正確的圖像并用對抗性梯度訓練發(fā)生器。 由于兩種損耗均以像素方式測量l1距離臭挽,因此組合損失更容易訓練并使優(yōu)化過程更穩(wěn)定
????空間折扣重建損失 修復問題涉及像素的幻覺捂襟,因此對于任何給定的環(huán)境都可能有許多合理的解決方案。 在具有挑戰(zhàn)性的情況下欢峰,合理的完整圖像可能具有與原始圖像中的斑點或像素非常不同的斑塊或像素葬荷。 由于我們使用原始圖像作為計算重建損失的唯一基礎事實,因此強制執(zhí)行這些像素中的重建損失可能會誤導訓練卷積網絡的過程纽帖。
????直觀地宠漩,孔邊界附近的缺失像素比靠近孔中心的像素具有更少的模糊度。 這類似于強化學習中觀察到的問題懊直。 當長期獎勵在采樣過程中有很大的變化時扒吁,人們會使用時間折扣獎勵而不是采樣軌跡[38]。 受此啟發(fā)室囊,我們使用a引入空間折扣重建損失
掩模中每個像素的權重計算為pow(γ雕崩,l)其中l(wèi)是像素與最近的已知像素的距離魁索。 在所有實驗中γ設定為0.99
????在[32,41]中也研究了類似的加權思想。[41]中提出的重要加權上下文損失是通過固定窗口內的未損壞像素的比率(例如7×7)進行空間加權的盼铁。 Pathak等人粗蔚。 [32]預測一個略大的補丁,邊界區(qū)域的損失加權(×10)更高饶火。 對于修復大孔支鸡,建議的折扣損失對于改善視覺質量更有效。 我們在實施中使用了l1重建損失趁窃。
4.Image Inpainting with Contextual Attention
????卷積神經網絡逐層處理具有局部卷積核的圖像特征因此對于從遠處空間位置借用特征是無效的牧挣。 為克服這一局限,我們考慮了注意機制醒陆,并在深層生成網絡中引入了一種新的語境關注層瀑构。 在本節(jié)中,我們首先討論上下文關注層的細節(jié)刨摩,然后討論如何將它集成到我們的統(tǒng)一修復網絡中寺晌。
4.1. Contextual Attention
????上下文關注層學習從已知背景補丁借用或復制特征信息的位置以生成缺失補丁。 它是可微分的澡刹,因此可以在深度模型中進行訓練呻征,并且可以完全卷積,這允許在任意分辨率下進行測試
Match and attend
????我們考慮的問題是我們想要將缺失像素(前景)的特征與周圍環(huán)境(背景)相匹配罢浇。 如圖3所示陆赋,我們首先在背景中提取補丁(3×3)并將它們重新整形為卷積濾波器嚷闭。 為了匹配前景補丁fx,fy與背景bx攒岛,by我們用歸一化的內積(余弦相似度)進行測量
s代表著以fx1,fy1為中心的前景和bx2,by2的背景的相似性胞锰。然后灾锯,我們使用縮放的softmax沿x2,y2維度權衡相似性,
這有效地實現(xiàn)為卷積和通道方式softmax嗅榕。 最后顺饮,我們重新使用提取的補丁bx,by作為反卷積濾波器來重建前景。 重疊像素的值被平均.
Attention propagation
????我們通過傳播(融合)進一步鼓勵注意力的一致性凌那。 一致性的想法是前景補丁的移位可能對應于背景補丁中的相同移位以引起注意兼雄。 例如,s * x; y; x0; y0通常具有接近的值案怯,其中s * x + 1; y; x0 + 1; y0君旦。 為了模擬和鼓勵注意力圖的一致性,我們進行左右傳播,然后進行自上而下的傳播金砍,內核大小為k局蚀。 以左右傳播為例,我們得到了新的注意力得分:
????傳播有效地實現(xiàn)為具有單位矩陣作為核的卷積恕稠。 注意力傳播顯著改善了測試中的修復效果琅绅,并豐富了訓練中的漸變。
????Memory efficiency 假設在128×128中缺少64×64區(qū)域鹅巍,則從背景中提取的卷積濾波器的數量是12,288千扶。 這可能會導致GPU的內存開銷。 為了克服這個問題骆捧,我們引入了兩個選項:1)提取背景片配合stride以減少卷積核的數量;以及2)在卷積之前縮小前景輸入的分辨率并在傳播之后放大注意力圖澎羞。
4.2. Unified Inpainting Network
????為了集成注意力模塊,我們引入了兩個并行編碼器敛苇,如圖4所示妆绞,基于圖2.底部編碼器使用擴散卷積檢測,而頂部編碼器關注與背景特征的關系枫攀。 來自兩個編碼器的輸出特征被聚合并饋送到單個解碼器以獲得最終輸出括饶。 為了解釋上下文關注,我們以圖4所示的方式對其進行可視化来涨。我們使用顏色來指示每個前景像素最感興趣的背景補丁的相對位置图焰。 例如,白色(顏色編碼圖的中心)表示像素在其自身上蹦掐,左下方是粉紅色技羔,在上方是綠色。 對于不同的圖像笤闯,偏移值被不同地縮放以最佳地可視化最有趣的范圍堕阔。
5.1. Ablation study
背景注意力vs空間變化網絡vs appearance flow 三者相比,本文更好
gan上wgan比lsgan和dcgan都更好颗味,收斂的更快
沒有l(wèi)1 loss,會導致圖像模糊牺弹,可以起到相對gan loss正則浦马,perceptual loss, style loss and total variation loss都沒什么作用
6. Conclusion
我們提出了一個從粗到細的生成圖像修復框架,并介紹了我們的基線模型以及具有新穎的上下文關注模塊的完整模型张漂。 我們通過學習用于明確匹配和參與相關背景補丁的特征表示來顯示上下文關注模塊顯著改善了圖像修復結果晶默。 作為未來的工作,我們計劃使用類似于GAN漸進式增長的想法將方法擴展到高分辨率的修復應用程序航攒。提出的修復框架和上下文關注模塊也可以應用于條件圖像生成磺陡,圖像編輯和 計算攝影任務包括基于圖像的渲染,圖像超分辨率,引導編輯等等币他。