論文地址:https://arxiv.org/abs/2207.01600
論文解讀地址:Transformer去陰影串稀!北交大&SCSU&中國移動提出CRFormer咕娄,依靠從非陰影到陰影的單向注意力來去除圖片中的陰影!
模型假設(shè)前提
- 測試需要有原始的圖像,同時有陰影的mask圖像玲献,才能進(jìn)行陰影去除
- 假設(shè)圖像的陰影區(qū)域和非陰影區(qū)域都是同一和諧場景侣灶,也就是圖像背景不會很復(fù)雜,這樣可以利用非陰影區(qū)域的像素信息來恢復(fù)陰影區(qū)域的像素信息呢蔫。
主要采用的數(shù)據(jù)集
ISTD、AISTD飒筑、SRD和Video Shadow Removal數(shù)據(jù)集
網(wǎng)絡(luò)結(jié)構(gòu)
encoder采用兩個不同的CNN淺層網(wǎng)絡(luò)用于提取淺層信息(因為需要利用非陰影區(qū)域的特征片吊,所以不能太深,不然特征肯定會融合陰影區(qū)域的特征)协屡。一個encoder輸入是原圖俏脊,用于提取原圖的特征。一個encoder是原圖和mask圖的concat圖肤晓,用于提取mask的信息联予。
為了減少陰影像素和非陰影像素之間由于更深卷積而產(chǎn)生的干擾,即提取每個區(qū)域內(nèi)的純特征以準(zhǔn)確提供感興趣的非陰影區(qū)域特征材原,頂部編碼器(非陰影路徑)構(gòu)建在僅使用三個卷積的淺子網(wǎng)上沸久,其中包括兩個3×3平均池化卷積,用于對特征映射進(jìn)行降采樣余蟹,以及一個1×1卷積卷胯,用于調(diào)整特征映射的維度,以匹配底部編碼器輸出的維度威酒。陰影路徑的底部編碼器是一個更深的編碼器窑睁,由幾個卷積和殘差塊組成,其中兩個卷積的步長設(shè)置為2葵孤,以對特征圖進(jìn)行降采樣担钮。
中間層是一個具有區(qū)域感知交叉注意力的Transformer層。(這個后面講)
Transformer層之后是一個解碼器尤仍,這個解碼器的輸出是第一次的去陰影圖像.
解碼器的輸出結(jié)合原圖箫津、陰影mask圖像,得到合成圖像:
M是陰影mask宰啦,表示解碼器輸出苏遥,表示原圖。所以這個公式的含義是赡模,對于陰影部分采用decoder的預(yù)測像素田炭,對于非陰影部分采用原圖像素。
將和作為模型輸入漓柑,采用一個U形網(wǎng)絡(luò)作為豬肝教硫,最終得到去除陰影效果的圖像叨吮。
詳細(xì)展開其中的區(qū)域感知交叉注意力的Transformer層(如下圖所示)。
主要是右邊的這部分瞬矩。在這篇文章中挤安,和是不同的特征圖,但是其維度都是(如果相同那就是自注意力機(jī)制了丧鸯。)蛤铜。
KQ點乘的結(jié)果可以理解為Query和key的相關(guān)度。其結(jié)果丛肢,大小為围肥,越大表示兩個像素之間的關(guān)聯(lián)越大。
考慮到我們需要非陰影區(qū)域像素提取特征到陰影區(qū)域的蜂怎,因此對于結(jié)果引入了:
1.刪除從陰影區(qū)域到陰影區(qū)域的關(guān)聯(lián)
2.刪除從非陰影區(qū)域到非陰影區(qū)域的關(guān)聯(lián)
3.刪除從陰影區(qū)域到非陰影區(qū)域的相關(guān)度.
這樣就實現(xiàn)了論文中提到的區(qū)域感知交叉注意力.
暫時只能看懂這些穆刻,等代碼出來了再去看看實際怎么處理的。