dan&dran

dran

作者:JunFu,JingLiu,Jie Jiang牙捉,Yong Li,Yongjun Bao敬飒,Hanqing Lu

摘要:我們提出雙關(guān)系感知的注意力網(wǎng)絡(luò)(DRAN)來解決場(chǎng)景分割的任務(wù)邪铲。關(guān)鍵問題是高效地利用上下文信息。為了解決該問題无拗,我們基于關(guān)系感知的注意力機(jī)制來自適應(yīng)地捕捉上下文信息带到。具體是,我們?cè)跀U(kuò)張F(tuán)CN的頭部增加了兩類注意力塊英染,分別從空間和通道兩個(gè)維度對(duì)上下文依賴進(jìn)行建模揽惹。注意力模塊中,我們用自注意力機(jī)制來建模任意兩個(gè)像素或兩個(gè)通道之間的語義關(guān)聯(lián)四康。每個(gè)像素(或通道)可根據(jù)相關(guān)性自適應(yīng)地聚合來自所有像素(或通道)的上下文搪搏。為了減少上述模塊的計(jì)算量,我們進(jìn)一步設(shè)計(jì)了兩種類型的輕量注意力模塊闪金。在輕量注意力塊中疯溺,每個(gè)像素(或通道)只與幾個(gè)聚集中心(gathering centers)建立關(guān)聯(lián)论颅。同時(shí),我們?cè)黾恿艘粋€(gè)跨級(jí)的門控編碼器(a?cross-level gating decoder)囱嫩,以有選擇性地增強(qiáng)空間細(xì)節(jié)恃疯,從而提高網(wǎng)絡(luò)性能。大量實(shí)驗(yàn)證明網(wǎng)絡(luò)有效性墨闲,并在4個(gè)基準(zhǔn)數(shù)據(jù)集上達(dá)到最先進(jìn)水平今妄。特別的,在Cityscapes上不使用額外的粗標(biāo)注數(shù)據(jù)在測(cè)試集上達(dá)到82.9%mIoU鸳碧。

關(guān)鍵詞:輕量注意力模塊盾鳞,跨級(jí)門控解碼器,關(guān)系感知注意力網(wǎng)絡(luò)瞻离,場(chǎng)景分割

1 引言

FCNs的結(jié)構(gòu)特點(diǎn)是捕獲有限的感受野和連續(xù)的下采樣腾仅,導(dǎo)致了在大面積區(qū)域上的預(yù)測(cè)不一致和空間細(xì)節(jié)的丟失。圖1所示是該問題的一些樣例琐脏。

圖1 場(chǎng)景分割的目的是識(shí)別每一個(gè)像素,包括stuff和不同的物體

最近的一些工作解決以上問題缸兔。一種方法是多尺度上下文信息融合日裙。例如[6-8]是組合來自不同的擴(kuò)張卷積和池化操作輸出的特征圖。[9,10]是使用大卷積核惰蜜,采用分解的結(jié)構(gòu)昂拂,或者使用計(jì)算量小的解碼層,包含image-level的信息抛猖。還有就是編碼-解碼結(jié)構(gòu)[11-14]將低級(jí)特征和高級(jí)特征融合起來以增強(qiáng)空間上的細(xì)節(jié)信息格侯。雖然多尺度上下文融合有助于識(shí)別不同尺寸的物體,但沒考慮物體之間的關(guān)系财著,而這種關(guān)系可以用來更好地上下文建模联四。另一類方法[15,16]使用遞歸網(wǎng)絡(luò)來捕獲長(zhǎng)程相關(guān)性,然而這類方法的效果嚴(yán)重受限于長(zhǎng)期記憶的學(xué)習(xí)輸出撑教。

為解決該問題朝墩,本文提出雙關(guān)系感知注意力網(wǎng)絡(luò)(DRAN)。通過建立一個(gè)關(guān)系感知的注意力機(jī)制伟姐,我們可以用顯著性圖來引導(dǎo)地收苏、自適應(yīng)地選擇要融合的特征。該方法有效且高效愤兵。自注意力機(jī)制[17]是加權(quán)聚合所有位置的特征來更新序列中某個(gè)位置的特征鹿霸,受其啟發(fā),我們對(duì)任意兩個(gè)像素或通道(一個(gè)特征張量在通道維度上的特征圖)之間的上下文依賴進(jìn)行建模并更新特征秆乳。使用位置注意力模塊(PAM)和通道注意力模塊(CAM)懦鼠,分別對(duì)像素之間和通道之間進(jìn)行自適應(yīng)的上下文融合。PAM中,每個(gè)位置的特征通過加權(quán)聚合所有位置的特征來更新葛闷,權(quán)重取決于位置特征之間的相似度憋槐。舉個(gè)例子,當(dāng)我們識(shí)別一輛車的某個(gè)像素時(shí)淑趾,我們會(huì)收集一些與該像素相關(guān)聯(lián)的上下文信息阳仔,從而使該像素能獲得更多的關(guān)于車的信息。CAM也是用類似的機(jī)制來捕捉任意兩個(gè)通道之間的依賴關(guān)系扣泊,并自適應(yīng)地更新每個(gè)通道特征近范。

直接建模兩兩像素之間或兩兩通道之間的關(guān)系可能是冗余的,而且計(jì)算量會(huì)很大延蟹。為解決這個(gè)問題评矩,我們進(jìn)一步提出在空間維度和通道維度上的兩類輕量/緊湊注意力模塊(緊湊是指模型的關(guān)系是緊湊的/非稀疏的)。具體是阱飘,提出了緊湊PAM(CPAM)和緊湊CAM(CCAM)斥杜。CPAM是用不同大小的池化核來獲取空間聚集中心,然后根據(jù)語義關(guān)聯(lián)自適應(yīng)地將它們?nèi)诤辖o每個(gè)像素沥匈。例如蔗喂,當(dāng)我們識(shí)別一輛車的某個(gè)像素時(shí),我們會(huì)收集與該像素相關(guān)的區(qū)域的信息高帖。CCAM是使用降維卷積層來獲得通道聚合中心缰儿,然后用它們來更新每個(gè)通道。兩種輕量的注意力模塊是建立像素/通道與少量的像素/通道聚合中心之間的關(guān)系散址,而不是建立兩兩像素之間或兩兩通道之間的關(guān)系乖阵,減少了計(jì)算量。另外预麸,我們?cè)黾恿艘粋€(gè)解碼結(jié)構(gòu)來融合高級(jí)特征和低級(jí)特征瞪浸,從而增強(qiáng)空間細(xì)節(jié)。解碼結(jié)構(gòu)設(shè)計(jì)為一個(gè)跨級(jí)的門控單元吏祸,選擇性地從主干網(wǎng)絡(luò)中refine低級(jí)特征。

通過上述設(shè)計(jì)犁罩,我們提出的DRANet有效地捕捉了豐富的上下文齐蔽,并在四個(gè)流行的基準(zhǔn)測(cè)試中取得了優(yōu)異的性能,包括Cityscapes數(shù)據(jù)集[18]床估、ADE20K數(shù)據(jù)集[19]含滴、PASCAL context數(shù)據(jù)集[20]和COCO Stuff數(shù)據(jù)集[21]。我們還開源了我們的代碼和訓(xùn)練好的模型:https://github.com/junfu1115/DRAN

我們主要貢獻(xiàn)概括如下:

1)? 提出DRAN來建呢の祝空間上和通道維度上的上下文依賴關(guān)系谈况;

2)? 設(shè)計(jì)了兩類輕量級(jí)的注意力模塊來減少計(jì)算量勺美;

3)? 提出一種簡(jiǎn)單有效的解碼器結(jié)構(gòu),帶有一個(gè)跨級(jí)的門控單元來refine低級(jí)特征碑韵,以增強(qiáng)空間細(xì)節(jié)信息赡茸,以提升性能;

4)? 大量實(shí)驗(yàn)證明DRAN在4個(gè)基準(zhǔn)數(shù)據(jù)集上達(dá)到最先進(jìn)水平祝闻。

本文的其余部分是占卧,在第2節(jié)里簡(jiǎn)要回顧了分割和注意力機(jī)制相關(guān)工作;第3節(jié)介紹所提的DRANet联喘,包括兩種類型的注意力模塊的設(shè)計(jì)細(xì)節(jié)华蜒,相應(yīng)的緊湊型注意力模塊,兩個(gè)注意力模塊的集成豁遭,以及一個(gè)跨級(jí)門控解碼器叭喜;第4節(jié)是實(shí)驗(yàn)及實(shí)驗(yàn)分析;第5節(jié)是結(jié)論蓖谢。

2. 相關(guān)工作

A. 語義/場(chǎng)景分割

盡管基于FCN的方法在分割領(lǐng)域很成功捂蕴,但仍存在邊緣分割粗糙、區(qū)域預(yù)測(cè)不一致的問題闪幽。近年來有許多研究解決這些問題啥辨。

許多研究通過減少下采樣操作來保留空間信息,并致力于利用全局或多尺度上下文來提高語義識(shí)別沟使。例如委可,ParseNet[22]通過將全局特征連接到每個(gè)像素來利用圖像級(jí)信息渊跋。PSPNet[8]設(shè)計(jì)了一個(gè)金字塔池模塊來收集有效的上下文先驗(yàn)信息腊嗡,包含不同尺度的信息。EncNet[10]提出了一個(gè)上下文編碼模塊來捕獲場(chǎng)景的語義上下文拾酝,并有選擇地突出與物體類別相關(guān)的特征圖燕少。GCN[9]使用大尺寸卷積核、分解結(jié)構(gòu)來獲得全局接收?qǐng)鲚锒凇eeplabv2[6]和Deeplabv3[7]采用atrous空間金字塔池化來嵌入上下文信息客们,這些信息由不同擴(kuò)張率的并行擴(kuò)張卷積組成。雖然這些方法能帶來提升材诽,但是多尺度上下文融合的計(jì)算量很大底挫。本文采用一種關(guān)系感知的注意力機(jī)制來克服這一不足并帶來性能的提升。

此外脸侥,還有一些研究注意到上下文依賴的重要性并使用遞歸網(wǎng)絡(luò)來捕獲長(zhǎng)程依賴建邓。例如,[15]提出2D-LSTM來捕獲標(biāo)簽上的復(fù)雜空間依賴關(guān)系睁枕。DAG-RNN[16]采用一種推廣的RNN結(jié)構(gòu)官边,基于有向無環(huán)圖顯式傳遞局部上下文沸手,從而在圖像區(qū)域上捕捉到豐富的上下文依賴關(guān)系。MSCI[23]利用LSTM的鏈?zhǔn)浇Y(jié)構(gòu)來融合相鄰層的特征注簿,以獲強(qiáng)大的特征契吉。這些基于RNN的方法會(huì)受限于長(zhǎng)期記憶的限制,我們的方法不同诡渴,我們的方法是直接在空間和通道維度上建立語義關(guān)聯(lián)來有效地建模上下文依賴捐晶。

B. 注意力建模

視覺注意力建模是近年來的一個(gè)重要研究課題。[24]采用自下而上注意的顯式計(jì)算模型來開發(fā)注意力特征玩徊。代表性的工作[25]租悄,[26]關(guān)注的是從生物學(xué)角度是合理的計(jì)算模型,其強(qiáng)調(diào)的是注意力部署的自底向上控制恩袱。這些努力激發(fā)了注意力建模的許多探索[27]泣棋。不同于早期的這些工作研究計(jì)算的機(jī)制,我們的工作的目的是應(yīng)用注意力機(jī)制畔塔,用來引導(dǎo)地更新特征潭辈,從而自適應(yīng)地增強(qiáng)相關(guān)特征并抑制不相關(guān)特征。

一些方法使用可學(xué)習(xí)的權(quán)重來更新特征澈吨,例如SENet[5]使用全局池化特征來生成通道權(quán)重把敢,再用這些權(quán)重來選擇性地凸出通道特征圖。CBAM[28]將squeeze-excitation模塊擴(kuò)展到空間維度谅辣,以凸出有意義區(qū)域修赞。[29]采用空間注意力機(jī)制來擴(kuò)大網(wǎng)絡(luò)的感受野。[30]和[31]采用了具有空間金字塔結(jié)構(gòu)的注意力機(jī)制桑阶,在多個(gè)空間尺度上凸出重要的patchs柏副。[32]采用無參數(shù)空間注意力機(jī)制來捕捉不同的動(dòng)作的重要細(xì)節(jié)信息。和這些方法不同蚣录,我們使用關(guān)系感知的加權(quán)特征來更新特征割择。

自注意力機(jī)制被廣泛地用于很多任務(wù)中。[17]首次提出用自注意力機(jī)制來提取輸入的全局依賴關(guān)系萎河,并用于機(jī)器翻譯中荔泳。[33]將自注意力機(jī)制用到圖像生成中。[34]在視頻與圖像任務(wù)中研究了時(shí)間-空間維度上的non local的有效性虐杯。[35]在物體檢測(cè)任務(wù)中使用了自適應(yīng)的注意力模塊來建模物體間的相對(duì)幾何關(guān)系玛歌。DANet[36]和OCNet[37]已經(jīng)證明了自注意力機(jī)制在語義分割領(lǐng)域的成功。近年來出現(xiàn)很多降低自注意力機(jī)制計(jì)算量的工作擎椰。A^2Net[38]采用加權(quán)的全局池化和加權(quán)的broadcasting來收集和分發(fā)上下文信息支子。CCNet[39]以遞歸的方式堆疊兩個(gè)交叉的注意力模塊。EMANet[40]采用EM算法得到一個(gè)緊湊的基集确憨,并以迭代的方式進(jìn)行分配译荞。與這些方法不同的是瓤的,我們提出了一個(gè)空間和通道維度的關(guān)系感知的注意力模塊,在DANet的基礎(chǔ)上吞歼,進(jìn)一步設(shè)計(jì)了兩個(gè)緊湊的注意力模塊圈膏,對(duì)每個(gè)像素/通道和聚集中心之間的關(guān)系進(jìn)行了建模,其中聚集中心是在空間維度上用空間金字塔池化篙骡、在通道維度上用降維卷積操作來產(chǎn)生的稽坤。

C. 我們先前的工作

我們這項(xiàng)工作的先前版本DANet[36]是發(fā)表在CVPR2019,使用自注意力機(jī)制來捕獲兩兩像素之間和兩兩通道之間的上下文依賴關(guān)系糯俗,能有效地改善上下文融合尿褪,帶來性能的顯著提升。但是得湘,計(jì)算量很大杖玲。本文以DANet為基礎(chǔ),會(huì)介紹DANet中的注意力模塊淘正,會(huì)介紹本文的DRAN對(duì)DANet的改進(jìn)摆马,在以下3個(gè)方面本文和會(huì)議版本有所不同。首先進(jìn)一步設(shè)計(jì)了兩個(gè)緊湊的注意力模塊鸿吆,建模像素/通道與像素/通道聚集中心的關(guān)系囤采,而不是兩兩像素之間或兩兩通道之間的關(guān)系。每個(gè)像素/通道都可以從緊湊的注意力模塊中獲益惩淳,并且計(jì)算和內(nèi)存成本更低蕉毯。其次,我們添加了一個(gè)簡(jiǎn)單有效的解碼器網(wǎng)絡(luò)思犁,帶有跨層的門控機(jī)制代虾,它利用低層和高層特征之間的關(guān)系來選擇性地增強(qiáng)空間細(xì)節(jié)。第三抒倚,實(shí)驗(yàn)證明我們方法有效褐着,并在4個(gè)基準(zhǔn)測(cè)試集上取得最先進(jìn)水平坷澡。

3. 我們的方法

A.概述

如圖2所示托呕,設(shè)計(jì)了兩類注意力模塊,在擴(kuò)展的殘差網(wǎng)絡(luò)生成的局部特征上提取全局上下文信息频敛,并加上一個(gè)簡(jiǎn)單的解碼器網(wǎng)絡(luò)用于語義分割的預(yù)測(cè)项郊。具體的是,我們采用[7,8,10]的方法斟赚,采用[6]所提的擴(kuò)張策略着降,將一個(gè)預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)(也就是ResNet-50和ResNet-101)作為主干網(wǎng)絡(luò)。

圖2 概覽圖

請(qǐng)注意拗军,我們刪除了下采樣操作任洞,并在最后兩個(gè)ResNet塊中使用擴(kuò)展卷積蓄喇,使得最終輸出的特征圖為原始尺寸的1/8。它保留了更多的細(xì)節(jié)信息并且沒有添加額外的參數(shù)交掏。然后妆偏,將擴(kuò)張的殘差網(wǎng)絡(luò)的特征圖輸入給兩個(gè)并行的注意力模塊中,分別從空間/通道兩個(gè)維度捕獲全局的上下文依賴盅弛。注意力模塊中钱骂,建立兩兩像素之間(PAM)、像素和像素聚集中心之間(CPAM)挪鹏、通道兩兩之間(CAM)见秽、通道和通道聚集中心之間(CCAM)的關(guān)系,然后利用它們選擇性地融合上下文信息讨盒。接下來解取,將兩個(gè)注意力模塊的輸出進(jìn)行聚合,以獲得更好的特征表示返顺。最后肮蛹,用一個(gè)簡(jiǎn)單有效的解碼網(wǎng)絡(luò)來逐步恢復(fù)原始尺寸。這樣创南,DRANet不僅能更好地聚合上下文信息伦忠,還refine了粗分割結(jié)果,以產(chǎn)生更準(zhǔn)確的語義分割結(jié)果稿辙。

B. 位置注意力模塊

正如許多工作[8,9]指出昆码,傳統(tǒng)FCNs生成的局部特征不能捕捉到豐富的上下文,這可能導(dǎo)致objects和stuff的錯(cuò)分邻储。為了在局部特征上建立豐富的上下文關(guān)系模型赋咽,我們引入PAM。PAM根據(jù)語義關(guān)聯(lián)關(guān)系有選擇地將更大范圍的上下文信息編碼到每個(gè)像素中吨娜,從而增強(qiáng)識(shí)別能力脓匿。

圖3 (a)是PAM,(b)是CPAM宦赠,灰色矩形表示1×1卷積層陪毡,青色矩形表示全連接層,黃色矩形代表一個(gè)多尺度池化層接著一個(gè)1×1的卷積層

具體來說勾扭,我們直接構(gòu)造任意兩個(gè)像素之間的語義關(guān)聯(lián)毡琉。每個(gè)像素從整張圖像的語義相關(guān)的像素中中收集有效的上下文信息。如圖3(a)所示妙色,給定一個(gè)局部特征A[C×H×W]桅滋,首先將其輸入給兩個(gè)降維卷積層,以生成兩個(gè)新的特征B[C×H×W]和C[C×H×W]身辨。然后丐谋,將它們變形成[C×N]芍碧,其中N=H×W是像素個(gè)數(shù)。接著号俐,對(duì)CB的轉(zhuǎn)置進(jìn)行矩陣相乘师枣,并使用softmax層以計(jì)算空間注意力圖S[N×N]。

s_{ji} =\frac{exp({B_{j}}\cdot {C_{i }} )}{\sum\nolimits_{i=1}^N  exp({B_{j}}\cdot {C_{i }} ) } ? ??(1)

其中萧落,s_{ij} 表示的是第i個(gè)像素對(duì)第j個(gè)像素的影響践美。兩個(gè)像素的特征越相似,它們之間的相關(guān)性就越大找岖。

同時(shí)陨倡,將特征A輸入給一個(gè)卷積層,以生成一個(gè)新的特征D[C×H×W]许布,并變形為[C×N]兴革。然后將DS的轉(zhuǎn)置進(jìn)行矩陣相乘,并將結(jié)果變形為[C×H×W]蜜唾。最后杂曲,將其乘以一個(gè)標(biāo)量參數(shù)\alpha ,并與特征A執(zhí)行元素求和操作袁余,獲得最終的輸出E[C×H×W]:

E_{j} =\alpha \sum_{i=1}^N(s_{ji}\cdot D_{i}  )+A_{j} ? ?(2)

其中擎勘,\alpha 被初始化為0,并逐漸學(xué)會(huì)分配更多的權(quán)重[33]颖榜。由(2)可知棚饵,特征E的每個(gè)位置是所有位置特征與原始特征的加權(quán)和。因此掩完。它有選擇地以一個(gè)全局的視野根據(jù)空間注意力圖來聚合上下文信息噪漾。每個(gè)像素的信息會(huì)傳遞給語義相關(guān)的像素,從而提高語義一致性且蓬。

C. 緊湊的位置注意力模塊

由于需要通過向量?jī)?nèi)積來計(jì)算像素兩兩之間的關(guān)系欣硼,這會(huì)導(dǎo)致在GPU上很大的內(nèi)存占用以及很大的計(jì)算量。為了解決該問題恶阴,我們提出CPAM诈胜,其構(gòu)造像素和少量的聚合中心的關(guān)系。聚合中心定義為一個(gè)緊湊的特征向量存淫,其是通過從輸入張量的像素子集中聚合的特征向量耘斩。其由空間金字塔實(shí)現(xiàn)沼填,空間金字塔提供來自不同空間尺度的上下文信息桅咆。

如圖3(b)所示,首先將特征A[C×H×W]輸入給多尺度池化層坞笙,接著是1×1卷積層岩饼,這樣就獲得幾個(gè)池化后的特征荚虚,尺寸分別為1×1、2×2籍茧、3×3和6×6版述。為了簡(jiǎn)便,圖3(b)沒有畫出6×6的特征寞冯。然后渴析,將池化過的特征的每個(gè)位置(bin,格點(diǎn))當(dāng)作聚合中心吮龄,并將特征變形為[C×L×L]俭茧。最終的聚合中心F[C×M]是所有池化過的特征的所有位置(bin)的級(jí)聯(lián)。M是所有池化過的特征的格點(diǎn)數(shù)的總和漓帚。

接下來母债,根據(jù)語義相關(guān)性自適應(yīng)地將聚合中心合并到每個(gè)像素上去。特別的尝抖,將特征AF輸入給1×1卷積層和全連接層毡们,以獲得特征B[C×H×W]和C[C×M]。和圖3(a)類似昧辽,使用矩陣相乘和softmax層來獲得空間注意力圖S[N×M]:

s_{ji} =\frac{exp({B_{j}}\cdot {C_{i }} )}{\sum\nolimits_{i=1}^M  exp({B_{j}}\cdot {C_{i }} ) } ??(3)

其中衙熔,s_{ji} 衡量的是第i個(gè)中心到第j個(gè)像素的關(guān)系。然后搅荞,將聚集中心F輸入給全連接層青责,得到特征D[C×M]。輸出特征E計(jì)算為:

E_{j} =\alpha \sum_{i=1}^M(s_{ji}\cdot D_{i}  )+A_{j} ??(4)

不同于[40,41]通過參數(shù)可學(xué)習(xí)的矩陣來捕獲全局表示取具,再通過逆矩陣將全局特征投影回原始像素脖隶,我們的方法是簡(jiǎn)單的池化來捕獲多個(gè)具有不同上下文的聚合中心,并對(duì)聚合中心的關(guān)系感知的加權(quán)求和來增強(qiáng)每個(gè)位置的像素暇检。

D. 通道注意力模塊

高級(jí)特征的每個(gè)通道可以視為某個(gè)特定類別的響應(yīng)产阱,不同的語義響應(yīng)是相互關(guān)聯(lián)的。通過利用通道兩兩之間的依賴關(guān)系块仆,我們改進(jìn)了相關(guān)語義的特征表示构蹬。因此,我們構(gòu)建CAM模塊來顯示建模通道兩兩之間的依賴關(guān)系悔据。

圖4 (a)是CAM庄敛,(b)是CCAM】坪梗灰色矩形表示1×1卷積層

CAM的結(jié)構(gòu)如圖4(a)所示藻烤。不同于PAM,我們直接從原始特征A[C×H×W]來計(jì)算通道注意力圖X[C×C]。特別的怖亭,我們將A變形為[C×N]涎显,然后計(jì)算AA的轉(zhuǎn)置的矩陣相乘,最后再輸入給softmax層以獲得通道注意力圖X[C×C]:

x_{ji } =\frac{exp({A_{j}}\cdot {A_{i }} )}{\sum\nolimits_{i=1}^C  exp({A_{j}}\cdot {A_{i }} ) } ?(5)

其中兴猩,x_{ji} 度量的是特征A的第j個(gè)通道對(duì)第i個(gè)通道的影響期吓。然后,將X的轉(zhuǎn)置和A進(jìn)行矩陣相乘倾芝,并將結(jié)果變形為[C×H×W]讨勤。然后,將結(jié)果乘以一個(gè)標(biāo)量參數(shù)\beta 晨另,并和A按位加權(quán)求和悬襟,以獲得最終的輸出E[C×H×W]:

E_{j} =\beta  \sum_{i=1}^C(x_{ji}\cdot A_{i}  )+A_{j} ??(6)

其中,\beta 從初始值0逐步地習(xí)得一個(gè)權(quán)重拯刁。公式(6)表明脊岳,每個(gè)通道的最終特征是所有通道和原始特征的加權(quán)和,它建模了通道之間的長(zhǎng)程語義相關(guān)性垛玻。

E. 緊湊的通道注意力模塊

如果通道數(shù)過多割捅,則CAM計(jì)算量過大。為了解決該問題帚桩,我們提出CCAM來建立每個(gè)通道和每個(gè)通道聚合中心之間的關(guān)系亿驾。

如圖4(b)所示,我們是對(duì)輸入張量的通道進(jìn)行聚合來獲取通道聚合中心账嚎。特別的莫瞬,我們使用1×1卷積層來減小輸入特征A的通道維度,結(jié)果是特征F[K×H×W]郭蕉。F的每個(gè)通道被視為是一個(gè)通道聚合中心疼邀。然后,計(jì)算通道注意力圖X[C×K]:

x_{ji } =\frac{exp({A_{j}}\cdot {F_{i }} )}{\sum\nolimits_{i=1}^K  exp({A_{j}}\cdot {F_{i }} ) } ??(7)

其中召锈,x_{ji} 度量的是第i個(gè)通道聚合中心對(duì)特征A的第j個(gè)通道的影響旁振。然后,有選擇地將通道聚合中心合并到特征A的每個(gè)通道上涨岁,以獲得最終的輸出E

E_{j} =\beta  \sum_{i=1}^K(x_{ji}\cdot F_{i}  )+A_{j} ?(8)

請(qǐng)注意拐袜,在計(jì)算通道維度的關(guān)系之前,我們不使用卷積層來變換特征梢薪,這樣就可以保持不同通道間的關(guān)系蹬铺。最近的工作[10,42]使用全局池化和編碼層來計(jì)算通道間關(guān)系,我們的方法不同秉撇,我們是利用所有相應(yīng)位置的空間信息來建模通道相關(guān)性甜攀。

F. 將注意力模塊嵌入到網(wǎng)絡(luò)中

為了充分利用遠(yuǎn)程上下文信息秋泄,我們通過一個(gè)拼接融合模塊對(duì)兩個(gè)注意力模塊的特征進(jìn)行聚合。特別地赴邻,我們通過卷積層對(duì)兩個(gè)注意模塊的輸出進(jìn)行變換印衔,并將它們拼接在一起啡捶,然后應(yīng)用降維卷積層來獲得融合特征姥敛。此外,我們還在實(shí)驗(yàn)中討論了不同的融合方法(sum or concat瞎暑,cascade or parallel)彤敛,最終選擇了parallel和concat。請(qǐng)注意了赌,我們的注意力模塊很簡(jiǎn)單墨榄,可以直接插用到現(xiàn)有的FCN類框架中,沒帶來太多參數(shù)勿她,但是可以有效地增強(qiáng)特征表示袄秩。

G. 跨級(jí)的門控解碼器

[12,43,44]很多工作指出低級(jí)特征可以提高對(duì)邊緣和細(xì)節(jié)的預(yù)測(cè),但是其局部感受野太小導(dǎo)致在其它區(qū)域的錯(cuò)分逢并。與[12]和[45]直接融合低級(jí)特征和高級(jí)特征不同之剧,我們采用一種跨級(jí)的選通機(jī)制來指導(dǎo)選擇性地增強(qiáng)空間細(xì)節(jié)和抑制其他區(qū)域,從而獲得更好的跨級(jí)特征融合砍聊。因此我們提出一個(gè)簡(jiǎn)單有效的解碼器結(jié)構(gòu)背稼,帶有一個(gè)跨級(jí)的選通單元,如圖5所示玻蝌。

圖5 跨級(jí)選通編碼器

特別地蟹肘,來自融合模塊的輸出進(jìn)行雙線性上采樣,以產(chǎn)生特征H俯树。同時(shí)帘腹,我們?cè)赗esNet block1的輸出端應(yīng)用了一個(gè)3×3的32核卷積層(Conv+BN+ReLU)來獲得低層特征L,為了有效地融合低層特征L和特征H许饿,我們將它們送入一個(gè)跨級(jí)的選通單元來細(xì)化低級(jí)特征竹椒。特別的,我們將兩個(gè)特征拼接起來并輸入一個(gè)1×1的卷積層米辐,再加上一個(gè)sigmoid層胸完,以獲得空間選通圖。然后翘贮,根據(jù)選通圖重新加權(quán)低層特征L赊窥。兩個(gè)特征圖的邊界或細(xì)節(jié)是不同的,可以得到空間選通圖來增強(qiáng)邊界和細(xì)節(jié)的區(qū)域狸页。然后锨能,我們根據(jù)選通圖重新加權(quán)低層特征L扯再,使邊界區(qū)域和細(xì)節(jié)區(qū)域更具響應(yīng)性。在獲得精細(xì)的低層特征M后,我們將其與H拼接在一起荚藻,接著是2層核數(shù)為256的3×3卷積層(Conv+BN+ReLU)跪另。最后是一個(gè)卷積層用于語義分割預(yù)測(cè),以及雙線性上采樣將尺寸放大4倍至高分辨率輸出秃殉。

4. 實(shí)驗(yàn)

在4個(gè)基準(zhǔn)數(shù)據(jù)集上達(dá)到最先進(jìn)水平;介紹實(shí)現(xiàn)細(xì)節(jié)浸剩;在Cityscapes上做消冗研究钾军;在4個(gè)基準(zhǔn)數(shù)據(jù)集上與最先進(jìn)方法比較。

A 實(shí)驗(yàn)設(shè)置? ? 略

B 消冗研究

在Cityscapes上消冗研究绢要,主干都是ResNet50:

1) 位置/通道注意力模塊:

見表1和表2吏恭。

表1
表2 括號(hào)里的數(shù)字表示特征F的通道數(shù)

2)緊湊型位置/通道注意力模塊:

見表1和表2。

另外重罪,還報(bào)告了PAM和CPAM(1236)(1236是指金字塔池化的尺度)在每一個(gè)類別上的IoU樱哼。見表3。盡管兩種方法在總體上表現(xiàn)是差不多的剿配,但是在一些類別上表現(xiàn)有差異搅幅。在一些包含很多空間細(xì)節(jié)的類別上(例如柵欄、燈柱惨篱、交通燈)PAM表現(xiàn)得更好盏筐,在一些大塊物體的類別上(例如卡車、公交砸讳、墻)CPAM(1236)表現(xiàn)得具有競(jìng)爭(zhēng)力甚至更好琢融。這可能是因?yàn)镻AM的特征D相比CPAM的池化過的特征D有更豐富的局部表示,因而能更好地表示細(xì)節(jié)簿寂。圖6是一些例子漾抬。

表3 在Cityscapes驗(yàn)證集上每個(gè)類別結(jié)果
圖6

我們還探討了CCAM中聚合中心的數(shù)量(特征F的通道)。如表2所示常遂,當(dāng)聚合中心為32時(shí)纳令,可以用較少的GFLOPs(0.90)的情況下獲得74.63%的性能。結(jié)果表明克胳,建立緊湊的通道間關(guān)系可以提升性能平绩,但是通道數(shù)如果太少可能不能完全捕獲通道間的相互依賴性。有趣的是漠另,我們發(fā)現(xiàn)CCAM(32)的GPU內(nèi)存略高于CAM捏雌,因此我們?cè)敿?xì)比較了CCAM(32)和CAM的GPU內(nèi)存。盡管CCAM(32)將特征X的內(nèi)存從2.94MB減少到0.19MB笆搓,但其額外的特征F和其他卷積層占用了3.38MB的內(nèi)存性湿。

在我們的注意力模塊中纬傲,輸入特征的分辨率對(duì)GFLOPs和GPU內(nèi)存有很大的影響。我們比較了PAM肤频、CPAM(1236)叹括、CAM、CCAM(32)在不同的輸入特征分辨率下的GFLOPs和GPU內(nèi)存宵荒。結(jié)果見圖7汁雷。

圖7

3) 與多尺度和注意力方法的比較:

我們還對(duì)比了多尺度方法(如PPM[8]和ASPP[7])以及其他自注意力方法(如OCNet[37]、A?2Net[40]骇扇、EMANet[38]和CCNet[39])摔竿。為了公平面粮,我們采用ResNet-50作為主干少孝,采用與CPAM(1236)相同的訓(xùn)練和測(cè)試環(huán)境來評(píng)估這些方法。

結(jié)果如表4所示熬苍。與常用的多尺度方法(如PPM和ASPP)相比稍走,CPAM(1236)可以根據(jù)像素間的相關(guān)性自適應(yīng)地融合每個(gè)像素的多尺度特征,并以較少的內(nèi)存占用獲得更高的性能柴底。同時(shí)婿脸,OCNet由于結(jié)合了自注意力和ASPP模塊,在GLOPs和內(nèi)存上獲得了更高的性能和更高的內(nèi)存開銷柄驻。

表4

通過減少與每個(gè)像素的連接狐树,這些方法(A?2Net、EMANet和CCNet)比自注意力模塊(PAM和OCNet)的計(jì)算成本更少鸿脓。而我們的方法采用簡(jiǎn)單的池化操作來獲得多尺度聚集中心抑钟,可以將GFLOPs和內(nèi)存降低到更少。

4) 注意力模塊可視化:

PAM的整個(gè)的自注意力圖的尺寸是(H×W)×(H×W)野哭,這意味著圖像中每個(gè)位置都有相應(yīng)的子注意力圖在塔,子注意力圖尺寸為(H×W)。CPAM的整個(gè)的自注意力圖的尺寸是(H×W)×(M)拨黔,每個(gè)位置的子注意力圖尺寸為(1)×(M)蛔溃,其還可拆分為多個(gè)帶有不同scale bins(格點(diǎn)數(shù))的圖。不同格點(diǎn)數(shù)的圖表示的是不同尺度在該位置的影響篱蝇。如圖8所示贺待,對(duì)于每個(gè)輸入圖像,我們選擇一個(gè)點(diǎn)零截,并在PAM中顯示其對(duì)應(yīng)的子注意力圖麸塞,以及CPAM(1236)的多個(gè)子注意力圖,其池化過的特征的尺寸(bin size)分別為1×1瞻润、2×2喘垂、3×3和6×6甜刻。第1行,在道路上標(biāo)記了個(gè)紅點(diǎn)正勒,在第1行第2列得院,PAM中的注意力圖凸出了道路所在的大部分區(qū)域。第2行中章贞,是在騎手上標(biāo)記了個(gè)紅點(diǎn)祥绞,即使這個(gè)騎手的區(qū)域較小(像素較少)鸭限,情況也還是如此蜕径。這意味著PAM可以捕獲明確的語義相似性的關(guān)聯(lián)。第3-6列是圖像紅點(diǎn)在CPAM(1236)的多個(gè)注意力圖败京,我們可以看到1×1兜喻、2×2、3×3的注意力圖在大物體(道路)上的相似度更高赡麦,而6×6的注意力圖在小物體(騎手)上的響應(yīng)更高朴皆,這說明多尺度池化過的特征能處理不同尺度的對(duì)象。

圖8

對(duì)于通道注意力泛粹,很難將注意力圖直接可視化遂铡。我們展示CAM和CCAM(32)的一些注意力通道,看它們能否凸顯明確的語義區(qū)域晶姊。左邊3張是CAM和CCAM(32)輸出中對(duì)應(yīng)“道路”的通道的圖扒接,和真值。右邊3張是CAM和CCAM(32)輸出中對(duì)應(yīng)“樹木”的通道的圖们衙,和真值钾怔。總之砍艾,這些可視化進(jìn)一步證明了我們的模塊能夠捕獲長(zhǎng)程依賴關(guān)系蒂教,以改進(jìn)場(chǎng)景分割中的特征表示。

5)嵌入注意模塊:

我們探討了兩個(gè)注意力模塊的不同融合實(shí)現(xiàn)脆荷。特別是兩個(gè)緊湊注意模塊可以級(jí)聯(lián)或并聯(lián)布置凝垛。結(jié)果見表5。

表5 在Cityscapes驗(yàn)證集上實(shí)驗(yàn)蜓谋。CP-CC表示級(jí)聯(lián)的時(shí)候CPAM在前梦皮,CCAM在后。CC-CP反過來桃焕。

6) 跨級(jí)選通解碼器:

比較了是否使用這個(gè)解碼器剑肯,以及是否有選通單元下的結(jié)果,結(jié)果見表6观堂。

表6?

此外让网,我們還通過trimap實(shí)驗(yàn)[59]呀忧、[60]對(duì)該解碼器的分割精度進(jìn)行了評(píng)估,以量化解碼器結(jié)構(gòu)的準(zhǔn)確性溃睹。特別是計(jì)算了靠近物體邊界的像素的平均IoU(沿邊界的擴(kuò)張帶也稱為trimap)而账。如圖9所示,我們的解碼器可以改善分割的邊緣因篇。當(dāng)擴(kuò)張帶(dilated band)大時(shí)泞辐,跨級(jí)選通單元會(huì)帶來更多的改善。此外竞滓,我們還提供了一個(gè)選通圖可視化的示例咐吼。我們發(fā)現(xiàn),包含空間細(xì)節(jié)的物體(燈柱商佑、交通標(biāo)志)被凸顯了锯茄,大塊的物體(建筑)被抑制了。這表示選通單元可以作為網(wǎng)絡(luò)的一種指導(dǎo)用以關(guān)注細(xì)節(jié)莉御。

圖9

表7還報(bào)告了不同部分的耗時(shí)比較撇吞。

表7 耗時(shí)比較俗冻。推理尺寸是1×3×768×768

7) 一些常見的改進(jìn)策略:

為了和最先進(jìn)模型比較礁叔,我們遵循[7,8,39,47]采用一些常見的改進(jìn)策略。結(jié)果見表8迄薄。首先使用更深的預(yù)訓(xùn)練網(wǎng)絡(luò)作為主干(ResNet-101)琅关。在最后一個(gè)ResNet塊中應(yīng)用不同大小(4,8,16)的網(wǎng)格層次結(jié)構(gòu)。使用隨機(jī)縮放(從0.5到2.2)的數(shù)據(jù)增強(qiáng)讥蔽。使用OHEM和多尺度測(cè)試數(shù)據(jù)增強(qiáng)涣易。圖10所示是我們的最佳模型在驗(yàn)證集上的一些結(jié)果。

表8

C 與最先進(jìn)水平比較

1)Cityscapes????在Cityscapes上冶伞,只用精細(xì)標(biāo)注數(shù)據(jù)訓(xùn)練的DRANet-101新症,提交給官方評(píng)估服務(wù)器,結(jié)果見表9响禽。單個(gè)模型82.9%徒爹。和[57]相比,我們使用多級(jí)特征獲得選通圖芋类,從而性能更高隆嗅。此外,我們還比用圖卷積[52]或strip pooling[54]來建模長(zhǎng)期依賴關(guān)系的工作表現(xiàn)得更好侯繁。此外胖喳,我們方法還比依賴于更強(qiáng)大預(yù)訓(xùn)練模型DenseASPP[49]要好。

表9 在Cityscapes測(cè)試集上實(shí)驗(yàn)

2)?ADE20K????在前人的工作[8]贮竟、[10]丽焊、[38]和[62]之后较剃,我們?cè)谟?xùn)練階段使用隨機(jī)縮放,在測(cè)試階段使用多尺度測(cè)試數(shù)據(jù)增強(qiáng)(0.5技健,0.75重付,1.0,1.25凫乖,1.5确垫,1.75)。結(jié)果見表10帽芽。圖10是一些示例删掀。

表10?ADE20K驗(yàn)證集
圖10 從上到下依次是(a)輸入圖像,(b)PSPNet[8]导街,(c)DANet[36]披泪,(d)DRANet,(e)真值

此外搬瑰,我們還遵循[10]并使用train+val數(shù)據(jù)微調(diào)我們的最佳DRANet-101模型款票。我們將初始學(xué)習(xí)率設(shè)為0.0001,訓(xùn)練迭代次數(shù)設(shè)為40個(gè)周期泽论,并用上述多尺度測(cè)試方案得到測(cè)試結(jié)果艾少。結(jié)果見表11。我們的結(jié)果被提交到官方評(píng)估服務(wù)器翼悴,DRANet-101以56.72%的最終得分缚够,單個(gè)模型排名第一。

表11?ADE20K測(cè)試集

3) PASCAL Context????結(jié)果見表12鹦赎。其中DANet[36]和CFNet[63]用自注意力來捕獲長(zhǎng)程依賴關(guān)系谍椅,計(jì)算量大。

表12?PASCAL Context測(cè)試集

4) COCO Stuff????我們還對(duì)COCO-Stuff數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)古话,以驗(yàn)證我們提出的網(wǎng)絡(luò)的泛化能力雏吭。結(jié)果見表13。其中DAG-RNN[16]利用鏈?zhǔn)絉NN對(duì)二維圖像建立豐富的空間相關(guān)性模型陪踩,Dinget [11] 在解碼階段采用了選通機(jī)制杖们,提高了對(duì)不明顯目標(biāo)和背景的分割。

表13?COCO Stuff測(cè)試集

5. 結(jié)論

在本文中膊毁,我們提出了一個(gè)場(chǎng)景分割的DRANet胀莹,它通過注意力機(jī)制自適應(yīng)地整合上下文信息。特別地婚温,我們采用PAM和CAM分別在空間和通道維度上捕獲全局依賴關(guān)系描焰。PAM為每個(gè)像素計(jì)算一個(gè)語義相似度圖,并根據(jù)相似度圖對(duì)所有像素的特征進(jìn)行加權(quán)求和來更新像素的特征。這種自適應(yīng)特征融合使得每個(gè)像素都能獲得語義相關(guān)的上下文荆秦。與PAM類似篱竭,CAM通過用加權(quán)和聚合所有通道圖來更新每個(gè)通道圖。它顯式地為任何兩個(gè)通道之間的依賴關(guān)系建模步绸。此外掺逼,我們?cè)O(shè)計(jì)了兩種類型的緊湊型注意力模塊,以減少巨大的計(jì)算開銷和內(nèi)存占用瓤介。通過將所有像素/通道壓縮為幾個(gè)空間/通道聚集中心吕喘,我們可以在聚集中心和像素/通道之間建立緊密的關(guān)系。由于聚集中心的數(shù)目遠(yuǎn)小于像素?cái)?shù)刑桑,因此可以顯著降低相似度圖的計(jì)算成本和內(nèi)存占用氯质。同時(shí),為了增強(qiáng)空間細(xì)節(jié)祠斧,提出了一種跨級(jí)選通解碼器闻察。我們利用低層和高層特征得到一個(gè)空間選通圖,然后根據(jù)選通圖對(duì)低層特征重新加權(quán)來強(qiáng)調(diào)邊界和細(xì)節(jié)區(qū)域琢锋。消冗實(shí)驗(yàn)表明辕漂,與擴(kuò)展的FCN相比,我們的方法能夠有效地捕捉上下文信息吴超,并給出更精確的分割結(jié)果钉嘹。我們提出的DRANet在四個(gè)場(chǎng)景分割數(shù)據(jù)集(Cityscapes、ADE20K烛芬、PASCAL Context和COCO-Stuff)上都取得了優(yōu)異的性能隧期。

https://github.com/junfu1115/DANet/blob/56a612ec1ed5c2573ebc8df04ad08475fbf13a52/encoding/models/sseg/dran.py#L132

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市赘娄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌宏蛉,老刑警劉巖遣臼,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異拾并,居然都是意外死亡揍堰,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門嗅义,熙熙樓的掌柜王于貴愁眉苦臉地迎上來屏歹,“玉大人,你說我怎么就攤上這事之碗◎簦” “怎么了?”我有些...
    開封第一講書人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)幽纷。 經(jīng)常有香客問我式塌,道長(zhǎng),這世上最難降的妖魔是什么友浸? 我笑而不...
    開封第一講書人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任峰尝,我火速辦了婚禮,結(jié)果婚禮上收恢,老公的妹妹穿的比我還像新娘武学。我一直安慰自己,他們只是感情好伦意,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開白布劳淆。 她就那樣靜靜地躺著,像睡著了一般默赂。 火紅的嫁衣襯著肌膚如雪沛鸵。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,573評(píng)論 1 305
  • 那天缆八,我揣著相機(jī)與錄音曲掰,去河邊找鬼。 笑死奈辰,一個(gè)胖子當(dāng)著我的面吹牛栏妖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播奖恰,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼吊趾,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了瑟啃?” 一聲冷哼從身側(cè)響起论泛,我...
    開封第一講書人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蛹屿,沒想到半個(gè)月后屁奏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡错负,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年坟瓢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片犹撒。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡折联,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出识颊,到底是詐尸還是另有隱情诚镰,我是刑警寧澤,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站怕享,受9級(jí)特大地震影響执赡,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜函筋,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一沙合、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧跌帐,春花似錦首懈、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至脸狸,卻和暖如春最仑,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背炊甲。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來泰國打工泥彤, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人卿啡。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓吟吝,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親颈娜。 傳聞我的和親對(duì)象是個(gè)殘疾皇子剑逃,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355