摘要:建模長(zhǎng)距離依賴關(guān)系對(duì)于復(fù)雜場(chǎng)景理解任務(wù)(如語義分割和目標(biāo)檢測(cè))至關(guān)重要。盡管CNNs在許多計(jì)算機(jī)視覺任務(wù)中表現(xiàn)出色,但由于CNNs通常由局部核層組成,因此在捕捉長(zhǎng)程結(jié)構(gòu)化關(guān)系方面仍然受到限制扣典。一個(gè)完全連通的圖對(duì)于這樣的建模是有益的,然而慎玖,它的計(jì)算開銷是禁止的贮尖。我們提出了一種基于消息傳遞神經(jīng)網(wǎng)絡(luò)框架的動(dòng)態(tài)圖消息傳遞網(wǎng)絡(luò),與建立完全連通圖的相關(guān)工作相比趁怔,該網(wǎng)絡(luò)顯著降低了計(jì)算復(fù)雜度湿硝。這是通過根據(jù)輸入自適應(yīng)地對(duì)圖中的節(jié)點(diǎn)進(jìn)行采樣來實(shí)現(xiàn)的,用于消息傳遞润努。在采樣的節(jié)點(diǎn)的基礎(chǔ)上关斜,我們動(dòng)態(tài)地預(yù)測(cè)與節(jié)點(diǎn)相關(guān)的濾波權(quán)重和親和矩陣,以在它們之間執(zhí)行信息傳遞铺浇。(Based on the sampled nodes, we dynamically predict node-dependent filter weights and the affinity matrix for propagating information between them)使用這個(gè)模型痢畜,我們?cè)谌N不同的任務(wù)和主干架構(gòu)上展示了強(qiáng)大的、最先進(jìn)的基線方面的顯著改進(jìn)鳍侣。我們的方法在使用更少的浮點(diǎn)運(yùn)算和參數(shù)的同時(shí)裁着,也優(yōu)于完全連通圖。項(xiàng)目網(wǎng)站是https://www.robots.ox.ac.uk/~lz/dgmn/
1.引言
在語義分割拱她、實(shí)例分割和目標(biāo)檢測(cè)等復(fù)雜場(chǎng)景理解任務(wù)中二驰,獲取長(zhǎng)程依賴關(guān)系是至關(guān)重要的。盡管卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在廣泛的場(chǎng)景理解任務(wù)中表現(xiàn)出色[26秉沼,47桶雀,20]矿酵,但它們?nèi)匀皇艿讲东@這些遠(yuǎn)程交互的能力的限制。為了提高CNNs在這方面的能力矗积,最近流行的Non-local網(wǎng)絡(luò)模型[51]提出了注意模型[48]的推廣全肮,并在一些計(jì)算機(jī)視覺任務(wù)中取得了顯著的進(jìn)步。
Non-local網(wǎng)絡(luò)本質(zhì)上是對(duì)特征映射中所有特征元素之間的成對(duì)結(jié)構(gòu)關(guān)系進(jìn)行建模棘捣,以產(chǎn)生用于特征聚合的注意權(quán)重辜腺。Non-local網(wǎng)絡(luò)將每個(gè)特征元素看作圖中的一個(gè)節(jié)點(diǎn),有效地對(duì)一個(gè)完全連通的特征圖進(jìn)行建模乍恐,從而對(duì)特征元素的個(gè)數(shù)具有二次推理復(fù)雜度评疗。這對(duì)于高分辨率圖像上的密集預(yù)測(cè)任務(wù)是不可行的,就像語義分割中經(jīng)常遇到的那樣[10]茵烈。此外百匆,在密集預(yù)測(cè)任務(wù)中,由于圖像中包含的冗余信息呜投,通常不需要捕捉所有像素對(duì)之間的關(guān)系(圖1)加匈。簡(jiǎn)單地對(duì)特征圖進(jìn)行下采樣以減少內(nèi)存需求也是次優(yōu)的,例如仑荐,樸素的下采樣將導(dǎo)致圖像中較小的對(duì)象無法充分表示雕拼。
圖卷積網(wǎng)絡(luò)(GCNs)[25,16]——它沿著圖結(jié)構(gòu)的輸入數(shù)據(jù)傳播信息——可以在一定程度上緩解非局部網(wǎng)絡(luò)的計(jì)算問題粘招。然而啥寇,這僅在為每個(gè)節(jié)點(diǎn)考慮局部鄰域時(shí)有效(this stands only if local neighbourhoods are considered for each node)。采用這種局部連通圖意味著復(fù)雜視覺任務(wù)(如分割和檢測(cè)[43男图,40示姿,3])所需的長(zhǎng)距離上下文信息將僅被部分捕獲。沿著這個(gè)方向逊笆,GraphSAGE[18]引入了一種基于圖采樣的高效圖學(xué)習(xí)模型栈戳。然而,所提出的采樣方法考慮了沿輸入空間維度的均勻采樣策略难裆,并且與實(shí)際輸入無關(guān)子檀。因此,建模能力受到限制乃戈,因?yàn)樗僭O(shè)輸入的圖是靜態(tài)的褂痰,其中每個(gè)節(jié)點(diǎn)的鄰居是固定的,并且所有節(jié)點(diǎn)之間共享濾波器權(quán)重(it assumed a static input graph where the neighbours for each node were fixed and filter weights were shared among all nodes)症虑。
針對(duì)上述不足缩歪,我們提出了一種新的動(dòng)態(tài)圖消息傳遞網(wǎng)絡(luò)(DGMN)模型,通過對(duì)圖1所示的兩個(gè)關(guān)鍵的動(dòng)態(tài)特性的聯(lián)合建模谍憔,以有效和高效的深度表征學(xué)習(xí)為目標(biāo)匪蝙。我們的貢獻(xiàn)有兩個(gè):(i)我們從特征圖中動(dòng)態(tài)采樣節(jié)點(diǎn)的鄰域主籍,以節(jié)點(diǎn)特征為條件。直觀地說逛球,這種學(xué)習(xí)采樣允許網(wǎng)絡(luò)僅通過選擇圖中最相關(guān)節(jié)點(diǎn)的子集來有效地收集遠(yuǎn)程上下文(We dynamically sample the neighbourhood of a node from the feature graph, conditioned on the node features. Intuitively, this learned sampling allows the network to efficiently gather long-range context by only selecting a subset of the most relevant nodes in the graph)(ii)基于已經(jīng)采樣的節(jié)點(diǎn)千元,我們進(jìn)一步動(dòng)態(tài)地預(yù)測(cè)節(jié)點(diǎn)依賴性,從而得到位置特定的颤绕、過濾器權(quán)重和親和矩陣幸海,這些矩陣用于通過消息傳遞在特征節(jié)點(diǎn)之間傳播信息。動(dòng)態(tài)權(quán)重和親和力特別有利于對(duì)每個(gè)采樣特征上下文進(jìn)行具體建模奥务,從而實(shí)現(xiàn)更有效的消息傳遞物独。( Based on the nodes that have been sampled, we further dynamically predict node dependant, and thus position specific, filter weights and also the affinity matrix, which are used to propagate information among the feature nodes via message passing. The dynamic weights and affinities are especially beneficial to specifically model each sampled feature context, leading to more effective message passing.)這兩個(gè)動(dòng)態(tài)特性在一個(gè)模型中聯(lián)合優(yōu)化,我們將DGMN模塊化為一個(gè)網(wǎng)絡(luò)層汗洒,以便簡(jiǎn)單地部署到現(xiàn)有網(wǎng)絡(luò)中议纯。
我們?cè)诟挥刑魬?zhàn)性的城市景觀[10]和COCO[36]數(shù)據(jù)集上演示了所提出的模型的語義分割父款、目標(biāo)檢測(cè)和實(shí)例分割任務(wù)溢谤。與完全連接的非局部模型相比,我們實(shí)現(xiàn)了顯著的性能改進(jìn)[51]憨攒,同時(shí)使用了更少的浮點(diǎn)運(yùn)算(FLOPs)世杀。值得注意的是,我們的模型中有一個(gè)帶有動(dòng)態(tài)濾波器和親和力的變體(即第二個(gè)動(dòng)態(tài)特性)在僅使用9.4%的FLOPs和25.3%的參數(shù)的情況下實(shí)現(xiàn)了與非局部相似的性能肝集。此外瞻坝,將我們的模塊“插入”到現(xiàn)有的網(wǎng)絡(luò)中,我們?cè)谌N不同的任務(wù)和主干架構(gòu)上展示了強(qiáng)大的杏瞻、最先進(jìn)的基線方面的顯著改進(jìn)所刀。
- 相關(guān)工作
一種早期的計(jì)算機(jī)視覺任務(wù)上下文建模技術(shù)诬像,涉及條件隨機(jī)場(chǎng)。尤其是DenseCRF模型[27]非常流行闸婴,因?yàn)樗M了圖像中所有像素對(duì)之間的交互坏挠。盡管這些模型已經(jīng)被集成到神經(jīng)網(wǎng)絡(luò)中[62,1邪乍,2降狠,54],但它們受到這樣一個(gè)事實(shí)的限制庇楞,即成對(duì)勢(shì)(pairwise potentials)是基于簡(jiǎn)單的手工特征榜配,而且,它們主要是對(duì)離散標(biāo)簽空間建模吕晌,因此不能直接應(yīng)用于特征學(xué)習(xí)任務(wù)蛋褥,因?yàn)樘卣髯兞客ǔJ沁B續(xù)的。再加上CRF的計(jì)算成本很高睛驳,CRF不再用于大多數(shù)計(jì)算機(jī)視覺任務(wù)烙心。
增加CNN感受野的一種補(bǔ)充技術(shù)是使用擴(kuò)張卷積[5,57]乏沸。使用擴(kuò)張卷積淫茵,參數(shù)的數(shù)量不會(huì)改變,而如果擴(kuò)張率在連續(xù)層中線性增加蹬跃,感受野會(huì)指數(shù)增長(zhǎng)匙瘪。卷積運(yùn)算的其他修改包括可變形卷積[13,63]蝶缀,它學(xué)習(xí)相對(duì)于預(yù)定義網(wǎng)格的偏移丹喻,從中選擇輸入值。然而翁都,可變形卷積濾波器的權(quán)值并不依賴于所選擇的輸入碍论,而是事實(shí)上在所有不同的位置共享。相比之下荐吵,我們的動(dòng)態(tài)采樣的目的是對(duì)整個(gè)特征圖(feature graph)進(jìn)行采樣骑冗,以獲得一個(gè)大的感受野,并且預(yù)測(cè)的親和力和消息傳遞的權(quán)重是位置特定的先煎,并且取決于動(dòng)態(tài)采樣的節(jié)點(diǎn)贼涩。因此,我們的模型能夠更好地捕捉基于位置的語義上下文薯蝎,從而在特征節(jié)點(diǎn)之間實(shí)現(xiàn)更有效的消息傳遞遥倦。(In contrast, our dynamic sampling aims to sample over the whole feature graph to obtain a large receptive field, and the predicted affinities and the weights for message passing areposition specificand conditionedon the dynamically sampled nodes. Our model is thus able to better capture position-based semantic context to enable more effective message passing among feature nodes)
采樣圖節(jié)點(diǎn)的思想在GraphSAGE[18]中已有探討。關(guān)鍵的是,GraphSAGE只是對(duì)節(jié)點(diǎn)進(jìn)行均勻采樣袒哥。相反缩筛,我們的采樣策略是基于節(jié)點(diǎn)特征學(xué)習(xí)的。具體來說堡称,我們首先在空間維度上對(duì)節(jié)點(diǎn)進(jìn)行均勻采樣瞎抛,然后根據(jù)節(jié)點(diǎn)特征動(dòng)態(tài)預(yù)測(cè)每個(gè)節(jié)點(diǎn)的行走。此外却紧,GraphSAGE沒有考慮我們的第二個(gè)重要屬性桐臊,即親和力和消息傳遞核的動(dòng)態(tài)預(yù)測(cè)。(GraphSAGE simply uniformly samples nodes. In contrast, our sampling strategy is learned based on the node features. Specifically, we first sample the nodes uniformly in the spatial dimension, and then dynamically predictwalksof each node conditioned on the node features. Furthermore, GraphSAGE does not consider our second important property, i.e., the dynamic prediction of the affinities and the message passing kernels)
我們還注意到[24]提出了“動(dòng)態(tài)卷積”的思想晓殊,即預(yù)測(cè)每個(gè)特征位置的動(dòng)態(tài)卷積濾波器断凶。最近,[52]在使用輕量級(jí)分組卷積的自然語言處理上下文中進(jìn)一步降低了這種操作的復(fù)雜性巫俺。與文獻(xiàn)[24认烁,52]不同的是,我們提出了一種基于圖的公式介汹,并聯(lián)合學(xué)習(xí)動(dòng)態(tài)權(quán)值和動(dòng)態(tài)親和力却嗡,這些權(quán)值和親和力是以圖中每個(gè)特征節(jié)點(diǎn)的一個(gè)自適應(yīng)采樣鄰域?yàn)闂l件的,使用所提出的動(dòng)態(tài)采樣策略來實(shí)現(xiàn)有效的消息傳遞痴昧。(we present a graph-based formulation, and jointly learn dynamic weights and dynamic affinities, which are conditioned on anadaptively sampled neighbourhoodfor each feature node in the graph using the proposed dynamic sampling strategy for effective message passing.)
- 動(dòng)態(tài)圖消息傳遞網(wǎng)絡(luò)