2021-06-28

摘要：建模長(zhǎng)距離依賴關(guān)系對(duì)于復(fù)雜場(chǎng)景理解任務(wù)（如語義分割和目標(biāo)檢測(cè)）至關(guān)重要。盡管CNNs在許多計(jì)算機(jī)視覺任務(wù)中表現(xiàn)出色，但由于CNNs通常由局部核層組成，因此在捕捉長(zhǎng)程結(jié)構(gòu)化關(guān)系方面仍然受到限制扣典。一個(gè)完全連通的圖對(duì)于這樣的建模是有益的，然而慎玖，它的計(jì)算開銷是禁止的贮尖。我們提出了一種基于消息傳遞神經(jīng)網(wǎng)絡(luò)框架的動(dòng)態(tài)圖消息傳遞網(wǎng)絡(luò)，與建立完全連通圖的相關(guān)工作相比趁怔，該網(wǎng)絡(luò)顯著降低了計(jì)算復(fù)雜度湿硝。這是通過根據(jù)輸入自適應(yīng)地對(duì)圖中的節(jié)點(diǎn)進(jìn)行采樣來實(shí)現(xiàn)的，用于消息傳遞润努。在采樣的節(jié)點(diǎn)的基礎(chǔ)上关斜，我們動(dòng)態(tài)地預(yù)測(cè)與節(jié)點(diǎn)相關(guān)的濾波權(quán)重和親和矩陣，以在它們之間執(zhí)行信息傳遞铺浇。(Based on the sampled nodes, we dynamically predict node-dependent filter weights and the affinity matrix for propagating information between them)使用這個(gè)模型痢畜，我們?cè)谌N不同的任務(wù)和主干架構(gòu)上展示了強(qiáng)大的、最先進(jìn)的基線方面的顯著改進(jìn)鳍侣。我們的方法在使用更少的浮點(diǎn)運(yùn)算和參數(shù)的同時(shí)裁着，也優(yōu)于完全連通圖。項(xiàng)目網(wǎng)站是https://www.robots.ox.ac.uk/~lz/dgmn/

1.引言

在語義分割拱她、實(shí)例分割和目標(biāo)檢測(cè)等復(fù)雜場(chǎng)景理解任務(wù)中二驰，獲取長(zhǎng)程依賴關(guān)系是至關(guān)重要的。盡管卷積神經(jīng)網(wǎng)絡(luò)（CNNs）在廣泛的場(chǎng)景理解任務(wù)中表現(xiàn)出色[26秉沼，47桶雀，20]矿酵，但它們?nèi)匀皇艿讲东@這些遠(yuǎn)程交互的能力的限制。為了提高CNNs在這方面的能力矗积，最近流行的Non-local網(wǎng)絡(luò)模型[51]提出了注意模型[48]的推廣全肮，并在一些計(jì)算機(jī)視覺任務(wù)中取得了顯著的進(jìn)步。

Non-local網(wǎng)絡(luò)本質(zhì)上是對(duì)特征映射中所有特征元素之間的成對(duì)結(jié)構(gòu)關(guān)系進(jìn)行建模棘捣，以產(chǎn)生用于特征聚合的注意權(quán)重辜腺。Non-local網(wǎng)絡(luò)將每個(gè)特征元素看作圖中的一個(gè)節(jié)點(diǎn)，有效地對(duì)一個(gè)完全連通的特征圖進(jìn)行建模乍恐，從而對(duì)特征元素的個(gè)數(shù)具有二次推理復(fù)雜度评疗。這對(duì)于高分辨率圖像上的密集預(yù)測(cè)任務(wù)是不可行的，就像語義分割中經(jīng)常遇到的那樣[10]茵烈。此外百匆，在密集預(yù)測(cè)任務(wù)中，由于圖像中包含的冗余信息呜投，通常不需要捕捉所有像素對(duì)之間的關(guān)系（圖1）加匈。簡(jiǎn)單地對(duì)特征圖進(jìn)行下采樣以減少內(nèi)存需求也是次優(yōu)的，例如仑荐，樸素的下采樣將導(dǎo)致圖像中較小的對(duì)象無法充分表示雕拼。

圖卷積網(wǎng)絡(luò)（GCNs）[25，16]——它沿著圖結(jié)構(gòu)的輸入數(shù)據(jù)傳播信息——可以在一定程度上緩解非局部網(wǎng)絡(luò)的計(jì)算問題粘招。然而啥寇，這僅在為每個(gè)節(jié)點(diǎn)考慮局部鄰域時(shí)有效(this stands only if local neighbourhoods are considered for each node)。采用這種局部連通圖意味著復(fù)雜視覺任務(wù)（如分割和檢測(cè)[43男图，40示姿，3]）所需的長(zhǎng)距離上下文信息將僅被部分捕獲。沿著這個(gè)方向逊笆，GraphSAGE[18]引入了一種基于圖采樣的高效圖學(xué)習(xí)模型栈戳。然而，所提出的采樣方法考慮了沿輸入空間維度的均勻采樣策略难裆，并且與實(shí)際輸入無關(guān)子檀。因此，建模能力受到限制乃戈，因?yàn)樗僭O(shè)輸入的圖是靜態(tài)的褂痰，其中每個(gè)節(jié)點(diǎn)的鄰居是固定的，并且所有節(jié)點(diǎn)之間共享濾波器權(quán)重(it assumed a static input graph where the neighbours for each node were fixed and filter weights were shared among all nodes)症虑。

針對(duì)上述不足缩歪，我們提出了一種新的動(dòng)態(tài)圖消息傳遞網(wǎng)絡(luò)（DGMN）模型，通過對(duì)圖1所示的兩個(gè)關(guān)鍵的動(dòng)態(tài)特性的聯(lián)合建模谍憔，以有效和高效的深度表征學(xué)習(xí)為目標(biāo)匪蝙。我們的貢獻(xiàn)有兩個(gè)：（i）我們從特征圖中動(dòng)態(tài)采樣節(jié)點(diǎn)的鄰域主籍，以節(jié)點(diǎn)特征為條件。直觀地說逛球，這種學(xué)習(xí)采樣允許網(wǎng)絡(luò)僅通過選擇圖中最相關(guān)節(jié)點(diǎn)的子集來有效地收集遠(yuǎn)程上下文(We dynamically sample the neighbourhood of a node from the feature graph, conditioned on the node features. Intuitively, this learned sampling allows the network to efficiently gather long-range context by only selecting a subset of the most relevant nodes in the graph)（ii）基于已經(jīng)采樣的節(jié)點(diǎn)千元，我們進(jìn)一步動(dòng)態(tài)地預(yù)測(cè)節(jié)點(diǎn)依賴性，從而得到位置特定的颤绕、過濾器權(quán)重和親和矩陣幸海，這些矩陣用于通過消息傳遞在特征節(jié)點(diǎn)之間傳播信息。動(dòng)態(tài)權(quán)重和親和力特別有利于對(duì)每個(gè)采樣特征上下文進(jìn)行具體建模奥务，從而實(shí)現(xiàn)更有效的消息傳遞物独。( Based on the nodes that have been sampled, we further dynamically predict node dependant, and thus position specific, filter weights and also the affinity matrix, which are used to propagate information among the feature nodes via message passing. The dynamic weights and affinities are especially beneficial to specifically model each sampled feature context, leading to more effective message passing.)這兩個(gè)動(dòng)態(tài)特性在一個(gè)模型中聯(lián)合優(yōu)化，我們將DGMN模塊化為一個(gè)網(wǎng)絡(luò)層汗洒，以便簡(jiǎn)單地部署到現(xiàn)有網(wǎng)絡(luò)中议纯。

我們?cè)诟挥刑魬?zhàn)性的城市景觀[10]和COCO[36]數(shù)據(jù)集上演示了所提出的模型的語義分割父款、目標(biāo)檢測(cè)和實(shí)例分割任務(wù)溢谤。與完全連接的非局部模型相比，我們實(shí)現(xiàn)了顯著的性能改進(jìn)[51]憨攒，同時(shí)使用了更少的浮點(diǎn)運(yùn)算（FLOPs）世杀。值得注意的是，我們的模型中有一個(gè)帶有動(dòng)態(tài)濾波器和親和力的變體（即第二個(gè)動(dòng)態(tài)特性）在僅使用9.4%的FLOPs和25.3%的參數(shù)的情況下實(shí)現(xiàn)了與非局部相似的性能肝集。此外瞻坝，將我們的模塊“插入”到現(xiàn)有的網(wǎng)絡(luò)中，我們?cè)谌N不同的任務(wù)和主干架構(gòu)上展示了強(qiáng)大的杏瞻、最先進(jìn)的基線方面的顯著改進(jìn)所刀。

圖1：上下文信息對(duì)于復(fù)雜場(chǎng)景理解任務(wù)至關(guān)重要。要認(rèn)識(shí)“船屋”捞挥，需要考慮“船”和旁邊的“水”浮创。完全連接的消息傳遞模型（a）能夠獲得此信息，但其成本高昂砌函。此外斩披，它們捕獲了大量冗余信息（即“樹”和“天空”）。局部連接模型（b）效率更高讹俊，但忽略了重要的上下文垦沉。我們提出的方法（c），基于學(xué)習(xí)的動(dòng)態(tài)采樣方案對(duì)相關(guān)特征節(jié)點(diǎn)的一小部分進(jìn)行動(dòng)態(tài)采樣仍劈，i厕倍、 e.學(xué)習(xí)的特定位置隨機(jī)游動(dòng)（由白色虛線箭頭表示），動(dòng)態(tài)預(yù)測(cè)濾波器的權(quán)值和相似度（由唯一的邊和正方形顏色表示）贩疙，這兩者都是以采樣的特征節(jié)點(diǎn)為條件的讹弯。 Figure 1: Contextual information is crucial for complex scene understanding tasks. To recognise the “boathouse”, one needs to consider the “boat” and the “water” next to it. Fully-connected message passing models (a) are able to obtain this information, but are prohibitively expensive. Furthermore, they capture a lot of redundant information (i.e.“trees” and “sky”). Locally-connected models (b) are more efficient, but miss out on important context. Our proposed approach (c), dynamically samples a small subset of relevant feature nodes based on a learned dynamic sampling scheme, i.e. the learned position-specific random walk (indicated by the white dashed arrow lines), and also dynamically predicts filter weights and affinities (indicated by unique edge and square colors.), which are both conditioned on the sampled feature nodes.

相關(guān)工作

一種早期的計(jì)算機(jī)視覺任務(wù)上下文建模技術(shù)诬像，涉及條件隨機(jī)場(chǎng)。尤其是DenseCRF模型[27]非常流行闸婴，因?yàn)樗M了圖像中所有像素對(duì)之間的交互坏挠。盡管這些模型已經(jīng)被集成到神經(jīng)網(wǎng)絡(luò)中[62，1邪乍，2降狠，54]，但它們受到這樣一個(gè)事實(shí)的限制庇楞，即成對(duì)勢(shì)(pairwise potentials)是基于簡(jiǎn)單的手工特征榜配，而且，它們主要是對(duì)離散標(biāo)簽空間建模吕晌，因此不能直接應(yīng)用于特征學(xué)習(xí)任務(wù)蛋褥，因?yàn)樘卣髯兞客ǔＪ沁B續(xù)的。再加上CRF的計(jì)算成本很高睛驳，CRF不再用于大多數(shù)計(jì)算機(jī)視覺任務(wù)烙心。

增加CNN感受野的一種補(bǔ)充技術(shù)是使用擴(kuò)張卷積[5，57]乏沸。使用擴(kuò)張卷積淫茵，參數(shù)的數(shù)量不會(huì)改變，而如果擴(kuò)張率在連續(xù)層中線性增加蹬跃，感受野會(huì)指數(shù)增長(zhǎng)匙瘪。卷積運(yùn)算的其他修改包括可變形卷積[13，63]蝶缀，它學(xué)習(xí)相對(duì)于預(yù)定義網(wǎng)格的偏移丹喻，從中選擇輸入值。然而翁都，可變形卷積濾波器的權(quán)值并不依賴于所選擇的輸入碍论，而是事實(shí)上在所有不同的位置共享。相比之下荐吵，我們的動(dòng)態(tài)采樣的目的是對(duì)整個(gè)特征圖(feature graph)進(jìn)行采樣骑冗，以獲得一個(gè)大的感受野，并且預(yù)測(cè)的親和力和消息傳遞的權(quán)重是位置特定的先煎，并且取決于動(dòng)態(tài)采樣的節(jié)點(diǎn)贼涩。因此，我們的模型能夠更好地捕捉基于位置的語義上下文薯蝎，從而在特征節(jié)點(diǎn)之間實(shí)現(xiàn)更有效的消息傳遞遥倦。(In contrast, our dynamic sampling aims to sample over the whole feature graph to obtain a large receptive field, and the predicted affinities and the weights for message passing areposition specificand conditionedon the dynamically sampled nodes. Our model is thus able to better capture position-based semantic context to enable more effective message passing among feature nodes)

采樣圖節(jié)點(diǎn)的思想在GraphSAGE[18]中已有探討。關(guān)鍵的是，GraphSAGE只是對(duì)節(jié)點(diǎn)進(jìn)行均勻采樣袒哥。相反缩筛，我們的采樣策略是基于節(jié)點(diǎn)特征學(xué)習(xí)的。具體來說堡称，我們首先在空間維度上對(duì)節(jié)點(diǎn)進(jìn)行均勻采樣瞎抛，然后根據(jù)節(jié)點(diǎn)特征動(dòng)態(tài)預(yù)測(cè)每個(gè)節(jié)點(diǎn)的行走。此外却紧，GraphSAGE沒有考慮我們的第二個(gè)重要屬性桐臊，即親和力和消息傳遞核的動(dòng)態(tài)預(yù)測(cè)。(GraphSAGE simply uniformly samples nodes. In contrast, our sampling strategy is learned based on the node features. Specifically, we first sample the nodes uniformly in the spatial dimension, and then dynamically predictwalksof each node conditioned on the node features. Furthermore, GraphSAGE does not consider our second important property, i.e., the dynamic prediction of the affinities and the message passing kernels)

我們還注意到[24]提出了“動(dòng)態(tài)卷積”的思想晓殊，即預(yù)測(cè)每個(gè)特征位置的動(dòng)態(tài)卷積濾波器断凶。最近，[52]在使用輕量級(jí)分組卷積的自然語言處理上下文中進(jìn)一步降低了這種操作的復(fù)雜性巫俺。與文獻(xiàn)[24认烁，52]不同的是，我們提出了一種基于圖的公式介汹，并聯(lián)合學(xué)習(xí)動(dòng)態(tài)權(quán)值和動(dòng)態(tài)親和力却嗡，這些權(quán)值和親和力是以圖中每個(gè)特征節(jié)點(diǎn)的一個(gè)自適應(yīng)采樣鄰域?yàn)闂l件的，使用所提出的動(dòng)態(tài)采樣策略來實(shí)現(xiàn)有效的消息傳遞痴昧。(we present a graph-based formulation, and jointly learn dynamic weights and dynamic affinities, which are conditioned on anadaptively sampled neighbourhoodfor each feature node in the graph using the proposed dynamic sampling strategy for effective message passing.)

動(dòng)態(tài)圖消息傳遞網(wǎng)絡(luò)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末稽穆，一起剝皮案震驚了整個(gè)濱河市冠王，隨后出現(xiàn)的幾起案子赶撰，更是在濱河造成了極大的恐慌，老刑警劉巖柱彻，帶你破解...
沈念sama閱讀 218,204評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件豪娜，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡哟楷，警方通過查閱死者的電腦和手機(jī)瘤载，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來卖擅，“玉大人鸣奔，你說我怎么就攤上這事〕徒祝” “怎么了挎狸？”我有些...
開封第一講書人閱讀 164,548評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)断楷。經(jīng)常有香客問我锨匆，道長(zhǎng)，這世上最難降的妖魔是什么冬筒？我笑而不...
開封第一講書人閱讀 58,657評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任恐锣，我火速辦了婚禮茅主，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘土榴。我一直安慰自己，他們只是感情好玷禽，可當(dāng)我...
茶點(diǎn)故事閱讀 67,689評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布学搜。她就那樣靜靜地躺著，像睡著了一般论衍。火紅的嫁衣襯著肌膚如雪瑞佩。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,554評(píng)論 1贊 305
城市分裂傳說
那天坯台，我揣著相機(jī)與錄音炬丸，去河邊找鬼。笑死蜒蕾，一個(gè)胖子當(dāng)著我的面吹牛稠炬，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播咪啡，決...
沈念sama閱讀 40,302評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼首启，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了撤摸？” 一聲冷哼從身側(cè)響起毅桃，我...
開封第一講書人閱讀 39,216評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎准夷，沒想到半個(gè)月后钥飞，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,661評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡衫嵌，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,851評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年读宙，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片楔绞。...
茶點(diǎn)故事閱讀 39,977評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡结闸，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出酒朵，到底是詐尸還是另有隱情桦锄，我是刑警寧澤，帶...
沈念sama閱讀 35,697評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布耻讽，位于F島的核電站察纯，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜饼记，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,306評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一香伴、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧具则，春花似錦即纲、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評(píng)論 0贊 22
一樁弒父案低斋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至匪凡，卻和暖如春膊畴，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背病游。一陣腳步聲響...
開封第一講書人閱讀 33,019評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工唇跨，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人衬衬。一個(gè)月前我還...
沈念sama閱讀 48,138評(píng)論 3贊 370
代替公主和親
正文我出身青樓买猖，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親滋尉。傳聞我的和親對(duì)象是個(gè)殘疾皇子玉控，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,927評(píng)論 2贊 355

2021-06-28

推薦閱讀更多精彩內(nèi)容