Graph R-CNN for Scene Graph Generation論文解讀

(該分享持續(xù)更新中...)
這篇論文主要有三個貢獻(xiàn)點(diǎn)：

作者提出了一個新型的SSG模型Graph R-CNN（看這名字應(yīng)該結(jié)合了圖神經(jīng)網(wǎng)絡(luò)）鞋屈。
他們的模型包含了Relation Proposal Network (RePN) 矾利，用來做關(guān)系過濾剧辐。
此外作者還提出了一個attentional GCN能夠有效地捕獲物體和關(guān)系的上下文信息。
結(jié)合了以上三點(diǎn)踩窖，該模型達(dá)到了state-of-the-art

1. Introduction

目前呐萨，物體檢測、語義分割等技術(shù)都是集中在如何在圖片上檢測出物體系吭，但是忽略了物體與物體之間的關(guān)系。一項(xiàng)最近的工作提出了用圖（場景圖）來代表一個場景颗品。場景圖是圖像的可解釋的結(jié)構(gòu)化表示肯尺，可以支持更高級別的視覺智能任務(wù)，如captioning躯枢。
將每一對節(jié)點(diǎn)(對象)視為潛在的邊(關(guān)系)的自然方法本質(zhì)上是對全連通圖的推理则吟，這種方法在建模上下文關(guān)系時通常是有效的，但對對象數(shù)量的縮放效果很差(二次)锄蹂，很快就變得不切實(shí)際氓仲。嘴樸素的修正方法是采用隨機(jī)采樣，雖然它是efficient得糜，但不是effective敬扛，因?yàn)閷ο笾g的相互作用的分布遠(yuǎn)遠(yuǎn)不是隨機(jī)的。
作者的解決辦法：

圖1

圖1.給一張圖片朝抖，模型從圖片中抽取出objects(a), 所有節(jié)點(diǎn)考慮可能存在的邊（b）啥箭，通過一個醫(yī)學(xué)系的方法‘relatedness’裁去不可能發(fā)關(guān)系，從而產(chǎn)生更稀疏的候選圖結(jié)構(gòu)（c）治宣。最后急侥，利用aGCN去集成全局信息并且更新物體節(jié)點(diǎn)和關(guān)系的標(biāo)簽（d）

1.1 Graph R-CNN

在這項(xiàng)工作中，我們提出了一個新的框架炼七，Graph R-CNN缆巧，它通過兩種機(jī)制有效地利用對象關(guān)系規(guī)則來智能地稀疏化和推理候選場景圖。我們的模型可以分解為三個邏輯階段:1)對象節(jié)點(diǎn)提取豌拙，2)關(guān)系邊緣剪枝，3)圖上下文集成题暖，如圖1所示按傅。

在對象節(jié)點(diǎn)提取階段，我們使用了一個標(biāo)準(zhǔn)的對象檢測的pipeline（faster rcnn）胧卤。這就產(chǎn)生了一組localized object regions唯绍，如圖1b所示。我們將在剩下的pipeline中引入兩個重要的新特性枝誊，以合并上面討論的對象關(guān)系中的真實(shí)世界的規(guī)則性况芒。首先，我們介紹了一個關(guān)系建議網(wǎng)絡(luò)(RePN)叶撒，該網(wǎng)絡(luò)能夠有效地計算對象對之間的關(guān)聯(lián)分?jǐn)?shù)绝骚，這些分?jǐn)?shù)被用來智能地修剪不太可能的場景圖連接(與之前工作中的隨機(jī)修剪不同)耐版，剪枝后的稀疏圖如圖1c所示。其次压汪，給出了稀疏連接的候選場景圖粪牲，我們應(yīng)用了一個注意圖卷積網(wǎng)絡(luò)(aGCN)來在整個圖中傳播higher-order上下文——更新每個對象及其基于其鄰居的關(guān)系表示。與現(xiàn)有的工作相比止剖，我們預(yù)測每個節(jié)點(diǎn)的邊attention腺阳，使我們的方法能夠?qū)W習(xí)調(diào)節(jié)不可靠或不太可能的邊緣之間的信息流。我們在圖1d中顯示了細(xì)化的圖形標(biāo)簽和邊緣attention(與邊緣寬度成比例)穿香。

1.2 Evaluating Scene Graph Generation

現(xiàn)有對于場景圖生成的指標(biāo)是基于召回?主題亭引、謂詞、對象?三元組或給定ground truth的object localizations的對象和謂詞皮获。為了揭示這些度量標(biāo)準(zhǔn)存在的問題痛侍，考慮一個方法，該方法將圖1a中的boy誤認(rèn)為是man魔市，但在其他方面識別出他是1)站在消防栓后面主届，2)靠近一輛汽車梆造，3)穿著一件毛衣评架。在基于三元組的度量標(biāo)準(zhǔn)下，這個小錯誤(boy vs man)將被嚴(yán)重懲罰活合，盡管大多數(shù)boy的關(guān)系被正確識別将宪。盡管提供ground-truth區(qū)域的度量方法通過嚴(yán)格關(guān)注關(guān)系預(yù)測來回避這個問題绘闷，但是它不能準(zhǔn)確地反映整個場景圖生成系統(tǒng)的測試時性能。
為了解決這種不匹配较坛，我們引入了一種新的評估度量(SGGen+)印蔗，它更全面地評估場景圖生成的性能，包括對象丑勤、屬性(如果有的話)和關(guān)系华嘹。我們提出了度量SGGen +計算總的recall對于獨(dú)立實(shí)體(對象和謂詞),pair 實(shí)體?對象,屬性?(如果有的話),和三元組實(shí)體?主題、謂詞法竞、對象?耙厚。我們在這個新的度量下報告現(xiàn)有方法的結(jié)果，發(fā)現(xiàn)我們的方法也顯著地優(yōu)于最先進(jìn)的方法岔霸。更重要的是薛躬，這個新的度量為生成的場景圖和真實(shí)場景圖之間的相似性提供了一個更魯棒、更全面的度量呆细。

1.3 Summary of Contributions

具體來說型宝，本工作通過引入一種新的模型(graph R-CNN)來解決場景圖生成問題，該模型可以利用對象關(guān)系的規(guī)律性，并提出了一種更全面的場景圖生成評價指標(biāo)(SGGen+)趴酣。我們將我們的模型與現(xiàn)有的標(biāo)準(zhǔn)度量方法進(jìn)行基準(zhǔn)測試梨树，而這個新度量方法的性能優(yōu)于現(xiàn)有方法。

Related Work

2.1 Contextual Reasoning and Scene Graphs

利用上下文來提高場景理解的想法在計算機(jī)視覺中有著悠久的歷史[16,27,28,30]价卤。最近劝萤，Johnson等人受到圖形界研究的表示方法的啟發(fā)，提出了從圖像中提取場景圖的問題慎璧，這將對象檢測的任務(wù)[6,7,22,31,32]概括為也檢測對象的關(guān)系和屬性床嫌。

2.2 Scene Graph Generation

已經(jīng)提出了許多方法來檢測對象及其關(guān)系。盡管這些工作中的大多數(shù)指出胸私，對場景圖中二次關(guān)系的推理是棘手的厌处，但每個都采用了啟發(fā)式方法，如隨機(jī)抽樣來解決這個問題岁疼。我們的工作是第一個引入一個可訓(xùn)練的關(guān)系建議網(wǎng)絡(luò)(RePN)瑰排，它學(xué)會了在不犧牲efficacy的情況下從圖中刪除不可能的關(guān)系邊緣字逗。RePN提供了高質(zhì)量的候選關(guān)系俭厚，我們發(fā)現(xiàn)它提高了場景圖生成的整體性能套腹。
大多數(shù)場景圖生成方法還包括上下文傳播和對候選場景圖進(jìn)行推理的機(jī)制笤休，以細(xì)化最終的標(biāo)記沮明。在[40]中江场，Xu等人將問題分解為兩個子圖佑附，一個用于對象词爬，另一個用于關(guān)系，并執(zhí)行消息傳遞蛇尚。類似地炮捧，在[17]中殊校，作者提出了兩種消息傳遞策略(并行順序)，用于在對象和關(guān)系之間傳播信息榨惰。Dai等人將場景圖生成過程建模為條件隨機(jī)場(CRF)的推理。Newell等人提出直接從圖像像素中生成場景圖语泽，而不需要使用基于關(guān)聯(lián)圖嵌入的對象檢測器贸典。在我們的工作中，我們開發(fā)了一種新的注意圖卷積網(wǎng)絡(luò)(aGCN)來更新節(jié)點(diǎn)和關(guān)系表示踱卵，通過在候選場景圖的節(jié)點(diǎn)之間傳播上下文來操作視覺和語義特征廊驼。雖然在功能上類似于上述基于消息傳遞的方法，但aGCN是高效的惋砂，可以學(xué)習(xí)將注意力放在可靠的邊緣妒挎，并減弱不太可能的影響。
以往的許多方法都注意到在場景圖生成過程中具有很強(qiáng)的規(guī)律性西饵，從而激發(fā)了我們的方法酝掩。在[23]中，Lu等人整合了語言中的語義先驗(yàn)眷柔，以改進(jìn)對對象之間有意義關(guān)系的檢測庸队。同樣积蜻，Li等人[18]證明了region caption也可以為場景圖生成提供有用的上下文闯割。與我們的動機(jī)最相關(guān)的是彻消，Zeller等人將motifs的概念(即經(jīng)常出現(xiàn)的圖結(jié)構(gòu))形式化。并在VG數(shù)據(jù)集[14]中檢測它們的出現(xiàn)的概率宙拉。作者還提出了一個令人驚訝的強(qiáng)基線宾尚，它直接使用頻率先驗(yàn)來明確地綜合圖結(jié)構(gòu)中的規(guī)律來預(yù)測關(guān)系。

2.3 Relationship Proposals

我們的關(guān)系建議網(wǎng)絡(luò)(Relationship Proposal Network, RePN)受到了RPN的啟發(fā)谢澈，與用于對象檢測的faster R-CNN[32]的區(qū)域建議網(wǎng)絡(luò)(region Proposal Network, RPN)緊密相關(guān)煌贴。我們的RePN在本質(zhì)上也類似于最近提出的關(guān)系建議網(wǎng)絡(luò)(Rel-PN)[45]。這些方法之間有許多細(xì)微的差別锥忿。Rel-PN模型獨(dú)立地預(yù)測主題牛郑、對象和謂詞的建議，然后重新對所有有效的三元組進(jìn)行評分敬鬓，而我們的RePN根據(jù)對象生成關(guān)系淹朋，允許它學(xué)習(xí)對象對關(guān)系的偏差。此外钉答，他們的方法是類無關(guān)的础芍，并沒有用于場景圖生成。

Graph Convolutional Networks (GCNs)

GCNs最初是在[13]的半監(jiān)督學(xué)習(xí)環(huán)境中提出的数尿。GCNs將圖數(shù)據(jù)上的復(fù)雜計算分解為一系列局部化操作(通常只涉及相鄰節(jié)點(diǎn))仑性，用于每個節(jié)點(diǎn)的每個時間步。在計算之前右蹦，結(jié)構(gòu)和邊緣強(qiáng)度通常是固定的诊杆。為了完整起見，我們注意到即將出版的出版物[36]同時獨(dú)立地開發(fā)了一個類似的GCN注意機(jī)制(如aGCN)何陆，并在其他(非計算機(jī)視覺)上下文中顯示了它的有效性晨汹。

3. Approach

在這項(xiàng)工作中，我們將場景圖建模為包含圖像區(qū)域甲献、關(guān)系及其標(biāo)簽的圖宰缤。 $I$ 代表image， $V$ 代表nodes集合(一個node對應(yīng)一個localized object region)晃洒， $E \in\left(\begin{array}{l} V \\ 2 \end{array}\right)$ 代表物體間的關(guān)系慨灭， $O,R$ 分別代表object和relationship的labels。因此球及，我們的目標(biāo)是為 $P(S=(V, E, O, R) | I)$ 建模氧骤，在我們的工作中，我們把場景圖的生成分解為三部分：
$P(\mathcal{S} | \boldsymbol{I})=\overbrace{P(\boldsymbol{V} | \boldsymbol{I})}^{\text {Object Region }} \underbrace{P(\boldsymbol{E} | \boldsymbol{V}, \boldsymbol{I})}_{\text {Pelationship }} \overbrace{P(\boldsymbol{R}, \boldsymbol{O} | \boldsymbol{V}, \boldsymbol{E}, \boldsymbol{I})}^{\text {Graph Labeling }}$
將圖的構(gòu)造(節(jié)點(diǎn)和邊)與圖的標(biāo)注分離開來吃引。這個因式分解背后的直覺很簡單筹陵。首先刽锤，object region proposal $P(V|I)$ 通常使用現(xiàn)成的對象檢測系統(tǒng)(如faster rcnn[32])進(jìn)行建模，以生成候選區(qū)域朦佩。值得注意的是并思，現(xiàn)有的方法通常將第二個關(guān)系建議項(xiàng) $P (E|V, I)$ 建模為頂點(diǎn) $V$ 之間潛在邊的均勻隨機(jī)抽樣。相反语稠，我們提出了一個關(guān)系建議網(wǎng)絡(luò)(RePN)來直接建模 $P (E|V, I)$ ——使我們的方法成為第一個允許學(xué)習(xí)整個生成過程端到端宋彼。最后，圖標(biāo)記過程 $P(R,O|V,E,I)$ 通常被視為迭代求精過程仙畦。模型的pipeline如圖2所示：

圖2

圖2. 對于給定的圖像输涕，我們的模型首先使用RPN提出對象區(qū)域，然后通過關(guān)系建議網(wǎng)絡(luò)(relationship proposal network, RePN)刪除對象區(qū)域之間的連接慨畸。然后使用aGCN來整合圖中相鄰節(jié)點(diǎn)的上下文信息莱坎。最后得到右側(cè)的場景圖。

3.1 Object Proposals

每一個object proposal $i$ 都與一個空間區(qū)域 $r_{i}^{o}=\left[x_{i}, y_{i}, w_{i}, h_{i}\right]$ , 一個合并的特征向量 $x^o_i$ , 一個初始化估計標(biāo)簽分布 $p^o_i$ over $C=\{1, \ldots, k\}$ 相關(guān)聯(lián)寸士。我們將對于所有n個proposals的向量集合表示為矩陣 $R^{o} \in \mathbb{R}^{n \times 4}, X^{o} \in \mathbb{R}^{n \times d}$ 以及 $P^{o} \in \mathbb{R}^{n \times|C|}$

3.2 Relation Proposal Network
給定上一步提出的n個對象節(jié)點(diǎn)檐什，它們之間可能有 $O(n^2)$ 個連接;然而，正如前面所討論的碉京，由于真實(shí)對象交互中的規(guī)則性厢汹，大多數(shù)對象對不太可能有關(guān)系。為了對這些規(guī)律進(jìn)行建模谐宙，我們引入了一個關(guān)系建議網(wǎng)絡(luò)(RePN)烫葬，該網(wǎng)絡(luò)能夠有效地估計對象對之間的關(guān)聯(lián)性。通過對不太可能關(guān)系的邊緣進(jìn)行剪枝凡蜻，可以有效地稀疏化候選場景圖搭综，保留可能的邊緣，抑制不太可能的邊緣帶來的噪聲划栓。
在這篇論文中兑巾，我們利用估計的類別分布( $P^o$ )來推斷關(guān)聯(lián)性——本質(zhì)上是學(xué)習(xí)軟類別關(guān)系的先驗(yàn)。這種選擇與我們的直覺一致忠荞，即與其他類相比蒋歌，某些類相對不太可能交互。具體,給定初始對象分類分布 $P^o$ ,我們給所有的 $n?(n?1)$ 有向?qū)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cleft%5C%7B%5Cboldsymbol%7Bp%7D_%7Bi%7D%5E%7Bo%7D%2C%20%5Cboldsymbol%7Bp%7D_%7Bj%7D%5E%7Bo%7D%20%7C%20i%20%5Cneq%20j%5Cright%5C%7D" alt="\left\{\boldsymbol{p}_{i}^{o}, \boldsymbol{p}_{j}^{o} | i \neq j\right\}" mathimg="1">評分, 計算 $s_{ij} = f (p^o_i, p^o_j)$ 時的相關(guān)性委煤，其中 $f(·堂油，·)$ 是一個習(xí)得的相關(guān)性對函數(shù)。 $f(·碧绞，·)$ 的一個直接實(shí)現(xiàn)可以將連接[p^o_i, p^o_j]作為輸入傳遞給一個多層感知器府框，該感知器輸出分?jǐn)?shù)。然而讥邻，考慮到對象對的平方數(shù)迫靖，這種方法將消耗大量的內(nèi)存和計算院峡。為了避免這種情況，我們考慮一個非對稱的內(nèi)核函數(shù):
$f\left(\boldsymbol{p}_{i}^{o}, \boldsymbol{p}_{j}^{o}\right)=\left\langle\Phi\left(\boldsymbol{p}_{i}^{o}\right), \Psi\left(\boldsymbol{p}_{j}^{o}\right)\right\rangle, i \neq j$
$\Phi(\cdot) \text { and } \Psi(\cdot)$ 分別代表在關(guān)系中主語和賓語對映射函數(shù)系宜。這個分解使得照激，僅使用 $X^o$ 的兩個投影過程，然后執(zhí)行一次矩陣乘法就能獲得分?jǐn)?shù)矩陣 $S=\left\{s_{i j}\right\}^{n \times n}$ 蜈首。對于 $Φ(·)$ 和 $Ψ(·)$ 实抡，我們使用兩個多層感知器(mlp)與相同的架構(gòu)(但不同的參數(shù))。我們還對分?jǐn)?shù)矩陣S進(jìn)行了sigmoid操作欢策，使得每一個元素都為0～1之間。
在獲得分?jǐn)?shù)矩陣后赏淌，我們將其降序排序踩寇，然后選擇前K對。然后六水，我們使用非最大抑制(NMS)來過濾出與其他對象有明顯重疊的對象對俺孙。每個關(guān)系都有一對邊界框，組合順序很重要掷贾。我們計算兩個對象對 $\{u, v\}$ and $\{p, q\}$ 之間對重疊：
$\operatorname{IoU}(\{u, v\},\{p, q\})=\frac{I\left(r_{u}^{o}, r_{p}^{o}\right)+I\left(r_{v}^{o}, r_{q}^{o}\right)}{U\left(r_{u}^{o}, r_{p}^{o}\right)+U\left(r_{v}^{o}, r_{q}^{o}\right)}$
$I$ 計算兩個box交集的區(qū)域睛榄， $U$ 計算并集區(qū)域。剩余的m個對象對被認(rèn)為是具有意義關(guān)系E的候選對象想帅。利用E场靴，我們得到了一個圖 $G = (V,E)$ ，它比原來的全連通圖稀疏得多港准。隨著圖的邊的提出旨剥，我們還通過從每個對象對的聯(lián)合框中提取特征，得到所有m個關(guān)系的可視化表示 $X^{r}=\left\{\boldsymbol{x}_{1}^{r}, \ldots, \boldsymbol{x}_{m}^{r}\right\}$ 浅缸。

3.3 Attentional GCN

為了整合由圖結(jié)構(gòu)提供的上下文信息轨帜，我們提出了一個注意圖卷積網(wǎng)絡(luò)(aGCN)。在描述我們提出的aGCN之前衩椒，讓我們簡要回顧一下“普通的”GCN蚌父，其中每個節(jié)點(diǎn) $i$ 都有一個表示 $z_{i} \in \mathbb{R}^anygqyg$ 如在[13]中提出的那樣。簡單,目標(biāo)節(jié)點(diǎn)圖中,相鄰節(jié)點(diǎn)的表示 $\left\{z_{j} | j \in \mathcal{N}(i)\right\}$ 首先通過學(xué)習(xí)改變線性變換矩陣 $W$ .然后,這些轉(zhuǎn)換表示與預(yù)先確定的權(quán)值α聚集,緊隨其后的是一個非線性函數(shù)σ(ReLU [25])毛萌。這種分層傳播可以寫成:
$\boldsymbol{z}_{i}^{(l+1)}=\sigma\left(\boldsymbol{z}_{i}^{(l)}+\sum_{j \in \mathcal{N}(i)} \alpha_{i j} W \boldsymbol{z}_{j}^{(l)}\right)$
或者我們可以把節(jié)點(diǎn)整合進(jìn)一個矩陣中苟弛，就可以得到：
$\boldsymbol{z}_{i}^{(l+1)}=\sigma\left(W Z^{(l)} \boldsymbol{\alpha}_{i}\right)$
$\boldsymbol{\alpha}_{i} \in[0,1]^{n}$
與i不相鄰的節(jié)點(diǎn)設(shè)定為0，并且設(shè)定αii為1朝聋。在傳統(tǒng)的GCN中,圖中的連接是已知并且系數(shù)向量αi是基于對稱規(guī)范化鄰接矩陣的特性預(yù)設(shè)的嗡午。
在這篇論文中，我們將傳統(tǒng)的GCN拓展了attention版本冀痕，通過調(diào)節(jié)α荔睹。為了能夠從節(jié)點(diǎn)features預(yù)測attention狸演，我們通過一個拼接的節(jié)點(diǎn)feature學(xué)習(xí)了一個兩層的MLP，并且對得到的分?jǐn)?shù)進(jìn)行一次softmax僻他。對于節(jié)點(diǎn)i的attention是：
$u_{i j}=w_{h}^{T} \sigma\left(W_{a}\left[\boldsymbol{z}_{i}^{(l)}, \boldsymbol{z}_{j}^{(l)}\right]\right)$
$\boldsymbol{\alpha}_{i}=\operatorname{softmax}\left(\boldsymbol{u}_{i}\right)$
$w_{h}$ and $W_{a}$ 是習(xí)得參數(shù)宵距，[·, ·] 是拼接操作。通過定義吨拗，我們設(shè)定 $\boldsymbol{\alpha}_{i i}=1$ and $\boldsymbol{\alpha}_{i j}=0 \forall j \notin \mathcal{N}(i)$ 满哪。由于注意力機(jī)制是節(jié)點(diǎn)特征的函數(shù)，每次迭代都會導(dǎo)致注意力的改變劝篷，從而影響后續(xù)的迭代哨鸭。

3.2.1 aGCN for Scene Graph Generation

回想一下，在前面的小節(jié)中娇妓，我們有一組N個對象區(qū)域和m個關(guān)系像鸡。在此基礎(chǔ)上，我們構(gòu)造了一個圖G哈恰，其中節(jié)點(diǎn)對應(yīng)于對象和關(guān)系建議只估。我們在關(guān)系節(jié)點(diǎn)及其關(guān)聯(lián)對象之間插入邊。我們還在所有對象節(jié)點(diǎn)之間直接添加了跳轉(zhuǎn)連接邊着绷。這些連接允許信息直接在對象節(jié)點(diǎn)之間流動蛔钙。最近的研究表明，對目標(biāo)相關(guān)性進(jìn)行推理可以提高檢測的性能荠医。我們將aGCN應(yīng)用于此圖吁脱，基于全局上下文更新對象和關(guān)系表示。
注意到我們的圖捕獲到不同類型到連接（i.e.object ? relationship, relationship ? subject and object ? object）子漩。此外豫喧，每個連接之間的信息流可能是不對稱的(the 信息量 of subject on relationship might be quite different from relationship to subject)。我們學(xué)習(xí)了每種類型和順序的不同轉(zhuǎn)換——將節(jié)點(diǎn)類型a到節(jié)點(diǎn)類型b的線性轉(zhuǎn)換表示為 $W^{ab}$ 幢泼，其中s=subject紧显、o=objects和r=relationships。Object node的representation的更新公式如下（object features為 $Z^o$ , relationship features為 $Z^r$ ）：

$\boldsymbol{z}_{i}^{o}=\sigma(\overbrace{W^{\text {Skip }}}^{\text {Message from }} \underbrace{\text { Objects }}_{\boldsymbol{\alpha}^{\text {SKip }}}+\overbrace{W^{\text {sr }} Z^{r} \boldsymbol{\alpha}^{s r}+W^{\text {or }} Z^{r} \boldsymbol{\alpha}^{\text {or }}}^{\text {Messages from }}\text { Relationships }$
with $\boldsymbol{\alpha}_{i i}^{\text {skip }}=1$ and similarly for relationship nodes as:
$\boldsymbol{z}_{i}^{r}=\sigma(\boldsymbol{z}_{i}^{r}+\underbrace{W^{r s} Z^{o} \boldsymbol{\alpha}^{r s}+W^{r o} Z^{o} \boldsymbol{\alpha}^{r o}}_{\text {Messages from Neighboring Objects }})$
一個開放的選擇是如何初始化object and relationship node represenstions $z$ 缕棵，它可能被設(shè)置為任何intermediate feature representations孵班，甚至是對應(yīng)類標(biāo)簽的pre-softmax輸出。在實(shí)踐中招驴，我們同時運(yùn)行可視化的和語義化的aGCN計算——一個具有可視化的特性篙程，另一個使用pre-softmax輸出。通過這種方式别厘，我們既可以推斷出較低層的視覺細(xì)節(jié)虱饿，也可以推斷出較高級別的語義共現(xiàn)(即汽車輪子)。進(jìn)一步地，我們把語義aGCN的注意力放在視覺aGCN上——基于視覺線索有效地調(diào)節(jié)語義信息流氮发。這也加強(qiáng)了兩個圖中表示的真實(shí)對象和關(guān)系以相同的方式與其他對象交互渴肉。
3.4 Loss Function
在Graph R-CNN，我們把場景圖生成過程分解成三個子過程： $P(\boldsymbol{R}, \boldsymbol{O} | \boldsymbol{V}, \boldsymbol{E}, \boldsymbol{I}), P(\boldsymbol{E} | \boldsymbol{V}, \boldsymbol{I}), P(\boldsymbol{V} | \boldsymbol{I})$ 爽冕。在訓(xùn)練階段仇祭，這些子過程都是使用監(jiān)督訓(xùn)練。對于 $P(\boldsymbol{V} | \boldsymbol{I})$ 颈畸，我們用RPN相同的損失（binary cross entropy loss on proposals乌奇，regression loss for anchors）。對于 $P(\boldsymbol{E} | \boldsymbol{V}, \boldsymbol{I})$ 眯娱，我們使用另一個binary cross entropy loss on the relation proposals礁苗。對于最后的場景圖生成 $P(\boldsymbol{R}, \boldsymbol{O} | \boldsymbol{V}, \boldsymbol{E}, \boldsymbol{I})$ ，兩個muti-class cross entropy losses是被用于object classification and predicate classification困乒。

4. Evaluating Scene Graph Generation

場景圖生成是一個結(jié)構(gòu)化的圖上預(yù)測問題寂屏，如何正確、有效地對預(yù)測進(jìn)行評價是當(dāng)前場景圖生成研究中尚未解決的問題娜搂。我們注意到圖論[5]對基于最小圖編輯距離的圖相似度進(jìn)行了深入的研究;然而，計算準(zhǔn)確的解決方案是np完全和ap近似的APX-hard[20]吱抚。
以前的工作通過在[40]中引入一個簡單的基于三元組回歸的度量來評估場景圖的生成百宇，從而繞過了這些問題。根據(jù)這個指標(biāo),我們將稱之為SGGen, the ground truth of 場景圖表示為一組<object, relationship, subject>通過精確匹配計算秘豹。也就是說携御，在生成的場景圖中，如果三個元素都被正確地標(biāo)記既绕，并且object和subject nodes都被正確地定位(例如啄刹，邊界框IoU > 0.5)。雖然計算簡單凄贩，但這種度量導(dǎo)致了一些不直觀的相似度概念誓军，如圖3所示。
SGGen+的計算公式：
$\text {Recall}=\frac{C(O)+C(P)+C(T)}{N}$
$C^{\prime}(\cdot)$ 是一個計數(shù)操作疲扎， $C(O)$ 是正確被定位和識別的物體節(jié)點(diǎn)數(shù)昵时； $C(P)$ 是正確謂詞的數(shù)目。由于謂詞的定位取決于subject和object的正確定位椒丧，所以只有在主語和賓語都正確定位并且正確識別謂詞的情況下壹甥，我們才會將其算作一個。 $C(T)$ 是針對三元組的壶熏，和SGGen一樣句柠。N是ground真值圖中的條目數(shù)(對象、謂詞和關(guān)系的總數(shù))。

最后編輯于：2020.04.17 18:53:00

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末溯职，一起剝皮案震驚了整個濱河市精盅，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌缸榄，老刑警劉巖渤弛，帶你破解...
沈念sama閱讀 206,311評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異甚带，居然都是意外死亡她肯，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,339評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門鹰贵，熙熙樓的掌柜王于貴愁眉苦臉地迎上來晴氨，“玉大人，你說我怎么就攤上這事碉输∽亚埃” “怎么了？”我有些...
開封第一講書人閱讀 152,671評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵敷钾，是天一觀的道長枝哄。經(jīng)常有香客問我，道長阻荒，這世上最難降的妖魔是什么挠锥？我笑而不...
開封第一講書人閱讀 55,252評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮侨赡，結(jié)果婚禮上蓖租，老公的妹妹穿的比我還像新娘。我一直安慰自己羊壹，他們只是感情好蓖宦，可當(dāng)我...
茶點(diǎn)故事閱讀 64,253評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著油猫，像睡著了一般稠茂。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上眨攘，一...
開封第一講書人閱讀 49,031評論 1贊 285
城市分裂傳說
那天主慰，我揣著相機(jī)與錄音，去河邊找鬼鲫售。笑死共螺，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的情竹。我是一名探鬼主播藐不，決...
沈念sama閱讀 38,340評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了雏蛮？” 一聲冷哼從身側(cè)響起涎嚼，我...
開封第一講書人閱讀 36,973評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎挑秉，沒想到半個月后法梯，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,466評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡犀概，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,937評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年立哑，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片姻灶。...
茶點(diǎn)故事閱讀 38,039評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡铛绰，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出产喉，到底是詐尸還是另有隱情捂掰，我是刑警寧澤，帶...
沈念sama閱讀 33,701評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布曾沈，位于F島的核電站这嚣，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏塞俱。R本人自食惡果不足惜疤苹，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,254評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望敛腌。院中可真熱鬧，春花似錦惫皱、人聲如沸像樊。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,259評論 0贊 19
一樁弒父案旅敷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽生棍。三九已至，卻和暖如春媳谁，著一層夾襖步出監(jiān)牢的瞬間涂滴，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,485評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工晴音，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留柔纵，地道東北人。一個月前我還...
沈念sama閱讀 45,497評論 2贊 354
代替公主和親
正文我出身青樓锤躁，卻偏偏與公主長得像搁料，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,786評論 2贊 345