Visual Translation Embedding Network for Visual Relation Detection使用VTransE網(wǎng)絡(luò)來進(jìn)行視覺關(guān)系檢測

1.論文相關(guān)

論文題目:Visual Translation Embedding Network for Visual Relation Detection
論文作者:Hanwang Zhang, Zawlin Kyaw, Shih-Fu Chang, Tat-Seng Chua
(本文為原文的大概翻譯芽突,“我們”均指原論文作者本人)

2.論文

2.1摘要

視覺關(guān)系界斜,例如“人騎車”和“自行車緊挨著汽車”售躁,提供了對(duì)一副圖片的綜合場景的理解翼馆,并且在聯(lián)系計(jì)算機(jī)視覺和自然語言方面展示出了巨大的作用管宵。然而,由于模擬“主謂賓”三元組的復(fù)雜性的挑戰(zhàn),人們僅僅做了非常少的工作來定位并且預(yù)測視覺關(guān)系。受到最近知識(shí)庫和卷積目標(biāo)檢測網(wǎng)絡(luò)的關(guān)系表示學(xué)習(xí)的最新進(jìn)展的啟發(fā)巫糙,我們提出了視覺轉(zhuǎn)換嵌入網(wǎng)絡(luò)(VTransE)來進(jìn)行視覺關(guān)系檢測。VTransE將目標(biāo)置于低維關(guān)系空間颊乘,在這個(gè)空間里將一個(gè)關(guān)系建模為一種簡單的向量轉(zhuǎn)換参淹,比如,主體+謂詞≈賓語乏悄。我們提出了一個(gè)新穎的特征提取層浙值,這個(gè)提取層使得目標(biāo)關(guān)系知識(shí)的遷移能夠以全卷積的形式進(jìn)行,其支持在簡單的前向\后向通路中訓(xùn)練和推理纲爸。據(jù)我們所知亥鸠,VTransE是第一個(gè)端到端關(guān)系檢測網(wǎng)絡(luò)妆够。我們?cè)趦蓚€(gè)大型數(shù)據(jù)集:Visual Relationship和Visual Genome上證明了VTransE相比其他時(shí)下最優(yōu)的方法的有效性识啦。要注意,雖然VTransE只是一個(gè)純視覺模型神妹,它仍然可以與Lu的帶有語言先驗(yàn)知識(shí)的多模態(tài)模型相提并論颓哮。

2.2引入

從可視成熟的視覺檢測,到新興的視覺字幕和問題回答鸵荠,我們正在見證著連接計(jì)算機(jī)視覺和自然語言這一方向的科學(xué)令人印象深刻的發(fā)展冕茅。然而,對(duì)于后者——視覺語言任務(wù)——絕大多數(shù)現(xiàn)有的努力都在嘗試直接連接視覺模型(例如蛹找,CNN)和語言模型(例如姨伤,RNN),但是很少是著眼于建模和理解目標(biāo)之間的關(guān)系庸疾。結(jié)果乍楚,這些模型呈現(xiàn)出了糟糕的泛化能力,因?yàn)樗麄兘?jīng)常是針對(duì)特定數(shù)據(jù)集上的具體任務(wù)來進(jìn)行優(yōu)化届慈,例如圖像字幕或者圖像問答徒溪。

image.png

??如圖1所示,我們從較低級(jí)別的目標(biāo)檢測前進(jìn)一步金顿,從較高級(jí)別的語言建模后退一步臊泌,著眼于一幅圖片中目標(biāo)之間的視覺關(guān)系。我們將視覺關(guān)系稱為主謂賓三元組揍拆,其中謂語可以是動(dòng)詞(person1-talk-person2)渠概,空間(clock-above-person2),介詞(car-with-wheel)和比較(person1-taller-person2)嫂拴。視覺關(guān)系自然而然地連接了視覺和語言高氮,它將目標(biāo)置于一個(gè)上下文語義環(huán)境中慧妄,這個(gè)上下文描述了什么目標(biāo)在哪里如何和另一個(gè)目標(biāo)發(fā)生聯(lián)系。比如剪芍,如果我們成功地檢測到了“鐘表在人物二上方”和“人物二穿著夾克”塞淹,那么圖1所示問題的答案“灰色”背后的邏輯通過使用數(shù)據(jù)集獨(dú)立推理將變得明確可解釋,例如罪裹,知識(shí)庫問答饱普,從而獲得更好的泛化能力甚至實(shí)現(xiàn)zero-shot學(xué)習(xí)。
??在這篇論文里状共,我們提出了卷積定位網(wǎng)絡(luò)實(shí)現(xiàn)視覺關(guān)系檢測套耕,這被稱為視覺轉(zhuǎn)換嵌入網(wǎng)絡(luò)(VTransE)。它檢測目標(biāo)的同時(shí)以一種端到端的形式同時(shí)預(yù)測一張圖片里目標(biāo)之間的關(guān)系峡继。我們強(qiáng)調(diào)使得VTransE有效且可辨別的2個(gè)關(guān)鍵創(chuàng)新點(diǎn):
image.png

??轉(zhuǎn)換嵌入冯袍。因?yàn)殛P(guān)系是目標(biāo)和預(yù)測的組合,它們的分布比目標(biāo)要顯得更長尾碾牌。對(duì)于N個(gè)目標(biāo)和R個(gè)預(yù)測來說康愤,我們必須解決一個(gè)基本的挑戰(zhàn)就是用很少的例子學(xué)習(xí)O(N^2*R)個(gè)關(guān)系。一個(gè)常見的解決辦法是分別針對(duì)目標(biāo)和謂詞學(xué)習(xí)不同模型舶吗,即將復(fù)雜度降低到O( N + R )征冷。然而,謂詞表現(xiàn)形式巨大的變化使得學(xué)習(xí)更具挑戰(zhàn)性誓琼。例如检激,“騎”這個(gè)動(dòng)作的表現(xiàn)形式可以表示“人騎車”,又可以表示為“人騎大象”腹侣。有鑒于此叔收,受到表示大型知識(shí)庫的轉(zhuǎn)換嵌入的啟發(fā),我們提出通過將目標(biāo)和謂詞映射到低維空間來建模視覺關(guān)系傲隶,在這個(gè)空間里饺律,關(guān)系三元組被解釋為一種向量轉(zhuǎn)換,如“人+騎≈自行車”伦籍。如圖2所示蓝晒,通過避免使用大量變量來學(xué)習(xí)大量主謂賓表示關(guān)系,我們僅僅需要學(xué)習(xí)關(guān)系空間里的“騎”轉(zhuǎn)換向量帖鸦,即使主語或者賓語有巨大的變換芝薇。
??關(guān)系中的知識(shí)轉(zhuǎn)換。認(rèn)知證據(jù)表明作儿,對(duì)象及其相互作用的識(shí)別是相互的洛二。比如,“人”和“自行車”的檢測可以作為“騎”這個(gè)謂詞的上下文環(huán)境,這反過來也限制了兩個(gè)對(duì)象的接合晾嘶,從而有利于對(duì)象檢測妓雾。受此啟發(fā),我們明確地將VTransE中的對(duì)象和謂詞之間的知識(shí)轉(zhuǎn)移結(jié)合起來垒迂。具體來說械姻,我們提出了一種新穎的特征提取層,它提取了轉(zhuǎn)換嵌入中使用的三種類型的對(duì)象特征:分類(即机断,類概率)楷拳,位置(即邊界框坐標(biāo)和比例)以及RoI視覺特征。特別地吏奸,我們使用雙線性特征插值而不是RoI pooling用于可微分坐標(biāo)欢揖。因此,對(duì)象和關(guān)系之間的信息——置信度奋蔚,位置她混,尺度——可以以端到端的方式通過單一的前向/后向傳遞。
??我們?cè)谧罱l(fā)布的兩個(gè)數(shù)據(jù)集上評(píng)估了VTransE:Visual Relationship數(shù)據(jù)集泊碑,包含5000張圖片和6672對(duì)不同的關(guān)系坤按;Visual Genome數(shù)據(jù)集,包含99658張圖片和19237對(duì)不同的關(guān)系蛾狗。與若干時(shí)下最優(yōu)的視覺關(guān)系模型相比晋涣,我們的模型顯示了顯著的性能提升仪媒。特別地沉桌,我們純粹的視覺VTransE在檢測和檢索方面甚至能勝過結(jié)合視覺和語言先驗(yàn)知識(shí)的多模態(tài)模型,在zero-shot 學(xué)習(xí)上有一點(diǎn)差算吩。
??總的來說留凭,我們的貢獻(xiàn)如下:1)我們提出了一個(gè)視覺關(guān)系檢測模型VTransE,這是一個(gè)能同時(shí)檢測目標(biāo)和關(guān)系的卷積網(wǎng)絡(luò)偎巢。據(jù)我們所知蔼夜,這是第一個(gè)端到端的檢測網(wǎng)絡(luò);2)我們提出了一個(gè)結(jié)合了轉(zhuǎn)換嵌入和知識(shí)轉(zhuǎn)化的新穎的關(guān)系學(xué)習(xí)模型VTransE压昼;3)VTransE在視覺關(guān)系檢測上與若干強(qiáng)大的基本算法相比有了很大的性能提升求冷。

2.3相關(guān)工作

我們的工作著眼于最近表示圖片語義信息所取得的進(jìn)步上。已經(jīng)有證明窍霞,高質(zhì)量的語義表示提供了更多的綜合場景理解匠题,這鞏固了許多視覺語言任務(wù)的基礎(chǔ),如VQA但金,字幕和復(fù)雜查詢檢索韭山。視覺關(guān)系檢測不僅僅是標(biāo)記出目標(biāo)們所在區(qū)域,更要描述它們的相互關(guān)系。特別地钱磅,我們的VTransE網(wǎng)絡(luò)吸取了近來關(guān)系學(xué)習(xí)和目標(biāo)檢測的相關(guān)工作梦裂。
??視覺關(guān)系檢測。與將關(guān)系視為隱藏變量的方法不同盖淡,我們將明確的關(guān)系劃分為兩類:聯(lián)合模型和分離模型年柠。對(duì)于聯(lián)合模型,一個(gè)關(guān)系三元組被看作一個(gè)特別的類褪迟。然而彪杉,長尾分布是可擴(kuò)展性的固有缺陷。因此牵咙,我們采用了分離模型派近,單獨(dú)學(xué)習(xí)主語、賓語和謂詞洁桌。但是渴丸,建模大量的視覺謂詞變量非常具有挑戰(zhàn)性。受TransE在大規(guī)模知識(shí)庫上關(guān)系學(xué)習(xí)的成功應(yīng)用的鼓舞另凌,我們的VTransE通過使用較少變量將主體和目標(biāo)映射到低維關(guān)系空間來擴(kuò)展TransE谱轨,并且將謂詞建模為一個(gè)主體和目標(biāo)之間的轉(zhuǎn)換向量。注意到吠谢,雖然已經(jīng)有些工作在探索語言先驗(yàn)知識(shí)來增強(qiáng)關(guān)系檢測土童,但是我們只對(duì)視覺模型感興趣。
??目標(biāo)檢測工坊。VTransE基于一個(gè)包含RPN和分類層的目標(biāo)檢測模塊献汗。特別地,我們使用Faster-RCNN王污,它是從其前身演變而來的罢吃,需要額外的區(qū)域推薦輸入。注意昭齐,VTransE不能被簡單地認(rèn)為是將關(guān)系預(yù)測層附加到Faster-RCNN上尿招。事實(shí)上,我們提出了一個(gè)新穎的目標(biāo)提取層阱驾,它允許目標(biāo)和關(guān)系之間的知識(shí)轉(zhuǎn)換就谜。該層利用雙線性插值,而不是在Faster-RCNN中的非平滑RoI池化里覆,從而可以在單個(gè)前向/后向通過中實(shí)現(xiàn)對(duì)象和謂詞的倒數(shù)學(xué)習(xí)丧荐。請(qǐng)注意,VTransE可以結(jié)合任何包含RPN的對(duì)象檢測網(wǎng)絡(luò)租谈,如最近的SSD和YOLO篮奄。

3.算法

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

4.實(shí)驗(yàn)

我們打算通過回答下面三個(gè)問題來驗(yàn)證我們VTransE網(wǎng)絡(luò)的有效性捆愁。問題1:嵌入關(guān)系的思想在視覺信息域有效嗎?問題2:在關(guān)系檢測和知識(shí)轉(zhuǎn)換時(shí)特征的影響是什么窟却?問題3:整個(gè)VTransE網(wǎng)絡(luò)與時(shí)下最優(yōu)的視覺關(guān)系模型相比表現(xiàn)如何昼丑?

4.1數(shù)據(jù)集和度量方法

具我們所知,目前只有2個(gè)大規(guī)模關(guān)系檢測數(shù)據(jù)集夸赫。我們同時(shí)使用二者:
??VRD菩帝。視覺關(guān)系數(shù)據(jù)集。包含5000張圖片茬腿,100個(gè)類呼奢,70個(gè)謂詞∏衅剑總的來說握础,VRD包含37993對(duì)關(guān)系,不同的關(guān)系有6672悴品,每個(gè)類別平均擁有24.25個(gè)謂詞禀综。我們的訓(xùn)練/測試劃分方法為,4000張用來訓(xùn)練苔严,1000張用來測試定枷,其中1877對(duì)關(guān)系僅僅存在于測試集當(dāng)中,用來進(jìn)行zero-shot評(píng)估届氢。
??VG欠窒。最新的Visual Genome關(guān)系數(shù)據(jù)集1.2版。與VRD是由計(jì)算機(jī)視覺專家構(gòu)造的不同退子,VG是有普通工人標(biāo)注的岖妄,所以目標(biāo)和關(guān)系都是有噪聲的。因此絮供,我們請(qǐng)求作者進(jìn)行了一次正式的修正衣吠。比如茶敏,“年輕女性”和“小姐”都被合并為“女人”壤靶。總之惊搏,VG包含99658張圖片贮乳,200個(gè)目標(biāo)種類,100個(gè)謂詞恬惯,1174692對(duì)關(guān)系,其中不同的關(guān)系有19237對(duì)酪耳,每個(gè)類別大概擁有57個(gè)謂詞可以來描述浓恳。我們用73801張圖片訓(xùn)練,25857張圖片用來測試颈将。
??我們使用R@50和R@100方法作為評(píng)估檢測的度量方法死姚。注意到,精度和平均精度是不合適的度量都毒,因?yàn)橐曈X關(guān)系是不完整的账劲,如果我們沒能獲得精確的數(shù)據(jù)保屯,這會(huì)對(duì)檢測進(jìn)行懲罰。對(duì)于關(guān)系檢索任務(wù)涤垫,我們采用R@5姑尺,即計(jì)算前5個(gè)預(yù)測結(jié)果里面正確結(jié)果出現(xiàn)的次數(shù),同時(shí)我們采用Median rank(Med r)蝠猬,這個(gè)指標(biāo)表示第一次正確檢測到關(guān)系時(shí)的平均排序切蟋。事實(shí)上,數(shù)據(jù)集的標(biāo)注越完整榆芦,即使召回率很低柄粹,檢測的精度通常也會(huì)大于50/100.因此,Rr@5和Med r來評(píng)估檢索任務(wù)的話匆绣,會(huì)提供一個(gè)互補(bǔ)的對(duì)結(jié)果的評(píng)估驻右。

image.png

4.2對(duì)于轉(zhuǎn)換嵌入方法的評(píng)估(問題1)

設(shè)置。視覺關(guān)系檢測需要同時(shí)檢測目標(biāo)和謂詞關(guān)系崎淳。為惡劣考察VTransE是否是一個(gè)好的關(guān)系模型堪夭,我們需要將它和目標(biāo)檢測方法隔離開來執(zhí)行謂詞預(yù)測,及:使用目標(biāo)的真實(shí)邊界框來預(yù)測謂詞拣凹。
??比較方法森爽。我們比較聯(lián)合標(biāo)記框和VTransE兩種方法。聯(lián)合標(biāo)記框?qū)⒅黧w和目標(biāo)當(dāng)做一個(gè)聯(lián)合邊界框來進(jìn)行謂詞預(yù)測嚣镜,VTransE則對(duì)一對(duì)主體和目標(biāo)進(jìn)行預(yù)測爬迟。為了較為公平的比較,我們兩個(gè)方法都只使用邊界框的RoI pooling視覺特征菊匿。
??結(jié)果付呕。從表1可以看出计福,變形為公式3的VTransE表現(xiàn)優(yōu)于聯(lián)合框視覺模型。這是因?yàn)閂TransE的謂詞模型參數(shù)——轉(zhuǎn)換向量——能夠捕獲較為重要的目標(biāo)與目標(biāo)之間的關(guān)系信息徽职。圖4顯示棒搜,大部分謂詞VTransE都能預(yù)測正確,而聯(lián)合框方法在某些確定的模式下很可能產(chǎn)生偏差活箕。比如力麸,聯(lián)合框預(yù)測“park on”這個(gè)動(dòng)作是僅局限于汽車,而VTransE方法則可以將這個(gè)動(dòng)作擴(kuò)展到飛機(jī)和公共汽車育韩。此外克蚂,通過檢查圖5中謂詞參數(shù)向量之間的語義親和度,我們可以推測JointBox實(shí)際上并不建模關(guān)系筋讨,而是建模關(guān)聯(lián)目標(biāo)的同時(shí)出現(xiàn)埃叭。例如,在聯(lián)合框方法中悉罕,“beneath”這個(gè)向量和“drive”離得近的原因很大程度上是因?yàn)椤皉oad-beneath-car”和“car-drive on -road”總是同時(shí)出現(xiàn)赤屋;然而,VTransE則表現(xiàn)地更理解“beneath”的含義壁袄,因?yàn)椤癰eneath”的相鄰單詞是“below”和“under”类早,并且“beneath”和“on”“above”這些單詞相聚很遠(yuǎn)。

image.png

4.3關(guān)于特征的評(píng)估(問題2)

image.png

??設(shè)置嗜逻。我們?cè)u(píng)估了3.1部分提出的特征是如何影響視覺關(guān)系的檢測的涩僻。我們執(zhí)行了關(guān)系檢測:輸入是一張圖片,輸出是一組關(guān)系三元組和與真實(shí)位置重疊率超過0.5的關(guān)系三元組的主體和目標(biāo)的位置信息栈顷。
??比較方法逆日。為了使用不同的特征,我們將VTransE消解為4中方法萄凤,分別使用:1)類別信息室抽,2)位置信息,3)視覺特征靡努,4)所有信息坪圾,即融合類別,位置颤难,視覺特征神年,并進(jìn)行尺度變換。注意到行嗤,以上所有方法均是通過端到端地方式進(jìn)行訓(xùn)練。為了更進(jìn)一步考察特征如何影響關(guān)系垛耳,我們將謂詞分為4類:動(dòng)詞栅屏,空間詞飘千,介詞,比較用詞栈雳。
??結(jié)果护奈。通過圖6,我們可以知道什么特征擅長檢測什么關(guān)系的具體細(xì)節(jié):1)進(jìn)行了尺度變換的融合了所有特征的方法在任意類別的關(guān)系上都有最好的表現(xiàn)哥纫;2)類別信息大體上在各種種類的關(guān)系上都要優(yōu)于視覺特征信息霉旗,因?yàn)樗饶鼙硎疽曈X表觀信息(比如目標(biāo)長什么樣子),又包含一定先驗(yàn)知識(shí)(比如一個(gè)“人”比一只“貓”更有可能在“騎自行車”)蛀骇。然而厌秒,對(duì)于介詞關(guān)系,所有的特征表現(xiàn)的都不是很好擅憔。這是因?yàn)榻樵~的空間和視覺線索是不穩(wěn)定的鸵闪,比如“戴手表的人”和“有輪子的汽車”都用with來表示。
??表2證明VTransE端到端的訓(xùn)練方法有利于目標(biāo)檢測蚌讼。這主要是因?yàn)樘卣魈崛硬捎昧酥R(shí)轉(zhuǎn)換的方法,使得關(guān)系預(yù)測產(chǎn)生的錯(cuò)誤能夠反向傳播到目標(biāo)檢測模塊个榕。事實(shí)上篡石,這個(gè)提升是可以預(yù)料到的,因?yàn)槲覀冊(cè)谀繕?biāo)類別信息之上又附加了關(guān)系類別信息西采。如圖7所示夏志,與預(yù)訓(xùn)練過的Faster-RCNN相比,VTransE的目標(biāo)檢測模塊能改善邊界框預(yù)測性能苛让,比如輕微的調(diào)整沟蔑,甚至從嚴(yán)重的錯(cuò)誤恢復(fù)和糾正錯(cuò)誤的檢測。這證明狱杰,關(guān)系將目標(biāo)置于一個(gè)上下文場景中瘦材。比如,當(dāng)錯(cuò)誤預(yù)測為“包”的時(shí)候仿畸,關(guān)系能夠?qū)⑵浼m正為“短褲”食棕,即使正確的檢測結(jié)果應(yīng)該是“褲子”,他們?cè)谡Z義上還是相似的错沽。這個(gè)糾正很可能是被關(guān)系“人穿著短褲/褲子”推斷出來的簿晓。

4.4與時(shí)下最優(yōu)算法的對(duì)比(問題3)

設(shè)置。一些聯(lián)合框方法只能為一個(gè)關(guān)系檢測一個(gè)聯(lián)合的邊界框千埃,這個(gè)我們稍后會(huì)介紹憔儿。因此,除了關(guān)系預(yù)測放可,我們還進(jìn)行短語檢測:輸入一張圖片谒臼,輸出一組關(guān)系三元組并輸出那些與真實(shí)位置重疊超過0.5的關(guān)系的主體和目標(biāo)的邊界框的整個(gè)位置朝刊。
??為了更廣泛地評(píng)估,我們還執(zhí)行了兩個(gè)額外的任務(wù)蜈缤。1)關(guān)系檢索拾氓。通過關(guān)系三元組查詢語句進(jìn)行圖片搜索。我們首先在畫廊圖片上檢測關(guān)系咙鞍,并且根據(jù)關(guān)系查詢的平均關(guān)系來給他們打分。一張圖片如果至少被一次正確地查詢到趾徽,則稱之為一次命中续滋。這個(gè)任務(wù)是綜合語義檢索的一個(gè)表現(xiàn)。我們挑選了最常見的1000種關(guān)系作為查詢目標(biāo)附较。2)zero-shot學(xué)習(xí)吃粒。獨(dú)立的主體,目標(biāo)和謂語在訓(xùn)練和測試的時(shí)候都出現(xiàn)過拒课,但是一些特殊的關(guān)系只有在測試集中才出現(xiàn)過徐勃。由于關(guān)系分布是長尾特性,所以這是一個(gè)實(shí)際的設(shè)置早像,因?yàn)槟悴豢赡馨阉袛?shù)據(jù)的三元組都收集來僻肖。
??比較方法。我們將VTransE網(wǎng)絡(luò)與4個(gè)時(shí)下最優(yōu)的關(guān)系檢測模型相比較卢鹦。1)VisualPhrase:一種聯(lián)合關(guān)系模型臀脏,它將每個(gè)不同的關(guān)系三元組視為一個(gè)關(guān)系類別,為了公平起見冀自,我們將原本的DPM目標(biāo)檢測模型換成Faster-RCNN揉稚。2)DenseCap:它檢測出子圖區(qū)域同時(shí)給出描述。這是一個(gè)使用雙線性插值來進(jìn)行區(qū)域定位的端到端模型熬粗。我們將其的LSTM分類層替換為softmax來預(yù)測關(guān)系搀玖。因此,它也可以被視為是一個(gè)聯(lián)合關(guān)系模型驻呐。3)Lu's-V:這是一個(gè)兩階段的分離式模型灌诅。首先使用R-CNN進(jìn)行目標(biāo)檢測,其次采用最大邊際聯(lián)合框模型進(jìn)行謂詞分類含末。4)Lu's-VLK:除此之外猜拾,我們還將VTransE和2階段訓(xùn)練模型VTransE-2stage進(jìn)行對(duì)比,后者先使用Faster-RCNN進(jìn)行目標(biāo)檢測佣盒,然后使用像問題一中那樣的轉(zhuǎn)換嵌入進(jìn)行謂詞預(yù)測挎袜。
??因?yàn)槲覀儧]有Lu的方法的訓(xùn)練源代碼,所以我們不能把它們應(yīng)用到VG數(shù)據(jù)集上,所以我們引用了他們論文里提出的VRD上的結(jié)果宋雏。此外芜飘,因?yàn)槔鏥isualPrase和DenseCap的模型只能將關(guān)系三元組當(dāng)做一個(gè)整體來檢測务豺,所以他們不能用來進(jìn)行zero-shot學(xué)習(xí)磨总。因此,我們只報(bào)告了在VRD上正式的1877對(duì)zero-shot關(guān)系的zeor-shot結(jié)果笼沥。
??結(jié)果蚪燕。從表3的定量結(jié)果和圖8的定性結(jié)果,我們可知:
1) 像VTransE和Lu’s這種分離式關(guān)系模型的表現(xiàn)要優(yōu)于VisualPhrase和DenseCap這種聯(lián)合模型奔浅,尤其在VRD數(shù)據(jù)集上馆纳。這是因?yàn)槁?lián)合模型對(duì)于所有關(guān)系的分類空間太巨大了,這就使得訓(xùn)練那些不頻繁出現(xiàn)的關(guān)系時(shí)樣本不夠充足汹桦。
2) 對(duì)于分離式模型鲁驶,目標(biāo)檢測網(wǎng)絡(luò)性能越好(VTransE使用Faster-RCNN,Lu’s使用R-CNN)舞骆,關(guān)系檢測的結(jié)果就越好钥弯。如圖8所示,在VRD數(shù)據(jù)集上督禽,lu’s-VLK將音響誤分為人脆霎,將盤子誤分為碗。我們認(rèn)為這是Lu’s-V方法比VTransE方法差的主要原因狈惫。
3) 即使VTransE是一個(gè)純粹的視覺模型睛蛛,它仍由于融合了語言先驗(yàn)的Lu’s-VLK,在VRD數(shù)據(jù)集上的R@50和Med r指標(biāo)胧谈,我們的方法在短語檢測忆肾,關(guān)系檢測,關(guān)系檢索方面分別要好20%菱肖,2%客冈,230%。
4) 端到端的VTransE比2階段的VTransE-2stage在整個(gè)數(shù)據(jù)集上表現(xiàn)得都要好蔑滓。這和問題2中的結(jié)果一起都證明了目標(biāo)和關(guān)系相互學(xué)習(xí)的有效性郊酒。

image.png

5.總結(jié)

我們著眼于視覺關(guān)系檢測任務(wù),它為連接計(jì)算機(jī)視覺和自然語言提供了一個(gè)綜合性的場景理解键袱。朝著這個(gè)任務(wù)出發(fā)燎窘,我們采用了VTransE網(wǎng)絡(luò)來同時(shí)進(jìn)行目標(biāo)檢測和關(guān)系預(yù)測。VTransE是一個(gè)端到端全卷積結(jié)構(gòu)蹄咖,包含一個(gè)目標(biāo)檢測模塊褐健,一個(gè)新穎的微分特征提取層,和一個(gè)新穎的視覺轉(zhuǎn)換嵌入層來進(jìn)行謂詞分類。更進(jìn)一步蚜迅,我們打算1)建模更高階關(guān)系舵匾,比如“人把球扔給狗”,2)應(yīng)對(duì)zero-shot關(guān)系學(xué)習(xí)的挑戰(zhàn)谁不,3)在基于關(guān)系推理的VQA系統(tǒng)中應(yīng)用VTransE坐梯。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市刹帕,隨后出現(xiàn)的幾起案子吵血,更是在濱河造成了極大的恐慌,老刑警劉巖偷溺,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蹋辅,死亡現(xiàn)場離奇詭異,居然都是意外死亡挫掏,警方通過查閱死者的電腦和手機(jī)侦另,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來尉共,“玉大人褒傅,你說我怎么就攤上這事“中希” “怎么了樊卓?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長杠河。 經(jīng)常有香客問我碌尔,道長,這世上最難降的妖魔是什么券敌? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任唾戚,我火速辦了婚禮,結(jié)果婚禮上待诅,老公的妹妹穿的比我還像新娘叹坦。我一直安慰自己,他們只是感情好卑雁,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布募书。 她就那樣靜靜地躺著,像睡著了一般测蹲。 火紅的嫁衣襯著肌膚如雪莹捡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天扣甲,我揣著相機(jī)與錄音篮赢,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛启泣,可吹牛的內(nèi)容都是我干的涣脚。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼寥茫,長吁一口氣:“原來是場噩夢啊……” “哼遣蚀!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起坠敷,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤妙同,失蹤者是張志新(化名)和其女友劉穎射富,沒想到半個(gè)月后膝迎,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡胰耗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年限次,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片柴灯。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡卖漫,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出赠群,到底是詐尸還是另有隱情羊始,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布查描,位于F島的核電站突委,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏冬三。R本人自食惡果不足惜匀油,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望勾笆。 院中可真熱鬧敌蚜,春花似錦、人聲如沸窝爪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蒲每。三九已至纷跛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間啃勉,已是汗流浹背忽舟。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人叮阅。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓刁品,卻偏偏與公主長得像,于是被迫代替她去往敵國和親浩姥。 傳聞我的和親對(duì)象是個(gè)殘疾皇子挑随,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容