title:Combining Lexical and Spatial Knowledge to Predict Spatial Relations between Objects in Images
題目:結合詞匯和空間知識來預測圖像中對象之間的空間關系
摘要:
圖像的顯式表示對于與圖像有關的語言應用很有用。我們設計了一個基于一階型的表示方法朽褪,這個方法可以捕獲圖像中存在的對象及其空間關系置吓。我們對空間關系分類問題采取了監(jiān)督學習的方法无虚,并且研究了空間和以及字典信息在預測上的性能表現(xiàn)。我們發(fā)現(xiàn)衍锚,當結合位置信息時候友题,字典信息對于預測空間信息是十分必須的。我們獲得了一個0.8的F-score分數(shù)戴质,相比較而言度宦,最常見的基線為0.62。
介紹:
根據(jù)數(shù)字圖像數(shù)據(jù)的不斷增長告匠,一個能夠自動將數(shù)據(jù)鏈接到語言的方法是很有價值的戈抄。鑒于數(shù)字圖像數(shù)據(jù)的數(shù)量不斷增長,自動將數(shù)據(jù)鏈接到語言的方法非常有用后专。 由于語言技術和計算機視覺各個領域的最新進展划鸽,結合這兩個領域的研究變得越來越流行,包括自動生成字幕(Karpathy和Fei-Fei戚哎,2014裸诽; Elliott和Keller,2013型凳; Elliott等丈冬, 2014年,Kulkarni等人啰脚,2011年殷蛇,Vinyals等人,2014年橄浓,Yang等人粒梦,2011年)以及將文本翻譯成視覺場景(Coyne等人,2010年)荸实。
尚未廣泛研究的一項任務是從圖像中自動提取豐富的抽象表示(Neumann和Moller匀们,2008; Malinowski和Fritz准给,2014)泄朴。 ¨圖像的形式表示不只是命名存在的對象; 它也可以通過包含對象之間的空間關系來說明視覺場景的某些結構露氮。 這些信息可以增強語言和視覺之間的界面祖灰。 例如,想象一下畔规,搜索顯示“騎著自行車的人”的圖像:圖片必須同時包含一個人和一個自行車局扶,但還不夠。 為了滿足該查詢,該人還必須以某種方式連接到自行車三妈,他的腳放在踏板上畜埋,手放在方向盤上。
我們認為畴蒲,考慮到空間關系的圖像表示可以實現(xiàn)語言和視覺之間更復雜的交互悠鞍,而不僅僅是基本對象共現(xiàn)。
? 本文的目的是使用一階模型的擴展來表示真實情況的圖像模燥。 為了獲得這樣的模型咖祭,我們需要(a)高質(zhì)量,覆蓋面廣的對象定位和識別以及方法(b)準確確定對象特征并(c)檢測對象之間的空間關系涧窒。
由于尚無大范圍物體檢測系統(tǒng)心肪,因此我們手動執(zhí)行步驟(a)和(b)。 因此纠吴,在本文中硬鞍,我們集中于步驟(c):空間關系的檢測。 這很困難戴已,因為可以通過多種方式在視覺場景中實現(xiàn)給定的關系固该。 我們要回答的問題是經(jīng)典邏輯的一階模型是否適合表示圖像,以及哪些特征適合檢測圖像中對象之間的空間關系糖儡。 特別是伐坏,我們要研究詞匯知識對確定空間關系的影響,而與對象識別的質(zhì)量無關握联。
PS:比如騎車的桦沉,騎這個詞匯在圖像中的動作(空間關系)。
論文結構如下金闽。 我們將首先提供有關空間關系的更多背景知識(第2部分)以及有關將視覺與語言技術結合起來的相關工作(第3部分)纯露。 然后派草,我們將在第4節(jié)中介紹我們的數(shù)據(jù)集垦搬,該數(shù)據(jù)集包含一百個圖像以及總共583個需要確定空間關系的定位對象踩萎。 在第5節(jié)中执解,我們詳細概述了分類方法,并介紹和討論了結果拐格。
2.背景-空間關系
在本文中荐虐,我們專注于預測圖像中空間關系的任務藕夫,研究三種關系(部分part-of即A是否是B中的一部分嫡秕,接觸touching渴语,支撐supports;請參見第4節(jié))昆咽。 我們將檢測到的空間關系整合到從邏輯中借用的一階模型中驾凶,從而提供了易于擴展的圖像表示屠升。 一旦檢測到,空間關系還可以用作預測對象之間(例如動作之間)更具體的謂詞的有用基礎狭郑。 例如,“騎乘”以觸摸為前提汇在,而“攜帶”或“握住”為前提是被其他物體支撐或支撐的物體翰萨。 兩個物體的空間配置限制了它們之間可能的(并且合理的)空間關系。 例如糕殉,兩個對象只有在彼此足夠靠近的情況下才可以觸摸亩鬼。
? 對象屬性的知識進一步限制了可能的關系集。 例如阿蝶,如果要求確定圖1中的兩個對象是否處于部分關系中雳锋,則僅憑空間就很難做出決定,也就是說羡洁,不知道對象是什么(通過涂黑圖片表示)玷过。 在這種情況下,空間配置本身無法提供足夠的信息來自信地回答這個問題筑煮。
但是辛蚊,有關對象本身的信息(超出其位置)可改善空間關系預測。 考慮圖2:當我們揭示對象的身份時真仲,我們可以確定冰激凌和男孩沒有部分關系袋马,而貓和頭卻存在。 這種關于空間關系的推論對人類來說是直截了當?shù)慕沼Γ鴮τ谟嬎銠C而言虑凛,這是一項艱巨的任務。 但是软啼,我們建議可以從諸如WordNet(Miller桑谍,1995)和大文本語料庫之類的詞匯資源中收集有用的機器可讀的世界知識。
盡管許多研究人員專注于生成圖像的文字描述(Karpathy和Fei-Fei焰宣,2014; Elliott和Keller霉囚,2013; Elliott等,2014; Kulkarni等匕积,2011; Vinyals等盈罐,2014; Yang等 ,2011年)闪唆,從圖像導出一階語義模型是迄今為止尚未嘗試的任務盅粪。 使用抽象模型而不是文本標簽的優(yōu)點是可以輕松進行推斷。 推理過程包括查詢模型以及檢查一致性和信息性悄蕾。 這極大地促進了圖像數(shù)據(jù)庫的維護票顾,并啟用了諸如問題回答和圖像檢索之類的應用程序(Elliott等础浮,2014)。