來(lái)源:Visual Genome搀菩、thehindu
譯者:王嘉俊 王婉婷 李宏菲
【新智元導(dǎo)讀】ImageNet 已經(jīng)成為全球最大的圖像識(shí)別數(shù)據(jù)庫(kù)巫糙,每年一度的比賽也牽動(dòng)著各大巨頭公司的心弦,如今圖像識(shí)別已經(jīng)能做到很高的水準(zhǔn)拾稳。下一步是圖像理解吮炕,ImageNet 創(chuàng)始人李飛飛開(kāi)啟了 Visual Genome(視覺(jué)基因組)計(jì)劃,要把語(yǔ)義和圖像結(jié)合起來(lái)访得,推動(dòng)人工智能的進(jìn)一步發(fā)展龙亲。近日 Visual Genome 論文發(fā)布,李飛飛要給我們帶來(lái)怎樣的驚喜悍抑?
幾年前鳄炉,機(jī)器學(xué)習(xí)的技術(shù)突破,讓計(jì)算機(jī)學(xué)會(huì)了識(shí)別照片中的物體搜骡,而且非常準(zhǔn)確拂盯。
現(xiàn)在的問(wèn)題是,計(jì)算機(jī)能否帶來(lái)另一個(gè)飛躍:學(xué)會(huì)理解相片中究竟發(fā)生著什么事记靡。
一個(gè)叫 Visual Genome 的圖像數(shù)據(jù)庫(kù)磕仅,可能會(huì)推動(dòng)計(jì)算機(jī)實(shí)現(xiàn)這個(gè)目標(biāo)珊豹。它由斯坦福計(jì)算機(jī)視覺(jué)教授、人工智能實(shí)驗(yàn)室主任李飛飛和幾個(gè)同事開(kāi)發(fā)榕订,我們知道李飛飛教授過(guò)去創(chuàng)建了 ImageNet,而 Visual Genome 是后 ImageNet 時(shí)代計(jì)算機(jī)視覺(jué)在理解圖片上的訓(xùn)練和測(cè)試數(shù)據(jù)集蜕便。
在 Visual Genome 的官方網(wǎng)站上劫恒,把它定義為:
Visual Genome 是一個(gè)數(shù)據(jù)集,知識(shí)庫(kù)轿腺,不斷努力把結(jié)構(gòu)化的圖像概念和語(yǔ)言連接起來(lái)两嘴。
網(wǎng)站:https://visualgenome.org
目前包含:
108249 張圖片
420 萬(wàn)對(duì)區(qū)域的描述(Region Descriptions)
170 萬(wàn)視覺(jué)問(wèn)答(Visual Question Answers)
210 萬(wàn)對(duì)象案例(Object Instances)
180 萬(wàn)屬性(Attributes)
180 萬(wàn)關(guān)系(Relationships)
所有的東西都映射到 Wordnet Synsets
教會(huì)計(jì)算機(jī)解析視覺(jué)圖像是人工智能非常重要的任務(wù),這不久能帶來(lái)更多有用的視覺(jué)算法族壳,而且也能訓(xùn)練計(jì)算機(jī)更為高效的溝通憔辫。畢竟,在表達(dá)真實(shí)世界的時(shí)候仿荆,語(yǔ)言總是受到很大的限制贰您。
“我們專注在計(jì)算機(jī)視覺(jué)領(lǐng)域的一些最艱難的問(wèn)題,給感知和認(rèn)知建立一個(gè)橋梁拢操,”李飛飛說(shuō):“不僅僅是處理像素的數(shù)據(jù)锦亦、知道它的顏色、陰影等事情令境,而且要把它們轉(zhuǎn)變成 3D 形式以進(jìn)行更全面的理解杠园,帶來(lái)語(yǔ)義視覺(jué)的世界√蚴”
ImageNet 包含了超過(guò) 100 萬(wàn)張圖片的數(shù)據(jù)集抛蚁,里面的內(nèi)容都有很好的標(biāo)記。每年惕橙,ImageNet 大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽都會(huì)測(cè)試計(jì)算機(jī)在自動(dòng)識(shí)別圖像內(nèi)容的能力瞧甩。Visual Genome 的圖像要比 ImageNet 的圖像標(biāo)簽更為豐富,包括名字吕漂、圖片的不同細(xì)節(jié)亲配,以及在對(duì)象和動(dòng)作信息之間的關(guān)系。
Visual Genome 使用了眾包的方式實(shí)現(xiàn)惶凝,由李飛飛一位同事 Michael Bernstein 提出吼虎。
2017 年計(jì)劃使用 Visual Genome 數(shù)據(jù)集推出 ImageNet 風(fēng)格的挑戰(zhàn)賽。(Visual Genome 挑戰(zhàn)賽苍鲜?)
論文全文
Visual Genome:Connecting Language and Vision Using Crowdsourced Dense Image Annotations
視覺(jué)基因組:使用眾包密集圖像注釋以聯(lián)結(jié)語(yǔ)言和視覺(jué)
作者:Ranjay Krishna · Yuke Zhu · Oliver Groth · Justin Johnson· Kenji Hata · Joshua Kravitz · Stephanie Chen · Yannis Kalantidis · Li-Jia Li · David A. Shamma · Michael S. Bernstein · Li Fei-Fei
摘要
盡管在感知的任務(wù)上(例如圖像分類)計(jì)算機(jī)有很多進(jìn)展思灰,但是在認(rèn)知的任務(wù)上(例如圖像描述和問(wèn)答),計(jì)算機(jī)表現(xiàn)的不怎么樣混滔。如果我們不僅僅訴求識(shí)別出圖像洒疚,而要深究我們視覺(jué)世界的意義歹颓,那么認(rèn)知是最核心的任務(wù)。被用于解決圖片內(nèi)容豐富的認(rèn)知任務(wù)的模型油湖,依然使用給感知任務(wù)設(shè)計(jì)的相同數(shù)據(jù)集來(lái)訓(xùn)練巍扛。要在認(rèn)知任務(wù)中獲得成功,模型需要理解對(duì)象和物體之間的交互和關(guān)系乏德。當(dāng)問(wèn)道:“這個(gè)人正在騎著什么交通工具撤奸?”的時(shí)候,計(jì)算機(jī)需要識(shí)別出圖片中的物體喊括,以及里面的關(guān)系“騎行”(人胧瓜、馬車)和“拉車”(馬、馬車)郑什,這樣才能正確回答“這個(gè)人正坐著馬車”府喳。
在這篇論文中,我們介紹了 Visual Genome 數(shù)據(jù)集蘑拯,以及使用這種關(guān)系進(jìn)行建模钝满。我們收集了對(duì)象、屬性强胰、圖片里關(guān)系的密集注釋舱沧,以學(xué)習(xí)這些模型。特別的偶洋,我們的數(shù)據(jù)集包括了超過(guò) 10 萬(wàn)張圖片熟吏,每一張圖片都包含了平均 21 個(gè)對(duì)象,18 種屬性和 18 種物體之間的關(guān)系玄窝。我們規(guī)范化了從對(duì)象牵寺、屬性、關(guān)系恩脂、區(qū)域描述里的名詞和短語(yǔ)和問(wèn)答對(duì)到 WordNet 同義詞集的關(guān)系帽氓。這些注釋代表了圖像描述、屬性俩块、關(guān)系和問(wèn)答里最密集黎休、規(guī)模最大的數(shù)據(jù)集。
關(guān)鍵詞:Computer Vision · Dataset · Image · Scene Graph · Question Answering · Objects · Attributes · Relationships · Knowledge · Language · Crowdsourcing
1玉凯、介紹:
計(jì)算機(jī)視覺(jué)領(lǐng)域的圣杯势腮,是完全理解圖像里的場(chǎng)景:一個(gè)能夠命名并且檢測(cè)物體的模型,描述它們的屬性漫仆,識(shí)別出它們的關(guān)系和交互捎拯。理解場(chǎng)景會(huì)帶來(lái)重要的應(yīng)用,例如圖片搜索盲厌、問(wèn)答署照、機(jī)器人交互等祸泪。為了實(shí)現(xiàn)這個(gè)目標(biāo),最近幾年已經(jīng)有了很多的進(jìn)展建芙,包括圖片的分類任務(wù)和對(duì)象識(shí)別上没隘。
一個(gè)起作用的重要因素是大規(guī)模數(shù)據(jù)的可利用性啊央,這驅(qū)動(dòng)了統(tǒng)計(jì)模型,構(gòu)成了今天我們計(jì)算視覺(jué)理解進(jìn)展的基礎(chǔ)涨醋。雖然這個(gè)進(jìn)展很讓人興奮瓜饥,但我們離理解圖像的目標(biāo)還有很遠(yuǎn)的距離。正如圖 1 顯示的浴骂,現(xiàn)在的模型能夠探測(cè)出相片中的潛在物體乓土,但沒(méi)有能力解釋它們之間的的交互和關(guān)系。這種解釋性的行為傾向于自然界的認(rèn)知溯警,整合感知的信息得出關(guān)于圖片物體之間關(guān)系的結(jié)論趣苏。對(duì)我們視覺(jué)世界的認(rèn)知理解,因而需要我們?cè)谟?jì)算機(jī)識(shí)別物體的能力之外梯轻,補(bǔ)充描述物體和理解他們之間交互關(guān)系的能力食磕。
在把下一代的數(shù)據(jù)集整合在一起,以服務(wù)于深度喳挑、認(rèn)知圖像理解任務(wù)的訓(xùn)練和基準(zhǔn)測(cè)試彬伦,現(xiàn)在有越來(lái)越多的努力,其中最出名的是 MS-COCO 和 VQA伊诵。MS-COCO 數(shù)據(jù)集包含了從 Flickr 收集來(lái)的 30 萬(wàn)張真實(shí)世界的照片单绑。每一張圖片,都像素級(jí)別的分割成 91 種對(duì)象級(jí)別和 5 個(gè)獨(dú)立的日戈、用戶生成的句子询张,以描述這個(gè)場(chǎng)景。VQA 給相關(guān)圖片的視覺(jué)內(nèi)容增加了 61.4 萬(wàn)的問(wèn)答對(duì)浙炼。在這些信息下份氧,MS-COCO 和 VQA 給致力于精準(zhǔn)物體識(shí)別唯袄、分割、給圖片總結(jié)性的文字和基礎(chǔ)的問(wèn)答任務(wù)的模型蜗帜,提供了多產(chǎn)的訓(xùn)練和測(cè)試基礎(chǔ)恋拷。例如,最前沿的模型提供了對(duì) MS-COCO 圖片(圖1)的描述“兩個(gè)人站在一只象旁邊”厅缺。但是關(guān)于進(jìn)一步理解各個(gè)對(duì)象在哪里蔬顾,每個(gè)人在做什么,人和象的關(guān)系是什么湘捎,都丟失掉了诀豁。沒(méi)有這樣的關(guān)系,這個(gè)模型沒(méi)法把它和其他人站在大象旁邊的圖片區(qū)分開(kāi)來(lái)窥妇。
為了更徹底的理解圖像舷胜,我們認(rèn)為有三個(gè)關(guān)鍵元素需要添加到現(xiàn)在的數(shù)據(jù)集中:
1、將視覺(jué)概念落實(shí)到語(yǔ)義層面(a grounding of visual concepts to language)
2活翩、基于多區(qū)域圖片的更加完整描述和問(wèn)答(more complete set of descriptions and QAs)
3烹骨、對(duì)圖片各個(gè)組成的形式化表示(a formalized representation of the components of an image)
出于把視覺(jué)世界里面的完全信息映射出來(lái),我們向大家介紹 Visual Genome 數(shù)據(jù)集材泄。Visual Genome 數(shù)據(jù)集的第一次發(fā)布使用了 108249 張圖片沮焕,來(lái)自于 YFCC100M 和 MS-COCO 的交集。章節(jié) 5 對(duì)這個(gè)數(shù)據(jù)集有更詳細(xì)的描述拉宗。我們會(huì)在下面強(qiáng)調(diào)峦树,正是這三個(gè)關(guān)鍵因素的動(dòng)機(jī)和貢獻(xiàn),讓 Visual Genome 和其他已有的數(shù)據(jù)集有很大的差異化簿废。
除了傳統(tǒng)的對(duì)對(duì)象進(jìn)行關(guān)注外空入,Visual Genome 數(shù)據(jù)集把關(guān)系和屬性,作為注釋里面的頭等公民看待族檬。對(duì)于完整理解一張圖片而言歪赢,對(duì)關(guān)系和屬性的識(shí)別是非常重要的部分,而在很多案例中单料,這些部分是講述場(chǎng)景故事的關(guān)鍵(例如“一只狗追著人跑”和“一個(gè)人追著狗跑”的不同)埋凯。Visual Genome 是首個(gè)提供物體的交互和屬性的詳細(xì)標(biāo)簽,將視覺(jué)概念落實(shí)到語(yǔ)義層面的數(shù)據(jù)集扫尖。
通常來(lái)說(shuō)白对,一張圖片有豐富的場(chǎng)景,但很難用一個(gè)句子完全描述换怖。圖1 包含了很多故事“一個(gè)男人正在給象拍照”甩恼,“一個(gè)女人正在喂食一頭象”,“一條河背后蔥蔥郁郁的地面”等。現(xiàn)在的數(shù)據(jù)庫(kù)例如 Flickr 30K 和 MS-COCO 專注于對(duì)圖像進(jìn)行高層次的描述条摸。相對(duì)的悦污,對(duì)于 Visual Genome 數(shù)據(jù)集里的每一張圖片,我們收集了 圖片中不同區(qū)域的 42 種描述钉蒲,提供了更加密集和完全的圖像描述切端。另外,在 VQA 的激發(fā)下顷啼,我們也根據(jù)對(duì)每張圖片的描述踏枣,平均收集了 17 種問(wèn)答對(duì)「泼桑基于區(qū)域的問(wèn)答可以被用于共同發(fā)展 NLP 和視覺(jué)模型茵瀑,可以根據(jù)描述或圖片,或者兩者以回答問(wèn)題躬厌。
通過(guò)一張圖片的密集描述瘾婿、視覺(jué)像素(對(duì)象的界限)和文字描述(關(guān)系,屬性)的明確對(duì)應(yīng)烤咧,Visual Genome 現(xiàn)在是第一個(gè)能夠提供結(jié)構(gòu)化的對(duì)圖片進(jìn)行形式化表示的數(shù)據(jù)集,在這種形式下能夠大量用于 NLP 的基于知識(shí)的展示中抢呆。例如在圖 1 煮嫌,我們可以正式的表達(dá)出“舉著”這個(gè)關(guān)系涉及到女人和食物。把所有的對(duì)象和他們?cè)趫D片中的關(guān)系放在一起抱虐,我們可以把每幅圖片看作是場(chǎng)景圖昌阿。場(chǎng)景圖展示被用于提升提高語(yǔ)義圖片的檢索和給圖片加上說(shuō)明。更進(jìn)一步說(shuō)恳邀,Visual Genome 里面每一張圖片的所有對(duì)象懦冰、屬性和關(guān)系,都會(huì)建立和 Word-Net 的規(guī)范化映射谣沸。這個(gè)映射聯(lián)結(jié)了所有 Visual Genome 的圖片刷钢,也提供了有效的方法對(duì)數(shù)據(jù)集里相同的概念(對(duì)象、屬性或關(guān)系)有一致的提問(wèn)乳附。它也可能幫助訓(xùn)練模型内地,從多張圖片的上下文信息中學(xué)習(xí)。
在這篇論文中赋除,為了能夠高效地展開(kāi)模型的訓(xùn)練以及定立能夠用于綜合場(chǎng)景理解的下一代計(jì)算機(jī)模型基準(zhǔn)阱缓,我們引進(jìn)了Visual Genome 數(shù)據(jù)集。這篇論文的安排如下:章節(jié)2举农,我們展現(xiàn)了關(guān)于數(shù)據(jù)集中各個(gè)組成部分的細(xì)節(jié)描述荆针。章節(jié)3,展示了相關(guān)數(shù)據(jù)集以及相關(guān)識(shí)別任務(wù)的回顧。章節(jié)4航背,討論了我們?cè)诔掷m(xù)努力收集這個(gè)數(shù)據(jù)集的過(guò)程中采用的眾包策略喉悴。章節(jié)5,是對(duì)數(shù)據(jù)統(tǒng)計(jì)分析的收集沃粗,展示了Visual Genome 數(shù)據(jù)集的特性粥惧。最后同等重要的是,章節(jié)6展示了采用了Visual Genome 數(shù)據(jù)集作為基準(zhǔn)進(jìn)行實(shí)驗(yàn)研究的一組實(shí)驗(yàn)結(jié)果最盅。
未來(lái)突雪,基于Visual Genome 數(shù)據(jù)集的可視化模型、API涡贱、以及其它信息可以在線獲取咏删。
2、Visual Genome 的數(shù)據(jù)表現(xiàn)
Visual Genome 數(shù)據(jù)集包括 7 個(gè)主要部分:區(qū)域描述丹皱、對(duì)象妒穴、屬性、關(guān)系摊崭、區(qū)域圖讼油、場(chǎng)景圖和問(wèn)答對(duì)。圖 4 展示了一幅畫的每一個(gè)部分的例子呢簸。要對(duì)圖像進(jìn)行理解的研究矮台,我們從收集描述和問(wèn)答對(duì)開(kāi)始。這些是原始的文本根时,沒(méi)有任何長(zhǎng)度和詞匯的限制瘦赫。下一步,我們從描述中提取對(duì)象蛤迎、屬性和關(guān)系耸彪。這些對(duì)象、屬性和關(guān)系一起構(gòu)造了我們的場(chǎng)景圖忘苛,這代表了一般的圖像。在這個(gè)章節(jié)中唱较,我們分解了圖像 4扎唾,也對(duì)里面的 7 個(gè)部分分別進(jìn)行了解釋。在章節(jié) 4 中南缓,我們會(huì)對(duì)此進(jìn)行更詳盡的描述胸遇,來(lái)自各個(gè)部分的數(shù)據(jù),是如何通過(guò)眾包平臺(tái)收集的汉形。
2.1 多區(qū)域和對(duì)它們的描述
在真實(shí)世界中纸镊,一個(gè)簡(jiǎn)單的總結(jié),往往不足以描述圖片的所有內(nèi)容和交互概疆。相反逗威,一個(gè)自然的擴(kuò)展方法是,對(duì)圖像的不同區(qū)域進(jìn)行分別描述岔冀。在 Visual Genome 中凯旭,我們收集了人們對(duì)圖像不同區(qū)域的描述,每一個(gè)區(qū)域都由邊框進(jìn)行坐標(biāo)限定。在圖像 5 中罐呼,我們展示了按區(qū)域描述的 3 個(gè)案例鞠柄。不同的區(qū)域之間被允許有高度的重復(fù),而描述會(huì)有所不同嫉柴。例如說(shuō)厌杜,“黃色消防栓”和“穿短褲的姑娘正站在男人的背后”的重疊部分非常少,但“男人跳過(guò)消防栓”和其他兩個(gè)區(qū)域有著很高的重疊计螺。我們的數(shù)據(jù)對(duì)每一張圖片平局有著 42 種區(qū)域描述夯尽。每一個(gè)描述都是一個(gè)短語(yǔ)包含著從 1 到 16 個(gè)字母長(zhǎng)度,以描述這個(gè)區(qū)域危尿。
2.2 多個(gè)物體與它們的邊框
在我們的數(shù)據(jù)集中呐萌,平均每張圖片包含21個(gè)物體,每個(gè)物體周圍有一個(gè)邊框(見(jiàn)圖6)谊娇。不僅如此肺孤,每個(gè)物體在WordNet中都有一個(gè)規(guī)范化的ID。比如济欢,man和person會(huì)被映射到man.n.03|(the generic use of the word to refer to any human being)赠堵。相似的,person被映射到person.n.01 (a human being)法褥。隨后茫叭,由于存在上位詞man.n.03,這兩個(gè)概念就可以加入person.n.01中了半等。這是一個(gè)重要的標(biāo)準(zhǔn)化步驟揍愁,以此避免同一個(gè)物體有多個(gè)名字(比如,man杀饵,person莽囤,human),也能在不同圖片間實(shí)現(xiàn)信息互聯(lián)切距。
2.3 一組屬性
Visual Genome中,平均每張圖片有16個(gè)屬性蔚叨。一個(gè)物體可以有0個(gè)或是更多的屬性是钥。屬性可以是顏色(比如yellow)掠归,狀態(tài)(比如standing),等等(見(jiàn)圖7)悄泥。就像我們從區(qū)域描述中提取物體一樣虏冻,我們也能提取出這些物體自身的屬性。在圖7中弹囚,從短語(yǔ)“yellow fire hydrant”里厨相,我們提取到了“fire hydrant”有“yellow”屬性。和物體一樣鸥鹉,我們也把屬性在WordNet中規(guī)范化蛮穿;比如,yellow被映射到y(tǒng)ellow.s.01 (of the color intermediate between green and orange in the color spectrum; of something resembling the color of an egg yolk)毁渗。
2.4 一組關(guān)系
“關(guān)系”將兩個(gè)物體關(guān)聯(lián)到一起践磅,可以是動(dòng)作(比如jumping over),空間位置(比如is behind)灸异,動(dòng)詞(比如wear)府适,介詞(比如with),比較詞(比如taller than)肺樟,或者是介詞短語(yǔ)(比如drive on)檐春。例如,從區(qū)域描述“man jumping over fire hydrant”中么伯,我們提取到物體man和物體fire hydrant之間的關(guān)系是jumping over(見(jiàn)圖8)疟暖。這些關(guān)系是從一個(gè)物體(也叫主體)指向另一個(gè)物體(也叫客體)的。在這個(gè)例子里田柔,主體是man俐巴,他正在對(duì)客體fire hydrant表現(xiàn)出jumping over的關(guān)系。每個(gè)關(guān)系也在WordNet中有規(guī)范化的synset ID:jumping被映射到j(luò)ump.a.1 (move forward by leaps and bounds)硬爆。平均而言窜骄,我們數(shù)據(jù)集中的每張圖片包含18個(gè)關(guān)系。
2.5 一組區(qū)域圖
我們將從區(qū)域描述中提取的物體夭坪、屬性、以及關(guān)系結(jié)合在一起过椎,每42個(gè)區(qū)域創(chuàng)造一幅有向圖表征室梅。區(qū)域圖的樣子見(jiàn)圖4。每幅區(qū)域圖都是對(duì)于圖片的一部分所做的結(jié)構(gòu)化表征疚宇。區(qū)域圖中的節(jié)點(diǎn)代表物體亡鼠、屬性、以及關(guān)系敷待。物體與它們各自的屬性相連间涵,而關(guān)系則從一個(gè)物體指向另一個(gè)物體。圖4中連接兩個(gè)物體的箭頭榜揖,從主體物體指向關(guān)系勾哩,再?gòu)年P(guān)系指向其他物體。
2.6 全景圖
區(qū)域圖是一張圖片某一區(qū)域的表征根盒,我們也將它們?nèi)诤显谝黄鸪蔀橐环鼙碚髡麖垐D片的全景圖钳幅。全景圖是所有區(qū)域圖的拼合,包括每個(gè)區(qū)域描述中所有的物體炎滞、屬性敢艰、以及關(guān)系。通過(guò)這個(gè)方式册赛,我們能夠以更連貫的方式結(jié)合多個(gè)層次的全景信息钠导。例如,在圖4中森瘪,最左邊的區(qū)域描述告訴我們“fire hydrant is yellow”牡属,而中間的區(qū)域描述告訴我們“man is jumping over the fire hydrant”。將它們拼合在一起以后扼睬,這兩個(gè)描述告訴我們的是“man is jumping over a yellow fire hydrant”逮栅。
2.7 一組問(wèn)答
我們的數(shù)據(jù)集中,每張圖片都有兩類問(wèn)答:基于整張圖片的隨意問(wèn)答(freeform QAs)窗宇,以及基于選定區(qū)域的區(qū)域問(wèn)答(region-based QAs)措伐。我們?yōu)槊繌垐D片收集了6個(gè)不同類型的問(wèn)題:what,where军俊,how侥加,when,who粪躬,以及why担败。在圖4中昔穴,“問(wèn):女人站在什么的邊上?提前;答:她的行李”就是一個(gè)隨意問(wèn)答吗货。每張圖片的問(wèn)題都包含了這6個(gè)類型,每個(gè)類型至少有1個(gè)問(wèn)題岖研。區(qū)域問(wèn)答是通過(guò)區(qū)域描述收集的卿操。例如,我們通過(guò)“黃色消防栓”的描述收集到了這個(gè)區(qū)域問(wèn)答:“問(wèn):消防栓是什么顏色的孙援?害淤;答:黃色”。區(qū)域問(wèn)答讓我們能夠獨(dú)立地研究如何優(yōu)先運(yùn)用NLP和視覺(jué)來(lái)回答問(wèn)題拓售。
3窥摄、眾包策略
Visual Genome的數(shù)據(jù)收集和驗(yàn)證工作全部是由Amazon Mechanical Turk的眾包工人(crowd workers)完成的。在這一節(jié)中础淤,我們概括了一些創(chuàng)造數(shù)據(jù)集時(shí)運(yùn)用到的途徑崭放。每個(gè)元素(區(qū)域描述、物體鸽凶、屬性币砂、關(guān)系、區(qū)域圖玻侥、全景圖决摧、問(wèn)答)都包含了多個(gè)任務(wù)階段。我們用了不同的策略來(lái)讓保持?jǐn)?shù)據(jù)的準(zhǔn)確性和每個(gè)元素的多樣性凑兰。我們也提供了這些幫助Visual Genome建立起來(lái)的眾包工人的背景信息掌桩。
3.1 驗(yàn)證
一旦標(biāo)注完成,所有的Visual Genome數(shù)據(jù)都會(huì)進(jìn)入一個(gè)驗(yàn)證階段姑食。這個(gè)階段能夠幫助消除被錯(cuò)誤標(biāo)記的物體波岛、屬性、以及關(guān)系音半。它也能夠幫助移除一些可能正確卻有些含糊(比如“這個(gè)人看上去在享受陽(yáng)光”)则拷、主觀(比如“屋子看上去很臟”)、或是武斷(比如“暴露在這種艷陽(yáng)下可能會(huì)導(dǎo)致癌癥”)的區(qū)域描述和問(wèn)答曹鸠。
驗(yàn)證是通過(guò)兩種不同的策略實(shí)施的:多數(shù)人投票(majority voting)和快速判斷(rapid judgments)煌茬。數(shù)據(jù)集中除了物體之外的元素都是使用多數(shù)人投票的方式來(lái)驗(yàn)證的。多數(shù)人投票的方法是物延,由3個(gè)眾包工人閱讀每一條注釋,隨后判斷注釋是否在事實(shí)上是正確的(factually correct)仅父。只有當(dāng)3人中至少2人認(rèn)可后叛薯,這條注釋才會(huì)被加入我們的數(shù)據(jù)集中浑吟。
我們只在物體的判別上使用快速判斷來(lái)加快驗(yàn)證速度『牧铮快速判斷用到一種受快速序列視覺(jué)加工(rapid serial visual processing)所啟發(fā)而產(chǎn)生的交互界面组力,能夠讓對(duì)物體的驗(yàn)證在速度上比多數(shù)人投票有量級(jí)的提升。
3.2 規(guī)則化
我們收集的所有描述和問(wèn)答都是眾包工人們寫下的形式自由的文字抖拴。例如燎字,我們并不強(qiáng)迫眾包工人一定要將圖片中的一個(gè)男性寫作man。我們?cè)试S他們擇取各種表達(dá)阿宅,比如person候衍,boy,man洒放,等等蛉鹿。這種模糊性使得我們難以從數(shù)據(jù)集中收集所有man的例子。為了減少這些概念的模糊性往湿、并將我們的數(shù)據(jù)集與學(xué)術(shù)圈中使用的其他資源相聯(lián)系妖异,我們將所有的物體、屬性领追、關(guān)系他膳、以及區(qū)域描述和問(wèn)答中名詞短語(yǔ)都映射到了WordNet的同義詞集合(synset)中。在剛才的例子里绒窑,person棕孙、boy、和man會(huì)被分別映射到以下同義詞集合:person.n.01 (a human being)回论,male_child.n.01 (a youthful male person)散罕,以及man.n.03 (the generic use of the word to refer to any human being)。由于WordNet具有的層級(jí)結(jié)構(gòu)傀蓉,我們可以將這三種表達(dá)都融入到同一個(gè)概念(person.n.01 (a human being))中——因?yàn)檫@是這幾個(gè)同義詞集合的最低層次公共祖先節(jié)點(diǎn)(lowest common ancestor node)欧漱。
我們使用Stanford NLP工具來(lái)從區(qū)域描述和問(wèn)答中提取名詞短語(yǔ)。接著葬燎,根據(jù)WordNet的詞素計(jì)數(shù)(lexeme counts)误甚,我們將它們映射到WordNet中最頻繁匹配(most frequent matching)的同義詞集合里。隨后谱净,我們?yōu)?0中最常見(jiàn)的失敗案例人工創(chuàng)造了映射規(guī)則窑邦,以此完善這種簡(jiǎn)單的映射邏輯。比如壕探,根據(jù)WordNet的詞素計(jì)數(shù)冈钦,table最常見(jiàn)的語(yǔ)義是table.n.01 (a set of data arranged in rows and columns)。然而在我們的數(shù)據(jù)中李请,更有可能出現(xiàn)家具瞧筛,因此映射應(yīng)該傾向于table.n.02 (a piece of furniture having a smooth flat top that is usually supported by one or more vertical legs)厉熟。全景圖中的物體已經(jīng)是名詞短語(yǔ)了,也依據(jù)相同的方式映射到WordNet中较幌。
我們基于形態(tài)學(xué)(morphology)對(duì)每一個(gè)屬性都做了正態(tài)化揍瑟,并將它們映射到WordNet中。我們另外加入了15個(gè)人工創(chuàng)造的規(guī)則來(lái)應(yīng)對(duì)常見(jiàn)的失敗案例乍炉。例如绢片,同義詞集合long.a.02 (of relatively great or greater than average spatial extension)在WordNet中不如long.a.01 (indicating a relatively great or greater than average duration of time)常見(jiàn),但是這個(gè)詞在我們的圖片中更有可能指的是前者岛琼。
對(duì)于關(guān)系底循,我們忽略了其中所有的介詞,因?yàn)榻樵~無(wú)法被WordNet識(shí)別衷恭。因?yàn)閯?dòng)詞的意思在很大程度上依賴于它們的形態(tài)和在句子中的位置(例如此叠,被動(dòng)態(tài)、介詞短語(yǔ))随珠,我們嘗試在WordNet中尋找語(yǔ)句框架與數(shù)據(jù)集中關(guān)系的語(yǔ)境相匹配的同義詞集合灭袁。WordNet中的語(yǔ)句框架是一種形式化的語(yǔ)法框架,例如窗看,play.v.01: participate in games or sport出現(xiàn)在“Somebody [play]s”和“Somebody [play]s something”茸歧。隨后,對(duì)于每個(gè)動(dòng)詞-同義詞集合的配對(duì)显沈,我們使用這個(gè)同義詞集合的根源上位詞软瞎,以此降低WordNet細(xì)致的語(yǔ)義區(qū)分可能帶來(lái)的噪音。WordNet的動(dòng)詞層級(jí)來(lái)自超過(guò)100個(gè)根源動(dòng)詞拉讯。例如涤浇,draw.v.01: cause to move by pulling可以追溯回根源上位詞move.v.02: cause to move or shift into a new position,而draw.v.02: get or derive可以追溯回根源上位詞get.v.01: come into the possession of something concrete or abstract魔慷。我們也人工添加了20條規(guī)則只锭,用以應(yīng)對(duì)常見(jiàn)失敗案例。
這些映射并不是完美的院尔,仍然含有一些模糊性蜻展。因此,我們將每個(gè)映射和它最有可能的4個(gè)候選同義詞集合發(fā)送給Amazon Mechanical Turk邀摆,讓眾包工人們來(lái)驗(yàn)證我們的映射是否正確纵顾、是否有哪個(gè)候選同義詞集合更合適。我們像眾包工人們展示我們想要規(guī)范化的概念與我們提出的對(duì)應(yīng)同義詞集合栋盹,并給出另外4個(gè)候選同義詞集合施逾。為了防止眾包工人們總是默認(rèn)我們提出的同義詞集合最合適,我們并不會(huì)直白地標(biāo)示出5個(gè)同義詞集合中哪個(gè)是我們提出的。5.8節(jié)列出了我們規(guī)范化策略的實(shí)驗(yàn)精確率(precision)和召回率(recall)汉额。
4.未來(lái)應(yīng)用
我們已經(jīng)分析了這個(gè)數(shù)據(jù)集的各個(gè)組成部分沪饺,并且呈現(xiàn)了基于像是屬性分類、關(guān)系分類闷愤、描述生成、回答問(wèn)題等任務(wù)的基線實(shí)驗(yàn)結(jié)果件余。然而讥脐,我們的數(shù)據(jù)集能夠用于更多的應(yīng)用和實(shí)驗(yàn)任務(wù)中。在這個(gè)章節(jié)中啼器,我們列舉了一些未來(lái)可能會(huì)使用到我們數(shù)據(jù)集的一些潛在應(yīng)用旬渠。
密集的圖像注釋。我們已經(jīng)看到了許多關(guān)于圖像注釋的論文(如:Kiros et al.,2014,Mao et al.,2014,Karpathy and Fei-Fei,2014,Vinyals et al.,2014)端壳。這些論文的大致思想都是嘗試用一個(gè)圖像注釋來(lái)描述一整幅圖像告丢。然而,這些圖像注釋并沒(méi)有詳盡地描述圖像中每一部分的場(chǎng)景损谦。但是通過(guò)啟用Visual Genome 數(shù)據(jù)集岖免,能夠使得這種應(yīng)用獲得一個(gè)自然的延伸。即是通過(guò)在Visual Genome 數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練照捡,創(chuàng)造出描述圖像中每部分場(chǎng)景的密集圖像注釋模型颅湘。
視覺(jué)問(wèn)答。雖然視覺(jué)問(wèn)答作為一個(gè)獨(dú)立的任務(wù)被研究栗精。(Yu et al.,2015,Ren et al.,2015a,Antol et al.,2015,Gao et al.,2015),但是我們引進(jìn)了一個(gè)將所有問(wèn)題的答案說(shuō)明和場(chǎng)景圖片結(jié)合起來(lái)的數(shù)據(jù)集闯参。未來(lái)工作可以創(chuàng)建一個(gè)用Visual Genome(視覺(jué)基因組) 數(shù)據(jù)集的各個(gè)組件來(lái)解決視覺(jué)問(wèn)答的監(jiān)督模型。
圖像理解悲立。雖然我們已經(jīng)看到圖像注釋(Kiros et al.,2014)和問(wèn)答模型(Antol et al.,2015)的迅猛發(fā)展鹿寨。但是基于此還有一些工作還有待完成。即是創(chuàng)建更多的綜合評(píng)價(jià)指標(biāo)來(lái)衡量這些模型的性能薪夕。這樣的模型通常用BLEU脚草,CIDEr,或者是METEOR和其它與這些指標(biāo)相似的指標(biāo)來(lái)進(jìn)行模型性能的評(píng)估眉踱。但是這些指標(biāo)不能很好地評(píng)估出這些模型在理解圖像方面(Chen et al.,2015)的性能如何聂喇。Visual Genome 數(shù)據(jù)集中的場(chǎng)景圖片可以被用來(lái)作為在圖像理解方面模型性能的一種評(píng)估方式。生成性的描述和答案可以通過(guò)與圖像的地面真實(shí)場(chǎng)景圖進(jìn)行匹配來(lái)對(duì)其相應(yīng)的模型進(jìn)行評(píng)估刮萌。
關(guān)系提取嚼贡。關(guān)系提取已經(jīng)在信息檢索和自然語(yǔ)言處理領(lǐng)域中被廣泛地研究熏纯。(Zhou et al.,2007,GuoDong et al.,2005,Culotta and Sorensen,2004,Socher et al.,2012).Visual Genome 數(shù)據(jù)集是第一個(gè)大規(guī)模的視覺(jué)關(guān)系數(shù)據(jù)集。這個(gè)數(shù)據(jù)集能夠被用于圖像視覺(jué)關(guān)系提取(Sadeghi et al.,2015)的研究中粤策,并且對(duì)象之間的相互作用也能夠被用于行為識(shí)別的研究(Yao and Fei-Fei,2010,Ramanathan et al.,2015)以及對(duì)象之間的空間定位(Gupta et al.,2009,Prest et al.,2012)的研究中樟澜。
語(yǔ)義圖像檢索。之前的工作已經(jīng)表明:場(chǎng)景圖片能夠被用來(lái)改善語(yǔ)義圖像搜索性能(Johnson et al.,2015,Schuster et al.,2015)。未來(lái)新的方法可以用我們的區(qū)域描述與區(qū)域圖片相結(jié)合來(lái)進(jìn)行探測(cè)秩贰∨常基于注意力(Attention-based)的搜索方法也能夠通過(guò)由查詢指定的并且也定位在檢索到的圖像中的感興趣區(qū)域來(lái)進(jìn)行探測(cè)。
5.結(jié)論
Visual Genome 數(shù)據(jù)集提供了一個(gè)多層次的圖片理解毒费,基于此丙唧,也能基于多角度對(duì)一幅圖像進(jìn)行研究。從像素級(jí)信息(如對(duì)象)觅玻,到要求進(jìn)一步推導(dǎo)的關(guān)系模型想际,甚至到更深層次的認(rèn)知任務(wù)(如 視覺(jué)問(wèn)答)。從模型的訓(xùn)練和定立下一代計(jì)算機(jī)視覺(jué)模型基準(zhǔn)兩方面來(lái)說(shuō)溪厘,Visual Genome 是一個(gè)全面的數(shù)據(jù)集胡本,我們希望這些模型能夠建立一個(gè)對(duì)我們視覺(jué)世界更廣泛的理解。完善檢測(cè)對(duì)象的計(jì)算機(jī)能力畸悬,并且這些被檢測(cè)的對(duì)象要同時(shí)兼顧能夠描述那些對(duì)象以及解釋對(duì)象之間的相互作用和關(guān)系的能力侧甫。對(duì)于視覺(jué)理解和一個(gè)更加完整的描述集以及基于視覺(jué)概念到語(yǔ)言的視覺(jué)問(wèn)答模型來(lái)說(shuō),Visual Genome 數(shù)據(jù)集是一個(gè)大型的形式化的知識(shí)表述蹋宦。
轉(zhuǎn)載自:后 ImageNet 時(shí)代:李飛飛視覺(jué)基因組重磅計(jì)劃披粟,新一輪競(jìng)賽!
其實(shí)轉(zhuǎn)載這篇文章是因?yàn)楦杏X(jué)Visual Genome蠻不錯(cuò)的冷冗。