多模態(tài)知識(shí)圖譜-綜述

來(lái)源1:“Multi-Modal Knowledge Graph Construction and Application: A Survey”

作者:Xiangru Zhu, Zhixu Li Member, IEEE, Xiaodan Wang, Xueyao Jiang, Penglei Sun, Xuwu Wang, Yanghua Xiao Member, IEEE, Nicholas Jing Yuan Member, IEEE

來(lái)源2https://zhuanlan.zhihu.com/p/484096631

閱讀對(duì)象:想要快速了解多模態(tài)知識(shí)圖譜相關(guān)研究?jī)?nèi)容的讀者萤衰,最好具有知識(shí)圖譜基礎(chǔ)知識(shí)

常用縮寫:知識(shí)圖譜-KG;多模態(tài)知識(shí)圖譜-MMKG呕诉;傳統(tǒng)符號(hào)模態(tài)知識(shí)圖譜-SKG

????本文在來(lái)源1和來(lái)源2的基礎(chǔ)上置蜀,進(jìn)行進(jìn)一步完善和梳理生成;文章中每一個(gè)引文以[索引-年份]形式表示姐霍,可以方便了解相關(guān)工作的年份鄙麦;本文中的多模態(tài)數(shù)據(jù)主要考慮圖像模態(tài)。


知識(shí)體系腦圖

一镊折、研究背景與意義

????知識(shí)圖譜(KG)本質(zhì)上是一個(gè)以實(shí)體/概念作為節(jié)點(diǎn)胯府,以它們之間的各種語(yǔ)義關(guān)系作為邊的大規(guī)模語(yǔ)義網(wǎng)絡(luò)。然而恨胚,現(xiàn)有的知識(shí)圖譜大多是以文本(符號(hào))的形式表示骂因,這削弱了機(jī)器描述和理解現(xiàn)實(shí)世界的能力。例如赃泡,一個(gè)人如果沒有跟狗直接接觸的經(jīng)歷寒波,或者沒有看過相關(guān)視頻或圖片,是無(wú)法通過“狗”這個(gè)符號(hào)去準(zhǔn)確理解狗的含義的升熊。再比如俄烁,如果一個(gè)人沒有做過“藏手禮”,甚至沒有在影視劇或者照片中見過“藏手禮”级野,他是無(wú)法理解藏手禮是一種特殊的姿勢(shì)(手在大衣襟翼)页屠。對(duì)此,為了更好地理解真實(shí)的世界蓖柔,研究者們嘗試將符號(hào)與其在真實(shí)世界中的表示形式(圖片辰企、視頻、音頻等)進(jìn)行關(guān)聯(lián)况鸣。

? ? 另一方面牢贸,多模態(tài)知識(shí)的應(yīng)用在計(jì)算機(jī)其他領(lǐng)域的需求上也越來(lái)越迫切。例如镐捧,在關(guān)系抽取任務(wù)中潜索,附加圖像信息會(huì)大大提高視覺上明顯臭增,但是從純文本符號(hào)層面難以識(shí)別的屬性和關(guān)系的抽取性能。例如屏幕和筆記本電腦的partOf關(guān)系帮辟,香蕉和黃色或黃綠色的colorOf關(guān)系等等速址;在文本生成任務(wù)中,附加圖像信息也可以幫助生成包含更加豐富且準(zhǔn)確信息的句子由驹。例如芍锚,在沒有圖片賦能的情況下,生成“一個(gè)金發(fā)的高個(gè)子正在演講”蔓榄,如果有合適的圖片賦能并炮,則會(huì)生成“唐納德特朗普正在發(fā)表演講”。

? ? ?知識(shí)圖譜已經(jīng)成為認(rèn)知智能的基石甥郑,主要以常識(shí)庫(kù)的形式為機(jī)器的自然語(yǔ)言理解和可解釋推理等應(yīng)用提供服務(wù)逃魄,成為人工智能領(lǐng)域不可獲取的一部分。隨著人工智能技術(shù)的發(fā)展澜搅,傳統(tǒng)的單符號(hào)模態(tài)知識(shí)圖譜(SKG)已經(jīng)無(wú)法滿足當(dāng)前應(yīng)用的需求伍俘,多模態(tài)知識(shí)圖譜(MMKG)對(duì)真實(shí)世界具有更加優(yōu)秀的建模能力,越來(lái)越收到研究者們的關(guān)注勉躺,也得到了快速的發(fā)展癌瘾。下面將主要圍繞對(duì)MMKG的構(gòu)建和應(yīng)用相關(guān)技術(shù)進(jìn)展進(jìn)行系統(tǒng)性的探討。

二饵溅、多模態(tài)知識(shí)圖譜定義?

????MMKG的定義可以看做是SKG定義的一種擴(kuò)展妨退,主要根據(jù)將非符號(hào)模態(tài)信息的表示形式,可以分為基于屬性表示的多模態(tài)知識(shí)圖譜——A-MMKG和基于實(shí)體表示的多模態(tài)知識(shí)圖譜——N-MMKG蜕企。即A-MMKG定義中將圖片等模態(tài)信息表示為符號(hào)表示實(shí)體的屬性信息咬荷;N-MMKG定義中將圖片等模態(tài)信息表示為獨(dú)立實(shí)體,與其他實(shí)體建立關(guān)系轻掩。

圖1? A-MMKG(a)和N-MMKG(b)示例
圖2? 圖1中兩個(gè)MMKG的RDF表示

????圖1中分別給出了A-MMKG和N-MMKG的示例幸乒。圖2為圖1中MMKG對(duì)應(yīng)的RDF三元組數(shù)據(jù)。例如唇牧,圖1-(a)中逝变,法國(guó)國(guó)旗圖片作為法國(guó)實(shí)體的hasImage屬性表示;圖1-(b)中奋构,埃菲爾鐵塔圖片作為實(shí)體與巴黎實(shí)體具有imageOf關(guān)系;圖1-(b)中拱层,兩個(gè)埃菲爾鐵塔圖片之間具有similar關(guān)系弥臼;除此之外,還包括如下關(guān)系根灯,contain:一個(gè)圖像實(shí)體通過圖像的相對(duì)位置在視覺上包含另一個(gè)圖像實(shí)體径缅;nearBy:一個(gè)圖像實(shí)體在視覺上靠近圖像中的另一個(gè)圖像實(shí)體掺栅;sameAs:兩個(gè)不同的圖像實(shí)體指的是同一個(gè)實(shí)體;similar:兩個(gè)圖像實(shí)體在視覺上彼此相似纳猪。

????當(dāng)然氧卧,我們可以看出,圖1-(b)中的圖譜數(shù)據(jù)并不準(zhǔn)確氏堤,第二幅埃菲爾鐵塔圖片與凱旋門圖片之間建立sameAS關(guān)系并不合理沙绝。(在這里我們的目標(biāo)是了解MMKG的不同定義形式,并不對(duì)知識(shí)圖譜的質(zhì)量做要求鼠锈。)

三闪檬、多模態(tài)知識(shí)圖譜的構(gòu)建

????多模態(tài)知識(shí)圖譜構(gòu)建過程包括,輸入:一個(gè)SKG和大量的圖像模態(tài)數(shù)據(jù)购笆;過程:通過將SKG中實(shí)體/概念粗悯、事件、事件元素同欠、關(guān)系等符號(hào)與對(duì)應(yīng)圖像數(shù)據(jù)中的具體視覺對(duì)象進(jìn)行關(guān)聯(lián)样傍;輸出:包含符號(hào)模態(tài)與圖片模態(tài)數(shù)據(jù)的MMKG。根據(jù)構(gòu)建過程中SKG和圖像模態(tài)數(shù)據(jù)铺遂,誰(shuí)占主導(dǎo)地位衫哥,將多模態(tài)知識(shí)圖譜構(gòu)建過程分類兩種策略:給圖像打標(biāo)簽策略(從圖像到符號(hào),圖像占主導(dǎo)地位)和符號(hào)定位策略(從符號(hào)模態(tài)圖譜到圖像娃循,符號(hào)模態(tài)圖譜占主導(dǎo)地位)炕檩。下面分別展開介紹。

3.1 從圖像到符號(hào):給圖像打標(biāo)簽

????CV 社區(qū)提出了許多圖像標(biāo)記解決方案捌斧,可用于為圖像打標(biāo)簽笛质,將圖像內(nèi)容到映射到SKG包含的符號(hào)上。知識(shí)圖譜相關(guān)的符號(hào)集具體包括:對(duì)象捞蚂、場(chǎng)景妇押、實(shí)體、屬性姓迅、關(guān)系敲霍、事件,等丁存。具體的圖像標(biāo)記過程如圖 3 所示肩杈,從圖片中檢測(cè)相關(guān)對(duì)象(用邊界框表示),并賦予相關(guān)標(biāo)簽解寝。

圖3? 圖像標(biāo)記示例: (a) [58-2010]; (b)? [59-2017]; (c)[19-2013].

? ? 此外扩然,表1列出了NEIL[19-2013]、GAIA[20-2020]聋伦、RESIN[21-2021]等基于圖片的知識(shí)抽取系統(tǒng)夫偶,可以用于基于給圖片打標(biāo)簽的方式構(gòu)建MMKG界睁。

表1? 基于圖片的知識(shí)抽取系統(tǒng)

????根據(jù)標(biāo)簽(符號(hào))類型的不同,可以將MMKG構(gòu)建任務(wù)分為:視覺實(shí)體/概念抽取兵拢、視覺關(guān)系抽取和視覺事件抽取翻斟。

3.1.1 視覺實(shí)體/概念抽取

????視覺實(shí)體(或概念)抽取指在檢測(cè)和定位圖像中的目標(biāo)對(duì)象,然后用對(duì)應(yīng)SKG中的文本實(shí)體(或概念)標(biāo)記這些對(duì)象说铃。

? ??挑戰(zhàn):這項(xiàng)任務(wù)的主要挑戰(zhàn)在于如何在沒有大規(guī)模访惜、細(xì)粒度、高質(zhì)量的標(biāo)記數(shù)據(jù)集的情況下學(xué)習(xí)細(xì)粒度抽取模型(fine-grained)截汪。 雖然CV中有豐富的標(biāo)注好的圖像數(shù)據(jù)集疾牲,但這些數(shù)據(jù)集幾乎是粗粒度的概念圖像,不能滿足MMKG構(gòu)建對(duì)細(xì)粒度概念/實(shí)體的圖像標(biāo)注數(shù)據(jù)的要求衙解。

????現(xiàn)有的視覺實(shí)體/概念提取工作大致可分為兩類:1)?對(duì)象識(shí)別方法(object recognition)阳柔,通過對(duì)檢測(cè)到的對(duì)象區(qū)域進(jìn)行分類來(lái)標(biāo)記視覺實(shí)體/概念;2)?視覺定位方法(visual grounding)蚓峦,通過將圖片對(duì)應(yīng)描述中的單詞或短語(yǔ)映射到最相關(guān)的區(qū)域來(lái)標(biāo)記視覺實(shí)體/概念舌剂。

? ??1)對(duì)象識(shí)別方法,在早期的工作中暑椰,研究的圖像通常很簡(jiǎn)單霍转,一張圖像中只有一個(gè)對(duì)象,可以通過分類模型進(jìn)行處理一汽。但是現(xiàn)實(shí)生活中的圖像比較復(fù)雜避消,包含多個(gè)視覺對(duì)象(visual objects),需要用多個(gè)標(biāo)簽來(lái)標(biāo)記不同的視覺單元召夹。

????圖像標(biāo)記過程分為檢測(cè)階段和分類階段岩喷。檢測(cè)階段需要從輸入圖像中自動(dòng)發(fā)現(xiàn)所有可能的視覺對(duì)象。檢測(cè)器的訓(xùn)練往往采用基于監(jiān)督學(xué)習(xí)的方法监憎,需要大量的標(biāo)記數(shù)據(jù)(MSCOCO [62-2014]纱意、Flickr30k[63-2014]、Flick30k Entities[64-2015]鲸阔、Open Images[65-2020]偷霉、等等)。在完成檢測(cè)階段工作之后褐筛,就需要利用分類器為檢測(cè)到的視覺對(duì)象打具體標(biāo)簽类少。標(biāo)簽可以是實(shí)體級(jí)別的(例如,BMW 320)渔扎,也可以是概念級(jí)別的(例如瞒滴,汽車)

????在利用對(duì)象識(shí)別方法從圖片中識(shí)別出對(duì)應(yīng)概念/實(shí)體的時(shí)候,會(huì)存在視覺對(duì)象大量重復(fù)的問題。相同的概念/實(shí)體根據(jù)拍攝的角度妓忍、位置和其姿勢(shì)的不同,產(chǎn)生大量的視覺對(duì)象愧旦,因此世剖,如何從大量重復(fù)的視覺對(duì)象中選出最有代表性的對(duì)象與對(duì)應(yīng)的概念/實(shí)體建立映射關(guān)系成為了需要解決的問題。最常見的解決方法是聚類方法[20-2020]笤虫,首先對(duì)識(shí)別出的視覺圖像進(jìn)行聚類旁瘫,然后選擇每個(gè)了類簇的中心視覺對(duì)象與對(duì)應(yīng)的概念/實(shí)體建立映射關(guān)系。

? ??2)視覺定位方法琼蚯,上述對(duì)象識(shí)別方法酬凳,在訓(xùn)練檢測(cè)器和分類器的過程中,通常采用有監(jiān)督的方法遭庶,需要大量的標(biāo)記數(shù)據(jù)宁仔,同時(shí)需要提前定義好需要標(biāo)記的概念/實(shí)體集合。由于需要大量人力峦睡、物力的投入翎苫,對(duì)象識(shí)別方法再規(guī)模上受到的限制。幸運(yùn)的是榨了,網(wǎng)絡(luò)上(例如新聞網(wǎng)站)存在大量的圖像-描述對(duì)數(shù)據(jù)煎谍,可以用于基于弱監(jiān)督視覺知識(shí)的抽取。因此龙屉,視覺實(shí)體抽取問題被簡(jiǎn)化為一個(gè)視覺定位問題呐粘,即通過對(duì)圖像-描述對(duì)進(jìn)行分析,在圖像中準(zhǔn)確定位描述涉及的概念/實(shí)體转捕,并將其區(qū)域標(biāo)記出來(lái)作為對(duì)應(yīng)的視覺對(duì)象作岖。

圖4??GAIA 中 Soldier 和 Boats 一詞的熱力圖。 像素和單詞之間的相關(guān)性越高瓜富,像素的顏色就越暖鳍咱。

????如圖4所示,當(dāng)采用弱監(jiān)督策略學(xué)習(xí)圖像-描述對(duì)中的知識(shí)之后与柑,通常利用空間熱力圖進(jìn)行表示谤辜,提升概念/實(shí)體(描述中的文字表示)在圖像中對(duì)應(yīng)的像素的溫度,根據(jù)像素?zé)崃χ嫡页鰧?duì)應(yīng)視覺對(duì)象區(qū)域价捧。對(duì)于描述生成對(duì)應(yīng)圖片上的熱力圖丑念,可以通過基于注意力的方法(attention based)基于顯著性的方法(saliency based)。當(dāng)前结蟋,基于注意力的方法相對(duì)于基于顯著性的方法更加受歡迎脯倚。

????盡管視覺定位方法不依賴于標(biāo)記數(shù)據(jù),但實(shí)際上仍需要人工干預(yù)。一些研究工作試圖在訓(xùn)練階段增加對(duì)常識(shí)推正、關(guān)系和事件參數(shù)的約束恍涂,以增加監(jiān)督信息。在 MMKG的構(gòu)建相關(guān)的工作中[20-2020]植榕,視覺定位方法的精確度低于 70%再沧。通過視覺定位的視覺對(duì)象可以是實(shí)體(例如 Barack Hussein Obama)、概念(例如地點(diǎn)尊残、汽車炒瘸、石頭)、屬性(例如紅色寝衫、短)顷扩。然而,圖像和文本描述的語(yǔ)義尺度不一致可能導(dǎo)致不正確的匹配慰毅。例如隘截,“部隊(duì)”可能會(huì)映射到幾個(gè)穿著軍裝的人,而“烏克蘭(國(guó)家)”可能會(huì)映射到烏克蘭國(guó)旗事富。上述兩個(gè)例子都只是相關(guān)技俐,但是不相等

圖5?兩種弱監(jiān)督視覺實(shí)體提取:(a) 基于注意力的方法[60-2018]和(b)基于顯著性的方法[61-2017]统台。 第一種方法選擇與給定短語(yǔ)最相關(guān)的邊界框雕擂。 第二種方法選擇對(duì)給定短語(yǔ)最敏感的像素。

????圖5. 通過多模態(tài)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行弱監(jiān)督視覺實(shí)體提取贱勃。 該圖通過 ViLT 的自注意力機(jī)制顯示了圖像中與描述中給定單詞最相關(guān)的區(qū)域? ??

? ??機(jī)遇:隨著多模態(tài)預(yù)訓(xùn)練語(yǔ)言模型強(qiáng)大的表示能力將增強(qiáng)實(shí)體和概念的抽取能力井赌。具體多模態(tài)預(yù)訓(xùn)練語(yǔ)言模型的應(yīng)用包括:ViLT[50-2021],CLIP[68-2021]贵扰,DINO[70-2021]仇穗。

3.1.2 視覺關(guān)系抽取

????視覺關(guān)系抽取指識(shí)別圖像中檢測(cè)到的視覺實(shí)體(或概念)之間的語(yǔ)義關(guān)系(語(yǔ)義關(guān)系由對(duì)應(yīng)SKG中的關(guān)系類型決定)。

? ??挑戰(zhàn):盡管視覺關(guān)系抽取已經(jīng)在 CV 社區(qū)進(jìn)行了廣泛的研究戚绕,但是其關(guān)系類型還是停留在視覺對(duì)象之間的表面視覺關(guān)系纹坐,例如(人,站立舞丛,海灘)耘子。但是,符號(hào)模態(tài)知識(shí)圖譜中定義的關(guān)系普遍是具有一定語(yǔ)義關(guān)系球切,例如(杰克谷誓、配偶、羅斯)吨凑。抽取出更加復(fù)雜的語(yǔ)義關(guān)系成為視覺關(guān)系抽取的挑戰(zhàn)捍歪。

????現(xiàn)有的視覺關(guān)系抽取工作大致可以分為基于規(guī)則的關(guān)系抽取(rule based)基于統(tǒng)計(jì)的關(guān)系抽取(statistic based)兩大類糙臼。其他一些工作主要集中在長(zhǎng)尾關(guān)系細(xì)粒度關(guān)系上庐镐,下面也會(huì)介紹。

? ??1)基于規(guī)則的方法弓摘,傳統(tǒng)的基于規(guī)則的方法主要關(guān)注一些特定類型的關(guān)系焚鹊,如空間關(guān)系[71-2013, 72-2013]和動(dòng)作關(guān)系[74-2010, 75-2011, 76-2014, 77-2015, 78-2017]。這些規(guī)則通常由專家預(yù)先定義韧献,判別特征通過啟發(fā)式方法進(jìn)行評(píng)分和選擇。

????在基于規(guī)則的方法中研叫,要檢測(cè)的關(guān)系是根據(jù)標(biāo)簽的類型和區(qū)域的相對(duì)位置來(lái)定義的锤窑。例如,如果一個(gè)對(duì)象的邊界框總是在另一個(gè)對(duì)象的邊界框內(nèi)嚷炉,則它們之間可能存在 PartOf 關(guān)系渊啰。抽取過程中,檢測(cè)到的一對(duì)對(duì)象之間的關(guān)系反過來(lái)又會(huì)對(duì)新實(shí)例標(biāo)記的附加約束申屹。例如绘证,“Wheel is a part of Car”表示 Wheel 更有可能出現(xiàn)在Car的邊界框中』┘ィ基于規(guī)則的方法提供高度準(zhǔn)確的視覺關(guān)系嚷那,但它們依賴于大量的人工工作。所以在大規(guī)模MMKG建設(shè)中是不實(shí)用的杆煞。

? ??2)基于統(tǒng)計(jì)的方法魏宽,基于統(tǒng)計(jì)的方法將檢測(cè)到的對(duì)象的視覺特征、空間特征和統(tǒng)計(jì)等特征編碼為分布式向量决乎,并通過分類模型預(yù)測(cè)給定對(duì)象之間的關(guān)系队询。與基于規(guī)則的方法相比,基于統(tǒng)計(jì)的方法能夠檢測(cè)到訓(xùn)練集中出現(xiàn)的所有關(guān)系類型构诚。

????一些工作證明謂詞在很大程度上依賴于主客體的類別蚌斩,但主客體不依賴于謂詞,主客體之間也沒有依賴關(guān)系范嘱。例如送膳,在三元組(人(主體)、騎(謂詞)彤侍、大象(客體))中肠缨,人和大象表示關(guān)系可能是騎而不是穿。因此盏阶,一些研究工作中嘗試將上述依賴關(guān)系引入關(guān)系抽取過程[79-2018, 80-2016, 81-2017, 82-2017]晒奕。圖像中檢測(cè)到的視覺對(duì)象和關(guān)系可以表示為圖,利用圖結(jié)構(gòu)對(duì)關(guān)系建模,能夠從其關(guān)聯(lián)節(jié)點(diǎn)和邊中獲得信息擴(kuò)展脑慧,從而提升視覺對(duì)象關(guān)系抽取的精度[83-2017, 84-2017]个少。

? ??3)長(zhǎng)尾關(guān)系和細(xì)粒度關(guān)系提取渗蟹,盡管基于統(tǒng)計(jì)的方法能夠檢測(cè)一般關(guān)系,但很難檢測(cè)長(zhǎng)尾關(guān)系。其主要原因是樣本偏差降铸,從具有偏差的數(shù)據(jù)集中訓(xùn)練得到的模型更加傾向于預(yù)測(cè)多樣本關(guān)系類型,導(dǎo)致長(zhǎng)尾關(guān)系類型的預(yù)測(cè)精度偏低馏锡。對(duì)于長(zhǎng)尾關(guān)系預(yù)測(cè)精度低的問題握童,也開展了一些研究[85-2019, 86-2020, 87-2020, 88-2019]。

????細(xì)粒度關(guān)系也可以看做是一種長(zhǎng)尾關(guān)系,現(xiàn)有的從特征融合角度對(duì)長(zhǎng)尾關(guān)系問題的研究未能很好地區(qū)分細(xì)粒度的關(guān)系也物。例如宫屠,模型傾向于預(yù)測(cè)成“on”而不是細(xì)粒度的關(guān)系“sit on/walk on/lay on”。對(duì)此滑蚯,[89-2020]展開了研究浪蹂。

????在細(xì)粒度關(guān)系檢測(cè)問題中,人與對(duì)象的交互/動(dòng)作關(guān)系檢測(cè)的難度會(huì)更大一些告材,因?yàn)橐粋€(gè)人的動(dòng)作是由身體的許多組成部分決定的坤次。例如,描述(person,?play, violin) 和 (person,?hold, violin) 的圖像之間存在差別是非常細(xì)微的斥赋。對(duì)此缰猴,研究者們也展開了如下工作[73-2010, 74-2010, 75-2011, 90-2019]

? ??機(jī)遇1:視覺關(guān)系知識(shí)判斷,許多從圖像中提取的視覺三元組只描述了圖像的場(chǎng)景灿渴,其質(zhì)量還達(dá)不到視覺知識(shí)的標(biāo)準(zhǔn)洛波。因此,如何從大量的視覺三元組中準(zhǔn)確識(shí)別視覺關(guān)系知識(shí)骚露,過濾視覺關(guān)系場(chǎng)景蹬挤,提升視覺關(guān)系質(zhì)量成為新的機(jī)遇和挑戰(zhàn)。

? ??機(jī)遇2:基于推理的關(guān)系檢測(cè)棘幸,對(duì)于包含一個(gè)人和一個(gè)足球的圖像進(jìn)行分析可以得到如下三個(gè)視覺關(guān)系:(head, look at, sth)焰扳、(arm, swing, -)、(foot, kick, sth)误续,則可以通過推理得到(person, kick, football)吨悍。不幸的是,這個(gè)數(shù)據(jù)集是手動(dòng)構(gòu)建的蹋嵌。我們需要自動(dòng)總結(jié)關(guān)系檢測(cè)的推理鏈育瓜。

3.1.3 視覺事件提取

????一個(gè)事件通常被定義為參數(shù)之間的動(dòng)態(tài)交互,包括一個(gè)觸發(fā)詞和幾個(gè)參數(shù)及其相應(yīng)的參數(shù)角色栽烂。觸發(fā)詞是表示事件發(fā)生的動(dòng)詞或名詞躏仇,參數(shù)角色是指事件與時(shí)間恋脚、人、地點(diǎn)等參數(shù)之間的語(yǔ)義關(guān)系焰手,參數(shù)是實(shí)體提及糟描、概念或?qū)傩灾怠鹘y(tǒng)的事件提取任務(wù)旨在通過觸發(fā)詞預(yù)測(cè)事件類型书妻,然后根據(jù)預(yù)定義的事件模式船响,進(jìn)一步識(shí)別事件對(duì)應(yīng)的參數(shù)。同樣躲履,視覺事件提取也可以分為兩個(gè)子任務(wù):1)視覺事件類型預(yù)測(cè)银觅; 2)定位和識(shí)別視覺對(duì)象作為事件參數(shù)[21-2021, 67-2020, 92-2017, 93-2021]

? ??挑戰(zhàn)1:視覺事件抽取需要提前定義好每個(gè)事件的模式墓猎,即事件類型以及事件類型對(duì)應(yīng)的參數(shù)類型叁温。這個(gè)工作需要大量專家的人工干預(yù)庄吼,因此,很難覆蓋全面域慷。對(duì)此,如何自動(dòng)挖掘視覺事件模式成為新的挑戰(zhàn)

? ??挑戰(zhàn)2:如何從圖像或視頻中提取視覺事件的視覺參數(shù)汗销。

? ??下面從視覺事件模式挖掘和視覺事件參數(shù)抽取兩個(gè)任務(wù)展開說明犹褒。

????1)視覺事件模式挖掘,例如弛针,事件 Clipping的模式可以用事件的參數(shù)類型列表(Agent叠骑、Source、Tool削茁、Item宙枷、Place)表示。其在剪羊毛的圖像中它們分別是 Man茧跋、Sheep慰丛、Shears、Wool瘾杭、Field诅病。這些模式往往需要專家通過人工總結(jié)得到。但是粥烁,對(duì)于大規(guī)模的視覺事件識(shí)別任務(wù)贤笆,很難通過人工總結(jié)得到完整的事件模式,因此讨阻,需要自動(dòng)挖掘潛在的事件模式芥永。

????互聯(lián)網(wǎng)上大量的圖片-描述對(duì)數(shù)據(jù)讓自動(dòng)挖掘視覺事件模式成為可能钝吮。視覺事件模式的發(fā)現(xiàn)可以轉(zhuǎn)換成關(guān)聯(lián)規(guī)則挖掘算法中頻繁項(xiàng)集的發(fā)現(xiàn)任務(wù)埋涧。首先戳气,利用視覺定位(visual grounding)等技術(shù)識(shí)別出圖片中包含的所有視覺對(duì)象呀袱。然后夜赵,通過對(duì)圖片描述進(jìn)行分析,抽取相關(guān)事件觸發(fā)詞乡革,確定事件類型寇僧。最后,通過文本描述的分析結(jié)果沸版,將相同事件類型對(duì)應(yīng)的圖片放在一起嘁傀,找出經(jīng)常共現(xiàn)的視覺對(duì)象集合,生成對(duì)應(yīng)的視覺事件模式[92-2017, 97-2016]视粮。

????利用自動(dòng)挖掘的視覺事件模式细办,不僅可以補(bǔ)充新的事件模式,還可以矯正現(xiàn)有錯(cuò)誤事件模式蕾殴。

????2)視覺事件參數(shù)抽取笑撞,視覺事件參數(shù)抽取任務(wù)可以看作是視覺對(duì)象集合識(shí)別任務(wù),其中钓觉,識(shí)別出的視覺對(duì)象之間受到事件與參數(shù)類型之間的關(guān)系約束茴肥。通過弱監(jiān)督策略分析圖片-描述對(duì)數(shù)據(jù)得到的視覺事件,可以通過從描述文本中分析得到的事件進(jìn)行交叉驗(yàn)證议谷,或通過從描述文本分析中語(yǔ)義信息的引入炉爆,提升視覺事件抽取性能[21-2021, 67-2020]。

????相對(duì)于對(duì)圖片數(shù)據(jù)卧晓,視頻數(shù)據(jù)可能更加適合視覺事件抽取任務(wù)芬首,因?yàn)橛行┦录耐暾麉?shù)可能會(huì)分到視頻的多個(gè)視頻幀中,即一個(gè)圖片中可能無(wú)法表示完整的事件參數(shù)[93-2021]逼裆。

? ??機(jī)遇1:從長(zhǎng)視頻中順序提取多個(gè)事件郁稍。?

????機(jī)遇2具有多個(gè)子事件的視覺事件提取。例如胜宇,制作咖啡包括:清潔咖啡機(jī)耀怜、倒入咖啡豆恢着、啟動(dòng)咖啡機(jī)等三個(gè)步驟,每個(gè)步驟為一個(gè)事件财破。連續(xù)的步驟需要通過步驟的時(shí)間線來(lái)提取和列出掰派,這是目前的方法難以解決的。

3.2 從符號(hào)到圖像:符號(hào)定位

????符號(hào)定位是指對(duì)SKG中的概念左痢、實(shí)體靡羡、屬性、關(guān)系俊性、事件等符號(hào)找到適當(dāng)?shù)亩嗄B(tài)數(shù)據(jù)項(xiàng)(例如圖像)略步,并進(jìn)行關(guān)聯(lián)的過程。與圖像標(biāo)記方法相比定页,符號(hào)定位方法在MMKG構(gòu)建中應(yīng)用更為廣泛趟薄。表2中列出了利用符號(hào)定位策略構(gòu)建的MMKG。

表2? 基于符號(hào)到圖像策略構(gòu)建的MMKG[22-2017典徊, 23-2017杭煎, 24-2019, 25-2020卒落, 26-2020]

3.2.1 實(shí)體定位(entity grounding)

????實(shí)體定位旨在將符號(hào)模態(tài)知識(shí)圖譜中的文本實(shí)體定位到其相應(yīng)的多模態(tài)數(shù)據(jù)岔帽,例如圖像、視頻和音頻[12-1990]导绷。當(dāng)前的研究工作主要研究定位到圖像數(shù)據(jù)。

? ??挑戰(zhàn)1:如何以低成本地為實(shí)體找到足夠多的高質(zhì)量圖像屎飘??

? ??挑戰(zhàn)2:如何從大量噪聲中選擇最匹配實(shí)體的圖像妥曲?

? ??根據(jù)圖像數(shù)據(jù)的來(lái)源,可以分為基于在線百科全書(如維基百科)和基于網(wǎng)絡(luò)搜索引擎的實(shí)體定位方法钦购。

? ??1) 基于在線百科全書檐盟,在維基百科中,一篇文章通常用圖像和其他多模態(tài)數(shù)據(jù)來(lái)描述一個(gè)實(shí)體押桃。 Wikipedia 和 DBpedia 提供了許多工具(例如?Wikimedia Commons?)來(lái)幫助DBpedia 中的實(shí)體與 Wikipedia 中的相應(yīng)圖像或其他模態(tài)數(shù)據(jù)之間建立連接葵萎。研究人員很容易使用像維基百科這樣的在線百科全書來(lái)構(gòu)建大規(guī)模 MMKG 的初級(jí)版本。然而唱凯,基于在線百科全書的方法有三個(gè)缺點(diǎn):

????第一羡忘,每個(gè)實(shí)體對(duì)應(yīng)的圖像數(shù)量是有限的。維基百科中每個(gè)實(shí)體對(duì)應(yīng)的圖像數(shù)量平均為 1.16磕昼。

????第二卷雕,維基百科中的許多圖像與其對(duì)應(yīng)的實(shí)體在含義上只是相關(guān),但不相同票从,因此漫雕,與相關(guān)的圖片建立關(guān)聯(lián)將導(dǎo)致語(yǔ)義漂移(semantic drift)滨嘱。例如,維基百科中“北京動(dòng)物園”實(shí)體對(duì)應(yīng)的圖片中存在動(dòng)物浸间、建筑太雨、牌匾、雕刻等多張圖片魁蒜,“北京動(dòng)物園”實(shí)體與動(dòng)物圖片建立聯(lián)系是不合理的囊扳。

????第三,基于維基百科構(gòu)建的MMKG的覆蓋率仍有待提高梅惯。英文維基百科有600萬(wàn)個(gè)實(shí)體(文章)宪拥,這是從英文維基百科構(gòu)建的MMKG的規(guī)模上線。根據(jù)調(diào)研铣减,近 80%的英文維基百科文章沒有對(duì)應(yīng)的圖像她君,其中只有 8.6 %有超過 2 個(gè)圖像。

? ??2)基于搜索引擎葫哗,為了提高 MMKG 的覆蓋率缔刹,提出了基于搜索引擎的解決方案。通過查詢實(shí)體名稱從搜索引擎的搜索結(jié)果中發(fā)現(xiàn)對(duì)應(yīng)圖像劣针。一般來(lái)說校镐,排名靠前的結(jié)果圖像很有可能是實(shí)體需要關(guān)聯(lián)的圖像。與基于在線維基百科的解決方案相比捺典,基于搜索引擎的方案可以顯著提升MMKG的覆蓋率鸟廓。然而,基于搜索引擎的方法很容易將錯(cuò)誤的事實(shí)引入MMKG襟己。眾所周知引谜,搜索引擎結(jié)果中慘咋著大量的錯(cuò)誤結(jié)果。另一個(gè)原因是指定恰當(dāng)?shù)乃阉麝P(guān)鍵字并非易事擎浴。例如员咽,想要查詢Commercial Bank對(duì)應(yīng)的圖像的時(shí)候,關(guān)鍵詞Bank是不夠準(zhǔn)確的贮预,因?yàn)樗€有可能返回River Bank相關(guān)圖像贝室。因此,已經(jīng)有很多關(guān)于清理候選圖像的研究工作仿吞。也可以用同義詞集[99-2009]或?qū)嶓w類型[24-2019]來(lái)擴(kuò)展關(guān)鍵詞以消除歧義滑频。在為實(shí)體選擇最佳圖像時(shí),多樣性也是不可忽視的問題唤冈。訓(xùn)練圖像多樣性檢索模型以去除冗余的相似圖像误趴,使圖像盡可能多樣化[25-2020]。

????由于在構(gòu)建過程中符號(hào)實(shí)體與視覺對(duì)象在特征空間上解耦务傲,基于上述實(shí)體定位策略構(gòu)建的MMKG具有區(qū)分視覺相似實(shí)體的能力凉当,如圖6所示枣申,也使得構(gòu)建面向領(lǐng)域的細(xì)粒度MMKG成為可能。

圖6?(a) 相似的視覺實(shí)體:娜塔莉·波特曼和凱拉·奈特莉看杭;(b) 類似的視覺概念:消防員和垃圾收集員

????與基于百科全書的方法相比忠藤,基于搜索引擎的方法覆蓋率高,但質(zhì)量較差楼雹。因此模孩,經(jīng)常將這兩種方法結(jié)合使用,達(dá)到取長(zhǎng)補(bǔ)短的效果[25-2020, 100-2019]贮缅。

? ??機(jī)遇1:一個(gè)符號(hào)實(shí)體有可能找到多個(gè)關(guān)聯(lián)的圖像榨咐,每個(gè)圖像只是該實(shí)體的一個(gè)方面。例如谴供,一個(gè)人關(guān)聯(lián)的圖像可以是不同年齡的圖像块茁、生活照片、事件照片桂肌、單人照片和家庭照片数焊。如何確定最典型的圖像集有待解決?

? ??機(jī)遇2:現(xiàn)實(shí)世界的實(shí)體是多面的崎场,一個(gè)實(shí)體在不同的上下文環(huán)境下佩耳,對(duì)應(yīng)的圖像應(yīng)該是不同的。即谭跨,一個(gè)實(shí)體應(yīng)該關(guān)聯(lián)多個(gè)圖像干厚,每個(gè)圖像都對(duì)應(yīng)這個(gè)實(shí)體先不同上下文環(huán)境的表示。對(duì)此螃宙,催生了一個(gè)新的任務(wù)——實(shí)體多定位萍诱。假設(shè)每個(gè)符號(hào)實(shí)體已經(jīng)有關(guān)聯(lián)的圖像集(圖像池),實(shí)體多定位任務(wù)就是在給定一個(gè)符號(hào)實(shí)體以及對(duì)應(yīng)上下文的情況下污呼,從關(guān)聯(lián)的圖像池中選出最合適的圖像的過程。例如包竹,美國(guó)第 45 任和現(xiàn)任總統(tǒng)唐納德·特朗普 (Donald Trump) 擁有許多可以從網(wǎng)絡(luò)上收集的不同圖像燕酷。如圖 7 所示,任何單個(gè)圖像都不適用于所有不同的上下文周瞎。然而苗缩,將實(shí)體的不同方面映射到不同上下文中最相關(guān)的圖像并非易事。首先声诸,實(shí)體的圖像池很難建立酱讶,因?yàn)閳D像池的完整性無(wú)法保證,在某些上下文中很容易漏掉一些相關(guān)的圖像彼乌。其次泻肯,為特定上下文的實(shí)體消歧圖像具有挑戰(zhàn)性渊迁,因?yàn)樯舷挛耐ǔJ青须s的并且包含稀疏信息,并且需要更多的背景信息來(lái)指導(dǎo)語(yǔ)義信息的獲取灶挟。最后琉朽,作為一項(xiàng)新任務(wù),標(biāo)記數(shù)據(jù)的缺乏是一個(gè)大問題稚铣。

圖7?關(guān)于特朗普的句子和圖片箱叁。 (a) 特朗普早年生活的照片,(b) 作為商人的特朗普惕医,(c) 作為政治家的特朗普耕漱,以及 (d) 作為美國(guó)總統(tǒng)的特朗普。 顯然抬伺,(a) 與 S1 更相關(guān)螟够,(b) 與 S2 更相關(guān),(c) 與 S3 更相關(guān)沛简,(d) 與 S4 更相關(guān)齐鲤。

3.2.2 概念定位(concept grounding)

????概念定位旨在為視覺概念找到具有代表性的、有區(qū)分度的多樣化的圖像椒楣。

? ??挑戰(zhàn)1:并非所有的概念都可以可視化展示的给郊。例如,“非宗教主義者”這個(gè)概念就很難找到對(duì)應(yīng)的圖像捧灰。因此淆九,如何區(qū)分可視化概念(visualizable concept)和非可視化概念(non-visualizable concept)成為一個(gè)難點(diǎn)。

? ??挑戰(zhàn)2:如何從一組相關(guān)圖像中找到一個(gè)可視化概念的代表性圖像毛俏?可視化概念的圖像可能非常多樣化炭庙。例如,一提到公主煌寇,人們往往會(huì)想到幾種不同的形象焕蹄,迪士尼公主已烤、歷史電影中的古代公主或新聞中的現(xiàn)代公主糖声。因此,我們必須考慮圖像的多樣性冯丙。

? ??1)可視化概念判斷银锻,該任務(wù)旨在判斷一個(gè)概念是否可視化展示永品,研究人員發(fā)現(xiàn)對(duì)于Person子樹下的概念集合中只有 12.8 %可以被可視化[101-2020]。研究者們也展開了部分研究工作击纬,有的直接將WordNet中Abstract節(jié)點(diǎn)下的所有概念進(jìn)行刪除鼎姐,因?yàn)樗麄兗僭O(shè)抽象的概念普遍不具備可視化展示特點(diǎn)[102-2008],有的研究者通過比較一個(gè)概念在Google圖像搜索的返回結(jié)果是否大于Google Web搜索返回結(jié)果,判斷一個(gè)概念是否具有可視化展示特點(diǎn)[103-2017]炕桨。

? ??2) 代表性和多樣性圖像選擇饭尝,對(duì)于一個(gè)概念發(fā)現(xiàn)的候選圖像集合,我們需要對(duì)其集合進(jìn)行進(jìn)一步排序谋作,選出同時(shí)具有代表性多樣性的圖片進(jìn)行關(guān)聯(lián)芋肠。代表性考慮的概念與圖像之間的語(yǔ)義相關(guān)性,多樣性考慮的是關(guān)聯(lián)的多個(gè)圖片應(yīng)該盡量代表不同的主題遵蚜,避免主題的冗余帖池。

????對(duì)于代表性圖像的選擇,通常采用聚類的方法吭净,例如 K-means睡汹、譜聚類等。類簇內(nèi)的方差越小寂殉,聚類中圖像的得分越高囚巴,認(rèn)為更具有代表性。圖像的描述也可以用來(lái)評(píng)估圖像在語(yǔ)義層面的代表性和區(qū)分性友扰。描述將提供圖像沒有包含的語(yǔ)義信息[103-2017, 106-2014, 107-2021]彤叉。例如,一張冰島風(fēng)景照片和一張英國(guó)風(fēng)景的照片從視覺角度可能非常相似村怪,可以通過參考對(duì)應(yīng)的描述文本區(qū)分它們的概念差異秽浇。有的研究者利用最大最小方法同時(shí)對(duì)代表性和多樣性進(jìn)行建模[108-2009, 109-2010]

????也可以通過將候選圖片集合表示成圖(每個(gè)圖像為節(jié)點(diǎn),圖像相似度為圖像之間邊的權(quán)重)甚负,再利用圖搜索技術(shù)找到具有代表性的圖片[103-2017, 110-2009, 111-2011]柬焕。

????這些研究集中在文本圖像檢索領(lǐng)域,很少有與多模態(tài)知識(shí)圖譜相關(guān)的研究梭域。來(lái)自互聯(lián)網(wǎng)的關(guān)于性別斑举、種族、膚色和年齡的概念圖像的多樣性仍然存在許多未解決的偏見病涨,現(xiàn)在這個(gè)問題在很大程度上依賴于眾包富玷。

? ??機(jī)遇1:抽象概念定位,以往的概念定位任務(wù)通常認(rèn)為抽象概念不具備可視化展示特性既穆,經(jīng)常在概念定位過程中被忽略赎懦,但抽象概念也可以找到對(duì)應(yīng)的圖像的。例如循衰,“幸福”通常與“微笑”關(guān)聯(lián)褐澎,而“憤怒”通常與“生氣的臉”關(guān)聯(lián)会钝。例如,Beauty 的圖像與以下詞集關(guān)聯(lián):woman/girl、water/beach/ocean迁酸、flower/rose先鱼、sky//cloud/sunset。類似地奸鬓,Love 的圖像與以下詞集關(guān)聯(lián):baby/cute/newborn焙畔、dog/pet、heart/red/oalentine串远、beach/sea/couple宏多、sky/cloud/sunset、flower/rose[112-2008]澡罚。

? ??機(jī)遇2:動(dòng)名詞概念定位?動(dòng)名詞是一種特殊的名詞伸但,可以轉(zhuǎn)化為動(dòng)詞,如singing -> sing留搔。[76-2014]利用眾包完成了許多動(dòng)名詞的圖像定位更胖,例如arguing with, wrestling with以及 dancing with。

? ??機(jī)遇3:通過實(shí)體定位完成非可視化概念的定位隔显,如果一個(gè)概念是不具備可視化展示特性却妨,但該概念的實(shí)體可以被可視化,則該概念也可以通過其實(shí)體關(guān)聯(lián)圖像括眠,具體通過選擇當(dāng)前概念最具有代表性的實(shí)體對(duì)應(yīng)圖像作為該概念的圖像進(jìn)行關(guān)聯(lián)彪标。如表 3 所示,使用愛因斯坦的照片作為物理學(xué)家概念的圖像是可以被接受的哺窄,因?yàn)楫?dāng)提到物理學(xué)家時(shí)捐下,大多數(shù)人都會(huì)想到愛因斯坦。但是萌业,仍然有很多未解決的問題: (a) 一般來(lái)說坷襟,不同的人對(duì)一個(gè)概念有不同的典型實(shí)體,因此我們應(yīng)該在概念定位上解決這種主觀性生年。(b) 我們應(yīng)該選擇幾個(gè)典型實(shí)體圖像來(lái)呈現(xiàn)這個(gè)概念婴程。如何確定這個(gè)實(shí)體集合? (c) 我們是否需要從多個(gè)實(shí)體圖像中抽象出共同的視覺特征抱婉?

表3?可視化概念和非可視化概念的概念定位示例档叔。由于愛因斯坦是物理學(xué)家的典型實(shí)體,因此非可視化的概念——物理學(xué)家可以與愛因斯坦的照片進(jìn)行關(guān)聯(lián)蒸绩。

3.2.3 關(guān)系定位

????關(guān)系定位是從圖像數(shù)據(jù)語(yǔ)料庫(kù)或互聯(lián)網(wǎng)中找到可以符號(hào)模態(tài)知識(shí)圖譜中特定關(guān)系的圖像衙四。輸入可以是這個(gè)關(guān)系的一個(gè)或多個(gè)三元組(subject,relation患亿,object)传蹈,輸出是這個(gè)關(guān)系最具代表性的圖像押逼。

? ??挑戰(zhàn):當(dāng)我們將三元組作為輸入試圖定位圖像時(shí),排名靠前的圖像通常與三元組的subject和object更相關(guān)惦界,而與relation本身關(guān)聯(lián)較弱挑格。如何找到能夠反映輸入三元組中relation的圖像成為了較大的挑戰(zhàn)?

? ? 現(xiàn)有的關(guān)系定位研究主要集中在空間關(guān)系(例如沾歪,left of漂彤、on)或動(dòng)作關(guān)系(ride、eat)灾搏。具體采用文本-圖像匹配和圖匹配方法挫望。

? ??1)文本-圖像匹配,通常將文本和圖像映射到相同的語(yǔ)義嵌入空間确镊,得到統(tǒng)一的向量形式表示士骤,然后通過計(jì)算文本向量和圖像向量的相似度得分找到最匹配的圖像±儆颍跨模態(tài)表示通常由注意力機(jī)制融合拷肌,因此全局統(tǒng)一表示的缺點(diǎn)是缺乏顯式細(xì)粒度關(guān)系的語(yǔ)義[35-2019]。除了上述基于分布式統(tǒng)一表示的方法之外旨巷,一種更方便的方法是基于圖像描述的檢索巨缘,但是其具有一個(gè)明顯的缺點(diǎn)就是,它并沒有用到圖像信息采呐。為了表示對(duì)象之間的明確關(guān)系若锁,許多研究集中在考慮圖像局部結(jié)構(gòu)的圖像編碼器上。最終的圖像表示通過融合全局視覺特征斧吐、局部結(jié)構(gòu)特征和文本對(duì)齊嵌入三部分信息得到[78-2017, 114-2018, 115-2020]又固。多模態(tài)預(yù)訓(xùn)練語(yǔ)言模型是新的圖像編碼方法,它考慮對(duì)象(實(shí)體或概念)和三元組的煤率。

? ??2)圖匹配仰冠,文本-圖像匹配將文本和圖像表示成統(tǒng)一的向量進(jìn)行匹配,而圖匹配方法先將匹配對(duì)象轉(zhuǎn)換成圖結(jié)構(gòu)蝶糯,再去匹配可以提升過程的可解釋性洋只。一種更方便的方法是基于描述的檢索,如 Internet 上的搜索引擎昼捍,匹配實(shí)體和關(guān)系包含的tokens與描述之間的匹配關(guān)系识虚。基于描述的檢索的缺點(diǎn)是沒有使用視覺特征進(jìn)行匹配。Richpedida[25-2020] 提出了一個(gè)非常強(qiáng)的假設(shè)妒茬,即如果 Wikipedia 描述中的兩個(gè)實(shí)體之間存在預(yù)定義的關(guān)系(例如 nearBy 和 contains)担锤,則兩個(gè)實(shí)體對(duì)應(yīng)的視覺實(shí)體之間也存在相同的關(guān)系。但實(shí)際上乍钻,這兩個(gè)對(duì)象很有可能不會(huì)同時(shí)出現(xiàn)在一張圖像中肛循,就算它們同時(shí)出現(xiàn)在一張圖中蛛株,也很有可能不存在對(duì)應(yīng)的關(guān)系。

圖8 基于圖匹配方法的關(guān)系定位[116]

????如圖8所示育拨,如果我們將文本查詢和候選圖像均表示為圖,則關(guān)系定位任務(wù)變成了圖匹配任務(wù)欢摄。將圖像中的視覺對(duì)象表示為節(jié)點(diǎn)熬丧,對(duì)象之間的關(guān)系表示為邊,將圖像轉(zhuǎn)換為圖怀挠;通過依存句法分析對(duì)輸入文本進(jìn)行分析析蝴,得到對(duì)應(yīng)的依存分析結(jié)果——依存圖。一個(gè)簡(jiǎn)單的解決方案是只匹配兩個(gè)圖中的對(duì)象和共現(xiàn)關(guān)系而不預(yù)測(cè)關(guān)系類型[113-2015]绿淋,即假設(shè)如果兩個(gè)實(shí)體之間存在關(guān)系闷畸,則該關(guān)系被認(rèn)為是匹配的,這也是一個(gè)強(qiáng)假設(shè)吞滞。顯然佑菩,關(guān)系預(yù)測(cè)模塊是必不可少的。 [116-2020]用GCN分別表示成兩個(gè)場(chǎng)景圖(scene graph)裁赠,其中對(duì)象自己進(jìn)行更新殿漠,關(guān)系節(jié)點(diǎn)通過聚集其鄰居節(jié)點(diǎn)的信息進(jìn)行更新。預(yù)測(cè)時(shí)佩捞,分別通過對(duì)象節(jié)點(diǎn)匹配和關(guān)系節(jié)點(diǎn)匹配兩種形式計(jì)算兩個(gè)圖的相似度绞幌。

? ??機(jī)遇:現(xiàn)有研究主要集中在空間關(guān)系(spatial)和動(dòng)作關(guān)系(action)的定位上,這些關(guān)系可以在圖像中直觀地觀察到一忱。但是莲蜘,多數(shù)關(guān)系例如isA, Occupation, Team和Spouse在圖像中可能并不明顯。這些關(guān)系通常缺乏訓(xùn)練數(shù)據(jù)帘营,因此很難用上述兩種解決方案訓(xùn)練模型來(lái)檢索圖像票渠。

四、應(yīng)用

在對(duì) MMKG 構(gòu)建進(jìn)行系統(tǒng)回顧之后仪吧,本節(jié)探討如何將 MMKG 的具體應(yīng)用庄新。

4.1 MMKG 內(nèi)部應(yīng)用(In-MMKG)

????In-MMKG 應(yīng)用是指在 MMKG 范圍內(nèi)執(zhí)行的任務(wù),包括鏈接預(yù)測(cè)(link prediction)薯鼠、三元組分類(triple classification)择诈、實(shí)體分類(entity classification)和實(shí)體對(duì)齊(entity alignment)等。In-MMKG應(yīng)用假設(shè)其中實(shí)體出皇、概念和關(guān)系等已經(jīng)完成分布式表示羞芍。因此,在介紹 in-MMKG 應(yīng)用之前郊艘,我們簡(jiǎn)要介紹一下 MMKG 中知識(shí)的分布式表示學(xué)習(xí)荷科,也稱為 MMKG 嵌入唯咬。基本上畏浆,MMKG 嵌入模型是從傳統(tǒng)的知識(shí)圖譜的嵌入模型發(fā)展而來(lái)的胆胰。例如,即基于距離的模型(distance-based)刻获,即假設(shè)一個(gè)三元組的頭實(shí)體和尾實(shí)體在投影空間上應(yīng)該是接近的蜀涨;基于翻譯的模型(translation-based),即TransE及其變體蝎毡。

????在建模MMKG的時(shí)候還需要考慮如下兩個(gè)問題:如何有效地編碼圖像中包含的視覺知識(shí)和信息厚柳,以及如何融合不同模態(tài)的知識(shí)。 1)視覺編碼器(vision encoder)沐兵。隨著深度學(xué)習(xí)的發(fā)展别垮,利用卷積神經(jīng)網(wǎng)絡(luò)的隱含層特征向量編碼圖像成為了當(dāng)前主要手段[138-2018, 139-2017, 140-?],而CV 中許多現(xiàn)成的顯式圖像信息編碼技術(shù)扎谎,例如灰度直方圖描述符 (GHD)碳想、定向梯度直方圖描述符 ( HOG),顏色布局描述符(CLD)則很難在 MMKG 表示中使用毁靶。 2)知識(shí)融合(knowledge fusion)[139-2017, 140-?]移袍。為了融合多模態(tài)的知識(shí)嵌入,考慮了各種融合方式老充,包括簡(jiǎn)單連接葡盗、平均多模態(tài)嵌入以及基于歸一化或加權(quán)的 SVD 和 PCA。

4.1.1 鏈接預(yù)測(cè)

????MMKG中的鏈接預(yù)測(cè)指在(h, r, t)三元組中的一個(gè)實(shí)體或關(guān)系缺失時(shí)啡浊,自動(dòng)補(bǔ)全缺失的部分觅够,形成完整三元組的過程[134-2013, 136-2015, 138-2018, 141-2016, 142-2015, 143-2013, 144-2016]。 與傳統(tǒng)SKG的連接預(yù)測(cè)任務(wù)相比巷嚣,MMKGs 中的實(shí)體和關(guān)系的附加圖像可以提供額外的視覺信息喘先,以提高嵌入表示質(zhì)量。例如廷粒,一個(gè)人的圖像可能會(huì)豐富這個(gè)人的年齡窘拯、職業(yè)等信息。

????IMAGEgraph[23-2017] 提出將看不見的圖像和多關(guān)系圖像檢索之間的關(guān)系預(yù)測(cè)表達(dá)為視覺關(guān)系問詢坝茎,以便可以利用這些問詢來(lái)補(bǔ)全 MMKG涤姊。與傳統(tǒng)方式相比,IMAGEgraph 在關(guān)系和頭/尾實(shí)體預(yù)測(cè)任務(wù)上表現(xiàn)更好嗤放,并且能夠推廣到看不見的圖像思喊,以回答一些零樣本的視覺關(guān)系問詢。例如次酌,給定一個(gè)不屬于知識(shí)圖譜的全新實(shí)體的圖像恨课,這種方法可以確定它與另一個(gè)給定圖像的關(guān)系舆乔,盡管我們不知道其對(duì)應(yīng)的知識(shí)圖譜實(shí)體。

? ? MMKG[24-2019]構(gòu)建了三個(gè)數(shù)據(jù)集來(lái)預(yù)測(cè)實(shí)體之間的多關(guān)系鏈接剂公,所有實(shí)體都與數(shù)字和視覺數(shù)據(jù)相關(guān)聯(lián)希俩。但是,它只專注于sameAs這個(gè)關(guān)系的鏈接預(yù)測(cè)任務(wù)并回答此類查詢以補(bǔ)全 MMKG纲辽。三個(gè)相當(dāng)異構(gòu)的知識(shí)使 MMKG 成為衡量多關(guān)系鏈接預(yù)測(cè)方法性能的重要基準(zhǔn)斜纪,并驗(yàn)證了不同模態(tài)對(duì)于sameAs的鏈接預(yù)測(cè)任務(wù)是互補(bǔ)的假設(shè)。

4.1.2 三元組分類

????三元組分類指判斷一個(gè)給定的三元組是否為正確文兑,這也可以看作是一種知識(shí)圖譜補(bǔ)全任務(wù)。[143-2013, 144-2016]

4.1.3 實(shí)體分類

????實(shí)體分類指將一個(gè)實(shí)體分類為不同的語(yǔ)義類別腺劣,即 MMKG 中不同粒度的概念绿贞。實(shí)體分類也可以看成是一種特殊的鏈接預(yù)測(cè)任務(wù),輸入為(entity, IsA, ?)橘原,其中關(guān)系類型固定為IsA籍铁,預(yù)測(cè)實(shí)體對(duì)應(yīng)的概念。

????實(shí)體分類問題在傳統(tǒng)的SKG上進(jìn)行了研究趾断,也積累了不少模型可以在 MMKGs 中使用拒名。但是,它們沒有充分利用 MMKG 中實(shí)體和概念的豐富多模態(tài)數(shù)據(jù)芋酌。對(duì)此似枕,[145-2020]致力于從幾種不同類型的模態(tài)中學(xué)習(xí)實(shí)體和概念的嵌入叔磷,然后將它們編碼到聯(lián)合表示空間。

4.1.4 實(shí)體對(duì)齊

????實(shí)體對(duì)齊在將多個(gè)MMKG進(jìn)行合并的時(shí)候,找出不同MMKG中具有相同含義的實(shí)體的過程心俗。其目標(biāo)是為了將對(duì)齊的實(shí)體合并,消除合并圖譜中存在的冗余涵防。其核心思想是學(xué)習(xí)每個(gè)實(shí)體在MMKG中的分布式表示俄周,然后,通過計(jì)算兩個(gè)實(shí)體的的相似度判斷它們是否可以被對(duì)齊疚顷。與傳統(tǒng)SKG不同旱易,MMKG中包含了豐富的多模態(tài)信息,如何學(xué)習(xí)包含豐富模態(tài)信息的實(shí)體表示成為了MMKG實(shí)體對(duì)齊重點(diǎn)解決的問題[146-2021, 147-2020]腿堤。

????有些研究者另辟蹊徑阀坏,采用Product of Experts模型[24-2019],通過回答(h?, sameAs, t)或(h, sameAs, t笆檀?)兩種形式的查詢完成實(shí)體對(duì)齊任務(wù)全释。其中,h和t分別是來(lái)自不同MMKG的候選實(shí)體對(duì)误债。

4.2 MMKG下游應(yīng)用(Out-of-MMKG)

????Out-of-MMKG 應(yīng)用指基于 MMKG的下游應(yīng)用浸船。下面從基于MMKG的命名實(shí)體識(shí)別(entity recognition)和實(shí)體鏈接(entity linking)妄迁、視覺問答(visual question answing, VQA)李命、圖文匹配(image-text matching)登淘、多模態(tài)生成(multi-model generation)和多模態(tài)推薦系統(tǒng)(multi-model recommender system)等幾個(gè)應(yīng)用為例進(jìn)行介紹。本文沒有對(duì)這些任務(wù)的所有解決方案提供系統(tǒng)評(píng)價(jià)封字,而是主要關(guān)注介紹如何使用 MMKG黔州。

4.2.1 多模態(tài)實(shí)體識(shí)別與鏈接

? ??多模態(tài)實(shí)體識(shí)別(MNER) 旨在檢測(cè)帶有圖像的文本中的實(shí)體,其中圖像可以為實(shí)體識(shí)別提供必要的補(bǔ)充信息阔籽。 MMKG 通過提供視覺特征使得 MNER 附帶圖像信息用于實(shí)體識(shí)別流妻。例如,使用 MMKG 中圖像的背景知識(shí)來(lái)幫助捕獲圖像的深層特征笆制,以避免來(lái)自淺層特征的錯(cuò)誤[57-2018, 117-2018, 149-2021]绅这。

? ??多模式實(shí)體鏈接 (MEL),指對(duì)于帶有附加圖像的文本中在辆,通過結(jié)合文本和視覺信息將文本中的實(shí)體鏈接到知識(shí)庫(kù)中的實(shí)體[150-2020, 151-2018]证薇。

4.2.2 視覺問答

????視覺問答(VQA)是一項(xiàng)具有挑戰(zhàn)性的任務(wù),不僅需要對(duì)問題進(jìn)行準(zhǔn)確的語(yǔ)義解析匆篓,還需要深入理解給定圖像中不同對(duì)象和場(chǎng)景之間的相關(guān)性浑度。最近發(fā)布的VQA任務(wù)數(shù)據(jù)集(GQA[119-2019]、OK-VQA[56-2019]鸦概、KVQA[121-2019])箩张,普遍要求結(jié)合視覺推理完成。OK-VQA任務(wù)中窗市,人們可以方便地結(jié)合知識(shí)庫(kù)中多模態(tài)信息伏钠,對(duì)問題進(jìn)行解答。例如谨设,在“哪個(gè)美國(guó)總統(tǒng)與這里看到的毛絨玩具有關(guān)熟掂?”的問題中,如果圖像中的毛絨玩具被檢測(cè)為“泰迪熊”扎拣,則通過 KG 推理出的答案將是“西奧多·羅斯父岸牵”,因?yàn)樗31环Q為“泰迪羅斯付叮”誉券,泰迪熊以他的名字命名。

? ??抽取視覺概念之間的關(guān)系理解問題中的語(yǔ)義信息是 VQA 的兩個(gè)關(guān)鍵問題刊愚。然而踊跟,如果不結(jié)合更多各種模態(tài)的知識(shí),它就無(wú)法通過語(yǔ)義解析和匹配對(duì)圖像-問題-答案三元組進(jìn)行推理,并且很難推廣到更復(fù)雜的情況[122-2015]商玫。MMKG 有助于解決上述問題并增強(qiáng)答案的可解釋性箕憾。首先,MMKG 提供某個(gè)圖像中包含的實(shí)體及實(shí)體間關(guān)系信息拳昌,提供更深入的視覺內(nèi)容理解袭异。其次,MMKG 中的結(jié)構(gòu)化符號(hào)知識(shí)在進(jìn)行推理和最終答案預(yù)測(cè)上提供數(shù)據(jù)支持炬藤。[152-2021]結(jié)合了多種KG去完成VQA任務(wù)御铃,具體包括用于提供分類和常識(shí)知識(shí)的SKG(DBpedia[6-2007], ConceptNet[2-2004], hasPartKB[153-2020])和一個(gè)MMKG(Visual Genome[59-2017])。除此之外沈矿,MMKG中豐富的語(yǔ)義信息可以從可解釋性通用性方面完善答案[154-2020]上真。

4.2.3 圖-文匹配

????圖像-文本匹配是許多與文本和圖像相關(guān)應(yīng)用的一項(xiàng)基本任務(wù),例如圖像-文本和文本-圖像檢索羹膳,其核心目標(biāo)是計(jì)算圖像和文本對(duì)之間的語(yǔ)義相似度[114-2018, 155-2015, 156-2018, 157-2019, 158-2020]睡互。

????圖像-文本匹配通常是通過將文本和圖像映射到一個(gè)語(yǔ)義空間中,計(jì)算不同模態(tài)數(shù)據(jù)在同一語(yǔ)義空間中的向量表示的相似度實(shí)現(xiàn)溜徙。一種通用的方法是利用多標(biāo)簽檢測(cè)模塊來(lái)抽取語(yǔ)義概念,然后將這些概念與圖像的全局上下文融合[114-2018, 159-2018, 160-2019]犀填。然而蠢壹,預(yù)訓(xùn)練的基于檢測(cè)的模型很難找到長(zhǎng)尾概念,導(dǎo)致性能不佳九巡。對(duì)于數(shù)據(jù)偏差導(dǎo)致的長(zhǎng)尾問題图贸,可以利用MMKG中豐富的多模態(tài)數(shù)據(jù)對(duì)長(zhǎng)尾概念用圖像等模態(tài)擴(kuò)展。此外冕广,MMKG還可以幫助構(gòu)建場(chǎng)景圖(scene graph)疏日,引入視覺對(duì)象之間的關(guān)系信息,進(jìn)一步增強(qiáng)圖像表示能力撒汉。例如沟优,可以提取在 MMKG 的三元組中經(jīng)常共現(xiàn)的實(shí)體對(duì)(房屋-窗戶對(duì)和樹-樹葉對(duì)),以增強(qiáng)圖像的表示睬辐,從而為圖像的語(yǔ)義理解提供豐富的上下文信息挠阁,并提升圖像-文本匹配的性能[16-2019]。此外溯饵,考慮到圖像-文本匹配任務(wù)中的一個(gè)關(guān)鍵步驟是在不同模態(tài)之間對(duì)齊局部和全局表示侵俗。對(duì)此,[161-2020]嘗試將MMKG中的關(guān)系引入丰刊,以表示更高語(yǔ)義級(jí)別的圖像和文本隘谣。這種圖結(jié)構(gòu)信息更好地增強(qiáng)了多模態(tài)數(shù)據(jù)的推理能力和可解釋性。 MMKG 還通過學(xué)習(xí)更統(tǒng)一的多模態(tài)表示來(lái)幫助跨模態(tài)對(duì)齊啄巧。

4.2.4 多模態(tài)生成任務(wù)

????當(dāng)前基于MMKG的多模態(tài)生成任務(wù)主要包括寻歧,圖像標(biāo)記(image tagging)掌栅、圖像描述(image caption)、視覺敘事(visual storytelling)等熄求。

? ??1)圖像標(biāo)記渣玲,傳統(tǒng)的圖像標(biāo)記方法很容易受到標(biāo)簽數(shù)量偏差以及標(biāo)記質(zhì)量的限制。通過將 MMKG 中的概念知識(shí)嵌入到圖像中弟晚,可以極大地改善圖像的表示忘衍,從而提高圖像標(biāo)記的性能[162-2019]。[162-2019]構(gòu)建一個(gè)名為 Visio-Textual Knowledge Base (VTKB) 的MMKG卿城,其中包括文本和視覺信息以及它們之間的關(guān)系枚钓。基于VTKB瑟押,提出了一種新的圖像標(biāo)記框架搀捷,將視覺信息結(jié)合到 VTKB 中,以幫助消除概念歧義并將它們與圖像更好地聯(lián)系起來(lái)多望。

? ? 2)圖像描述嫩舟,主流的基于統(tǒng)計(jì)的圖像描述模型有兩個(gè)缺點(diǎn):首先,它們嚴(yán)重依賴目標(biāo)檢測(cè)器的性能(先檢測(cè)視覺對(duì)象怀偷,再生成對(duì)應(yīng)描述內(nèi)容)家厌。其次,訓(xùn)練集中沒有出現(xiàn)的對(duì)象總是給他們帶來(lái)很大的挑戰(zhàn)椎工。在圖像-描述并行語(yǔ)料庫(kù)上訓(xùn)練的模型總是無(wú)法描述之前未見過的對(duì)象和概念饭于。

????幸運(yùn)的是,MMKG 可以通過以下方式幫助緩解圖像描述上述兩個(gè)問題:1)[163-2019]提出利用 MMKG 進(jìn)行關(guān)系推理维蒙,從而產(chǎn)生更準(zhǔn)確和合理的描述掰吕。2) MMKG的符號(hào)關(guān)聯(lián)知識(shí)可以幫助理解訓(xùn)練集中沒有出現(xiàn)的實(shí)體/概念[55-2017]。具體來(lái)說颅痊,符號(hào)知識(shí)提供了關(guān)于沒有被訓(xùn)練到的對(duì)象的符號(hào)信息殖熟,并與已知對(duì)象之間建立語(yǔ)義關(guān)系。

????一個(gè)更復(fù)雜的任務(wù)為實(shí)體感知圖像描述斑响,它要求在以文本形式給定背景知識(shí)的情況吗讶,對(duì)圖像中的對(duì)象給出更加豐富的描述內(nèi)容。盡管一些研究將背景文本知識(shí)利用細(xì)粒度的注意力機(jī)制編碼近模型中恋捆,但它們忽略了實(shí)體/概念與圖像中視覺線索之間的關(guān)聯(lián)照皆,因此在某些復(fù)雜場(chǎng)景下表現(xiàn)不佳。然而沸停,MMKG可以捕獲上下文中的實(shí)體和圖像中的對(duì)象之間的細(xì)粒度關(guān)系膜毁,以便生成更準(zhǔn)確實(shí)體和更多相關(guān)事件的描述[18-2021]。

? ? 3)視覺敘事,視覺敘事可以看做是升級(jí)版的圖像描述任務(wù)瘟滨,需要根據(jù)許多連續(xù)的圖像來(lái)講述故事候醒。該任務(wù)不僅需要分析圖像與圖像之間的關(guān)聯(lián),還需要分析相關(guān)圖像中視覺對(duì)象之間的關(guān)系杂瘸。傳統(tǒng)的視覺敘事方法通常將其抽象為順序圖像描述問題倒淫,忽略圖像之間的關(guān)聯(lián)關(guān)系,導(dǎo)致產(chǎn)生單調(diào)的故事败玉。此外敌土,上述方法生成的描述詞匯和知識(shí)受限于單個(gè)訓(xùn)練數(shù)據(jù)集。為了解決這些問題运翼,[164-2020]在蒸餾-濃縮-生成三階段框架中引入MMKG返干。首先,從每個(gè)圖像中提取一組單詞血淌,然后矩欠,將兩個(gè)連續(xù)圖像中的所有單詞配對(duì)以查詢Visual Genome的對(duì)象關(guān)系和OpenIE的術(shù)語(yǔ)關(guān)系,以獲取所有可能的元組并生成豐富的故事悠夯。最后癌淮,生成最優(yōu)的詞語(yǔ)組合輸入到故事生成模塊,執(zhí)行故事生成沦补。通過這種模仿人類如何敘述故事的方式乳蓄,知識(shí)圖譜中關(guān)系的使用提供了圖像之間強(qiáng)大的邏輯推理,使生成的故事更加流暢策彤。

4.2.5 多模態(tài)推薦系統(tǒng)

????推薦系統(tǒng)旨在通過對(duì)歷史數(shù)據(jù)的分析來(lái)推薦用戶可能喜歡/購(gòu)買的商品栓袖。在此過程中需要平衡多種因素匣摘,例如準(zhǔn)確性店诗、新穎性、分散性和穩(wěn)定性[165-2013]音榜。多模態(tài)推薦系統(tǒng)指在推薦場(chǎng)景中涉及圖像和文本等多模態(tài)數(shù)據(jù)庞瘸,需要聯(lián)合利用不同模態(tài)的信息,以提升推薦性能赠叼。

????近年來(lái)已經(jīng)證明擦囊,MMKG可以極大地增強(qiáng)多模態(tài)推薦系統(tǒng)[166-2009]。一些方法通過利用外部 MMKG 來(lái)獲得具有豐富語(yǔ)義的項(xiàng)目表示嘴办∷渤。跨不同模態(tài)整合 MMKG 的信息可以幫助解決基于協(xié)作過濾 (CF) 的推薦策略中長(zhǎng)期存在的冷啟動(dòng)問題[167-2016]。其他一些方法找到了利用 MMKG 獲得更個(gè)性化和可解釋的推薦的其他方法[131-2020, 168-2021]涧郊。

五贯被、未解決的問題

????本節(jié)討論了一些關(guān)于 MMKG 構(gòu)建和應(yīng)用的開放問題,留待未來(lái)研究。

5.1 復(fù)雜符號(hào)知識(shí)定位

????除了實(shí)體彤灶、概念和關(guān)系等的定位之外看幼,一些下游應(yīng)用需要對(duì)更加復(fù)雜的符號(hào)知識(shí)定位,這些知識(shí)由多個(gè)相互之間具有密切語(yǔ)義關(guān)系的關(guān)系事實(shí)組成幌陕。這些多重關(guān)系事實(shí)可能是知識(shí)圖譜中的一條路徑或一個(gè)子圖诵姜。例如,對(duì)于包含特朗普的妻子搏熄、女兒棚唆、孫子等的子圖,合適的圖像定位可能是特朗普的全家福搬卒。

????多重關(guān)系定位具有挑戰(zhàn)性瑟俭,因?yàn)樗婕岸鄠€(gè)關(guān)系的定位,并且這些多重定位通常以復(fù)雜的方式相互交織契邀。我們必須找到充分體現(xiàn)復(fù)合語(yǔ)義關(guān)系的圖像摆寄。在許多情況下,復(fù)合語(yǔ)義只是隱式表達(dá)的坯门,并且可能隨著時(shí)間而改變微饥。

5.2 質(zhì)量控制

????一般來(lái)說,我們依靠數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)構(gòu)建大規(guī)模的 MMKG古戴。從大數(shù)據(jù)中自動(dòng)獲取的 MMKG 不可避免地會(huì)遇到質(zhì)量問題欠橘,即 MMKG 可能包含錯(cuò)誤、缺失事實(shí)或過時(shí)的事實(shí)现恼。例如肃续,在基于搜索行為數(shù)據(jù)的多模態(tài)知識(shí)獲取中,很容易為長(zhǎng)尾實(shí)體關(guān)聯(lián)錯(cuò)誤的圖像叉袍,因?yàn)樵搶?shí)體可能在 Web 上沒有圖像始锚,因此任何點(diǎn)擊的圖像都會(huì)誤導(dǎo)錯(cuò)誤定位。

表4?MMKG 中的質(zhì)量問題示例

????除了在傳統(tǒng)知識(shí)圖譜中廣泛討論和研究的準(zhǔn)確性喳逛、完整性瞧捌、一致性和新穎度等常見質(zhì)量問題外,多模態(tài)知識(shí)圖譜還存在一些與圖像有關(guān)的特殊質(zhì)量問題润文。第一姐呐,當(dāng)兩個(gè)實(shí)體彼此密切相關(guān)時(shí),兩個(gè)實(shí)體的圖像很容易被混淆典蝌。見表 4 中的第一個(gè)例子曙砂,Pluvianus aegyptius是一種與鱷魚共生的鳥類,因此我們?cè)谒阉鲿r(shí)可能總是得到鱷魚和鳥類的照片骏掀。第二鸠澈,更加有名的實(shí)體的圖像很容易出現(xiàn)在其密切相關(guān)實(shí)體的定位結(jié)果中乔夯。見表4中的第二個(gè)例子,《The Wandering Earth》是中國(guó)著名科幻作家劉慈欣寫的款侵。在搜索這本書的過程中末荐,我們總能找到另一本劉慈欣更著名的書的圖片,名為《The dark forest》新锈。第三甲脏,一些抽象概念的視覺特征不夠清晰。比如抽象名詞arrogance的視覺特征是不固定的妹笆,所以我們總能得到一些完全不相關(guān)的圖片块请。為了解決上述問題,可能需要更多的視覺分析和背景信息來(lái)指導(dǎo)點(diǎn)擊率和文本信息拳缠,以避免這種誤導(dǎo)墩新。

5.3 效率

????在構(gòu)建大規(guī)模KG,效率始終是一個(gè)不可忽視的問題窟坐,對(duì)于MMKG的構(gòu)建海渊,效率問題更為突出,因?yàn)檫€需要額外考慮處理多媒體數(shù)據(jù)復(fù)雜性哲鸳。例如臣疑,NEIL[19-2013]耗費(fèi)大約350K的CPU小時(shí)去收集 2273個(gè)對(duì)象的400K個(gè)視覺實(shí)例,而在一個(gè)典型的KG 中徙菠,我們需要處理數(shù)十億個(gè)實(shí)例讯沈。因此,構(gòu)建MMKG的現(xiàn)有解決方案的執(zhí)行過程將受到極大挑戰(zhàn)婿奔。如果定位目標(biāo)是視頻數(shù)據(jù)缺狠,則可執(zhí)行性難度可能會(huì)被放大。

????除了MMKG的構(gòu)建萍摊,MMKG的在線應(yīng)用也需要認(rèn)真解決效率問題挤茄,因?yàn)榛贛MKG應(yīng)用普遍要求實(shí)時(shí)性。效率對(duì)于構(gòu)建基于MMKG的在線應(yīng)用至關(guān)重要记餐。

六驮樊,結(jié)論

????我們第一次對(duì)包含文本和圖像模態(tài)MMKG構(gòu)建和應(yīng)用方面現(xiàn)有工作進(jìn)行了系統(tǒng)全面的總結(jié)薇正,梳理了主流MMKG涉及的概念和知識(shí)片酝,分析了MMKG構(gòu)建和應(yīng)用中不同解決方案的優(yōu)勢(shì)和劣勢(shì)。通過對(duì)現(xiàn)有研究工作的分析和總結(jié)挖腰,我們給出了在MMKG建設(shè)和應(yīng)用任務(wù)中存在的挑戰(zhàn)和未來(lái)可能的機(jī)遇。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市忽肛,隨后出現(xiàn)的幾起案子芥被,更是在濱河造成了極大的恐慌肥哎,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,470評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件疾渣,死亡現(xiàn)場(chǎng)離奇詭異篡诽,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)榴捡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門杈女,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人吊圾,你說我怎么就攤上這事达椰。” “怎么了项乒?”我有些...
    開封第一講書人閱讀 162,577評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵啰劲,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我檀何,道長(zhǎng)蝇裤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,176評(píng)論 1 292
  • 正文 為了忘掉前任频鉴,我火速辦了婚禮猖辫,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘砚殿。我一直安慰自己啃憎,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評(píng)論 6 388
  • 文/花漫 我一把揭開白布似炎。 她就那樣靜靜地躺著辛萍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪羡藐。 梳的紋絲不亂的頭發(fā)上贩毕,一...
    開封第一講書人閱讀 51,155評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音仆嗦,去河邊找鬼辉阶。 笑死,一個(gè)胖子當(dāng)著我的面吹牛瘩扼,可吹牛的內(nèi)容都是我干的谆甜。 我是一名探鬼主播,決...
    沈念sama閱讀 40,041評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼集绰,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼规辱!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起栽燕,我...
    開封第一講書人閱讀 38,903評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤罕袋,失蹤者是張志新(化名)和其女友劉穎改淑,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體浴讯,經(jīng)...
    沈念sama閱讀 45,319評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡朵夏,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了榆纽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片侍郭。...
    茶點(diǎn)故事閱讀 39,703評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖掠河,靈堂內(nèi)的尸體忽然破棺而出亮元,到底是詐尸還是另有隱情,我是刑警寧澤唠摹,帶...
    沈念sama閱讀 35,417評(píng)論 5 343
  • 正文 年R本政府宣布爆捞,位于F島的核電站,受9級(jí)特大地震影響勾拉,放射性物質(zhì)發(fā)生泄漏煮甥。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評(píng)論 3 325
  • 文/蒙蒙 一藕赞、第九天 我趴在偏房一處隱蔽的房頂上張望成肘。 院中可真熱鬧,春花似錦斧蜕、人聲如沸双霍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)洒闸。三九已至,卻和暖如春均芽,著一層夾襖步出監(jiān)牢的瞬間丘逸,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工掀宋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留深纲,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,711評(píng)論 2 368
  • 正文 我出身青樓劲妙,卻偏偏與公主長(zhǎng)得像湃鹊,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子是趴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容