隨著主網(wǎng)上線逐步臨近惯裕,知識(shí)圖譜生態(tài)也在悄然構(gòu)建诞帐。作為當(dāng)前一大熱門賽道,知識(shí)圖譜界也在不斷呈現(xiàn)出新理論與新概念摆马,為了給大家同步知識(shí)圖譜領(lǐng)域的全球最新最前沿的干貨,EpiK將特別開辟知識(shí)共享欄目鸿吆,希望大家可以共同參與進(jìn)來囤采,加入我們的知識(shí)圖譜最前沿內(nèi)容社區(qū),共同為知識(shí)圖譜貢獻(xiàn)一份力量惩淳。
今天小編分享的是Michael Galkin 的《RDF 和 LPG 知識(shí)圖譜上的表示學(xué)習(xí)》蕉毯。該文從知識(shí)圖譜構(gòu)建的幾大常見方式如三元組、RDF思犁、LPG等切入代虾,通過對(duì)知識(shí)圖譜三元組這一通用的標(biāo)準(zhǔn)范式的解析,指出其中對(duì)于實(shí)體認(rèn)知的不足激蹲,引入RDF和LPG在知識(shí)圖譜構(gòu)建中的重要作用棉磨,尤其是在構(gòu)建超關(guān)系知識(shí)圖譜中的作用。
在本文中托呕,我們將重溫三元組在知識(shí)圖譜構(gòu)建中的結(jié)構(gòu)范式含蓉,同時(shí)也將學(xué)到新概念—超圖频敛、超關(guān)系知識(shí)圖譜以及超關(guān)系知識(shí)圖譜的發(fā)展歷程、超關(guān)系知識(shí)圖譜編碼馅扣、解碼的全過程等等斟赚。原文(見閱讀原文)翻譯如下:
知識(shí)圖譜(KGs)是現(xiàn)代自然語言處理和人工智能應(yīng)用的基石——近期的成果包括問答、實(shí)體和關(guān)系鏈接差油、語言建模拗军、信息提取,甚至用強(qiáng)化學(xué)習(xí)播放文本 RPG蓄喇。此外发侵,知識(shí)圖譜已經(jīng)在業(yè)界被廣泛采用,例如妆偏,近期知識(shí)圖譜會(huì)議(KGC)上的一系列成果:
三元組 vs 世界
傳統(tǒng)上刃鳄,KGs 被編碼為(RDF)三元組,許多公開可用的 KGs钱骂,如 DBpedia 和 YAGO叔锐,最初遵循這種由表達(dá)邏輯形式支持的范式和標(biāo)準(zhǔn),如RDF和OWL见秽。
三重事實(shí)愉烙。愛因斯坦同時(shí)上了兩所大學(xué)嗎?圖片源自作者解取。
使用三元組步责,上面描述阿爾伯特·愛因斯坦就讀的大學(xué)的例子可以編碼為兩個(gè)三元組:
阿爾伯特·愛因斯坦在蘇黎世聯(lián)邦理工學(xué)院接受教育
阿爾伯特·愛因斯坦,蘇黎世大學(xué)教育
嗯禀苦,對(duì)于簡(jiǎn)單的應(yīng)用程序來說蔓肯,這看起來還不錯(cuò),但事實(shí)證明伦忠,我們的世界要把所有東西都分成三元組要復(fù)雜一點(diǎn)省核。例如,這兩個(gè)三元組是否意味著阿爾伯特·愛因斯坦同時(shí)在這兩個(gè)地方接受教育昆码?或者他們授予他相同的學(xué)位气忠?
事實(shí)上,愛因斯坦在蘇黎世聯(lián)邦理工學(xué)院獲得了數(shù)學(xué)專業(yè)的學(xué)士學(xué)位赋咽,而在蘇黎世大學(xué)獲得了物理專業(yè)的博士學(xué)位旧噪。
我們能不能有一個(gè)更詳細(xì)地表達(dá)事實(shí)的機(jī)制?
是的脓匿。在 KG 世界里淘钟,至少有兩種方法可以做到這一點(diǎn)——RDF 圖和標(biāo)記屬性圖(LPG)。這兩種方法都允許通過在KG中的邊上附加輔助鍵值(關(guān)系實(shí)體)對(duì)來進(jìn)一步實(shí)例化每個(gè)事實(shí)陪毡。這兩種方法都已經(jīng)得到了圖形數(shù)據(jù)庫市場(chǎng)上主要供應(yīng)商的支持米母。?
在 LPG 世界中勾扭,節(jié)點(diǎn)和邊緣都可以自然地具有鍵值屬性。Neo4j可能是液化石油氣家族中最大的名字铁瞒。用戶可以用(開放)密碼查詢液化石油氣妙色。最近的一個(gè)新冠肺炎 KG 可用作 Neo4j 轉(zhuǎn)儲(chǔ)。?
RDF 最初由 Olaf Hartig 提出(他的博客是研究 RDF 和相關(guān)技術(shù)的起點(diǎn))慧耍,旨在緩解臭名昭著的RDF 具體化機(jī)制的許多問題(查看弗雷等人的這項(xiàng)調(diào)查身辨,了解具體化的全面概述),同時(shí)保留與 RDF 圖相關(guān)的推理能力芍碧。在堅(jiān)實(shí)的理論基礎(chǔ)的支持下煌珊,RDF 提供了幾種用更多細(xì)節(jié)豐富三元組的方法。你可以用 SPARQL(SPARQL 用于 RDF 的擴(kuò)展)查詢 RDF 圖泌豆。Apache Jena定庵、RDF4J、N3. js践美、Blazegraph洗贰、AnzoGgraph找岖、StarDog 和 GraphDB 支持 RDF和 SPARQL陨倡。
我們?cè)赗DF語法中的示例可以是這樣的:
超關(guān)系圖還是超圖?
對(duì)于這樣的知識(shí)圖譜來說许布,這是一個(gè)合適的術(shù)語嗎兴革?在羅索等人最近?工作中建議使用“超關(guān)系圖”之前,詞匯量有一點(diǎn)差距蜜唾。盡管如此杂曲,“超圖”這個(gè)術(shù)語還是有一個(gè)常見的誤用,因此,我們也想提倡“超關(guān)系”圖袁余。?
這兩個(gè)詞匯主要區(qū)別在于事實(shí)的表示擎勘。超圖假設(shè)有一個(gè)(命名的)超邊緣統(tǒng)一了幾個(gè)實(shí)體:
每個(gè)節(jié)點(diǎn)由 4 個(gè)節(jié)點(diǎn)組成。注意颖榜,我們丟失了與學(xué)術(shù)專業(yè)和學(xué)位相關(guān)的謂詞棚饵。圖像源自作者。
看起來像一個(gè) n 元關(guān)系掩完,對(duì)嗎? ?我們這里有幾個(gè)問題:
1.我們失去了與 academic_degree 和 academic_major 分別與 Bachelor/Doctorate 和Mathematics/Physics 相關(guān)的類型化關(guān)系噪漾。相反,超邊緣的類型是 educated_at且蓬、academic_degree 和academic_major的抽象(或相當(dāng)奇怪的語義混合)欣硼。如果一個(gè)事實(shí)也包含一個(gè)輔助謂詞academic_supervisor呢?我們需要定義一個(gè)新的超邊緣恶阴,比如教育, 混合這些關(guān)系诈胜,這些關(guān)系隨著謂詞和限定詞的數(shù)量呈指數(shù)級(jí)增長(zhǎng)豹障。
2.此外,我們也失去了學(xué)位和專業(yè)的輔助特征焦匈,即旨在描述它們的主要三元組沼填。例如,學(xué)士和數(shù)學(xué)是阿爾伯特·愛因斯坦和蘇黎世聯(lián)邦理工學(xué)院的輔助括授,因此應(yīng)該這樣對(duì)待坞笙。超邊緣中的實(shí)體元組假設(shè)其元素同等重要。也就是說荚虚,在接下來的部分中薛夜,我們將堅(jiān)持超關(guān)系方法。
野蠻生長(zhǎng)的超關(guān)系知識(shí)圖譜
在 2020年版述,大多數(shù)開放域KG廣泛使用超關(guān)系事實(shí)梯澜。維基數(shù)據(jù)及其維基數(shù)據(jù)語句模型是超關(guān)系知識(shí)圖譜的一個(gè)很好的例子。維基數(shù)據(jù)中的每個(gè)事實(shí)都是一個(gè)帶有主三重和一組輔助限定符-實(shí)體關(guān)系對(duì)的語句渴析。有了維基數(shù)據(jù)語句晚伙,我們的阿爾伯特·愛因斯坦示例可以像以下這樣簡(jiǎn)單地建模:
在這些陳述中,(academic_degree俭茧,學(xué)士)和(academic_major咆疗,數(shù)學(xué))是三重<阿爾伯特·愛因斯坦,educated_at母债,蘇黎世聯(lián)邦理工學(xué)院>的限定詞午磁。重要的是要注意,維基數(shù)據(jù)(通常是超關(guān)系范式)不會(huì)在專門用于主要三元組或限定詞的實(shí)體和謂詞之間分開毡们,即所有謂詞和實(shí)體都可以用在三個(gè)術(shù)語或限定詞中 (盡管在當(dāng)前的維基數(shù)據(jù)版本中迅皇,有些實(shí)體和關(guān)系只能在限定符中看到)。我們將在下面的部分使用這個(gè)屬性衙熔。
至于其他KG登颓,從2018年開始,DBpedia的新版本包含類似于維基數(shù)據(jù)的具體化語句红氯。YAGO 4也采用了RDF編碼的事實(shí)框咙。那么Freebase呢?嗯脖隶,在2020年扁耐,你可能不應(yīng)該練習(xí)巫術(shù) ,因?yàn)镕reebase不再被支持或更新产阱。然而婉称,F(xiàn)reebase中的復(fù)合值類型(CVT)節(jié)點(diǎn)確實(shí)類似于三元的具體化[但看起來更像n元關(guān)系。
圖表示學(xué)習(xí)
我們這里的任務(wù)是學(xué)習(xí)超關(guān)系圖的表示。通過表示王暗,我們引用實(shí)體(節(jié)點(diǎn))和關(guān)系(類型化邊緣)嵌入悔据。這些嵌入可以用于下游任務(wù),如鏈接預(yù)測(cè)俗壹、節(jié)點(diǎn)分類科汗、實(shí)體對(duì)齊,以及更多可用于NLP绷雏、簡(jiǎn)歷和其他人工智能領(lǐng)域的任務(wù)头滔。
圖表示學(xué)習(xí)(GRL)領(lǐng)域是機(jī)器學(xué)習(xí)發(fā)展最快的領(lǐng)域之一,有幾篇文章【邁克爾·布朗斯坦的一系列文章涎显,ICLR 20和NeurIPS 19論文的評(píng)論(我的坤检,謝爾蓋的),書籍(威廉·漢密爾頓的期吓,馬和唐的)早歇,課程(CS224W,COMP 766讨勤,ESE 680)箭跳,甚至還有一個(gè)涵蓋基本和高級(jí)主題的GraphML電報(bào)頻道】。在編碼器-解碼器范式中潭千,編碼器通常是GNN(圖神經(jīng)網(wǎng)絡(luò))谱姓,解碼器是嵌入的函數(shù),返回與特定下游任務(wù)相關(guān)的值或向量脊岳,例如逝段,實(shí)體成為給定對(duì)的對(duì)象的概率。
基于三元體的知識(shí)圖譜有什么割捅?
編碼器:一系列多關(guān)系GNN編碼器,如R-GCN(Schlichtkrull et al帚桩,ESWC 2018)和CompGCN(Vashishth et al亿驾,ICLR 2020),它們?cè)谙鬟f框架內(nèi)擴(kuò)展了原始圖形卷積網(wǎng)絡(luò)(GCN)算法账嚎。
解碼器:實(shí)際上莫瞬,傳統(tǒng)的KG嵌入算法,如TransE郭蕉、ConvE疼邀、RotatE等,是鏈路預(yù)測(cè)任務(wù)解碼器的最佳示例召锈。最初旁振,它們也可以被訓(xùn)練成僅有解碼器的模型,直接??鏈路預(yù)測(cè)任務(wù)進(jìn)行端到端優(yōu)化。
超關(guān)系知識(shí)圖譜有什么拐袜?
嗯吉嚣,沒那么多。(截至2020年秋季)
編碼器:蹬铺?尝哆??
解碼器:Rosso等人提出的HINGE是一個(gè)基于CNN的端到端模型甜攀,用于超關(guān)系圖上的鏈接預(yù)測(cè)秋泄。嗯,我們無法應(yīng)對(duì)GNN編碼器部分如此明顯的深淵??规阀,并在我們最近的EMNLP 20論文《超關(guān)系知識(shí)圖的消息傳遞》中提出了StarE印衔,該論文由Priyansh Trivedi、Gaurav Mahehwari姥敛、Ricardo Usbeck和Jens Lehmann共同撰寫奸焙。StarE是一個(gè)多關(guān)系GNN編碼器,它將CompGCN擴(kuò)展到超關(guān)系KG彤敛。這個(gè)名字的靈感來自RDF StarE的設(shè)計(jì)考慮到了以下特點(diǎn):
關(guān)系的顯式建模与帆,包括限定關(guān)系;
限定語中的輔助實(shí)體和關(guān)系與主三元組中的實(shí)體和關(guān)系的分離墨榄;
盡管如此玄糟,任何實(shí)體和任何關(guān)系仍然可以用于主三元組以及限定詞;
限定詞順序的排列不變性——它們沒有任何特定的順序袄秩,可以自由地重新排列阵翎。也就是說,對(duì)于主要的三重<<阿爾伯特·愛因斯坦之剧,在蘇黎世聯(lián)邦理工學(xué)院接受教育來說郭卫,(學(xué)位、學(xué)士)是在(學(xué)術(shù)專業(yè)背稼、物理學(xué))之前還是之后并不重要贰军。
給數(shù)學(xué)愛好者的一些數(shù)學(xué)題
讓我們追蹤關(guān)系感知GNN編碼器在其鄰域聚合方案中的演變:
在StarE中,出現(xiàn)在節(jié)點(diǎn)u和v之間的主要三重關(guān)系h_r通過函數(shù)gammah_q的限定符聚合向量來增強(qiáng) () 該函數(shù)可以是加權(quán)和蟹肘、乘法词疼、conat或任何其他二進(jìn)制函數(shù)(我們選擇加權(quán)和)。我們得到向量hq:
也就是說帘腹,我們首先通過組合函數(shù)將限定符關(guān)系和實(shí)體嵌入h_{qr}和h_{qv}分別匯集在一個(gè)向量中贰盗,這可能是KG嵌入家族的評(píng)分函數(shù),例如RotatE阳欲。然后舵盈,我們應(yīng)用置換不變聚合函數(shù)將任意數(shù)量的限定符匯集到一個(gè)向量中陋率,最后通過轉(zhuǎn)換矩陣將其投影W_q。由于所有實(shí)體和關(guān)系通常都可以在主三元組和限定符中看到书释,W_q旨在學(xué)習(xí)實(shí)體和關(guān)系的限定符特定表示翘贮。我們?nèi)匀槐A鬋ompGCN組件:phi_ () 是一個(gè)類似于phi_q的組合函數(shù), 但是現(xiàn)在它合并了一個(gè)具有豐富邊緣表示的節(jié)點(diǎn)。W_{\lambda}是傳入爆惧、傳出和自循環(huán)關(guān)系的權(quán)重參數(shù)狸页。
超關(guān)系知識(shí)圖譜的稀疏編碼
為了提高效率,GNN對(duì)稀疏矩陣進(jìn)行操作扯再。?
可以以COO格式呈現(xiàn)為[2芍耘,num_edges]張量,并為邊緣類型添加一行
帶有限定符的超關(guān)系事實(shí)可以寫如下:
前三個(gè)條目總是表示“主”三元組熄阻,隨后的對(duì)是沒有特定順序的限定符(記住維基數(shù)據(jù)中的順序不變性) 什么是超關(guān)系KG的稀疏表示斋竞,其中COO矩陣的每個(gè)“列”可能有任意數(shù)量的限定符?在這篇論文中秃殉,我們提出了以下編碼:
也就是說坝初,我們有兩個(gè) COO 矩陣:
帶有隱式列索引k的普通“三重”COO
形狀為[3,num_qualifiers]的“限定符”COO钾军,其中第一行包含“三重”COO中列的索引鳄袍,第二行包含限定符關(guān)系和第三限定符實(shí)體。索引行將一列限定符連接到主三重吏恭。也就是說拗小,“限定符”COO中共享相同索引k的列屬于“三重”COO矩陣中的第k個(gè)三重。這允許我們?cè)趦?nèi)存中對(duì)KG中的限定符數(shù)量為O(q)樱哼,并且總內(nèi)存為O(|邊|+|限定符|)哀九。?
?
我們需要更多地討論數(shù)據(jù)集
我們簡(jiǎn)要地談到了將超關(guān)系事實(shí)編碼為實(shí)體和關(guān)系序列。但是已經(jīng)有可靠的數(shù)據(jù)集用于在這樣的KG上進(jìn)行實(shí)驗(yàn)了嗎搅幅?傳統(tǒng)上阅束,KG嵌入是在鏈接預(yù)測(cè)任務(wù)上進(jìn)行評(píng)估的,而圖形ML任務(wù)包括節(jié)點(diǎn)分類盏筐、圖形分類围俘、實(shí)體匹配等等。到目前為止琢融,只存在兩個(gè)鏈接預(yù)測(cè)數(shù)據(jù)集:關(guān)等人提出的維基人——它是描述人的維基數(shù)據(jù)的轉(zhuǎn)儲(chǔ),JF17K是Freebase的出口 簿寂。?然而漾抬,我們發(fā)現(xiàn)了它們的主要缺點(diǎn):
WikiPeople有太多帶有文字(年份)的限定詞。不建議將文字作為另一種實(shí)體來對(duì)待常遂,因?yàn)閿?shù)字是連續(xù)的值纳令,應(yīng)該這樣對(duì)待(嗯凤瘦,這是KG嵌入文獻(xiàn)??中文字的一個(gè)普遍問題)。也就是說不撑,在大多數(shù)情況下快毛,這種限定詞會(huì)被刪除。這導(dǎo)致數(shù)據(jù)集中只有2%的事實(shí)有限定詞捏雌,而80%的事實(shí)只有一個(gè)限定詞對(duì):/跃赚。
JF17K有測(cè)試集泄漏。事實(shí)上性湿,作者自己發(fā)現(xiàn)了“大量冗余三元組”纬傲,不建議在實(shí)驗(yàn)中使用它。HINGE最初更多的是一個(gè)n元數(shù)據(jù)集肤频,它將其轉(zhuǎn)換成一個(gè)帶有輔助謂詞的超關(guān)系格式叹括。我們進(jìn)行了進(jìn)一步的研究,發(fā)現(xiàn)超過40%的測(cè)試語句共享與訓(xùn)練集中相同的(s宵荒,r汁雷,o)主三元組。也就是說报咳,在subject/object預(yù)測(cè)任務(wù)中侠讯,一個(gè)簡(jiǎn)單的三重啟發(fā)式可以勝過我們?cè)谡撐闹姓故舅幸郧暗某P(guān)系方法。
由于這兩個(gè)數(shù)據(jù)集都不適合評(píng)估超關(guān)系方法少孝,我們根據(jù)以下指南從維基數(shù)據(jù)中采樣了WD50K:
保留類似維基數(shù)據(jù)的限定符分布继低。在 vanilla WD50K中,大約13%的語句有限定符(接近維基數(shù)據(jù)中總語句的17%)稍走;
所有限定符都是實(shí)體關(guān)系對(duì)袁翁,沒有文字;
實(shí)體和關(guān)系可以在主三元組和限定符中看到婿脸;
99%的語句最多有6個(gè)限定符對(duì) 對(duì)于進(jìn)一步的實(shí)驗(yàn)粱胜,我們采樣了3個(gè)額外的數(shù)據(jù)集:
WD50K(33) - 大約33%的語句有限定符;
WD50K(66) - 大約66%的語句有限定符狐树;
WD50K(100) - 所有語句都有限定符 自然焙压,這些數(shù)據(jù)集比原始的WD50K小,具有更多限定符唯一的實(shí)體和關(guān)系抑钟。
鏈接預(yù)測(cè)中的StarE
在這一步涯曲,我們終于有了一個(gè)StarE編碼器和適合實(shí)驗(yàn)的鏈路預(yù)測(cè)數(shù)據(jù)集。我們的主要研究問題是:限定詞是否有助于預(yù)測(cè)超關(guān)系事實(shí)的主體和客體在塔?
用于鏈接預(yù)測(cè)的StarE+解碼器幻件。圖像源自作者。
?
也就是說蛔溃,給定主語绰沥、謂語和所有限定詞篱蝇,我們預(yù)測(cè)主語的對(duì)象,反之亦然徽曲。為此零截,我們將給定的事實(shí)線性化為序列,如圖所示秃臣,并使用帶有平均池和最終FC層的2層變壓器作為解碼器涧衙。變形金剛還允許我們使用填充標(biāo)記饋送不同長(zhǎng)度的序列,這些填充標(biāo)記自我注意力計(jì)算中被屏蔽甜刻。為了進(jìn)行比較绍撞,我們?cè)谕蝗蝿?wù)中應(yīng)用了僅解碼器的HINGE和2層變壓器來測(cè)量StarE編碼器是否帶來任何好處。事實(shí)證明確實(shí)如此得院!
我們觀察:
與僅使用解碼器的方法相比傻铣,StarE大大提高了鏈路預(yù)測(cè)性能;
當(dāng)數(shù)據(jù)集中有更多的限定符時(shí)祥绞,StarE甚至更有效(性能差距更大)非洲;
超關(guān)系方法確實(shí)有助于更好地預(yù)測(cè)主題和對(duì)象,因?yàn)橄薅ǚ挥腥齻€(gè)基線蜕径。你需要多少個(gè)限定詞才能看到質(zhì)量的提高两踏?只要2個(gè)就足夠了
我們用特定數(shù)字和交互式圖表的實(shí)驗(yàn)計(jì)劃在這里用權(quán)重和偏差報(bào)告,所以給KG社區(qū)的總結(jié)是:
尋求為圖中更多的三重事實(shí)分配描述性限定符——越多越好兜喻;
如果你分配限定符-添加2個(gè)或更多梦染!
結(jié)論和資源
超關(guān)系圖比普通的三元組更接近現(xiàn)實(shí),更詳細(xì)地描述事實(shí)
RDF和 LPG 提供了建立超關(guān)系知識(shí)圖譜的手段
超關(guān)系圖不同于超圖
超關(guān)系知識(shí)圖譜已經(jīng)在使用——無論是在開放領(lǐng)域知識(shí)圖譜還是在工業(yè)領(lǐng)域
RDF*驅(qū)動(dòng)的StarE-用于超關(guān)系KG的GNN編碼器朴皆,可以與用于下游任務(wù)的解碼器配對(duì)
與僅解碼器方法相比帕识,StarE改進(jìn)了鏈路預(yù)測(cè)
WD50K數(shù)據(jù)集系列更好地捕捉了超關(guān)系KG上鏈接預(yù)測(cè)的挑戰(zhàn)?