原文: Barack’s Wife Hillary: Using Knowledge Graphs for Fact-Aware Language Modeling
作者: Robert L. Logan IV;Nelson F. Liu屁柏;Matthew E. Peters叫胁;Matt Gardner定欧;Sameer Singh酵熙;
譯:張小邪先森
摘要
對(duì)人類語(yǔ)言進(jìn)行建模,不僅需要有能力生成流暢的文本,還需要對(duì)事實(shí)知識(shí)進(jìn)行編碼。然而叽唱,傳統(tǒng)的語(yǔ)言模型只能記住訓(xùn)練時(shí)看到的事實(shí),而且往往很難記住它們微宝。為了解決這個(gè)問(wèn)題棺亭,我們引入了知識(shí)圖譜語(yǔ)言模型(KGLM),這是一種神經(jīng)語(yǔ)言模型蟋软,具有從知識(shí)圖譜中選擇和復(fù)制與上下文相關(guān)事實(shí)的機(jī)制镶摘。這些機(jī)制使模型能夠呈現(xiàn)它以前從未見(jiàn)過(guò)的信息,并生成詞匯表外的標(biāo)記岳守。我們還引入了Linked Wikitext-2 數(shù)據(jù)集凄敢,這是一個(gè)歸屬于Wikidata的知識(shí)圖譜注釋文本語(yǔ)料庫(kù),其內(nèi)容(大致)與流行的Wikitext-2基準(zhǔn)相匹配棺耍。(Merity et al., 2017). 在實(shí)驗(yàn)中贡未,我們證明知識(shí)圖譜語(yǔ)言模型的性能明顯優(yōu)于強(qiáng)大的基線語(yǔ)言模型种樱。此外蒙袍,我們還比較了不同語(yǔ)言模型完成需要事實(shí)知識(shí)的句子的能力,并表明KGLM在生成事實(shí)方面的表現(xiàn)甚至優(yōu)于非常龐大的語(yǔ)言模型嫩挤。
1 引言
對(duì)于語(yǔ)言模型來(lái)說(shuō)害幅,語(yǔ)言模型要想生成合理的句子,它們必須在句法上連貫岂昭,并且與它們所描述的世界一致以现。盡管語(yǔ)言模型在生成語(yǔ)法句子方面相當(dāng)熟練,而且之前的工作表明约啊,語(yǔ)言模型也具備一定程度的常識(shí)推理和基礎(chǔ)知識(shí)(Vinyals and Le, 2015; Serban et al., 2016; Trinh and Le, 2019)邑遏,但它們生成事實(shí)正確的文本的能力相當(dāng)有限。現(xiàn)有語(yǔ)言模型最明顯的局限是,它們充其量只能記住訓(xùn)練過(guò)程中觀察到的事實(shí)。例如晴及,當(dāng)以圖1頂部的文本為條件時(shí)鞭呕,在Wikitext-2上訓(xùn)練的AWD-LSTM語(yǔ)言模型 (Merity et al., 2018) 為單詞“PlayStation”分配比“Game Boy”更高的概率,盡管這句話似乎是對(duì)訓(xùn)練數(shù)據(jù)的逐詞對(duì)應(yīng)当船。這不足為奇——現(xiàn)有的模型直接表示整個(gè)詞匯的分布,無(wú)論是常見(jiàn)的單詞、現(xiàn)實(shí)世界實(shí)體的引用碾盟,還是像日期和數(shù)字這樣的事實(shí)信息,都會(huì)直接表示出整個(gè)詞匯的分布技竟。因此冰肴,語(yǔ)言模型無(wú)法生成事實(shí)正確的句子,不能歸納罕見(jiàn)的/未見(jiàn)的實(shí)體,并且經(jīng)常從詞匯中省略了罕見(jiàn)的詞例(token)(而不是生成UNKNOWN詞例)熙尉。
我們介紹了知識(shí)圖譜語(yǔ)言模型(KGLM),這是一種神經(jīng)語(yǔ)言模型谭贪,具有從外部知識(shí)圖譜選擇和復(fù)制信息的機(jī)制境钟。知識(shí)圖譜語(yǔ)言模型維護(hù)一個(gè)動(dòng)態(tài)增長(zhǎng)的本地知識(shí)圖譜,這個(gè)知識(shí)圖譜的子集包含了文本中已經(jīng)提到的實(shí)體及其相關(guān)的實(shí)體俭识。在生成實(shí)體詞例時(shí)慨削,模型要么決定創(chuàng)建一個(gè)新的實(shí)體(該實(shí)體不在本地知識(shí)圖譜中)從而增長(zhǎng)本地知識(shí)圖譜,要么從本地知識(shí)圖譜中挑選一個(gè)事實(shí)套媚。當(dāng)挑選時(shí)時(shí)缚态,模型將標(biāo)準(zhǔn)詞匯和知識(shí)圖譜中的詞例結(jié)合在一起,因此數(shù)字堤瘤、日期和其他稀有詞例都在選擇的范圍內(nèi)玫芦。
圖1說(shuō)明了知識(shí)圖譜語(yǔ)言模型的工作原理。最初本辐,該圖為空桥帆,并且模型使用實(shí)體Super Mario Land來(lái)呈現(xiàn)前三個(gè)令牌,從而將其及其關(guān)系添加到本地知識(shí)圖譜中慎皱。在使用標(biāo)準(zhǔn)語(yǔ)言模型生成下兩個(gè)詞例(“is”老虫、“a”)之后,該模型選擇Super Mario Land作為父實(shí)體茫多,選擇出版日期作為呈現(xiàn)的關(guān)系祈匙,并復(fù)制日期實(shí)體的其中一個(gè)詞例之一作為作為呈現(xiàn)的詞例(在本例中為“1989”)。
為了便于基于知識(shí)圖的語(yǔ)言建模的研究地梨,我們收集了遠(yuǎn)程監(jiān)督的LInked Wikitext-2數(shù)據(jù)集菊卷。底層文本與Wikitext-2(Merity et al., 2017)非常匹配,這是一種流行的語(yǔ)言建谋ζ剩基準(zhǔn)洁闰,允許與現(xiàn)有模型進(jìn)行比較。文本中的詞例與維基數(shù)據(jù)(Vrandecˇic ? and Kr?tzsch, 2014)中的實(shí)體相鏈接万细,結(jié)合了人工提供的鏈接扑眉、現(xiàn)成的鏈接及共指模型纸泄。我們還利用維基數(shù)據(jù)中這些實(shí)體之間的關(guān)系來(lái)構(gòu)建一個(gè)實(shí)體可能被提及的合理理由:它可能與已經(jīng)被提及的實(shí)體(包括其本身)有關(guān),也可能是文檔中一個(gè)全新的腰素、不相關(guān)的實(shí)體聘裁。
我們?cè)贚inked Wikitext-2上對(duì)知識(shí)圖譜語(yǔ)言模型進(jìn)行了訓(xùn)練和評(píng)估。與AWD-LSTM(一種最新的高效語(yǔ)言模型)相比弓千,知識(shí)圖譜語(yǔ)言模型不僅獲得了較低的總體困惑度衡便,而且還獲得了更低的未知懲罰困惑度(unknown-penalized perplexity,UPP)(Ueberla, 1994; Ahn et al., 2016)洋访,該指標(biāo)可以公平地比較對(duì)稀有詞例準(zhǔn)確建模的模型與預(yù)測(cè)稀有詞例為未知的模型镣陕。我們還比較了這些模型的事實(shí)補(bǔ)全能力,在這些模型中姻政,它們預(yù)測(cè)了事實(shí)句子(例如呆抑,"Barack is married to")之后的下一個(gè)詞,結(jié)果表明知識(shí)圖譜語(yǔ)言模型的準(zhǔn)確性要高得多汁展。最后鹊碍,我們表明該模型能夠?yàn)橄∮袑?shí)體生成準(zhǔn)確事實(shí),并且可以通過(guò)對(duì)知識(shí)圖譜的修改來(lái)控制食绿。
2 知識(shí)圖譜語(yǔ)言模型
在本節(jié)中侈咕,我們介紹一種語(yǔ)言模型,它以外部的炫欺、結(jié)構(gòu)化的知識(shí)源為條件乎完,用來(lái)生成事實(shí)文本熏兄。
2.1 問(wèn)題設(shè)置和標(biāo)注
語(yǔ)言模型的定義是:以迄今為止觀察到的詞例序列中品洛,每個(gè)詞例的概率分布,我們將代表下一個(gè)詞例的隨機(jī)變量表示為摩桶,將
之前的令牌序列表示為
桥状,即語(yǔ)言模型計(jì)算出
。RNN語(yǔ)言模型(Mikolov et al., 2010)使用遞歸結(jié)構(gòu)對(duì)這個(gè)分布進(jìn)行參數(shù)化硝清。
等式1:
本文使用LSTMs(Hochreiter and Schmidhuber辅斟,1997)作為遞歸模型。
知識(shí)圖譜(KG)是由實(shí)體作為節(jié)點(diǎn)組成的有向標(biāo)簽圖芦拿,其邊定義在一組關(guān)系
上士飒,即
其中是與另一實(shí)體
具有關(guān)系
的父實(shí)體。我們還將實(shí)體
子集的本地知識(shí)圖譜定義為
即包含實(shí)體及其中的所有事實(shí)蔗崎。
2.2 知識(shí)圖譜語(yǔ)言模型生成
知識(shí)圖譜語(yǔ)言模型(KGLM)的主要目標(biāo)是使神經(jīng)語(yǔ)言模型能夠從知識(shí)圖譜生成實(shí)體和事實(shí)酵幕。為了鼓勵(lì)模型生成已經(jīng)出現(xiàn)在上下文中的事實(shí),知識(shí)圖譜語(yǔ)言模型將維護(hù)一個(gè)本地知識(shí)圖譜缓苛,其中包含涉及上下文中出現(xiàn)實(shí)體的所有事實(shí)芳撒。當(dāng)模型決定引用尚未引用過(guò)的實(shí)體時(shí),它將使用額外的實(shí)體和事實(shí)來(lái)增長(zhǎng)本地知識(shí)圖譜,以反映新的實(shí)體笔刹。
形式上芥备,如上所述,我們將計(jì)算舌菜,其中
是觀察到的記號(hào)序列萌壳,
是
中提到的實(shí)體集,
是由
確定的本地知識(shí)圖譜日月。生成過(guò)程是:
- 確定
的類型讶凉,我們用
來(lái)表示:它是對(duì)
中的實(shí)體的引用(related),還是對(duì)不在
中的實(shí)體的引用(new)山孔,或者不是實(shí)體提及(entity mention)(
)懂讯。
(注:“提及”是自然文本中表達(dá)實(shí)體的語(yǔ)言片段) - 如果
new,則從所有實(shí)體
的集合中選擇接下來(lái)的實(shí)體
台颠。
- 如果
related褐望,那么。
-從中選擇一個(gè)父實(shí)體
串前。
-選擇一個(gè)事實(shí)關(guān)系來(lái)呈現(xiàn)瘫里。
。
-選擇作為尾部實(shí)體之一荡碾。
谨读。
- 如果
,則
坛吁。
- 生成以
為條件的
劳殖,可能復(fù)制
的一個(gè)別名(aliases)。
(注:比如“西紅柿”就是“番茄”的一個(gè)別名) - 如果
拨脉,則
哆姻,否則
。
為了使模型引用它已經(jīng)提到的實(shí)體玫膀,我們引入了一個(gè)自相關(guān)的反映(reflective)關(guān)系矛缨,即表示
。
圖2中提供了此過(guò)程和變量的說(shuō)明帖旨,用于在與圖1相同句子的中間位置處生成詞例箕昭。在三種提及類型()中,模型要選擇對(duì)現(xiàn)有實(shí)體的引用解阅,這需要挑選一個(gè)要呈現(xiàn)的事實(shí)落竹。作為該事實(shí)的父實(shí)體(
),模型選擇Super Mario Land瓮钥,然后遵循Publisher關(guān)系(
)選擇任天堂(Nintendo)作為要呈現(xiàn)的實(shí)體(
)筋量。當(dāng)將任天堂呈現(xiàn)為詞例
時(shí)烹吵,該模型有一個(gè)擴(kuò)展的詞匯表可供其使用,其中包含標(biāo)準(zhǔn)詞匯表以及
的任何別名中的所有單詞類型桨武。
計(jì)算知識(shí)圖譜的邊緣概率 我們的初始任務(wù)需求與我們到目前為止描述的計(jì)算
的模型之間并不匹配。我們需要通過(guò)計(jì)算本地知識(shí)圖譜的邊緣概率來(lái)獲得詞例的概率倾哺,即
轧邪。我們將在第4節(jié)中說(shuō)明這一點(diǎn),同時(shí)描述這個(gè)模型的訓(xùn)練和推斷/解碼算法羞海,以及其他設(shè)置的細(xì)節(jié)忌愚。
(注:推斷,就是深度學(xué)習(xí)把從訓(xùn)練中學(xué)習(xí)到的能力應(yīng)用到工作中去)
2.3 對(duì)分布進(jìn)行參數(shù)化處理
上述生成過(guò)程中使用的參數(shù)分布定義如下却邓。我們首先使用等式(1)中的公式計(jì)算隱藏狀態(tài)硕糊。然后,我們將向量拆分為三個(gè)組件:
腊徙,這三個(gè)組件分別用于預(yù)測(cè)單詞简十、父系和關(guān)系(注:可能是詞例、父實(shí)體和關(guān)系)昧穿。使用
上的softmax函數(shù)來(lái)計(jì)算詞例的類型
勺远,以預(yù)測(cè)其屬于{new,related时鸵,?}中的一個(gè)。
(注:softmax函數(shù)把一些輸入映射為0-1之間的實(shí)數(shù)厅瞎,并且歸一化保證和為1饰潜,因此多分類的概率之和也剛好為1。)
挑選實(shí)體 我們還為知識(shí)圖譜中的所有實(shí)體和關(guān)系引入了預(yù)訓(xùn)練的嵌入(embeddings)和簸,實(shí)體用
表示彭雾,關(guān)系
用
表示。要在
=new的情況下從所有實(shí)體中選擇
锁保,對(duì)于所有的
我們使用:
我們添加和
的原因是為了模仿TransE的結(jié)構(gòu)薯酝,我們用它來(lái)獲得實(shí)體和關(guān)系嵌入半沽。關(guān)于TransE的細(xì)節(jié)將在第4節(jié)中詳述。對(duì)于提到的相關(guān)實(shí)體
= related吴菠,對(duì)于所有的
我們使用:
選擇一個(gè)父實(shí)體者填。
然后,對(duì)于所有的做葵,我們用:
來(lái)選擇關(guān)系占哟。
和
的組合決定了實(shí)體
(其必須滿足
;如果有多個(gè)選項(xiàng)酿矢,則隨機(jī)選擇一個(gè))榨乎。
實(shí)體呈現(xiàn) 如果,即沒(méi)有實(shí)體要呈現(xiàn)瘫筐,我們使用與等式(1)中相同的詞匯分布——對(duì)
做softmax處理蜜暑。如果有實(shí)體需要呈現(xiàn),我們?cè)谠荚~匯表和包含出現(xiàn)在
別名中的所有詞例的詞匯表上構(gòu)造分布策肝。為了計(jì)算在原始詞匯表上的分?jǐn)?shù)史煎,
被替換為
,其中
是一個(gè)學(xué)習(xí)的權(quán)重矩陣驳糯,它將聚合后的向量映射到與
相同的向量空間篇梭。
*(注:表示原始詞匯表中的詞例,
表示包含出現(xiàn)在
別名中的所有詞例酝枢。這個(gè)方程是將兩個(gè)向量拼接并映射到與
相同的向量空間中恬偷,即使
與
的維度保持一致)
為了獲得別名詞匯庫(kù)中單詞的概率,我們參考了Gu et al.(2016)論文中所提及的復(fù)制機(jī)制帘睦。組成每個(gè)別名的詞例序列被嵌入袍患,然后使用LSTM進(jìn)行編碼,形成向量
竣付。復(fù)制分?jǐn)?shù)的計(jì)算方法為:
3 Linked WikiText-2
撇開(kāi)建模不談诡延,將事實(shí)知識(shí)納入語(yǔ)言模型的主要障礙之一是很難獲得訓(xùn)練數(shù)據(jù)。標(biāo)準(zhǔn)語(yǔ)言建模語(yǔ)料庫(kù)僅由文本組成古胆,因此無(wú)法描述每個(gè)標(biāo)記所指的實(shí)體或事實(shí)肆良。相比之下,雖然關(guān)系提取數(shù)據(jù)集將文本鏈接到知識(shí)圖譜逸绎,但文本由不連續(xù)的句子組成惹恃,這些句子沒(méi)有提供足夠的上下文來(lái)訓(xùn)練強(qiáng)大的語(yǔ)言模型。我們的目標(biāo)可視為一個(gè)數(shù)據(jù)到文本生成(data-to-text)的任務(wù)(Ahn et al., 2016; Lebret et al., 2016; Wiseman et al., 2017; Yang et al., 2017; Gardent et al., 2017; Ferreira et al., 2018)棺牧,其中提供了一個(gè)較形撞凇(a small table-sized)的語(yǔ)料庫(kù)(KB)來(lái)生成一個(gè)短的文本片段;我們感興趣的是在話語(yǔ)的引導(dǎo)下颊乘,動(dòng)態(tài)地決定從知識(shí)圖譜中納入事實(shí)的語(yǔ)言模型参淹。
(注:原文直接使用了KB這個(gè)縮寫(xiě)醉锄,作者并沒(méi)有解釋,我使用了KB在NLP領(lǐng)域最常見(jiàn)的意思是指Knowledge Base浙值。"small table-sized" 也很難理解恳不,small應(yīng)是指知識(shí)庫(kù)小,table-sized應(yīng)指知識(shí)庫(kù)局限于某一領(lǐng)域亥鸠,因?yàn)樵赗elated Work部分作者有提到這些研究“focus on generating coherent text within a narrow domain”)
基于這些原因妆够,我們引入了Linked WikiText-2數(shù)據(jù)集,其(大約)由WikiText-2語(yǔ)言建模語(yǔ)料庫(kù)中的文章組成负蚊,但鏈接到了Wikidata(Vrandecˇic ? and Kr?tzsch, 2014)知識(shí)圖譜神妹。因?yàn)槲谋揪o密匹配,所以在Linked WikiText-2上訓(xùn)練的模型可與在WikiText-2上訓(xùn)練的模型相媲美家妆。此外鸵荠,由于維基數(shù)據(jù)中的許多事實(shí)都是從維基百科的文章中提取出來(lái)的,因此知識(shí)圖譜很好地覆蓋了文本中表達(dá)的事實(shí)伤极。該數(shù)據(jù)集可在 https://rloganiv.github.io/linked-wikitext-2下載蛹找。我們的系統(tǒng)每次只對(duì)一個(gè)文檔進(jìn)行注釋,包括實(shí)體鏈接哨坪、關(guān)系注釋和后處理庸疾。下文將詳細(xì)介紹每個(gè)步驟。
初步實(shí)體注釋 我們首先確定文本中提到的一組初始實(shí)體当编。這些提及的主要來(lái)源是維基百科文章之間的人工鏈接届慈。每當(dāng)一段文本鏈接到另一篇維基百科文章時(shí),我們就會(huì)將其對(duì)應(yīng)的Wikidata實(shí)體與該范圍相關(guān)聯(lián)忿偷。雖然文章鏈接提供了大量標(biāo)準(zhǔn)實(shí)體注釋(gold entity annotations)金顿,但它們不足以捕獲文章中的所有提及,因?yàn)閷?shí)體只在第一次出現(xiàn)時(shí)才被鏈接鲤桥。因此揍拆,我們使用neuro-el( Gupta et al., 2017 )實(shí)體鏈接器來(lái)識(shí)別到Wikidata的額外鏈接,并使用StanFord CoreNLP2來(lái)識(shí)別互指關(guān)系茶凳,以涵蓋代詞嫂拴、名詞和鏈接器遺漏的其他標(biāo)記。
本地知識(shí)圖譜 下一步慧妄,使用知識(shí)圖譜中的關(guān)系顷牌,迭代地為實(shí)體創(chuàng)建生成性故事,并標(biāo)識(shí)新實(shí)體塞淹。為此,我們逐個(gè)處理文本詞例罪裹。每次遇到實(shí)體時(shí)饱普,我們都會(huì)添加Wikidata中的所有相關(guān)實(shí)體作為候選進(jìn)行匹配运挫。如果稍后在文檔中看到這些相關(guān)實(shí)體之一,我們將該實(shí)體標(biāo)識(shí)為后面實(shí)體的父實(shí)體套耕。由于每個(gè)詞例可能會(huì)出現(xiàn)多個(gè)關(guān)系作為解釋谁帕,我們?cè)试S一個(gè)詞例對(duì)應(yīng)多個(gè)事實(shí)。
擴(kuò)展注釋 由于可能有一些實(shí)體在初始集中被遺漏了冯袍,也可能有一些非實(shí)體詞例(如日期和數(shù)量),因此我們使用字符串匹配(string matching)來(lái)進(jìn)一步擴(kuò)展實(shí)體注釋。對(duì)于實(shí)體茉盏,我們對(duì)Wikidata中的別名集進(jìn)行匹配混滔。對(duì)于日期,我們創(chuàng)建了一個(gè)詳盡的列表征冷,列出了所有可能的日期表達(dá)方式(例如 "December 7, 1941", "7-12-1941", "1941", ...)择膝。我們對(duì)數(shù)量進(jìn)行類似的處理方法,使用Python中的pint庫(kù)來(lái)處理不同的單位表達(dá)方式(例如 "g"检激、"gram"肴捉、...)。由于表示數(shù)值的方法有很多叔收,所以我們只按照Wikidata提供的精度級(jí)別呈現(xiàn)數(shù)值齿穗,而不執(zhí)行單位轉(zhuǎn)換。
示例注釋 表1中提供了與圖1中的實(shí)例相對(duì)應(yīng)的示例注釋饺律,以及與知識(shí)圖譜語(yǔ)言模型(KGLM)的生成過(guò)程相對(duì)應(yīng)的變量窃页。這里提到的大多數(shù)詞例的實(shí)體都是人工提供的鏈接,除了“1989”蓝晒,它是通過(guò)字符串匹配過(guò)程鏈接到“04-21-1989”的腮出。到目前為止,基于是否可由目前已連接實(shí)體訪問(wèn)芝薇,這些注釋指出了哪些實(shí)體屬于類型new胚嘲,以及哪些實(shí)體屬于類型related,但顯然在“side-scrolling game”和“platform video game”上出現(xiàn)了錯(cuò)誤洛二,這是在Wikidata中缺少鏈接的緣故馋劈。最后,Gameboy的加入有多個(gè)看似合理的理由:它是Super Mario Land的平臺(tái)晾嘶,由任天堂制造妓雾,盡管在這里前者更具有相關(guān)性。即使有這些遺漏和錯(cuò)誤垒迂,但很明顯绣夺,這些注釋內(nèi)容豐富而詳細(xì),覆蓋率很高欢揖,因此應(yīng)該有利于知識(shí)圖譜語(yǔ)言模型的訓(xùn)練陶耍。
數(shù)據(jù)集統(tǒng)計(jì) 表2提供了關(guān)于Linked Wikitext-2的統(tǒng)計(jì)數(shù)據(jù)偎巢。在該語(yǔ)料庫(kù)中,超過(guò)10%的詞例被認(rèn)為是實(shí)體詞例兼耀,即它們是作為知識(shí)圖譜中信息的事實(shí)性引用而產(chǎn)生的压昼。每個(gè)實(shí)體只被提到了幾次(平均不到5次,但尾部很長(zhǎng))瘤运,并且有超過(guò)數(shù)千種不同的關(guān)系窍霞。由此可見(jiàn),使用常規(guī)語(yǔ)言模型顯然無(wú)法生成事實(shí)文本拯坟,這需要語(yǔ)言模型能夠參考外部信息源但金。
與 WikiText2的不同 盡管我們的數(shù)據(jù)集高度復(fù)制Wikitext-2,但也有一些不同之處郁季,導(dǎo)致無(wú)法直接比較冷溃。首先,對(duì)文本的編輯修改是持續(xù)進(jìn)行的梦裂,由于下載數(shù)據(jù)集日期不同似枕,不同文章的文本會(huì)有細(xì)微差異。其次年柠,根據(jù) Merity et al. (2017)的說(shuō)法凿歼,Wikitext-2是通過(guò)查詢維基百科文本API收集的。因?yàn)榇薃PI丟棄了有用的注釋信息(例如文章鏈接),所以Linked Wikitext-2是直接由文章的HTML創(chuàng)建的毅往。
4 知識(shí)圖譜語(yǔ)言模型的訓(xùn)練和推斷
在這一部分中牵咙,我們將描述知識(shí)圖譜語(yǔ)言模型的訓(xùn)練和推斷算法派近。
預(yù)訓(xùn)練知識(shí)圖譜嵌入 在評(píng)估過(guò)程中攀唯,我們可能需要對(duì)訓(xùn)練期間未見(jiàn)過(guò)的實(shí)體和關(guān)系做出預(yù)測(cè)。因此渴丸,我們?cè)赪ikidata上使用TransE(Bordes等人侯嘀,2013年)預(yù)先訓(xùn)練的固定實(shí)體和關(guān)系嵌入。給定,我們學(xué)習(xí)嵌入
土童、
和
來(lái)最小化距離:
我們使用最大邊緣損失(max-margin loss)來(lái)學(xué)習(xí)這些嵌入:
其中诗茎,是邊緣,
和
是隨即抽取的實(shí)體嵌入献汗。
使用Linked WikiText訓(xùn)練 盡管KGLM的生成過(guò)程涉及許多步驟敢订,但在Linked Wikitext-2上訓(xùn)練模型是直截了當(dāng)?shù)摹N覀兊膿p失目標(biāo)是訓(xùn)練數(shù)據(jù)的負(fù)對(duì)數(shù)似然率:
其中Θ是模型參數(shù)集罢吃。請(qǐng)注意楚午,如果一個(gè)注釋有多個(gè)可行的父級(jí)(如1中的Game Boy),那么我們將邊緣化所有父級(jí)尿招。由于所有隨機(jī)變量都可觀察到矾柜,因此可以使用現(xiàn)成的基于梯度的優(yōu)化器進(jìn)行訓(xùn)練。
推斷 雖然觀察注釋使模型易于訓(xùn)練就谜,但我們不假定模型在評(píng)估期間可以訪問(wèn)注釋怪蔑。
此外,正如第2.2節(jié)所討論的那樣丧荐,語(yǔ)言建模的目標(biāo)是測(cè)量邊際概率,而不是聯(lián)合概率篮奄。
然而捆愁,由于可能的注釋的組合空間很大,所以這個(gè)總和難以計(jì)算窟却。我們通過(guò)使用重要性抽樣近似邊緣分布來(lái)解決這個(gè)問(wèn)題昼丑。
對(duì)給定的來(lái)自建議分布的樣本,邊緣分布為:
該方法曾用來(lái)評(píng)價(jià) Ji et al(2017)和Dyer et al. (2016)的模型夸赫。繼 Ji 等人(2017)之后菩帝,我們使用模型的判別版本計(jì)算,該模型預(yù)測(cè)的是當(dāng)前詞例的注釋而不是下一個(gè)詞例的注釋。
實(shí)驗(yàn)
為了評(píng)估所提出的語(yǔ)言模型呼奢,我們首先介紹了基線宜雀,然后使用留出語(yǔ)料庫(kù)的困惑度(perplexity of held-out corpus),事實(shí)完成的準(zhǔn)確性進(jìn)行評(píng)估握础,并說(shuō)明了模型如何使用知識(shí)圖譜辐董。
5.1 評(píng)估步驟
基線模型 我們使用了如下基線模型與知識(shí)圖譜語(yǔ)言模型作對(duì)比
- AWD-LSTM(Merity et al., 2018):基于LSTM的強(qiáng)大模型,是Wikitext-2上大多數(shù)最先進(jìn)模型的基礎(chǔ)禀综。
- ENTITYNLM(Ji et al., 2017):是一個(gè)基于LSTM的語(yǔ)言模型简烘,能夠跟蹤實(shí)體的提及。實(shí)體的嵌入是動(dòng)態(tài)創(chuàng)建的定枷,不受任何外部信息來(lái)源的影響孤澎。
-
EntityCopyNet:知識(shí)圖譜語(yǔ)言模型的一個(gè)變體,其中對(duì)于所有提及有
new欠窒,即從
中選擇實(shí)體覆旭,并復(fù)制實(shí)體別名,但知識(shí)圖譜中的關(guān)系未使用岖妄。
超參數(shù) 我們使用邊距為的TransE型将,為L(zhǎng)inked Wikidata-2中實(shí)體集兩跳(two hops)范圍內(nèi)的所有實(shí)體進(jìn)行了256維實(shí)體和關(guān)系嵌入的預(yù)訓(xùn)練。為了節(jié)省內(nèi)存衣吠,所有日期嵌入和數(shù)量嵌入進(jìn)行了權(quán)重綁定茶敏。遵循 Merity et al. (2018)的做法。我們使用400維詞嵌入和一個(gè)隱藏維度為1150的3層LSTM來(lái)編碼詞例缚俏。我們還采用了相同的正則化策略 (DropConnect (Wan et al., 2013) + Dropout(Srivastava et al., 2014))和權(quán)重捆綁方法惊搏。但是,我們使用學(xué)習(xí)率設(shè)置為1e-3的Adam(Kingma and Ba, 2015) 進(jìn)行優(yōu)化忧换,而不是NT-ASGD恬惯,因?yàn)槲覀儼l(fā)現(xiàn)Adam更穩(wěn)定。
5.2 結(jié)果
困惑度 我們使用標(biāo)準(zhǔn)的困惑度量來(lái)評(píng)估我們的模型:亚茬。然而酪耳,使用困惑度的問(wèn)題是,當(dāng)它們被映射到單個(gè)UNK詞例時(shí)刹缝,它高估了詞匯表外詞例的概率碗暗。這給比較知識(shí)圖譜語(yǔ)言模型與使用Linked Wikitext-2的傳統(tǒng)語(yǔ)言模型的性能造成了困難,因?yàn)橛写罅亢币?jiàn)實(shí)體的別名詞例是詞匯表外的梢夯。也就是說(shuō)言疗,即使知識(shí)圖譜語(yǔ)言模型識(shí)別了正確的實(shí)體并以高概率復(fù)制了正確的別名詞例,其他模型也可以通過(guò)向UNK分配更高的概率來(lái)獲得更好的困惑度颂砸。相應(yīng)地噪奄,我們還測(cè)量了Ueberla(1994)提出的未知懲罰性困惑度(UPP)(又名校正困惑度)死姚,最近Ahn et al. (2016)和 Spithourakis and Riedel(2018)也使用了這個(gè)度量。此度量通過(guò)在
(映射到UNK的一組令牌)上均勻分配它們的概率質(zhì)量來(lái)懲罰UNK令牌的概率勤篮。我們可以通過(guò)將上述困惑度中的
(UNK)替換為
(UNK)來(lái)計(jì)算UPP都毒,其中
是從數(shù)據(jù)估計(jì)出來(lái)的。
我們?cè)诒?中列出了模型的困惑度碰缔。為了邊際化注釋账劲,我們使用第4節(jié)中描述的重要性抽樣方法估計(jì)了 ENTITYNLM、EntityCopyNet 和知識(shí)圖譜語(yǔ)言模型的困惑度手负。我們觀察到涤垫,知識(shí)圖譜語(yǔ)言模型的困惑度比其他基于實(shí)體的語(yǔ)言模型低得多(44.1 vs. 76.1/85.4),這有力地證明了利用知識(shí)圖譜對(duì)準(zhǔn)確的語(yǔ)言建模至關(guān)重要竟终。此外,知識(shí)圖譜語(yǔ)言模型在未知懲罰困惑方面的性能明顯優(yōu)于所有模型切蟋,顯示了其生成罕見(jiàn)詞例的能力统捶。
事實(shí)完成 由于事實(shí)性文本的生成是我們的主要目標(biāo)喘鸟,因此我們?cè)u(píng)估了語(yǔ)言模型完成帶有事實(shí)信息句子的能力。此外驻右,我們還與小型的GPT-2(Radford et al., 2019)進(jìn)行了比較什黑,它是一個(gè)在更大的文本語(yǔ)料庫(kù)上訓(xùn)練的語(yǔ)言模型。我們從Freebase中選擇了六個(gè)流行關(guān)系堪夭,并為每個(gè)關(guān)系寫(xiě)了一個(gè)簡(jiǎn)單的完成模板愕把,比如出生地關(guān)系的 "出生在"。我們?yōu)檫@些模板生成關(guān)系成立的若干
對(duì)的句子恨豁,并手動(dòng)檢查每個(gè)語(yǔ)言模型生成的第一個(gè)詞例是否正確。
表4顯示了每種語(yǔ)言模型在這些關(guān)系上的性能爬迟。
Oracle知識(shí)圖譜語(yǔ)言模型為提供了正確的實(shí)體注釋橘蜜,而NEL知識(shí)圖譜語(yǔ)言模型使用用于重要性采樣的判別模型與NEL實(shí)體鏈接器相結(jié)合來(lái)生成
的實(shí)體注釋。
在相同數(shù)據(jù)集上訓(xùn)練的模型中象颖,知識(shí)圖譜語(yǔ)言模型的兩個(gè)變體都明顯優(yōu)于AWD-LSTM;它們產(chǎn)生了準(zhǔn)確的事實(shí)活箕,而AWD-LSTM產(chǎn)生的是通用的力麸、常見(jiàn)的單詞可款。知識(shí)圖譜語(yǔ)言模型也比在更多數(shù)據(jù)集上訓(xùn)練的模型更有競(jìng)爭(zhēng)力,它能產(chǎn)生需要特定知識(shí)的事實(shí)完成克蚂,如出生地闺鲸、日期和作者等。然而埃叭,它并不能捕捉到在大語(yǔ)料庫(kù)中經(jīng)常出現(xiàn)的事實(shí)或關(guān)系摸恍,比如州內(nèi)的城市。令人鼓舞的是赤屋,具有自動(dòng)鏈接功能的知識(shí)圖譜語(yǔ)言模型的性能與Oracle鏈接相當(dāng)立镶。
我們?cè)诒?中提供了一些例子,以突出知識(shí)圖譜語(yǔ)言模型在600個(gè)文檔上接受培訓(xùn)的質(zhì)量差異类早,與最近使用有800多萬(wàn)文檔的WebText語(yǔ)料庫(kù)上接受培訓(xùn)的最先進(jìn)語(yǔ)言模型GPT-2之間的質(zhì)量差異(Radford et al., 2019)媚媒。例如,這兩個(gè)模型都正確與否涩僻,知識(shí)圖譜語(yǔ)言模型生成的詞例通常要具體得多缭召,而不是選擇更流行/通用的詞例(GPT-2經(jīng)常預(yù)測(cè)“紐約”是出生地,即使是流行的實(shí)體也是如此)逆日。特別是嵌巷,當(dāng)頭部或尾部實(shí)體很少時(shí),知識(shí)圖譜語(yǔ)言模型可以得到正確的事實(shí)陳述室抽,而GPT-2只能在使用更多通用詞例(如 "1月 "而不是 "20")時(shí)搪哪,完成更多流行/通用實(shí)體的事實(shí)陳述。
更換知識(shí)圖譜的效果 對(duì)于大多數(shù)語(yǔ)言模型,由于事實(shí)知識(shí)與模型生成的能力是糾纏在一起的霉旗,因此很難控制它們的生成痴奏。對(duì)于知識(shí)圖譜語(yǔ)言模型來(lái)說(shuō)蛀骇,它使用外部知識(shí)源的另一個(gè)好處是,知識(shí)圖譜語(yǔ)言模型可以通過(guò)修改知識(shí)圖譜直接控制读拆。用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明這個(gè)能力擅憔,我們用原來(lái)的事實(shí)(Barack Obama, birthDate, 1961- 08-04)創(chuàng)建完成 "Barack Obama was born on",結(jié)果前三個(gè)解碼令牌為 "August"檐晕、"4"暑诸、"1961"。將出生日期改成2013-03-21后辟灰,前三位解密令牌變?yōu)?"3月"个榕、"21"、"2013"芥喇。因此西采,改變知識(shí)圖中的事實(shí),直接導(dǎo)致模型的預(yù)測(cè)結(jié)果發(fā)生相應(yīng)的變化乃坤。
6 相關(guān)研究
基于知識(shí)的語(yǔ)言模型 我們的工作從兩個(gè)現(xiàn)有的基于知識(shí)的語(yǔ)言模型中獲得靈感:
ENTITYNLM (Ji et al., 2017)苛让,它通過(guò)聯(lián)合建模命名實(shí)體識(shí)別和共指,提高了語(yǔ)言模型跟蹤實(shí)體的能力湿诊。我們的模型類似于通過(guò)文檔跟蹤實(shí)體,通過(guò)實(shí)體鏈接和關(guān)系提取的建模瘦材,提高了其生成事實(shí)信息的能力厅须。
神經(jīng)知識(shí)語(yǔ)言模型(NKLM)(Ahn et al., 2016),它確立了在神經(jīng)語(yǔ)言模型中利用知識(shí)圖譜的思想食棕。知識(shí)圖譜語(yǔ)言模型和神經(jīng)知識(shí)語(yǔ)言模型之間的主要區(qū)別因素是朗和,知識(shí)圖譜語(yǔ)言模型在整個(gè)知識(shí)圖譜上操作,并且可以在沒(méi)有附加條件信息的情況下對(duì)文本進(jìn)行評(píng)估簿晓,而神經(jīng)知識(shí)語(yǔ)言模型在從單個(gè)實(shí)體發(fā)出的相對(duì)較小的預(yù)定義邊集合上操作眶拉,并且要求提前提供該實(shí)體作為條件信息。這一要求排除了神經(jīng)知識(shí)語(yǔ)言模型與第5節(jié)中的基線之間的直接比較憔儿。
數(shù)據(jù)到文本的生成 我們的工作也與神經(jīng)數(shù)據(jù)到文本生成的任務(wù)有關(guān)忆植。關(guān)于早期的非神經(jīng)文本生成方法的調(diào)查,我們參考 Reiter and Dale (1997)谒臼。最近的神經(jīng)方法已應(yīng)用于從體育統(tǒng)計(jì)表(Wiseman et al., 2017)朝刊,列表和表格(Yang et al., 2017)和維基百科信息框(Lebret et al., 2016)生成文本。這些研究和我們的主要區(qū)別在于我們的動(dòng)機(jī)蜈缤。這些作品專注于在一個(gè)狹窄的領(lǐng)域內(nèi)生成連貫的文本(例如體育拾氓、食譜、介紹性句子)底哥,并對(duì)BLEU和METEOR評(píng)分等指標(biāo)進(jìn)行優(yōu)化咙鞍。相反房官,我們的重點(diǎn)是利用大量的結(jié)構(gòu)化知識(shí)源來(lái)提高語(yǔ)言模型在寬泛主題領(lǐng)域中處理稀有詞例和事實(shí)的能力,我們重點(diǎn)是提高困惑度续滋。
通用語(yǔ)言建模 與此相關(guān)的還有最近的一些論文翰守,它們提出了對(duì)AWD- LSTM的修改,以提高Wikitext-2的性能(Gong et al., 2018; Yang et al., 2018; Krause et al., 2018)吃粒。我們選擇了AWD-LSTM作為基準(zhǔn)潦俺,因?yàn)檫@些貢獻(xiàn)是正交的,而且許多技術(shù)都與知識(shí)圖譜語(yǔ)言模型兼容徐勃。知識(shí)圖譜語(yǔ)言模型在AWD-LSTM的基礎(chǔ)上進(jìn)行了改進(jìn)事示,我們期望將知識(shí)圖譜語(yǔ)言模型與這些方法結(jié)合使用將產(chǎn)生進(jìn)一步的改進(jìn)。
結(jié)論與未來(lái)的研究方向
由于依賴記憶僻肖,現(xiàn)有的語(yǔ)言模型無(wú)法生成關(guān)于真實(shí)世界實(shí)體的事實(shí)正確文本肖爵。特別是,它們無(wú)法捕捉到稀有實(shí)體和數(shù)字臀脏、日期等單詞類型的長(zhǎng)尾劝堪。在這項(xiàng)工作中,我們提出了知識(shí)圖譜語(yǔ)言模型(KGLM)揉稚,這是一個(gè)神經(jīng)語(yǔ)言模型秒啦,它可以訪問(wèn)一個(gè)外部的事實(shí)源,以知識(shí)圖譜的形式編碼搀玖,以生成文本余境。我們的實(shí)現(xiàn)可以從以下網(wǎng)址獲得:https://github.com/rloganiv/kglm-model。我們還引入了Linked WikiText-2灌诅,其中包含了與知識(shí)圖譜中的事實(shí)對(duì)齊的文本芳来,從而允許高效地訓(xùn)練模型。Linked WikiText-2可以免費(fèi)下載猜拾,網(wǎng)址是:https://rloganiv.github.io/linked-wikitext-2即舌。在我們的評(píng)估中,我們表明挎袜,通過(guò)利用這個(gè)數(shù)據(jù)顽聂,知識(shí)圖譜語(yǔ)言模型能夠生成更高質(zhì)量的、符合事實(shí)的文本宋雏,這些文本中包含了罕見(jiàn)的實(shí)體和特定的詞例芜飘,如數(shù)字和日期等。
這項(xiàng)工作為未來(lái)知識(shí)感知語(yǔ)言建模的研究奠定了基礎(chǔ)磨总。知識(shí)圖譜語(yǔ)言模型的一些局限性嗦明,如推理過(guò)程中需要邊際化和依賴注釋詞例等,為推進(jìn)神經(jīng)NLP模型的研究提出了新的研究問(wèn)題蚪燕。我們的遠(yuǎn)距離監(jiān)督的數(shù)據(jù)集創(chuàng)建方法也可以用于其他知識(shí)圖譜和其他類型的文本娶牌,為新領(lǐng)域的精確語(yǔ)言建模提供了機(jī)會(huì)奔浅。
致謝
首先,我們要感謝Stephen Merity分享了用來(lái)收集Wikitext-2數(shù)據(jù)集的材料诗良,感謝Niish Gupta修改了他的實(shí)體鏈接器以幫助我們的工作芙盘。我們也要感謝Dheeru Dua和Anthony Chen的反饋类腮。這項(xiàng)工作部分得到了艾倫人工智能研究所的支持扔水,部分得到了美國(guó)國(guó)家科學(xué)基金會(huì)獎(jiǎng)#IIS-1817183的支持廷没。所表達(dá)的觀點(diǎn)是作者的觀點(diǎn),并不反映資助機(jī)構(gòu)的官方政策或立場(chǎng)径荔。