ACL2019論文譯注巴拉克的妻子希拉里：將知識(shí)圖譜用于事實(shí)感知語(yǔ)言建模

原文： Barack’s Wife Hillary: Using Knowledge Graphs for Fact-Aware Language Modeling

作者： Robert L. Logan IV；Nelson F. Liu屁柏；Matthew E. Peters叫胁；Matt Gardner定欧；Sameer Singh酵熙；

譯：張小邪先森

摘要

對(duì)人類語(yǔ)言進(jìn)行建模，不僅需要有能力生成流暢的文本，還需要對(duì)事實(shí)知識(shí)進(jìn)行編碼。然而叽唱，傳統(tǒng)的語(yǔ)言模型只能記住訓(xùn)練時(shí)看到的事實(shí)，而且往往很難記住它們微宝。為了解決這個(gè)問(wèn)題棺亭，我們引入了知識(shí)圖譜語(yǔ)言模型(KGLM)，這是一種神經(jīng)語(yǔ)言模型蟋软，具有從知識(shí)圖譜中選擇和復(fù)制與上下文相關(guān)事實(shí)的機(jī)制镶摘。這些機(jī)制使模型能夠呈現(xiàn)它以前從未見(jiàn)過(guò)的信息，并生成詞匯表外的標(biāo)記岳守。我們還引入了Linked Wikitext-2 數(shù)據(jù)集凄敢，這是一個(gè)歸屬于Wikidata的知識(shí)圖譜注釋文本語(yǔ)料庫(kù)，其內(nèi)容(大致)與流行的Wikitext-2基準(zhǔn)相匹配棺耍。(Merity et al., 2017). 在實(shí)驗(yàn)中贡未，我們證明知識(shí)圖譜語(yǔ)言模型的性能明顯優(yōu)于強(qiáng)大的基線語(yǔ)言模型种樱。此外蒙袍，我們還比較了不同語(yǔ)言模型完成需要事實(shí)知識(shí)的句子的能力，并表明KGLM在生成事實(shí)方面的表現(xiàn)甚至優(yōu)于非常龐大的語(yǔ)言模型嫩挤。

1 引言

對(duì)于語(yǔ)言模型來(lái)說(shuō)害幅，語(yǔ)言模型要想生成合理的句子，它們必須在句法上連貫岂昭，并且與它們所描述的世界一致以现。盡管語(yǔ)言模型在生成語(yǔ)法句子方面相當(dāng)熟練，而且之前的工作表明约啊，語(yǔ)言模型也具備一定程度的常識(shí)推理和基礎(chǔ)知識(shí)(Vinyals and Le, 2015; Serban et al., 2016; Trinh and Le, 2019)邑遏，但它們生成事實(shí)正確的文本的能力相當(dāng)有限。現(xiàn)有語(yǔ)言模型最明顯的局限是，它們充其量只能記住訓(xùn)練過(guò)程中觀察到的事實(shí)。例如晴及，當(dāng)以圖1頂部的文本為條件時(shí)鞭呕，在Wikitext-2上訓(xùn)練的AWD-LSTM語(yǔ)言模型 (Merity et al., 2018) 為單詞“PlayStation”分配比“Game Boy”更高的概率，盡管這句話似乎是對(duì)訓(xùn)練數(shù)據(jù)的逐詞對(duì)應(yīng)当船。這不足為奇——現(xiàn)有的模型直接表示整個(gè)詞匯的分布，無(wú)論是常見(jiàn)的單詞、現(xiàn)實(shí)世界實(shí)體的引用碾盟，還是像日期和數(shù)字這樣的事實(shí)信息，都會(huì)直接表示出整個(gè)詞匯的分布技竟。因此冰肴，語(yǔ)言模型無(wú)法生成事實(shí)正確的句子，不能歸納罕見(jiàn)的/未見(jiàn)的實(shí)體，并且經(jīng)常從詞匯中省略了罕見(jiàn)的詞例（token）（而不是生成UNKNOWN詞例）熙尉。

圖1：Linked WikiText-2示例——一個(gè)本地化的知識(shí)圖譜估盘，包含上述句子中（可能）傳達(dá)的事實(shí)。該圖是通過(guò)迭代將每個(gè)檢測(cè)到的實(shí)體與Wikidata連接起來(lái)骡尽，然后添加任何與之前提到實(shí)體的關(guān)系來(lái)構(gòu)建的遣妥。請(qǐng)注意，并非所有實(shí)體都連接起來(lái)攀细，這可能是由于Wikidata中的關(guān)系缺失造成的箫踩。

我們介紹了知識(shí)圖譜語(yǔ)言模型(KGLM)，這是一種神經(jīng)語(yǔ)言模型谭贪，具有從外部知識(shí)圖譜選擇和復(fù)制信息的機(jī)制境钟。知識(shí)圖譜語(yǔ)言模型維護(hù)一個(gè)動(dòng)態(tài)增長(zhǎng)的本地知識(shí)圖譜，這個(gè)知識(shí)圖譜的子集包含了文本中已經(jīng)提到的實(shí)體及其相關(guān)的實(shí)體俭识。在生成實(shí)體詞例時(shí)慨削，模型要么決定創(chuàng)建一個(gè)新的實(shí)體（該實(shí)體不在本地知識(shí)圖譜中）從而增長(zhǎng)本地知識(shí)圖譜，要么從本地知識(shí)圖譜中挑選一個(gè)事實(shí)套媚。當(dāng)挑選時(shí)時(shí)缚态，模型將標(biāo)準(zhǔn)詞匯和知識(shí)圖譜中的詞例結(jié)合在一起，因此數(shù)字堤瘤、日期和其他稀有詞例都在選擇的范圍內(nèi)玫芦。

圖1說(shuō)明了知識(shí)圖譜語(yǔ)言模型的工作原理。最初本辐，該圖為空桥帆，并且模型使用實(shí)體Super Mario Land來(lái)呈現(xiàn)前三個(gè)令牌，從而將其及其關(guān)系添加到本地知識(shí)圖譜中慎皱。在使用標(biāo)準(zhǔn)語(yǔ)言模型生成下兩個(gè)詞例(“is”老虫、“a”)之后，該模型選擇Super Mario Land作為父實(shí)體茫多，選擇出版日期作為呈現(xiàn)的關(guān)系祈匙，并復(fù)制日期實(shí)體的其中一個(gè)詞例之一作為作為呈現(xiàn)的詞例(在本例中為“1989”)。

為了便于基于知識(shí)圖的語(yǔ)言建模的研究地梨，我們收集了遠(yuǎn)程監(jiān)督的LInked Wikitext-2數(shù)據(jù)集菊卷。底層文本與Wikitext-2(Merity et al., 2017)非常匹配，這是一種流行的語(yǔ)言建谋ζ剩基準(zhǔn)洁闰，允許與現(xiàn)有模型進(jìn)行比較。文本中的詞例與維基數(shù)據(jù)(Vrandecˇic ? and Kr?tzsch, 2014)中的實(shí)體相鏈接万细，結(jié)合了人工提供的鏈接扑眉、現(xiàn)成的鏈接及共指模型纸泄。我們還利用維基數(shù)據(jù)中這些實(shí)體之間的關(guān)系來(lái)構(gòu)建一個(gè)實(shí)體可能被提及的合理理由：它可能與已經(jīng)被提及的實(shí)體（包括其本身）有關(guān)，也可能是文檔中一個(gè)全新的腰素、不相關(guān)的實(shí)體聘裁。

我們?cè)贚inked Wikitext-2上對(duì)知識(shí)圖譜語(yǔ)言模型進(jìn)行了訓(xùn)練和評(píng)估。與AWD-LSTM(一種最新的高效語(yǔ)言模型)相比弓千，知識(shí)圖譜語(yǔ)言模型不僅獲得了較低的總體困惑度衡便，而且還獲得了更低的未知懲罰困惑度（unknown-penalized perplexity，UPP）(Ueberla, 1994; Ahn et al., 2016)洋访，該指標(biāo)可以公平地比較對(duì)稀有詞例準(zhǔn)確建模的模型與預(yù)測(cè)稀有詞例為未知的模型镣陕。我們還比較了這些模型的事實(shí)補(bǔ)全能力，在這些模型中姻政，它們預(yù)測(cè)了事實(shí)句子(例如呆抑，"Barack is married to")之后的下一個(gè)詞，結(jié)果表明知識(shí)圖譜語(yǔ)言模型的準(zhǔn)確性要高得多汁展。最后鹊碍，我們表明該模型能夠?yàn)橄∮袑?shí)體生成準(zhǔn)確事實(shí)，并且可以通過(guò)對(duì)知識(shí)圖譜的修改來(lái)控制食绿。

2 知識(shí)圖譜語(yǔ)言模型

在本節(jié)中侈咕，我們介紹一種語(yǔ)言模型，它以外部的炫欺、結(jié)構(gòu)化的知識(shí)源為條件乎完，用來(lái)生成事實(shí)文本熏兄。

2.1 問(wèn)題設(shè)置和標(biāo)注

語(yǔ)言模型的定義是：以迄今為止觀察到的詞例序列中品洛，每個(gè)詞例的概率分布，我們將代表下一個(gè)詞例的隨機(jī)變量表示為 $x_t$ 摩桶，將 $t$ 之前的令牌序列表示為 $x<t$ 桥状，即語(yǔ)言模型計(jì)算出 $p(x_t|x_{<t})$ 。RNN語(yǔ)言模型(Mikolov et al., 2010)使用遞歸結(jié)構(gòu)對(duì)這個(gè)分布進(jìn)行參數(shù)化硝清。

等式1：

$p(x_t|x_{<t}) = softmax(W_hh_t+b)$

$h_t = RNN(h_{t-1},x_{t-1})$

本文使用LSTMs(Hochreiter and Schmidhuber辅斟，1997)作為遞歸模型。

知識(shí)圖譜(KG)是由實(shí)體 $\varepsilon$ 作為節(jié)點(diǎn)組成的有向標(biāo)簽圖芦拿，其邊定義在一組關(guān)系 $R$ 上士飒，即

$KG=\{{(p,r,e)|p∈\varepsilon,r∈R,e∈\varepsilon}\}$

其中 $p$ 是與另一實(shí)體 $e$ 具有關(guān)系 $r$ 的父實(shí)體。我們還將實(shí)體 $\varepsilon_{<t}$ 子集的本地知識(shí)圖譜定義為

$KG_{<t}=\{{(p,r,e)|p∈\varepsilon_{<t},r∈R,e∈\varepsilon}\}$

即包含實(shí)體 $\varepsilon_{<t}$ 及其中的所有事實(shí)蔗崎。

2.2 知識(shí)圖譜語(yǔ)言模型生成

知識(shí)圖譜語(yǔ)言模型(KGLM)的主要目標(biāo)是使神經(jīng)語(yǔ)言模型能夠從知識(shí)圖譜生成實(shí)體和事實(shí)酵幕。為了鼓勵(lì)模型生成已經(jīng)出現(xiàn)在上下文中的事實(shí)，知識(shí)圖譜語(yǔ)言模型將維護(hù)一個(gè)本地知識(shí)圖譜缓苛，其中包含涉及上下文中出現(xiàn)實(shí)體的所有事實(shí)芳撒。當(dāng)模型決定引用尚未引用過(guò)的實(shí)體時(shí)，它將使用額外的實(shí)體和事實(shí)來(lái)增長(zhǎng)本地知識(shí)圖譜，以反映新的實(shí)體笔刹。

形式上芥备，如上所述，我們將計(jì)算 $p(x_t,\varepsilon_t|x_{<t},\varepsilon_{<t})$ 舌菜，其中 $x_{<t}$ 是觀察到的記號(hào)序列萌壳， $\varepsilon_{<t}$ 是 $x_{<t}$ 中提到的實(shí)體集， $KG_{<t}$ 是由 $\varepsilon_{<t}$ 確定的本地知識(shí)圖譜日月。生成過(guò)程是：

確定 $x_t$ 的類型讶凉，我們用 $t_t$ 來(lái)表示：它是對(duì) $KG_{<t}$ 中的實(shí)體的引用（related），還是對(duì)不在 $KG_{<t}$ 中的實(shí)體的引用（new）山孔，或者不是實(shí)體提及（entity mention）（ $\varnothing$ ）懂讯。
（注：“提及”是自然文本中表達(dá)實(shí)體的語(yǔ)言片段）
如果 $t_t =$ new，則從所有實(shí)體 $\varepsilon$ 的集合中選擇接下來(lái)的實(shí)體 $e_t$ 台颠。
如果 $t_t=$ related褐望，那么。
-從 $\varepsilon_{<t}$ 中選擇一個(gè)父實(shí)體 $p_t$ 串前。
-選擇一個(gè)事實(shí)關(guān)系 $r_t$ 來(lái)呈現(xiàn)瘫里。 $r_t∈\{{(p,r,e)∈ KG_{<t}|p = p_t}\}$ 。
-選擇 $e_t$ 作為尾部實(shí)體之一荡碾。 $e_t∈ {\{e|(p_t,r_t,e)∈ KG_{<t}}\}$ 谨读。
如果 $t_t=\varnothing$ ，則 $e_t=\varnothing$ 坛吁。
生成以 $e_t$ 為條件的 $x_t$ 劳殖，可能復(fù)制 $e_t$ 的一個(gè)別名(aliases)。
（注：比如“西紅柿”就是“番茄”的一個(gè)別名）
如果 $e_t\notin\varepsilon_{<t}$ 拨脉，則 $\varepsilon_{<(t+1)}←\varepsilon_{<t}∪\{{e_t}\}$ 哆姻，否則 $\varepsilon_{<(t+1)}←\varepsilon_{<t}$ 。

為了使模型引用它已經(jīng)提到的實(shí)體玫膀，我們引入了一個(gè)自相關(guān)的反映（reflective）關(guān)系矛缨，即 $p=e$ 表示 $(p,Reflective,e)$ 。

圖2中提供了此過(guò)程和變量的說(shuō)明帖旨，用于在與圖1相同句子的中間位置處生成詞例箕昭。在三種提及類型( $t_t$ )中，模型要選擇對(duì)現(xiàn)有實(shí)體的引用解阅，這需要挑選一個(gè)要呈現(xiàn)的事實(shí)落竹。作為該事實(shí)的父實(shí)體( $p_t$ )，模型選擇Super Mario Land瓮钥，然后遵循Publisher關(guān)系( $r_t$ )選擇任天堂（Nintendo）作為要呈現(xiàn)的實(shí)體( $e_t$ )筋量。當(dāng)將任天堂呈現(xiàn)為詞例 $x_t$ 時(shí)烹吵，該模型有一個(gè)擴(kuò)展的詞匯表可供其使用，其中包含標(biāo)準(zhǔn)詞匯表以及 $e_t$ 的任何別名中的所有單詞類型桨武。

圖2：知識(shí)圖譜語(yǔ)言模型說(shuō)明肋拔。當(dāng)嘗試生成 "published by "之后的詞例時(shí)，模型首先要決定提及的類型（$t_t$）為"related entity"(深色表示概率較高）呀酸，然后從本地知識(shí)圖譜中將父體（$p_t$）凉蜂、關(guān)系（$r_t$）和要呈現(xiàn)的實(shí)體（$e_t$）標(biāo)識(shí)為（Super Mario Land，Publisher性誉，Nintendo）窿吩。最終的單詞分布包括標(biāo)準(zhǔn)詞匯表和任天堂的別名，模型選擇 "任天堂 "作為詞例$x_t$错览。與任天堂相關(guān)的事實(shí)將被添加到本地知識(shí)圖譜中纫雁。

計(jì)算知識(shí)圖譜的邊緣概率 我們的初始任務(wù)需求 $p(x_t|x_{<t})$ 與我們到目前為止描述的計(jì)算 $p(x_t,\varepsilon_t|x_{<t},\varepsilon_{<t})$ 的模型之間并不匹配。我們需要通過(guò)計(jì)算本地知識(shí)圖譜的邊緣概率來(lái)獲得詞例的概率倾哺，即 $p(x)=\sum_\varepsilon p(x,\varepsilon)$ 轧邪。我們將在第4節(jié)中說(shuō)明這一點(diǎn)，同時(shí)描述這個(gè)模型的訓(xùn)練和推斷/解碼算法羞海，以及其他設(shè)置的細(xì)節(jié)忌愚。
(注：推斷，就是深度學(xué)習(xí)把從訓(xùn)練中學(xué)習(xí)到的能力應(yīng)用到工作中去）

2.3 對(duì)分布進(jìn)行參數(shù)化處理

上述生成過(guò)程中使用的參數(shù)分布定義如下却邓。我們首先使用等式(1)中的公式計(jì)算隱藏狀態(tài) $h_t$ 硕糊。然后，我們將向量拆分為三個(gè)組件： $h_t=[h_{t,x};h_{t,p};h_{t,r}]$ 腊徙，這三個(gè)組件分別用于預(yù)測(cè)單詞简十、父系和關(guān)系(注：可能是詞例、父實(shí)體和關(guān)系）昧穿。使用 $h_{t,x}$ 上的softmax函數(shù)來(lái)計(jì)算詞例的類型 $t_t$ 勺远，以預(yù)測(cè)其屬于{new，related时鸵，?}中的一個(gè)。
(注：softmax函數(shù)把一些輸入映射為0-1之間的實(shí)數(shù)厅瞎，并且歸一化保證和為1饰潜，因此多分類的概率之和也剛好為1。）

挑選實(shí)體 我們還為知識(shí)圖譜中的所有實(shí)體和關(guān)系引入了預(yù)訓(xùn)練的嵌入（embeddings）和簸，實(shí)體 $e$ 用 $V_e$ 表示彭雾，關(guān)系 $r$ 用 $V_r$ 表示。要在 $t_t$ =new的情況下從所有實(shí)體中選擇 $e_t$ 锁保，對(duì)于所有的 $e\in\varepsilon$ 我們使用：
$p(e_t) = softmax(V_e · (h_{t,p} + h_{t,r}))$

我們添加 $h_{t,p}$ 和 $h_{t,r}$ 的原因是為了模仿TransE的結(jié)構(gòu)薯酝，我們用它來(lái)獲得實(shí)體和關(guān)系嵌入半沽。關(guān)于TransE的細(xì)節(jié)將在第4節(jié)中詳述。對(duì)于提到的相關(guān)實(shí)體 $t_t$ = related吴菠，對(duì)于所有的 $p\in\varepsilon_t$ 我們使用：
$p(p_t) = softmax(V_p · h_{t,p})$

選擇一個(gè)父實(shí)體 $p_t$ 者填。

然后，對(duì)于所有的 $r\in\{r|(p_t,r,e)\in KG_t\}$ 做葵，我們用：
$p(r_t)=softmax(V_r · h_{t,r})$

來(lái)選擇關(guān)系 $r_t$ 占哟。 $pt$ 和 $rt$ 的組合決定了實(shí)體 $e_t$ （其必須滿足 $(p_t,r_t,e_t)∈KG_t$ ；如果有多個(gè)選項(xiàng)酿矢，則隨機(jī)選擇一個(gè)）榨乎。

實(shí)體呈現(xiàn) 如果 $et =\varnothing$ ，即沒(méi)有實(shí)體要呈現(xiàn)瘫筐，我們使用與等式(1)中相同的詞匯分布——對(duì) $h_{t,x}$ 做softmax處理蜜暑。如果有實(shí)體需要呈現(xiàn)，我們?cè)谠荚~匯表和包含出現(xiàn)在 $e_t$ 別名中的所有詞例的詞匯表上構(gòu)造分布策肝。為了計(jì)算在原始詞匯表上的分?jǐn)?shù)史煎， $h_{t,x}$ 被替換為 $h'_{t,x} = W_{proj}[h_{t,x}; V_{e_t} ]$ ，其中 $W_{proj}$ 是一個(gè)學(xué)習(xí)的權(quán)重矩陣驳糯，它將聚合后的向量映射到與 $h_{t,x}$ 相同的向量空間篇梭。
*（注： $h_{t,x}$ 表示原始詞匯表中的詞例， $V_{e_t}$ 表示包含出現(xiàn)在 $e_t$ 別名中的所有詞例酝枢。這個(gè)方程是將兩個(gè)向量拼接并映射到與 $h_{t,x}$ 相同的向量空間中恬偷，即使 $h'_{t,x}$ 與 $h_{t,x}$ 的維度保持一致）

為了獲得別名詞匯庫(kù)中單詞的概率，我們參考了Gu et al.（2016）論文中所提及的復(fù)制機(jī)制帘睦。組成每個(gè)別名 $\{a_j\}$ 的詞例序列被嵌入袍患，然后使用LSTM進(jìn)行編碼，形成向量 $a_j$ 竣付。復(fù)制分?jǐn)?shù)的計(jì)算方法為：
$p(x_t=a_j)\propto exp[\sigma ((h'_{t,x})^TW_{copy})a_j$

3 Linked WikiText-2

撇開(kāi)建模不談诡延，將事實(shí)知識(shí)納入語(yǔ)言模型的主要障礙之一是很難獲得訓(xùn)練數(shù)據(jù)。標(biāo)準(zhǔn)語(yǔ)言建模語(yǔ)料庫(kù)僅由文本組成古胆，因此無(wú)法描述每個(gè)標(biāo)記所指的實(shí)體或事實(shí)肆良。相比之下，雖然關(guān)系提取數(shù)據(jù)集將文本鏈接到知識(shí)圖譜逸绎，但文本由不連續(xù)的句子組成惹恃，這些句子沒(méi)有提供足夠的上下文來(lái)訓(xùn)練強(qiáng)大的語(yǔ)言模型。我們的目標(biāo)可視為一個(gè)數(shù)據(jù)到文本生成（data-to-text）的任務(wù)(Ahn et al., 2016; Lebret et al., 2016; Wiseman et al., 2017; Yang et al., 2017; Gardent et al., 2017; Ferreira et al., 2018)棺牧，其中提供了一個(gè)較形撞凇（a small table-sized）的語(yǔ)料庫(kù)（KB）來(lái)生成一個(gè)短的文本片段；我們感興趣的是在話語(yǔ)的引導(dǎo)下颊乘，動(dòng)態(tài)地決定從知識(shí)圖譜中納入事實(shí)的語(yǔ)言模型参淹。
（注：原文直接使用了KB這個(gè)縮寫(xiě)醉锄，作者并沒(méi)有解釋，我使用了KB在NLP領(lǐng)域最常見(jiàn)的意思是指Knowledge Base浙值。"small table-sized" 也很難理解恳不，small應(yīng)是指知識(shí)庫(kù)小，table-sized應(yīng)指知識(shí)庫(kù)局限于某一領(lǐng)域亥鸠，因?yàn)樵赗elated Work部分作者有提到這些研究“focus on generating coherent text within a narrow domain”）

基于這些原因妆够，我們引入了Linked WikiText-2數(shù)據(jù)集，其（大約）由WikiText-2語(yǔ)言建模語(yǔ)料庫(kù)中的文章組成负蚊，但鏈接到了Wikidata（Vrandecˇic ? and Kr?tzsch, 2014）知識(shí)圖譜神妹。因?yàn)槲谋揪o密匹配，所以在Linked WikiText-2上訓(xùn)練的模型可與在WikiText-2上訓(xùn)練的模型相媲美家妆。此外鸵荠，由于維基數(shù)據(jù)中的許多事實(shí)都是從維基百科的文章中提取出來(lái)的，因此知識(shí)圖譜很好地覆蓋了文本中表達(dá)的事實(shí)伤极。該數(shù)據(jù)集可在 https://rloganiv.github.io/linked-wikitext-2下載蛹找。我們的系統(tǒng)每次只對(duì)一個(gè)文檔進(jìn)行注釋，包括實(shí)體鏈接哨坪、關(guān)系注釋和后處理庸疾。下文將詳細(xì)介紹每個(gè)步驟。

初步實(shí)體注釋 我們首先確定文本中提到的一組初始實(shí)體当编。這些提及的主要來(lái)源是維基百科文章之間的人工鏈接届慈。每當(dāng)一段文本鏈接到另一篇維基百科文章時(shí)，我們就會(huì)將其對(duì)應(yīng)的Wikidata實(shí)體與該范圍相關(guān)聯(lián)忿偷。雖然文章鏈接提供了大量標(biāo)準(zhǔn)實(shí)體注釋（gold entity annotations）金顿，但它們不足以捕獲文章中的所有提及，因?yàn)閷?shí)體只在第一次出現(xiàn)時(shí)才被鏈接鲤桥。因此揍拆，我們使用neuro-el( Gupta et al., 2017 )實(shí)體鏈接器來(lái)識(shí)別到Wikidata的額外鏈接，并使用StanFord CoreNLP2來(lái)識(shí)別互指關(guān)系茶凳，以涵蓋代詞嫂拴、名詞和鏈接器遺漏的其他標(biāo)記。

本地知識(shí)圖譜 下一步慧妄，使用知識(shí)圖譜中的關(guān)系顷牌，迭代地為實(shí)體創(chuàng)建生成性故事，并標(biāo)識(shí)新實(shí)體塞淹。為此，我們逐個(gè)處理文本詞例罪裹。每次遇到實(shí)體時(shí)饱普，我們都會(huì)添加Wikidata中的所有相關(guān)實(shí)體作為候選進(jìn)行匹配运挫。如果稍后在文檔中看到這些相關(guān)實(shí)體之一，我們將該實(shí)體標(biāo)識(shí)為后面實(shí)體的父實(shí)體套耕。由于每個(gè)詞例可能會(huì)出現(xiàn)多個(gè)關(guān)系作為解釋谁帕，我們?cè)试S一個(gè)詞例對(duì)應(yīng)多個(gè)事實(shí)。

擴(kuò)展注釋 由于可能有一些實(shí)體在初始集中被遺漏了冯袍，也可能有一些非實(shí)體詞例（如日期和數(shù)量），因此我們使用字符串匹配（string matching）來(lái)進(jìn)一步擴(kuò)展實(shí)體注釋。對(duì)于實(shí)體茉盏，我們對(duì)Wikidata中的別名集進(jìn)行匹配混滔。對(duì)于日期，我們創(chuàng)建了一個(gè)詳盡的列表征冷，列出了所有可能的日期表達(dá)方式（例如 "December 7, 1941", "7-12-1941", "1941", ...）择膝。我們對(duì)數(shù)量進(jìn)行類似的處理方法，使用Python中的pint庫(kù)來(lái)處理不同的單位表達(dá)方式(例如 "g"检激、"gram"肴捉、...)。由于表示數(shù)值的方法有很多叔收，所以我們只按照Wikidata提供的精度級(jí)別呈現(xiàn)數(shù)值齿穗，而不執(zhí)行單位轉(zhuǎn)換。

示例注釋 表1中提供了與圖1中的實(shí)例相對(duì)應(yīng)的示例注釋饺律，以及與知識(shí)圖譜語(yǔ)言模型(KGLM)的生成過(guò)程相對(duì)應(yīng)的變量窃页。這里提到的大多數(shù)詞例的實(shí)體都是人工提供的鏈接，除了“1989”蓝晒，它是通過(guò)字符串匹配過(guò)程鏈接到“04-21-1989”的腮出。到目前為止，基于是否可由目前已連接實(shí)體訪問(wèn)芝薇，這些注釋指出了哪些實(shí)體屬于類型new胚嘲，以及哪些實(shí)體屬于類型related，但顯然在“side-scrolling game”和“platform video game”上出現(xiàn)了錯(cuò)誤洛二，這是在Wikidata中缺少鏈接的緣故馋劈。最后，Gameboy的加入有多個(gè)看似合理的理由：它是Super Mario Land的平臺(tái)晾嘶，由任天堂制造妓雾，盡管在這里前者更具有相關(guān)性。即使有這些遺漏和錯(cuò)誤垒迂，但很明顯绣夺，這些注釋內(nèi)容豐富而詳細(xì)，覆蓋率很高欢揖，因此應(yīng)該有利于知識(shí)圖譜語(yǔ)言模型的訓(xùn)練陶耍。

表1：對(duì)圖1中句子的示例注釋。包括圖2中的相應(yīng)變量她混。請(qǐng)注意坤按，Game Boy有多個(gè)父注釋和關(guān)系注釋毯欣，其一是作為Super Mario Land的平臺(tái)，其二是由任天堂制造晋涣。為了清晰起見(jiàn)算吩，維基數(shù)據(jù)的標(biāo)識(shí)符都已設(shè)置為人類可讀的（例如，SML代替Q647249）佃扼。

數(shù)據(jù)集統(tǒng)計(jì) 表2提供了關(guān)于Linked Wikitext-2的統(tǒng)計(jì)數(shù)據(jù)偎巢。在該語(yǔ)料庫(kù)中，超過(guò)10%的詞例被認(rèn)為是實(shí)體詞例兼耀，即它們是作為知識(shí)圖譜中信息的事實(shí)性引用而產(chǎn)生的压昼。每個(gè)實(shí)體只被提到了幾次(平均不到5次，但尾部很長(zhǎng))瘤运，并且有超過(guò)數(shù)千種不同的關(guān)系窍霞。由此可見(jiàn)，使用常規(guī)語(yǔ)言模型顯然無(wú)法生成事實(shí)文本拯坟，這需要語(yǔ)言模型能夠參考外部信息源但金。

表2：Linked WikiText-2詞庫(kù)統(tǒng)計(jì)

與 WikiText2的不同 盡管我們的數(shù)據(jù)集高度復(fù)制Wikitext-2，但也有一些不同之處郁季，導(dǎo)致無(wú)法直接比較冷溃。首先，對(duì)文本的編輯修改是持續(xù)進(jìn)行的梦裂，由于下載數(shù)據(jù)集日期不同似枕，不同文章的文本會(huì)有細(xì)微差異。其次年柠，根據(jù) Merity et al. (2017)的說(shuō)法凿歼，Wikitext-2是通過(guò)查詢維基百科文本API收集的。因?yàn)榇薃PI丟棄了有用的注釋信息(例如文章鏈接)，所以Linked Wikitext-2是直接由文章的HTML創(chuàng)建的毅往。

4 知識(shí)圖譜語(yǔ)言模型的訓(xùn)練和推斷

在這一部分中牵咙，我們將描述知識(shí)圖譜語(yǔ)言模型的訓(xùn)練和推斷算法派近。

預(yù)訓(xùn)練知識(shí)圖譜嵌入 在評(píng)估過(guò)程中攀唯，我們可能需要對(duì)訓(xùn)練期間未見(jiàn)過(guò)的實(shí)體和關(guān)系做出預(yù)測(cè)。因此渴丸，我們?cè)赪ikidata上使用TransE(Bordes等人侯嘀，2013年)預(yù)先訓(xùn)練的固定實(shí)體和關(guān)系嵌入。給定 $(p谱轨，r戒幔，e)$ ，我們學(xué)習(xí)嵌入 $V_p$ 土童、 $V_r$ 和 $V_e$ 來(lái)最小化距離：
$δ(V_p,V_r,V_e)=∥V_p+V_r?V_e∥^2$

我們使用最大邊緣損失（max-margin loss）來(lái)學(xué)習(xí)這些嵌入：
$L = max (0,γ + δ (V_p, V_r, V_e) ? δ (V'_p , V_r, V'_e) )$

其中诗茎， $γ$ 是邊緣， $p'$ 和 $e'$ 是隨即抽取的實(shí)體嵌入献汗。

使用Linked WikiText訓(xùn)練 盡管KGLM的生成過(guò)程涉及許多步驟敢订，但在Linked Wikitext-2上訓(xùn)練模型是直截了當(dāng)?shù)摹Ｎ覀兊膿p失目標(biāo)是訓(xùn)練數(shù)據(jù)的負(fù)對(duì)數(shù)似然率：
$l(Θ) = \sum_t log p(x_t, \varepsilon_t|x_{<t}, \varepsilon_{<t}; Θ),$

其中Θ是模型參數(shù)集罢吃。請(qǐng)注意楚午，如果一個(gè)注釋有多個(gè)可行的父級(jí)(如1中的Game Boy)，那么我們將邊緣化所有父級(jí)尿招。由于所有隨機(jī)變量都可觀察到矾柜，因此可以使用現(xiàn)成的基于梯度的優(yōu)化器進(jìn)行訓(xùn)練。

推斷雖然觀察注釋使模型易于訓(xùn)練就谜，但我們不假定模型在評(píng)估期間可以訪問(wèn)注釋怪蔑。
此外，正如第2.2節(jié)所討論的那樣丧荐，語(yǔ)言建模的目標(biāo)是測(cè)量邊際概率 $p(x)=\sum_\varepsilon p(x缆瓣，\varepsilon)$ ，而不是聯(lián)合概率篮奄。
然而捆愁，由于可能的注釋的組合空間很大，所以這個(gè)總和難以計(jì)算窟却。我們通過(guò)使用重要性抽樣近似邊緣分布來(lái)解決這個(gè)問(wèn)題昼丑。
對(duì)給定的來(lái)自建議分布 $q(\varepsilon|x)$ 的樣本，邊緣分布為：
$p(x) = \sum_\varepsilon p(x,\varepsilon) = \sum_\varepsilon \frac{p(x,\varepsilon)}{q(\varepsilon|x)}q(\varepsilon|x)≈ \frac{1}{N} \sum_{E～q}\frac{p(x,\varepsilon)}{ q(\varepsilon|x)}$

該方法曾用來(lái)評(píng)價(jià) Ji et al（2017）和Dyer et al. (2016)的模型夸赫。繼 Ji 等人（2017）之后菩帝，我們使用模型的判別版本計(jì)算 $q(\varepsilon | x)$ ，該模型預(yù)測(cè)的是當(dāng)前詞例的注釋而不是下一個(gè)詞例的注釋。

實(shí)驗(yàn)

為了評(píng)估所提出的語(yǔ)言模型呼奢，我們首先介紹了基線宜雀，然后使用留出語(yǔ)料庫(kù)的困惑度（perplexity of held-out corpus），事實(shí)完成的準(zhǔn)確性進(jìn)行評(píng)估握础，并說(shuō)明了模型如何使用知識(shí)圖譜辐董。

5.1 評(píng)估步驟

基線模型 我們使用了如下基線模型與知識(shí)圖譜語(yǔ)言模型作對(duì)比

AWD-LSTM(Merity et al., 2018)：基于LSTM的強(qiáng)大模型，是Wikitext-2上大多數(shù)最先進(jìn)模型的基礎(chǔ)禀综。
ENTITYNLM(Ji et al., 2017)：是一個(gè)基于LSTM的語(yǔ)言模型简烘，能夠跟蹤實(shí)體的提及。實(shí)體的嵌入是動(dòng)態(tài)創(chuàng)建的定枷，不受任何外部信息來(lái)源的影響孤澎。
EntityCopyNet：知識(shí)圖譜語(yǔ)言模型的一個(gè)變體，其中對(duì)于所有提及有 $t_t=$ new欠窒，即從 $\varepsilon$ 中選擇實(shí)體覆旭，并復(fù)制實(shí)體別名，但知識(shí)圖譜中的關(guān)系未使用岖妄。

超參數(shù) 我們使用邊距為 $γ=1$ 的TransE型将，為L(zhǎng)inked Wikidata-2中實(shí)體集兩跳（two hops）范圍內(nèi)的所有實(shí)體進(jìn)行了256維實(shí)體和關(guān)系嵌入的預(yù)訓(xùn)練。為了節(jié)省內(nèi)存衣吠，所有日期嵌入和數(shù)量嵌入進(jìn)行了權(quán)重綁定茶敏。遵循 Merity et al. (2018)的做法。我們使用400維詞嵌入和一個(gè)隱藏維度為1150的3層LSTM來(lái)編碼詞例缚俏。我們還采用了相同的正則化策略 (DropConnect (Wan et al., 2013) + Dropout(Srivastava et al., 2014))和權(quán)重捆綁方法惊搏。但是，我們使用學(xué)習(xí)率設(shè)置為1e-3的Adam(Kingma and Ba, 2015) 進(jìn)行優(yōu)化忧换，而不是NT-ASGD恬惯，因?yàn)槲覀儼l(fā)現(xiàn)Adam更穩(wěn)定。

5.2 結(jié)果

困惑度 我們使用標(biāo)準(zhǔn)的困惑度量來(lái)評(píng)估我們的模型： $exp (\frac{1}{T}\sum_{t=1}^{T}=log p(x_t))$ 亚茬。然而酪耳，使用困惑度的問(wèn)題是，當(dāng)它們被映射到單個(gè)UNK詞例時(shí)刹缝，它高估了詞匯表外詞例的概率碗暗。這給比較知識(shí)圖譜語(yǔ)言模型與使用Linked Wikitext-2的傳統(tǒng)語(yǔ)言模型的性能造成了困難，因?yàn)橛写罅亢币?jiàn)實(shí)體的別名詞例是詞匯表外的梢夯。也就是說(shuō)言疗，即使知識(shí)圖譜語(yǔ)言模型識(shí)別了正確的實(shí)體并以高概率復(fù)制了正確的別名詞例，其他模型也可以通過(guò)向UNK分配更高的概率來(lái)獲得更好的困惑度颂砸。相應(yīng)地噪奄，我們還測(cè)量了Ueberla（1994）提出的未知懲罰性困惑度（UPP）（又名校正困惑度）死姚，最近Ahn et al. （2016）和 Spithourakis and Riedel（2018）也使用了這個(gè)度量。此度量通過(guò)在 $U$ (映射到UNK的一組令牌)上均勻分配它們的概率質(zhì)量來(lái)懲罰UNK令牌的概率勤篮。我們可以通過(guò)將上述困惑度中的 $p$ (UNK)替換為 $\frac{1}{|U|}p$ (UNK)來(lái)計(jì)算UPP都毒，其中 $|U|$ 是從數(shù)據(jù)估計(jì)出來(lái)的。

我們?cè)诒?中列出了模型的困惑度碰缔。為了邊際化注釋账劲，我們使用第4節(jié)中描述的重要性抽樣方法估計(jì)了 ENTITYNLM、EntityCopyNet 和知識(shí)圖譜語(yǔ)言模型的困惑度手负。我們觀察到涤垫，知識(shí)圖譜語(yǔ)言模型的困惑度比其他基于實(shí)體的語(yǔ)言模型低得多（44.1 vs. 76.1/85.4），這有力地證明了利用知識(shí)圖譜對(duì)準(zhǔn)確的語(yǔ)言建模至關(guān)重要竟终。此外，知識(shí)圖譜語(yǔ)言模型在未知懲罰困惑方面的性能明顯優(yōu)于所有模型切蟋，顯示了其生成罕見(jiàn)詞例的能力统捶。

表3：Linked WikiText-2 上模型的困惑度結(jié)果。標(biāo)有*的模型的結(jié)果是通過(guò)重要性抽樣得到的柄粹。

事實(shí)完成 由于事實(shí)性文本的生成是我們的主要目標(biāo)喘鸟，因此我們?cè)u(píng)估了語(yǔ)言模型完成帶有事實(shí)信息句子的能力。此外驻右，我們還與小型的GPT-2（Radford et al., 2019）進(jìn)行了比較什黑，它是一個(gè)在更大的文本語(yǔ)料庫(kù)上訓(xùn)練的語(yǔ)言模型。我們從Freebase中選擇了六個(gè)流行關(guān)系堪夭，并為每個(gè)關(guān)系寫(xiě)了一個(gè)簡(jiǎn)單的完成模板愕把，比如出生地關(guān)系的 " $X$ 出生在"。我們?yōu)檫@些模板生成關(guān)系成立的若干 $(X森爽，Y)$ 對(duì)的句子恨豁，并手動(dòng)檢查每個(gè)語(yǔ)言模型生成的第一個(gè)詞例是否正確。

表4顯示了每種語(yǔ)言模型在這些關(guān)系上的性能爬迟。
Oracle知識(shí)圖譜語(yǔ)言模型為 $X$ 提供了正確的實(shí)體注釋橘蜜，而NEL知識(shí)圖譜語(yǔ)言模型使用用于重要性采樣的判別模型與NEL實(shí)體鏈接器相結(jié)合來(lái)生成 $X$ 的實(shí)體注釋。

表4 事實(shí)完成付呕。用于預(yù)測(cè)不完整事實(shí)句子的下一個(gè)標(biāo)記的top-k準(zhǔn)確率(@1/@5计福，%)。參見(jiàn)表5中的示例徽职。

在相同數(shù)據(jù)集上訓(xùn)練的模型中象颖，知識(shí)圖譜語(yǔ)言模型的兩個(gè)變體都明顯優(yōu)于AWD-LSTM；它們產(chǎn)生了準(zhǔn)確的事實(shí)活箕，而AWD-LSTM產(chǎn)生的是通用的力麸、常見(jiàn)的單詞可款。知識(shí)圖譜語(yǔ)言模型也比在更多數(shù)據(jù)集上訓(xùn)練的模型更有競(jìng)爭(zhēng)力，它能產(chǎn)生需要特定知識(shí)的事實(shí)完成克蚂，如出生地闺鲸、日期和作者等。然而埃叭，它并不能捕捉到在大語(yǔ)料庫(kù)中經(jīng)常出現(xiàn)的事實(shí)或關(guān)系摸恍，比如州內(nèi)的城市。令人鼓舞的是赤屋，具有自動(dòng)鏈接功能的知識(shí)圖譜語(yǔ)言模型的性能與Oracle鏈接相當(dāng)立镶。

我們?cè)诒?中提供了一些例子，以突出知識(shí)圖譜語(yǔ)言模型在600個(gè)文檔上接受培訓(xùn)的質(zhì)量差異类早，與最近使用有800多萬(wàn)文檔的WebText語(yǔ)料庫(kù)上接受培訓(xùn)的最先進(jìn)語(yǔ)言模型GPT-2之間的質(zhì)量差異（Radford et al., 2019）媚媒。例如，這兩個(gè)模型都正確與否涩僻，知識(shí)圖譜語(yǔ)言模型生成的詞例通常要具體得多缭召，而不是選擇更流行/通用的詞例（GPT-2經(jīng)常預(yù)測(cè)“紐約”是出生地，即使是流行的實(shí)體也是如此）逆日。特別是嵌巷，當(dāng)頭部或尾部實(shí)體很少時(shí)，知識(shí)圖譜語(yǔ)言模型可以得到正確的事實(shí)陳述室抽，而GPT-2只能在使用更多通用詞例（如 "1月 "而不是 "20"）時(shí)搪哪，完成更多流行/通用實(shí)體的事實(shí)陳述。

表5：完成示例坪圾。由知識(shí)圖譜語(yǔ)言模型和GPT-2完成事實(shí)完成的例子晓折，GPT-2已經(jīng)在更大的語(yǔ)料庫(kù)上進(jìn)行了訓(xùn)練。GPT-2傾向于生成非常常見(jiàn)和普通的詞例神年，比如說(shuō)在幾個(gè)流行的城市中已维，可以按照 "出生 "的方式生成。知識(shí)圖譜語(yǔ)言模型有時(shí)會(huì)在鏈接到特定事實(shí)時(shí)出錯(cuò)已日，然而垛耳，它生成的事實(shí)更具體，包含了罕見(jiàn)的詞例飘千。我們將AWD-LSTM省略堂鲜，因?yàn)槌艘话愕?"the "或 "a"，或"?UNK?"之外护奈，它很少產(chǎn)生詞例缔莲。

更換知識(shí)圖譜的效果 對(duì)于大多數(shù)語(yǔ)言模型，由于事實(shí)知識(shí)與模型生成的能力是糾纏在一起的霉旗，因此很難控制它們的生成痴奏。對(duì)于知識(shí)圖譜語(yǔ)言模型來(lái)說(shuō)蛀骇，它使用外部知識(shí)源的另一個(gè)好處是，知識(shí)圖譜語(yǔ)言模型可以通過(guò)修改知識(shí)圖譜直接控制读拆。用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明這個(gè)能力擅憔，我們用原來(lái)的事實(shí)（Barack Obama, birthDate, 1961- 08-04）創(chuàng)建完成 "Barack Obama was born on"，結(jié)果前三個(gè)解碼令牌為 "August"檐晕、"4"暑诸、"1961"。將出生日期改成2013-03-21后辟灰，前三位解密令牌變?yōu)?"3月"个榕、"21"、"2013"芥喇。因此西采，改變知識(shí)圖中的事實(shí)，直接導(dǎo)致模型的預(yù)測(cè)結(jié)果發(fā)生相應(yīng)的變化乃坤。

6 相關(guān)研究

基于知識(shí)的語(yǔ)言模型 我們的工作從兩個(gè)現(xiàn)有的基于知識(shí)的語(yǔ)言模型中獲得靈感：

ENTITYNLM （Ji et al., 2017）苛让，它通過(guò)聯(lián)合建模命名實(shí)體識(shí)別和共指，提高了語(yǔ)言模型跟蹤實(shí)體的能力湿诊。我們的模型類似于通過(guò)文檔跟蹤實(shí)體，通過(guò)實(shí)體鏈接和關(guān)系提取的建模瘦材，提高了其生成事實(shí)信息的能力厅须。
神經(jīng)知識(shí)語(yǔ)言模型（NKLM）（Ahn et al., 2016），它確立了在神經(jīng)語(yǔ)言模型中利用知識(shí)圖譜的思想食棕。知識(shí)圖譜語(yǔ)言模型和神經(jīng)知識(shí)語(yǔ)言模型之間的主要區(qū)別因素是朗和，知識(shí)圖譜語(yǔ)言模型在整個(gè)知識(shí)圖譜上操作，并且可以在沒(méi)有附加條件信息的情況下對(duì)文本進(jìn)行評(píng)估簿晓，而神經(jīng)知識(shí)語(yǔ)言模型在從單個(gè)實(shí)體發(fā)出的相對(duì)較小的預(yù)定義邊集合上操作眶拉，并且要求提前提供該實(shí)體作為條件信息。這一要求排除了神經(jīng)知識(shí)語(yǔ)言模型與第5節(jié)中的基線之間的直接比較憔儿。

數(shù)據(jù)到文本的生成 我們的工作也與神經(jīng)數(shù)據(jù)到文本生成的任務(wù)有關(guān)忆植。關(guān)于早期的非神經(jīng)文本生成方法的調(diào)查，我們參考 Reiter and Dale （1997）谒臼。最近的神經(jīng)方法已應(yīng)用于從體育統(tǒng)計(jì)表（Wiseman et al., 2017）朝刊，列表和表格（Yang et al., 2017）和維基百科信息框（Lebret et al., 2016）生成文本。這些研究和我們的主要區(qū)別在于我們的動(dòng)機(jī)蜈缤。這些作品專注于在一個(gè)狹窄的領(lǐng)域內(nèi)生成連貫的文本（例如體育拾氓、食譜、介紹性句子）底哥，并對(duì)BLEU和METEOR評(píng)分等指標(biāo)進(jìn)行優(yōu)化咙鞍。相反房官，我們的重點(diǎn)是利用大量的結(jié)構(gòu)化知識(shí)源來(lái)提高語(yǔ)言模型在寬泛主題領(lǐng)域中處理稀有詞例和事實(shí)的能力，我們重點(diǎn)是提高困惑度续滋。

通用語(yǔ)言建模 與此相關(guān)的還有最近的一些論文翰守，它們提出了對(duì)AWD- LSTM的修改，以提高Wikitext-2的性能（Gong et al., 2018; Yang et al., 2018; Krause et al., 2018）吃粒。我們選擇了AWD-LSTM作為基準(zhǔn)潦俺，因?yàn)檫@些貢獻(xiàn)是正交的，而且許多技術(shù)都與知識(shí)圖譜語(yǔ)言模型兼容徐勃。知識(shí)圖譜語(yǔ)言模型在AWD-LSTM的基礎(chǔ)上進(jìn)行了改進(jìn)事示，我們期望將知識(shí)圖譜語(yǔ)言模型與這些方法結(jié)合使用將產(chǎn)生進(jìn)一步的改進(jìn)。

結(jié)論與未來(lái)的研究方向

由于依賴記憶僻肖，現(xiàn)有的語(yǔ)言模型無(wú)法生成關(guān)于真實(shí)世界實(shí)體的事實(shí)正確文本肖爵。特別是，它們無(wú)法捕捉到稀有實(shí)體和數(shù)字臀脏、日期等單詞類型的長(zhǎng)尾劝堪。在這項(xiàng)工作中，我們提出了知識(shí)圖譜語(yǔ)言模型(KGLM)揉稚，這是一個(gè)神經(jīng)語(yǔ)言模型秒啦，它可以訪問(wèn)一個(gè)外部的事實(shí)源，以知識(shí)圖譜的形式編碼搀玖，以生成文本余境。我們的實(shí)現(xiàn)可以從以下網(wǎng)址獲得：https://github.com/rloganiv/kglm-model。我們還引入了Linked WikiText-2灌诅，其中包含了與知識(shí)圖譜中的事實(shí)對(duì)齊的文本芳来，從而允許高效地訓(xùn)練模型。Linked WikiText-2可以免費(fèi)下載猜拾，網(wǎng)址是：https://rloganiv.github.io/linked-wikitext-2即舌。在我們的評(píng)估中，我們表明挎袜，通過(guò)利用這個(gè)數(shù)據(jù)顽聂，知識(shí)圖譜語(yǔ)言模型能夠生成更高質(zhì)量的、符合事實(shí)的文本宋雏，這些文本中包含了罕見(jiàn)的實(shí)體和特定的詞例芜飘，如數(shù)字和日期等。

這項(xiàng)工作為未來(lái)知識(shí)感知語(yǔ)言建模的研究奠定了基礎(chǔ)磨总。知識(shí)圖譜語(yǔ)言模型的一些局限性嗦明，如推理過(guò)程中需要邊際化和依賴注釋詞例等，為推進(jìn)神經(jīng)NLP模型的研究提出了新的研究問(wèn)題蚪燕。我們的遠(yuǎn)距離監(jiān)督的數(shù)據(jù)集創(chuàng)建方法也可以用于其他知識(shí)圖譜和其他類型的文本娶牌，為新領(lǐng)域的精確語(yǔ)言建模提供了機(jī)會(huì)奔浅。

致謝

首先，我們要感謝Stephen Merity分享了用來(lái)收集Wikitext-2數(shù)據(jù)集的材料诗良，感謝Niish Gupta修改了他的實(shí)體鏈接器以幫助我們的工作芙盘。我們也要感謝Dheeru Dua和Anthony Chen的反饋类腮。這項(xiàng)工作部分得到了艾倫人工智能研究所的支持扔水，部分得到了美國(guó)國(guó)家科學(xué)基金會(huì)獎(jiǎng)#IIS-1817183的支持廷没。所表達(dá)的觀點(diǎn)是作者的觀點(diǎn)，并不反映資助機(jī)構(gòu)的官方政策或立場(chǎng)径荔。

最后編輯于：2020.05.13 17:27:25

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末督禽，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子总处，更是在濱河造成了極大的恐慌狈惫，老刑警劉巖，帶你破解...
沈念sama閱讀 221,548評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件鹦马，死亡現(xiàn)場(chǎng)離奇詭異胧谈，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)荸频，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)菱肖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人旭从，你說(shuō)我怎么就攤上這事蔑滓。” “怎么了遇绞？”我有些...
開(kāi)封第一講書(shū)人閱讀 167,990評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)燎窘。經(jīng)常有香客問(wèn)我摹闽，道長(zhǎng)，這世上最難降的妖魔是什么褐健？我笑而不...
開(kāi)封第一講書(shū)人閱讀 59,618評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任付鹿，我火速辦了婚禮，結(jié)果婚禮上蚜迅，老公的妹妹穿的比我還像新娘舵匾。我一直安慰自己，他們只是感情好谁不，可當(dāng)我...
茶點(diǎn)故事閱讀 68,618評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布坐梯。她就那樣靜靜地躺著，像睡著了一般刹帕。火紅的嫁衣襯著肌膚如雪吵血。梳的紋絲不亂的頭發(fā)上谎替，一...
開(kāi)封第一講書(shū)人閱讀 52,246評(píng)論 1贊 308
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音蹋辅，去河邊找鬼钱贯。笑死，一個(gè)胖子當(dāng)著我的面吹牛侦另，可吹牛的內(nèi)容都是我干的秩命。我是一名探鬼主播，決...
沈念sama閱讀 40,819評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼褒傅，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼弃锐！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起樊卓，我...
開(kāi)封第一講書(shū)人閱讀 39,725評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤拿愧，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后碌尔，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體浇辜，經(jīng)...
沈念sama閱讀 46,268評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,356評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年唾戚，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了柳洋。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,488評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡叹坦，死狀恐怖熊镣，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情募书，我是刑警寧澤绪囱，帶...
沈念sama閱讀 36,181評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站莹捡，受9級(jí)特大地震影響鬼吵，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜篮赢，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,862評(píng)論 3贊 333
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一齿椅、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧启泣，春花似錦涣脚、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,331評(píng)論 0贊 24
一樁弒父案遣蚀，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春妙同，著一層夾襖步出監(jiān)牢的瞬間射富，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,445評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工粥帚，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留胰耗，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,897評(píng)論 3贊 376
代替公主和親
正文我出身青樓芒涡，卻偏偏與公主長(zhǎng)得像柴灯，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子费尽，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,500評(píng)論 2贊 359

ACL2019論文譯注 巴拉克的妻子希拉里：將知識(shí)圖譜用于事實(shí)感知語(yǔ)言建模

摘要