ACL2019論文譯注 巴拉克的妻子希拉里:將知識(shí)圖譜用于事實(shí)感知語(yǔ)言建模

原文: Barack’s Wife Hillary: Using Knowledge Graphs for Fact-Aware Language Modeling

作者: Robert L. Logan IV;Nelson F. Liu屁柏;Matthew E. Peters叫胁;Matt Gardner定欧;Sameer Singh酵熙;

譯:張小邪先森


摘要

對(duì)人類語(yǔ)言進(jìn)行建模,不僅需要有能力生成流暢的文本,還需要對(duì)事實(shí)知識(shí)進(jìn)行編碼。然而叽唱,傳統(tǒng)的語(yǔ)言模型只能記住訓(xùn)練時(shí)看到的事實(shí),而且往往很難記住它們微宝。為了解決這個(gè)問(wèn)題棺亭,我們引入了知識(shí)圖譜語(yǔ)言模型(KGLM),這是一種神經(jīng)語(yǔ)言模型蟋软,具有從知識(shí)圖譜中選擇和復(fù)制與上下文相關(guān)事實(shí)的機(jī)制镶摘。這些機(jī)制使模型能夠呈現(xiàn)它以前從未見(jiàn)過(guò)的信息,并生成詞匯表外的標(biāo)記岳守。我們還引入了Linked Wikitext-2 數(shù)據(jù)集凄敢,這是一個(gè)歸屬于Wikidata的知識(shí)圖譜注釋文本語(yǔ)料庫(kù),其內(nèi)容(大致)與流行的Wikitext-2基準(zhǔn)相匹配棺耍。(Merity et al., 2017). 在實(shí)驗(yàn)中贡未,我們證明知識(shí)圖譜語(yǔ)言模型的性能明顯優(yōu)于強(qiáng)大的基線語(yǔ)言模型种樱。此外蒙袍,我們還比較了不同語(yǔ)言模型完成需要事實(shí)知識(shí)的句子的能力,并表明KGLM在生成事實(shí)方面的表現(xiàn)甚至優(yōu)于非常龐大的語(yǔ)言模型嫩挤。

1 引言

對(duì)于語(yǔ)言模型來(lái)說(shuō)害幅,語(yǔ)言模型要想生成合理的句子,它們必須在句法上連貫岂昭,并且與它們所描述的世界一致以现。盡管語(yǔ)言模型在生成語(yǔ)法句子方面相當(dāng)熟練,而且之前的工作表明约啊,語(yǔ)言模型也具備一定程度的常識(shí)推理和基礎(chǔ)知識(shí)(Vinyals and Le, 2015; Serban et al., 2016; Trinh and Le, 2019)邑遏,但它們生成事實(shí)正確的文本的能力相當(dāng)有限。現(xiàn)有語(yǔ)言模型最明顯的局限是,它們充其量只能記住訓(xùn)練過(guò)程中觀察到的事實(shí)。例如晴及,當(dāng)以圖1頂部的文本為條件時(shí)鞭呕,在Wikitext-2上訓(xùn)練的AWD-LSTM語(yǔ)言模型 (Merity et al., 2018) 為單詞“PlayStation”分配比“Game Boy”更高的概率,盡管這句話似乎是對(duì)訓(xùn)練數(shù)據(jù)的逐詞對(duì)應(yīng)当船。這不足為奇——現(xiàn)有的模型直接表示整個(gè)詞匯的分布,無(wú)論是常見(jiàn)的單詞、現(xiàn)實(shí)世界實(shí)體的引用碾盟,還是像日期和數(shù)字這樣的事實(shí)信息,都會(huì)直接表示出整個(gè)詞匯的分布技竟。因此冰肴,語(yǔ)言模型無(wú)法生成事實(shí)正確的句子,不能歸納罕見(jiàn)的/未見(jiàn)的實(shí)體,并且經(jīng)常從詞匯中省略了罕見(jiàn)的詞例(token)(而不是生成UNKNOWN詞例)熙尉。

圖1:Linked WikiText-2示例——一個(gè)本地化的知識(shí)圖譜估盘,包含上述句子中(可能)傳達(dá)的事實(shí)。該圖是通過(guò)迭代將每個(gè)檢測(cè)到的實(shí)體與Wikidata連接起來(lái)骡尽,然后添加任何與之前提到實(shí)體的關(guān)系來(lái)構(gòu)建的遣妥。請(qǐng)注意,并非所有實(shí)體都連接起來(lái)攀细,這可能是由于Wikidata中的關(guān)系缺失造成的箫踩。

我們介紹了知識(shí)圖譜語(yǔ)言模型(KGLM),這是一種神經(jīng)語(yǔ)言模型谭贪,具有從外部知識(shí)圖譜選擇和復(fù)制信息的機(jī)制境钟。知識(shí)圖譜語(yǔ)言模型維護(hù)一個(gè)動(dòng)態(tài)增長(zhǎng)的本地知識(shí)圖譜,這個(gè)知識(shí)圖譜的子集包含了文本中已經(jīng)提到的實(shí)體及其相關(guān)的實(shí)體俭识。在生成實(shí)體詞例時(shí)慨削,模型要么決定創(chuàng)建一個(gè)新的實(shí)體(該實(shí)體不在本地知識(shí)圖譜中)從而增長(zhǎng)本地知識(shí)圖譜,要么從本地知識(shí)圖譜中挑選一個(gè)事實(shí)套媚。當(dāng)挑選時(shí)時(shí)缚态,模型將標(biāo)準(zhǔn)詞匯和知識(shí)圖譜中的詞例結(jié)合在一起,因此數(shù)字堤瘤、日期和其他稀有詞例都在選擇的范圍內(nèi)玫芦。

圖1說(shuō)明了知識(shí)圖譜語(yǔ)言模型的工作原理。最初本辐,該圖為空桥帆,并且模型使用實(shí)體Super Mario Land來(lái)呈現(xiàn)前三個(gè)令牌,從而將其及其關(guān)系添加到本地知識(shí)圖譜中慎皱。在使用標(biāo)準(zhǔn)語(yǔ)言模型生成下兩個(gè)詞例(“is”老虫、“a”)之后,該模型選擇Super Mario Land作為父實(shí)體茫多,選擇出版日期作為呈現(xiàn)的關(guān)系祈匙,并復(fù)制日期實(shí)體的其中一個(gè)詞例之一作為作為呈現(xiàn)的詞例(在本例中為“1989”)。

為了便于基于知識(shí)圖的語(yǔ)言建模的研究地梨,我們收集了遠(yuǎn)程監(jiān)督的LInked Wikitext-2數(shù)據(jù)集菊卷。底層文本與Wikitext-2(Merity et al., 2017)非常匹配,這是一種流行的語(yǔ)言建谋ζ剩基準(zhǔn)洁闰,允許與現(xiàn)有模型進(jìn)行比較。文本中的詞例與維基數(shù)據(jù)(Vrandecˇic ? and Kr?tzsch, 2014)中的實(shí)體相鏈接万细,結(jié)合了人工提供的鏈接扑眉、現(xiàn)成的鏈接及共指模型纸泄。我們還利用維基數(shù)據(jù)中這些實(shí)體之間的關(guān)系來(lái)構(gòu)建一個(gè)實(shí)體可能被提及的合理理由:它可能與已經(jīng)被提及的實(shí)體(包括其本身)有關(guān),也可能是文檔中一個(gè)全新的腰素、不相關(guān)的實(shí)體聘裁。

我們?cè)贚inked Wikitext-2上對(duì)知識(shí)圖譜語(yǔ)言模型進(jìn)行了訓(xùn)練和評(píng)估。與AWD-LSTM(一種最新的高效語(yǔ)言模型)相比弓千,知識(shí)圖譜語(yǔ)言模型不僅獲得了較低的總體困惑度衡便,而且還獲得了更低的未知懲罰困惑度(unknown-penalized perplexity,UPP)(Ueberla, 1994; Ahn et al., 2016)洋访,該指標(biāo)可以公平地比較對(duì)稀有詞例準(zhǔn)確建模的模型與預(yù)測(cè)稀有詞例為未知的模型镣陕。我們還比較了這些模型的事實(shí)補(bǔ)全能力,在這些模型中姻政,它們預(yù)測(cè)了事實(shí)句子(例如呆抑,"Barack is married to")之后的下一個(gè)詞,結(jié)果表明知識(shí)圖譜語(yǔ)言模型的準(zhǔn)確性要高得多汁展。最后鹊碍,我們表明該模型能夠?yàn)橄∮袑?shí)體生成準(zhǔn)確事實(shí),并且可以通過(guò)對(duì)知識(shí)圖譜的修改來(lái)控制食绿。

2 知識(shí)圖譜語(yǔ)言模型

在本節(jié)中侈咕,我們介紹一種語(yǔ)言模型,它以外部的炫欺、結(jié)構(gòu)化的知識(shí)源為條件乎完,用來(lái)生成事實(shí)文本熏兄。

2.1 問(wèn)題設(shè)置和標(biāo)注

語(yǔ)言模型的定義是:以迄今為止觀察到的詞例序列中品洛,每個(gè)詞例的概率分布,我們將代表下一個(gè)詞例的隨機(jī)變量表示為x_t摩桶,將t之前的令牌序列表示為x<t桥状,即語(yǔ)言模型計(jì)算出p(x_t|x_{<t})。RNN語(yǔ)言模型(Mikolov et al., 2010)使用遞歸結(jié)構(gòu)對(duì)這個(gè)分布進(jìn)行參數(shù)化硝清。

等式1:

p(x_t|x_{<t}) = softmax(W_hh_t+b)

h_t = RNN(h_{t-1},x_{t-1})

本文使用LSTMs(Hochreiter and Schmidhuber辅斟,1997)作為遞歸模型。

知識(shí)圖譜(KG)是由實(shí)體\varepsilon作為節(jié)點(diǎn)組成的有向標(biāo)簽圖芦拿,其邊定義在一組關(guān)系R上士飒,即

KG=\{{(p,r,e)|p∈\varepsilon,r∈R,e∈\varepsilon}\}

其中p是與另一實(shí)體e具有關(guān)系r的父實(shí)體。我們還將實(shí)體\varepsilon_{<t}子集的本地知識(shí)圖譜定義為

KG_{<t}=\{{(p,r,e)|p∈\varepsilon_{<t},r∈R,e∈\varepsilon}\}

即包含實(shí)體\varepsilon_{<t}及其中的所有事實(shí)蔗崎。

2.2 知識(shí)圖譜語(yǔ)言模型生成

知識(shí)圖譜語(yǔ)言模型(KGLM)的主要目標(biāo)是使神經(jīng)語(yǔ)言模型能夠從知識(shí)圖譜生成實(shí)體和事實(shí)酵幕。為了鼓勵(lì)模型生成已經(jīng)出現(xiàn)在上下文中的事實(shí),知識(shí)圖譜語(yǔ)言模型將維護(hù)一個(gè)本地知識(shí)圖譜缓苛,其中包含涉及上下文中出現(xiàn)實(shí)體的所有事實(shí)芳撒。當(dāng)模型決定引用尚未引用過(guò)的實(shí)體時(shí),它將使用額外的實(shí)體和事實(shí)來(lái)增長(zhǎng)本地知識(shí)圖譜,以反映新的實(shí)體笔刹。

形式上芥备,如上所述,我們將計(jì)算p(x_t,\varepsilon_t|x_{<t},\varepsilon_{<t})舌菜,其中x_{<t}是觀察到的記號(hào)序列萌壳,\varepsilon_{<t}x_{<t}中提到的實(shí)體集,KG_{<t}是由\varepsilon_{<t}確定的本地知識(shí)圖譜日月。生成過(guò)程是:

  • 確定x_t的類型讶凉,我們用t_t來(lái)表示:它是對(duì)KG_{<t}中的實(shí)體的引用(related),還是對(duì)不在KG_{<t}中的實(shí)體的引用(new)山孔,或者不是實(shí)體提及(entity mention)\varnothing)懂讯。
    (注:“提及”是自然文本中表達(dá)實(shí)體的語(yǔ)言片段)
  • 如果 t_t = new,則從所有實(shí)體\varepsilon的集合中選擇接下來(lái)的實(shí)體e_t台颠。
  • 如果t_t= related褐望,那么。
    -從\varepsilon_{<t}中選擇一個(gè)父實(shí)體p_t串前。
    -選擇一個(gè)事實(shí)關(guān)系r_t來(lái)呈現(xiàn)瘫里。r_t∈\{{(p,r,e)∈ KG_{<t}|p = p_t}\}
    -選擇e_t作為尾部實(shí)體之一荡碾。e_t∈ {\{e|(p_t,r_t,e)∈ KG_{<t}}\}谨读。
  • 如果 t_t=\varnothing,則 e_t=\varnothing坛吁。
  • 生成以e_t為條件的x_t劳殖,可能復(fù)制e_t的一個(gè)別名(aliases)
    (注:比如“西紅柿”就是“番茄”的一個(gè)別名)
  • 如果e_t\notin\varepsilon_{<t}拨脉,則\varepsilon_{<(t+1)}←\varepsilon_{<t}∪\{{e_t}\}哆姻,否則\varepsilon_{<(t+1)}←\varepsilon_{<t}

為了使模型引用它已經(jīng)提到的實(shí)體玫膀,我們引入了一個(gè)自相關(guān)的反映(reflective)關(guān)系矛缨,即p=e表示(p,Reflective,e)

圖2中提供了此過(guò)程和變量的說(shuō)明帖旨,用于在與圖1相同句子的中間位置處生成詞例箕昭。在三種提及類型(t_t)中,模型要選擇對(duì)現(xiàn)有實(shí)體的引用解阅,這需要挑選一個(gè)要呈現(xiàn)的事實(shí)落竹。作為該事實(shí)的父實(shí)體(p_t),模型選擇Super Mario Land瓮钥,然后遵循Publisher關(guān)系(r_t)選擇任天堂(Nintendo)作為要呈現(xiàn)的實(shí)體(e_t)筋量。當(dāng)將任天堂呈現(xiàn)為詞例x_t時(shí)烹吵,該模型有一個(gè)擴(kuò)展的詞匯表可供其使用,其中包含標(biāo)準(zhǔn)詞匯表以及e_t的任何別名中的所有單詞類型桨武。

圖2:知識(shí)圖譜語(yǔ)言模型說(shuō)明肋拔。當(dāng)嘗試生成 "published by "之后的詞例時(shí),模型首先要決定提及的類型($t_t$)為"related entity"(深色表示概率較高)呀酸,然后從本地知識(shí)圖譜中將父體($p_t$)凉蜂、關(guān)系($r_t$)和要呈現(xiàn)的實(shí)體($e_t$)標(biāo)識(shí)為(Super Mario Land,Publisher性誉,Nintendo)窿吩。最終的單詞分布包括標(biāo)準(zhǔn)詞匯表和任天堂的別名,模型選擇 "任天堂 "作為詞例$x_t$错览。與任天堂相關(guān)的事實(shí)將被添加到本地知識(shí)圖譜中纫雁。

計(jì)算知識(shí)圖譜的邊緣概率 我們的初始任務(wù)需求p(x_t|x_{<t})與我們到目前為止描述的計(jì)算p(x_t,\varepsilon_t|x_{<t},\varepsilon_{<t})的模型之間并不匹配。我們需要通過(guò)計(jì)算本地知識(shí)圖譜的邊緣概率來(lái)獲得詞例的概率倾哺,即p(x)=\sum_\varepsilon p(x,\varepsilon)轧邪。我們將在第4節(jié)中說(shuō)明這一點(diǎn),同時(shí)描述這個(gè)模型的訓(xùn)練和推斷/解碼算法羞海,以及其他設(shè)置的細(xì)節(jié)忌愚。
(注:推斷,就是深度學(xué)習(xí)把從訓(xùn)練中學(xué)習(xí)到的能力應(yīng)用到工作中去)

2.3 對(duì)分布進(jìn)行參數(shù)化處理

上述生成過(guò)程中使用的參數(shù)分布定義如下却邓。我們首先使用等式(1)中的公式計(jì)算隱藏狀態(tài)h_t硕糊。然后,我們將向量拆分為三個(gè)組件:h_t=[h_{t,x};h_{t,p};h_{t,r}]腊徙,這三個(gè)組件分別用于預(yù)測(cè)單詞简十、父系和關(guān)系(注:可能是詞例、父實(shí)體和關(guān)系)昧穿。使用h_{t,x}上的softmax函數(shù)來(lái)計(jì)算詞例的類型t_t勺远,以預(yù)測(cè)其屬于{new,related时鸵,?}中的一個(gè)。
(注:softmax函數(shù)把一些輸入映射為0-1之間的實(shí)數(shù)厅瞎,并且歸一化保證和為1饰潜,因此多分類的概率之和也剛好為1。)

挑選實(shí)體 我們還為知識(shí)圖譜中的所有實(shí)體和關(guān)系引入了預(yù)訓(xùn)練的嵌入(embeddings)和簸,實(shí)體eV_e表示彭雾,關(guān)系rV_r表示。要在t_t=new的情況下從所有實(shí)體中選擇e_t锁保,對(duì)于所有的e\in\varepsilon我們使用:
p(e_t) = softmax(V_e · (h_{t,p} + h_{t,r}))

我們添加h_{t,p}h_{t,r}的原因是為了模仿TransE的結(jié)構(gòu)薯酝,我們用它來(lái)獲得實(shí)體和關(guān)系嵌入半沽。關(guān)于TransE的細(xì)節(jié)將在第4節(jié)中詳述。對(duì)于提到的相關(guān)實(shí)體t_t = related吴菠,對(duì)于所有的p\in\varepsilon_t我們使用:
p(p_t) = softmax(V_p · h_{t,p})

選擇一個(gè)父實(shí)體p_t者填。

然后,對(duì)于所有的r\in\{r|(p_t,r,e)\in KG_t\}做葵,我們用:
p(r_t)=softmax(V_r · h_{t,r})

來(lái)選擇關(guān)系r_t占哟。ptrt的組合決定了實(shí)體e_t(其必須滿足(p_t,r_t,e_t)∈KG_t;如果有多個(gè)選項(xiàng)酿矢,則隨機(jī)選擇一個(gè))榨乎。

實(shí)體呈現(xiàn) 如果et =\varnothing,即沒(méi)有實(shí)體要呈現(xiàn)瘫筐,我們使用與等式(1)中相同的詞匯分布——對(duì)h_{t,x}做softmax處理蜜暑。如果有實(shí)體需要呈現(xiàn),我們?cè)谠荚~匯表和包含出現(xiàn)在e_t別名中的所有詞例的詞匯表上構(gòu)造分布策肝。為了計(jì)算在原始詞匯表上的分?jǐn)?shù)史煎,h_{t,x}被替換為h'_{t,x} = W_{proj}[h_{t,x}; V_{e_t} ],其中W_{proj}是一個(gè)學(xué)習(xí)的權(quán)重矩陣驳糯,它將聚合后的向量映射到與h_{t,x}相同的向量空間篇梭。
*(注:h_{t,x}表示原始詞匯表中的詞例,V_{e_t}表示包含出現(xiàn)在e_t別名中的所有詞例酝枢。這個(gè)方程是將兩個(gè)向量拼接并映射到與h_{t,x}相同的向量空間中恬偷,即使h'_{t,x}h_{t,x}的維度保持一致)

為了獲得別名詞匯庫(kù)中單詞的概率,我們參考了Gu et al.(2016)論文中所提及的復(fù)制機(jī)制帘睦。組成每個(gè)別名\{a_j\}的詞例序列被嵌入袍患,然后使用LSTM進(jìn)行編碼,形成向量a_j竣付。復(fù)制分?jǐn)?shù)的計(jì)算方法為:
p(x_t=a_j)\propto exp[\sigma ((h'_{t,x})^TW_{copy})a_j

3 Linked WikiText-2

撇開(kāi)建模不談诡延,將事實(shí)知識(shí)納入語(yǔ)言模型的主要障礙之一是很難獲得訓(xùn)練數(shù)據(jù)。標(biāo)準(zhǔn)語(yǔ)言建模語(yǔ)料庫(kù)僅由文本組成古胆,因此無(wú)法描述每個(gè)標(biāo)記所指的實(shí)體或事實(shí)肆良。相比之下,雖然關(guān)系提取數(shù)據(jù)集將文本鏈接到知識(shí)圖譜逸绎,但文本由不連續(xù)的句子組成惹恃,這些句子沒(méi)有提供足夠的上下文來(lái)訓(xùn)練強(qiáng)大的語(yǔ)言模型。我們的目標(biāo)可視為一個(gè)數(shù)據(jù)到文本生成(data-to-text)的任務(wù)(Ahn et al., 2016; Lebret et al., 2016; Wiseman et al., 2017; Yang et al., 2017; Gardent et al., 2017; Ferreira et al., 2018)棺牧,其中提供了一個(gè)較形撞凇(a small table-sized)的語(yǔ)料庫(kù)(KB)來(lái)生成一個(gè)短的文本片段;我們感興趣的是在話語(yǔ)的引導(dǎo)下颊乘,動(dòng)態(tài)地決定從知識(shí)圖譜中納入事實(shí)的語(yǔ)言模型参淹。
(注:原文直接使用了KB這個(gè)縮寫(xiě)醉锄,作者并沒(méi)有解釋,我使用了KB在NLP領(lǐng)域最常見(jiàn)的意思是指Knowledge Base浙值。"small table-sized" 也很難理解恳不,small應(yīng)是指知識(shí)庫(kù)小,table-sized應(yīng)指知識(shí)庫(kù)局限于某一領(lǐng)域亥鸠,因?yàn)樵赗elated Work部分作者有提到這些研究“focus on generating coherent text within a narrow domain”)

基于這些原因妆够,我們引入了Linked WikiText-2數(shù)據(jù)集,其(大約)由WikiText-2語(yǔ)言建模語(yǔ)料庫(kù)中的文章組成负蚊,但鏈接到了Wikidata(Vrandecˇic ? and Kr?tzsch, 2014)知識(shí)圖譜神妹。因?yàn)槲谋揪o密匹配,所以在Linked WikiText-2上訓(xùn)練的模型可與在WikiText-2上訓(xùn)練的模型相媲美家妆。此外鸵荠,由于維基數(shù)據(jù)中的許多事實(shí)都是從維基百科的文章中提取出來(lái)的,因此知識(shí)圖譜很好地覆蓋了文本中表達(dá)的事實(shí)伤极。該數(shù)據(jù)集可在 https://rloganiv.github.io/linked-wikitext-2下載蛹找。我們的系統(tǒng)每次只對(duì)一個(gè)文檔進(jìn)行注釋,包括實(shí)體鏈接哨坪、關(guān)系注釋和后處理庸疾。下文將詳細(xì)介紹每個(gè)步驟。

初步實(shí)體注釋 我們首先確定文本中提到的一組初始實(shí)體当编。這些提及的主要來(lái)源是維基百科文章之間的人工鏈接届慈。每當(dāng)一段文本鏈接到另一篇維基百科文章時(shí),我們就會(huì)將其對(duì)應(yīng)的Wikidata實(shí)體與該范圍相關(guān)聯(lián)忿偷。雖然文章鏈接提供了大量標(biāo)準(zhǔn)實(shí)體注釋(gold entity annotations)金顿,但它們不足以捕獲文章中的所有提及,因?yàn)閷?shí)體只在第一次出現(xiàn)時(shí)才被鏈接鲤桥。因此揍拆,我們使用neuro-el( Gupta et al., 2017 )實(shí)體鏈接器來(lái)識(shí)別到Wikidata的額外鏈接,并使用StanFord CoreNLP2來(lái)識(shí)別互指關(guān)系茶凳,以涵蓋代詞嫂拴、名詞和鏈接器遺漏的其他標(biāo)記。

本地知識(shí)圖譜 下一步慧妄,使用知識(shí)圖譜中的關(guān)系顷牌,迭代地為實(shí)體創(chuàng)建生成性故事,并標(biāo)識(shí)新實(shí)體塞淹。為此,我們逐個(gè)處理文本詞例罪裹。每次遇到實(shí)體時(shí)饱普,我們都會(huì)添加Wikidata中的所有相關(guān)實(shí)體作為候選進(jìn)行匹配运挫。如果稍后在文檔中看到這些相關(guān)實(shí)體之一,我們將該實(shí)體標(biāo)識(shí)為后面實(shí)體的父實(shí)體套耕。由于每個(gè)詞例可能會(huì)出現(xiàn)多個(gè)關(guān)系作為解釋谁帕,我們?cè)试S一個(gè)詞例對(duì)應(yīng)多個(gè)事實(shí)。

擴(kuò)展注釋 由于可能有一些實(shí)體在初始集中被遺漏了冯袍,也可能有一些非實(shí)體詞例(如日期和數(shù)量),因此我們使用字符串匹配(string matching)來(lái)進(jìn)一步擴(kuò)展實(shí)體注釋。對(duì)于實(shí)體茉盏,我們對(duì)Wikidata中的別名集進(jìn)行匹配混滔。對(duì)于日期,我們創(chuàng)建了一個(gè)詳盡的列表征冷,列出了所有可能的日期表達(dá)方式(例如 "December 7, 1941", "7-12-1941", "1941", ...)择膝。我們對(duì)數(shù)量進(jìn)行類似的處理方法,使用Python中的pint庫(kù)來(lái)處理不同的單位表達(dá)方式(例如 "g"检激、"gram"肴捉、...)。由于表示數(shù)值的方法有很多叔收,所以我們只按照Wikidata提供的精度級(jí)別呈現(xiàn)數(shù)值齿穗,而不執(zhí)行單位轉(zhuǎn)換。

示例注釋 表1中提供了與圖1中的實(shí)例相對(duì)應(yīng)的示例注釋饺律,以及與知識(shí)圖譜語(yǔ)言模型(KGLM)的生成過(guò)程相對(duì)應(yīng)的變量窃页。這里提到的大多數(shù)詞例的實(shí)體都是人工提供的鏈接,除了“1989”蓝晒,它是通過(guò)字符串匹配過(guò)程鏈接到“04-21-1989”的腮出。到目前為止,基于是否可由目前已連接實(shí)體訪問(wèn)芝薇,這些注釋指出了哪些實(shí)體屬于類型new胚嘲,以及哪些實(shí)體屬于類型related,但顯然在“side-scrolling game”和“platform video game”上出現(xiàn)了錯(cuò)誤洛二,這是在Wikidata中缺少鏈接的緣故馋劈。最后,Gameboy的加入有多個(gè)看似合理的理由:它是Super Mario Land的平臺(tái)晾嘶,由任天堂制造妓雾,盡管在這里前者更具有相關(guān)性。即使有這些遺漏和錯(cuò)誤垒迂,但很明顯绣夺,這些注釋內(nèi)容豐富而詳細(xì),覆蓋率很高欢揖,因此應(yīng)該有利于知識(shí)圖譜語(yǔ)言模型的訓(xùn)練陶耍。

表1: 對(duì)圖1中句子的示例注釋。包括圖2中的相應(yīng)變量她混。請(qǐng)注意坤按,Game Boy有多個(gè)父注釋和關(guān)系注釋毯欣,其一是作為Super Mario Land的平臺(tái),其二是由任天堂制造晋涣。為了清晰起見(jiàn)算吩,維基數(shù)據(jù)的標(biāo)識(shí)符都已設(shè)置為人類可讀的(例如,SML代替Q647249)佃扼。

數(shù)據(jù)集統(tǒng)計(jì) 表2提供了關(guān)于Linked Wikitext-2的統(tǒng)計(jì)數(shù)據(jù)偎巢。在該語(yǔ)料庫(kù)中,超過(guò)10%的詞例被認(rèn)為是實(shí)體詞例兼耀,即它們是作為知識(shí)圖譜中信息的事實(shí)性引用而產(chǎn)生的压昼。每個(gè)實(shí)體只被提到了幾次(平均不到5次,但尾部很長(zhǎng))瘤运,并且有超過(guò)數(shù)千種不同的關(guān)系窍霞。由此可見(jiàn),使用常規(guī)語(yǔ)言模型顯然無(wú)法生成事實(shí)文本拯坟,這需要語(yǔ)言模型能夠參考外部信息源但金。

表2:Linked WikiText-2詞庫(kù)統(tǒng)計(jì)

與 WikiText2的不同 盡管我們的數(shù)據(jù)集高度復(fù)制Wikitext-2,但也有一些不同之處郁季,導(dǎo)致無(wú)法直接比較冷溃。首先,對(duì)文本的編輯修改是持續(xù)進(jìn)行的梦裂,由于下載數(shù)據(jù)集日期不同似枕,不同文章的文本會(huì)有細(xì)微差異。其次年柠,根據(jù) Merity et al. (2017)的說(shuō)法凿歼,Wikitext-2是通過(guò)查詢維基百科文本API收集的。因?yàn)榇薃PI丟棄了有用的注釋信息(例如文章鏈接),所以Linked Wikitext-2是直接由文章的HTML創(chuàng)建的毅往。

4 知識(shí)圖譜語(yǔ)言模型的訓(xùn)練和推斷

在這一部分中牵咙,我們將描述知識(shí)圖譜語(yǔ)言模型的訓(xùn)練和推斷算法派近。

預(yù)訓(xùn)練知識(shí)圖譜嵌入 在評(píng)估過(guò)程中攀唯,我們可能需要對(duì)訓(xùn)練期間未見(jiàn)過(guò)的實(shí)體和關(guān)系做出預(yù)測(cè)。因此渴丸,我們?cè)赪ikidata上使用TransE(Bordes等人侯嘀,2013年)預(yù)先訓(xùn)練的固定實(shí)體和關(guān)系嵌入。給定(p谱轨,r戒幔,e),我們學(xué)習(xí)嵌入V_p土童、V_rV_e來(lái)最小化距離:
δ(V_p,V_r,V_e)=∥V_p+V_r?V_e∥^2

我們使用最大邊緣損失(max-margin loss)來(lái)學(xué)習(xí)這些嵌入:
L = max (0,γ + δ (V_p, V_r, V_e) ? δ (V'_p , V_r, V'_e) )

其中诗茎,γ是邊緣,p'e'是隨即抽取的實(shí)體嵌入献汗。

使用Linked WikiText訓(xùn)練 盡管KGLM的生成過(guò)程涉及許多步驟敢订,但在Linked Wikitext-2上訓(xùn)練模型是直截了當(dāng)?shù)摹N覀兊膿p失目標(biāo)是訓(xùn)練數(shù)據(jù)的負(fù)對(duì)數(shù)似然率:
l(Θ) = \sum_t log p(x_t, \varepsilon_t|x_{<t}, \varepsilon_{<t}; Θ),

其中Θ是模型參數(shù)集罢吃。請(qǐng)注意楚午,如果一個(gè)注釋有多個(gè)可行的父級(jí)(如1中的Game Boy),那么我們將邊緣化所有父級(jí)尿招。由于所有隨機(jī)變量都可觀察到矾柜,因此可以使用現(xiàn)成的基于梯度的優(yōu)化器進(jìn)行訓(xùn)練。

推斷 雖然觀察注釋使模型易于訓(xùn)練就谜,但我們不假定模型在評(píng)估期間可以訪問(wèn)注釋怪蔑。
此外,正如第2.2節(jié)所討論的那樣丧荐,語(yǔ)言建模的目標(biāo)是測(cè)量邊際概率p(x)=\sum_\varepsilon p(x缆瓣,\varepsilon),而不是聯(lián)合概率篮奄。
然而捆愁,由于可能的注釋的組合空間很大,所以這個(gè)總和難以計(jì)算窟却。我們通過(guò)使用重要性抽樣近似邊緣分布來(lái)解決這個(gè)問(wèn)題昼丑。
對(duì)給定的來(lái)自建議分布q(\varepsilon|x)的樣本,邊緣分布為:
p(x) = \sum_\varepsilon p(x,\varepsilon) = \sum_\varepsilon \frac{p(x,\varepsilon)}{q(\varepsilon|x)}q(\varepsilon|x)≈ \frac{1}{N} \sum_{E~q}\frac{p(x,\varepsilon)}{ q(\varepsilon|x)}

該方法曾用來(lái)評(píng)價(jià) Ji et al(2017)和Dyer et al. (2016)的模型夸赫。繼 Ji 等人(2017)之后菩帝,我們使用模型的判別版本計(jì)算q(\varepsilon | x),該模型預(yù)測(cè)的是當(dāng)前詞例的注釋而不是下一個(gè)詞例的注釋。

實(shí)驗(yàn)

為了評(píng)估所提出的語(yǔ)言模型呼奢,我們首先介紹了基線宜雀,然后使用留出語(yǔ)料庫(kù)的困惑度(perplexity of held-out corpus),事實(shí)完成的準(zhǔn)確性進(jìn)行評(píng)估握础,并說(shuō)明了模型如何使用知識(shí)圖譜辐董。

5.1 評(píng)估步驟

基線模型 我們使用了如下基線模型與知識(shí)圖譜語(yǔ)言模型作對(duì)比

  • AWD-LSTM(Merity et al., 2018):基于LSTM的強(qiáng)大模型,是Wikitext-2上大多數(shù)最先進(jìn)模型的基礎(chǔ)禀综。
  • ENTITYNLM(Ji et al., 2017):是一個(gè)基于LSTM的語(yǔ)言模型简烘,能夠跟蹤實(shí)體的提及。實(shí)體的嵌入是動(dòng)態(tài)創(chuàng)建的定枷,不受任何外部信息來(lái)源的影響孤澎。
  • EntityCopyNet:知識(shí)圖譜語(yǔ)言模型的一個(gè)變體,其中對(duì)于所有提及有t_t=new欠窒,即從\varepsilon中選擇實(shí)體覆旭,并復(fù)制實(shí)體別名,但知識(shí)圖譜中的關(guān)系未使用岖妄。

超參數(shù) 我們使用邊距為γ=1的TransE型将,為L(zhǎng)inked Wikidata-2中實(shí)體集兩跳(two hops)范圍內(nèi)的所有實(shí)體進(jìn)行了256維實(shí)體和關(guān)系嵌入的預(yù)訓(xùn)練。為了節(jié)省內(nèi)存衣吠,所有日期嵌入和數(shù)量嵌入進(jìn)行了權(quán)重綁定茶敏。遵循 Merity et al. (2018)的做法。我們使用400維詞嵌入和一個(gè)隱藏維度為1150的3層LSTM來(lái)編碼詞例缚俏。我們還采用了相同的正則化策略 (DropConnect (Wan et al., 2013) + Dropout(Srivastava et al., 2014))和權(quán)重捆綁方法惊搏。但是,我們使用學(xué)習(xí)率設(shè)置為1e-3的Adam(Kingma and Ba, 2015) 進(jìn)行優(yōu)化忧换,而不是NT-ASGD恬惯,因?yàn)槲覀儼l(fā)現(xiàn)Adam更穩(wěn)定。

5.2 結(jié)果

困惑度 我們使用標(biāo)準(zhǔn)的困惑度量來(lái)評(píng)估我們的模型:exp (\frac{1}{T}\sum_{t=1}^{T}=log p(x_t))亚茬。然而酪耳,使用困惑度的問(wèn)題是,當(dāng)它們被映射到單個(gè)UNK詞例時(shí)刹缝,它高估了詞匯表外詞例的概率碗暗。這給比較知識(shí)圖譜語(yǔ)言模型與使用Linked Wikitext-2的傳統(tǒng)語(yǔ)言模型的性能造成了困難,因?yàn)橛写罅亢币?jiàn)實(shí)體的別名詞例是詞匯表外的梢夯。也就是說(shuō)言疗,即使知識(shí)圖譜語(yǔ)言模型識(shí)別了正確的實(shí)體并以高概率復(fù)制了正確的別名詞例,其他模型也可以通過(guò)向UNK分配更高的概率來(lái)獲得更好的困惑度颂砸。相應(yīng)地噪奄,我們還測(cè)量了Ueberla(1994)提出的未知懲罰性困惑度(UPP)(又名校正困惑度)死姚,最近Ahn et al. (2016)和 Spithourakis and Riedel(2018)也使用了這個(gè)度量。此度量通過(guò)在U(映射到UNK的一組令牌)上均勻分配它們的概率質(zhì)量來(lái)懲罰UNK令牌的概率勤篮。我們可以通過(guò)將上述困惑度中的p(UNK)替換為\frac{1}{|U|}p(UNK)來(lái)計(jì)算UPP都毒,其中|U|是從數(shù)據(jù)估計(jì)出來(lái)的。

我們?cè)诒?中列出了模型的困惑度碰缔。為了邊際化注釋账劲,我們使用第4節(jié)中描述的重要性抽樣方法估計(jì)了 ENTITYNLM、EntityCopyNet 和知識(shí)圖譜語(yǔ)言模型的困惑度手负。我們觀察到涤垫,知識(shí)圖譜語(yǔ)言模型的困惑度比其他基于實(shí)體的語(yǔ)言模型低得多(44.1 vs. 76.1/85.4),這有力地證明了利用知識(shí)圖譜對(duì)準(zhǔn)確的語(yǔ)言建模至關(guān)重要竟终。此外,知識(shí)圖譜語(yǔ)言模型在未知懲罰困惑方面的性能明顯優(yōu)于所有模型切蟋,顯示了其生成罕見(jiàn)詞例的能力统捶。

表3:Linked WikiText-2 上模型的困惑度結(jié)果。標(biāo)有*的模型的結(jié)果是通過(guò)重要性抽樣得到的柄粹。

事實(shí)完成 由于事實(shí)性文本的生成是我們的主要目標(biāo)喘鸟,因此我們?cè)u(píng)估了語(yǔ)言模型完成帶有事實(shí)信息句子的能力。此外驻右,我們還與小型的GPT-2(Radford et al., 2019)進(jìn)行了比較什黑,它是一個(gè)在更大的文本語(yǔ)料庫(kù)上訓(xùn)練的語(yǔ)言模型。我們從Freebase中選擇了六個(gè)流行關(guān)系堪夭,并為每個(gè)關(guān)系寫(xiě)了一個(gè)簡(jiǎn)單的完成模板愕把,比如出生地關(guān)系的 "X出生在"。我們?yōu)檫@些模板生成關(guān)系成立的若干(X森爽,Y)對(duì)的句子恨豁,并手動(dòng)檢查每個(gè)語(yǔ)言模型生成的第一個(gè)詞例是否正確。

表4顯示了每種語(yǔ)言模型在這些關(guān)系上的性能爬迟。
Oracle知識(shí)圖譜語(yǔ)言模型為X提供了正確的實(shí)體注釋橘蜜,而NEL知識(shí)圖譜語(yǔ)言模型使用用于重要性采樣的判別模型與NEL實(shí)體鏈接器相結(jié)合來(lái)生成X的實(shí)體注釋。

表4 事實(shí)完成付呕。用于預(yù)測(cè)不完整事實(shí)句子的下一個(gè)標(biāo)記的top-k準(zhǔn)確率(@1/@5计福,%)。參見(jiàn)表5中的示例徽职。

在相同數(shù)據(jù)集上訓(xùn)練的模型中象颖,知識(shí)圖譜語(yǔ)言模型的兩個(gè)變體都明顯優(yōu)于AWD-LSTM;它們產(chǎn)生了準(zhǔn)確的事實(shí)活箕,而AWD-LSTM產(chǎn)生的是通用的力麸、常見(jiàn)的單詞可款。知識(shí)圖譜語(yǔ)言模型也比在更多數(shù)據(jù)集上訓(xùn)練的模型更有競(jìng)爭(zhēng)力,它能產(chǎn)生需要特定知識(shí)的事實(shí)完成克蚂,如出生地闺鲸、日期和作者等。然而埃叭,它并不能捕捉到在大語(yǔ)料庫(kù)中經(jīng)常出現(xiàn)的事實(shí)或關(guān)系摸恍,比如州內(nèi)的城市。令人鼓舞的是赤屋,具有自動(dòng)鏈接功能的知識(shí)圖譜語(yǔ)言模型的性能與Oracle鏈接相當(dāng)立镶。

我們?cè)诒?中提供了一些例子,以突出知識(shí)圖譜語(yǔ)言模型在600個(gè)文檔上接受培訓(xùn)的質(zhì)量差異类早,與最近使用有800多萬(wàn)文檔的WebText語(yǔ)料庫(kù)上接受培訓(xùn)的最先進(jìn)語(yǔ)言模型GPT-2之間的質(zhì)量差異(Radford et al., 2019)媚媒。例如,這兩個(gè)模型都正確與否涩僻,知識(shí)圖譜語(yǔ)言模型生成的詞例通常要具體得多缭召,而不是選擇更流行/通用的詞例(GPT-2經(jīng)常預(yù)測(cè)“紐約”是出生地,即使是流行的實(shí)體也是如此)逆日。特別是嵌巷,當(dāng)頭部或尾部實(shí)體很少時(shí),知識(shí)圖譜語(yǔ)言模型可以得到正確的事實(shí)陳述室抽,而GPT-2只能在使用更多通用詞例(如 "1月 "而不是 "20")時(shí)搪哪,完成更多流行/通用實(shí)體的事實(shí)陳述。


表5:完成示例坪圾。由知識(shí)圖譜語(yǔ)言模型和GPT-2完成事實(shí)完成的例子晓折,GPT-2已經(jīng)在更大的語(yǔ)料庫(kù)上進(jìn)行了訓(xùn)練。GPT-2傾向于生成非常常見(jiàn)和普通的詞例神年,比如說(shuō)在幾個(gè)流行的城市中已维,可以按照 "出生 "的方式生成。知識(shí)圖譜語(yǔ)言模型有時(shí)會(huì)在鏈接到特定事實(shí)時(shí)出錯(cuò)已日,然而垛耳,它生成的事實(shí)更具體,包含了罕見(jiàn)的詞例飘千。我們將AWD-LSTM省略堂鲜,因?yàn)槌艘话愕?"the "或 "a",或"?UNK?"之外护奈,它很少產(chǎn)生詞例缔莲。

更換知識(shí)圖譜的效果 對(duì)于大多數(shù)語(yǔ)言模型,由于事實(shí)知識(shí)與模型生成的能力是糾纏在一起的霉旗,因此很難控制它們的生成痴奏。對(duì)于知識(shí)圖譜語(yǔ)言模型來(lái)說(shuō)蛀骇,它使用外部知識(shí)源的另一個(gè)好處是,知識(shí)圖譜語(yǔ)言模型可以通過(guò)修改知識(shí)圖譜直接控制读拆。用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明這個(gè)能力擅憔,我們用原來(lái)的事實(shí)(Barack Obama, birthDate, 1961- 08-04)創(chuàng)建完成 "Barack Obama was born on",結(jié)果前三個(gè)解碼令牌為 "August"檐晕、"4"暑诸、"1961"。將出生日期改成2013-03-21后辟灰,前三位解密令牌變?yōu)?"3月"个榕、"21"、"2013"芥喇。因此西采,改變知識(shí)圖中的事實(shí),直接導(dǎo)致模型的預(yù)測(cè)結(jié)果發(fā)生相應(yīng)的變化乃坤。

6 相關(guān)研究

基于知識(shí)的語(yǔ)言模型 我們的工作從兩個(gè)現(xiàn)有的基于知識(shí)的語(yǔ)言模型中獲得靈感:

  1. ENTITYNLM (Ji et al., 2017)苛让,它通過(guò)聯(lián)合建模命名實(shí)體識(shí)別和共指,提高了語(yǔ)言模型跟蹤實(shí)體的能力湿诊。我們的模型類似于通過(guò)文檔跟蹤實(shí)體,通過(guò)實(shí)體鏈接和關(guān)系提取的建模瘦材,提高了其生成事實(shí)信息的能力厅须。

  2. 神經(jīng)知識(shí)語(yǔ)言模型(NKLM)(Ahn et al., 2016),它確立了在神經(jīng)語(yǔ)言模型中利用知識(shí)圖譜的思想食棕。知識(shí)圖譜語(yǔ)言模型和神經(jīng)知識(shí)語(yǔ)言模型之間的主要區(qū)別因素是朗和,知識(shí)圖譜語(yǔ)言模型在整個(gè)知識(shí)圖譜上操作,并且可以在沒(méi)有附加條件信息的情況下對(duì)文本進(jìn)行評(píng)估簿晓,而神經(jīng)知識(shí)語(yǔ)言模型在從單個(gè)實(shí)體發(fā)出的相對(duì)較小的預(yù)定義邊集合上操作眶拉,并且要求提前提供該實(shí)體作為條件信息。這一要求排除了神經(jīng)知識(shí)語(yǔ)言模型與第5節(jié)中的基線之間的直接比較憔儿。

數(shù)據(jù)到文本的生成 我們的工作也與神經(jīng)數(shù)據(jù)到文本生成的任務(wù)有關(guān)忆植。關(guān)于早期的非神經(jīng)文本生成方法的調(diào)查,我們參考 Reiter and Dale (1997)谒臼。最近的神經(jīng)方法已應(yīng)用于從體育統(tǒng)計(jì)表(Wiseman et al., 2017)朝刊,列表和表格(Yang et al., 2017)和維基百科信息框(Lebret et al., 2016)生成文本。這些研究和我們的主要區(qū)別在于我們的動(dòng)機(jī)蜈缤。這些作品專注于在一個(gè)狹窄的領(lǐng)域內(nèi)生成連貫的文本(例如體育拾氓、食譜、介紹性句子)底哥,并對(duì)BLEU和METEOR評(píng)分等指標(biāo)進(jìn)行優(yōu)化咙鞍。相反房官,我們的重點(diǎn)是利用大量的結(jié)構(gòu)化知識(shí)源來(lái)提高語(yǔ)言模型在寬泛主題領(lǐng)域中處理稀有詞例和事實(shí)的能力,我們重點(diǎn)是提高困惑度续滋。

通用語(yǔ)言建模 與此相關(guān)的還有最近的一些論文翰守,它們提出了對(duì)AWD- LSTM的修改,以提高Wikitext-2的性能(Gong et al., 2018; Yang et al., 2018; Krause et al., 2018)吃粒。我們選擇了AWD-LSTM作為基準(zhǔn)潦俺,因?yàn)檫@些貢獻(xiàn)是正交的,而且許多技術(shù)都與知識(shí)圖譜語(yǔ)言模型兼容徐勃。知識(shí)圖譜語(yǔ)言模型在AWD-LSTM的基礎(chǔ)上進(jìn)行了改進(jìn)事示,我們期望將知識(shí)圖譜語(yǔ)言模型與這些方法結(jié)合使用將產(chǎn)生進(jìn)一步的改進(jìn)。

結(jié)論與未來(lái)的研究方向

由于依賴記憶僻肖,現(xiàn)有的語(yǔ)言模型無(wú)法生成關(guān)于真實(shí)世界實(shí)體的事實(shí)正確文本肖爵。特別是,它們無(wú)法捕捉到稀有實(shí)體和數(shù)字臀脏、日期等單詞類型的長(zhǎng)尾劝堪。在這項(xiàng)工作中,我們提出了知識(shí)圖譜語(yǔ)言模型(KGLM)揉稚,這是一個(gè)神經(jīng)語(yǔ)言模型秒啦,它可以訪問(wèn)一個(gè)外部的事實(shí)源,以知識(shí)圖譜的形式編碼搀玖,以生成文本余境。我們的實(shí)現(xiàn)可以從以下網(wǎng)址獲得:https://github.com/rloganiv/kglm-model。我們還引入了Linked WikiText-2灌诅,其中包含了與知識(shí)圖譜中的事實(shí)對(duì)齊的文本芳来,從而允許高效地訓(xùn)練模型。Linked WikiText-2可以免費(fèi)下載猜拾,網(wǎng)址是:https://rloganiv.github.io/linked-wikitext-2即舌。在我們的評(píng)估中,我們表明挎袜,通過(guò)利用這個(gè)數(shù)據(jù)顽聂,知識(shí)圖譜語(yǔ)言模型能夠生成更高質(zhì)量的、符合事實(shí)的文本宋雏,這些文本中包含了罕見(jiàn)的實(shí)體和特定的詞例芜飘,如數(shù)字和日期等。

這項(xiàng)工作為未來(lái)知識(shí)感知語(yǔ)言建模的研究奠定了基礎(chǔ)磨总。知識(shí)圖譜語(yǔ)言模型的一些局限性嗦明,如推理過(guò)程中需要邊際化和依賴注釋詞例等,為推進(jìn)神經(jīng)NLP模型的研究提出了新的研究問(wèn)題蚪燕。我們的遠(yuǎn)距離監(jiān)督的數(shù)據(jù)集創(chuàng)建方法也可以用于其他知識(shí)圖譜和其他類型的文本娶牌,為新領(lǐng)域的精確語(yǔ)言建模提供了機(jī)會(huì)奔浅。

致謝

首先,我們要感謝Stephen Merity分享了用來(lái)收集Wikitext-2數(shù)據(jù)集的材料诗良,感謝Niish Gupta修改了他的實(shí)體鏈接器以幫助我們的工作芙盘。我們也要感謝Dheeru Dua和Anthony Chen的反饋类腮。這項(xiàng)工作部分得到了艾倫人工智能研究所的支持扔水,部分得到了美國(guó)國(guó)家科學(xué)基金會(huì)獎(jiǎng)#IIS-1817183的支持廷没。所表達(dá)的觀點(diǎn)是作者的觀點(diǎn),并不反映資助機(jī)構(gòu)的官方政策或立場(chǎng)径荔。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末督禽,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子总处,更是在濱河造成了極大的恐慌狈惫,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鹦马,死亡現(xiàn)場(chǎng)離奇詭異胧谈,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)荸频,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)菱肖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人旭从,你說(shuō)我怎么就攤上這事蔑滓。” “怎么了遇绞?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)燎窘。 經(jīng)常有香客問(wèn)我摹闽,道長(zhǎng),這世上最難降的妖魔是什么褐健? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任付鹿,我火速辦了婚禮,結(jié)果婚禮上蚜迅,老公的妹妹穿的比我還像新娘舵匾。我一直安慰自己,他們只是感情好谁不,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布坐梯。 她就那樣靜靜地躺著,像睡著了一般刹帕。 火紅的嫁衣襯著肌膚如雪吵血。 梳的紋絲不亂的頭發(fā)上谎替,一...
    開(kāi)封第一講書(shū)人閱讀 52,246評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音蹋辅,去河邊找鬼钱贯。 笑死,一個(gè)胖子當(dāng)著我的面吹牛侦另,可吹牛的內(nèi)容都是我干的秩命。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼褒傅,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼弃锐!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起樊卓,我...
    開(kāi)封第一講書(shū)人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤拿愧,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后碌尔,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體浇辜,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年唾戚,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了柳洋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡叹坦,死狀恐怖熊镣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情募书,我是刑警寧澤绪囱,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站莹捡,受9級(jí)特大地震影響鬼吵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜篮赢,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一齿椅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧启泣,春花似錦涣脚、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春妙同,著一層夾襖步出監(jiān)牢的瞬間射富,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工粥帚, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留胰耗,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓芒涡,卻偏偏與公主長(zhǎng)得像柴灯,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子费尽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359