基于新標(biāo)注模式的實體和關(guān)系聯(lián)合抽取方法

翻譯自http://xueshu.baidu.com/s?wd=paperuri%3A%28a56c446f2f5e2be9e4679f95639f0b7c%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fabs%2F1706.05075&ie=utf-8&sc_us=17253617220887579359

摘要

聯(lián)合抽取實體和關(guān)系是信息抽取中的一項重要任務(wù)。為了解決這一問題,我們首次提出了一種能夠把聯(lián)合抽取任務(wù)轉(zhuǎn)換為標(biāo)注問題的新標(biāo)注模式烹玉。然后,基于新標(biāo)注模式兔簇,我們學(xué)習(xí)不同的end-to-end的模型來直接抽取實體和實體關(guān)系边苹,而不需要分開來識別實體和關(guān)系。我們用遠(yuǎn)程監(jiān)督方法在公共數(shù)據(jù)集上做實驗卦碾,實驗結(jié)果證明這種基于標(biāo)注的方法比大多數(shù)已存在的串行式和聯(lián)合式的學(xué)習(xí)方法要好饺饭。甚至渤早,論文中提出的這種end-to-end的模型在公共數(shù)據(jù)集熵取得了最好的結(jié)果。

1 介紹

聯(lián)合抽取實體和關(guān)系是為了從非結(jié)構(gòu)化的文本中同時識別命名實體和實體之間的語義關(guān)系砰奕。不同于其關(guān)系詞是從給定的句子中進(jìn)行抽取的開放信息抽戎虢妗(Open IE),在聯(lián)合抽取任務(wù)中军援,關(guān)系詞是從可能沒在給出的句子中出現(xiàn)的預(yù)定義好的關(guān)系集合中抽取的仅淑。這在知識抽取和知識庫構(gòu)建中是一個很重要的問題。
傳統(tǒng)的處理這種處理實體和關(guān)系抽取的方法是串聯(lián)式的胸哥。即先抽取實體涯竟,然后識別實體間的關(guān)系。這種分開來處理的方式比較簡單空厌,而且各個模塊都比較靈活庐船。但是這種方法忽視了兩個任務(wù)之間的聯(lián)系,實體識別的結(jié)果可能會影響關(guān)系的抽取嘲更。


圖1

不同于串聯(lián)式的方法筐钟,聯(lián)合抽取是用一個模型來抽取實體和關(guān)系。這種方式可以有效的整合實體和關(guān)系信息赋朦,并且達(dá)到一個很好的效果篓冲。然而李破,現(xiàn)有的聯(lián)合抽取方法大多都是基于特征來實現(xiàn)的,并且非常依賴其他可能會引入誤差的NLP工具壹将。為了減少人工抽取特征工作嗤攻,提出基于神經(jīng)網(wǎng)絡(luò)的end-to-end模型來聯(lián)合抽取實體和關(guān)系。盡管這些模型能夠在同一個模型當(dāng)中共享實體抽取和關(guān)系抽取的參數(shù)诽俯,但是實體和關(guān)系抽取是分開進(jìn)行的而且容易產(chǎn)生冗余信息妇菱。例如圖一中的句子包含三個實體:“美國”,“特朗普”和“蘋果公司”暴区。但是只有“美國”和“特朗普”之間有一個“國家總統(tǒng)”的關(guān)系闯团。實體“蘋果公司”與其它實體之間沒有明顯的關(guān)系。因此颜启,這句話的抽取結(jié)果應(yīng)該是{美國偷俭, 國家-總統(tǒng), 特朗普}缰盏,我們稱之為三元組。
在這篇論文中淹遵,我們的研究點在于由兩個實體以及兩個實體間關(guān)系組成的三元組的抽取口猜。因此,我們直接對三元組進(jìn)行建模透揣,而不是分別對實體和關(guān)系進(jìn)行建模济炎。基于此辐真,我們提出了標(biāo)注模式和end-to-end模型來處理這個問題须尚。我們設(shè)計了一種新的包含了實體和關(guān)系的標(biāo)簽∈淘郏基于這種標(biāo)注模式耐床,把聯(lián)合抽取任務(wù)轉(zhuǎn)換為標(biāo)注問題。通過這種方法楔脯,我們能夠簡單地使用神經(jīng)網(wǎng)絡(luò)來建模而無需復(fù)雜的特征工程撩轰。
最近,基于LSTM的end-to-end模型已經(jīng)被成功運用到各種標(biāo)注任務(wù)昧廷,如命名實體識別等堪嫂。LSTM能夠?qū)W習(xí)長詞,這對句子模型很有好處木柬。因此皆串,基于新的標(biāo)注方法,我們學(xué)習(xí)用不同的end-to-end模型來解決問題眉枕。為了適應(yīng)特殊標(biāo)簽恶复,我們還通過增加一個偏置損失函數(shù)來修改解碼方法娇唯。
我們提出的方法是一個監(jiān)督學(xué)習(xí)算法。實際上寂玲,手工標(biāo)注包含大量實體和關(guān)系的數(shù)據(jù)集的這一過程是很花費時間并且容易出錯的塔插。因此饲鄙,我們在公開數(shù)據(jù)集來進(jìn)行我們的實驗吃衅。實驗結(jié)果證明我們的標(biāo)注模式是有效的。另外沃呢,我們的end-to-end模型在公開數(shù)據(jù)集熵達(dá)到了最好的效果断序。
這篇論文的主要貢獻(xiàn)在于:
(1)提出了新的標(biāo)注方法流纹,可以把聯(lián)合抽取實體和關(guān)系的任務(wù)轉(zhuǎn)換為標(biāo)注任務(wù)。(2)基于新的標(biāo)注方法违诗,我們學(xué)習(xí)用不同的end-to-end模型來解決問題漱凝。(3)對于end-to-end模型增加了偏置損失函數(shù),增強(qiáng)了相關(guān)實體之間的聯(lián)系诸迟。

2 相關(guān)工作

識別和關(guān)系抽取是構(gòu)建知識圖譜的重要一步茸炒,對很多NLP任務(wù)都有好處。主要有兩種方法廣泛的被應(yīng)用與實體和關(guān)系的抽取任務(wù)阵苇,一種是串聯(lián)式的壁公,另一種是聯(lián)合式的。
串聯(lián)式方法把這一任務(wù)分解為兩個不同的子任務(wù)绅项,既命名實體識別(NER)和關(guān)系分類(RC)紊册。傳統(tǒng)的NER模型是線性統(tǒng)計模型,例如隱馬爾科夫(HMM)模型和條件隨機(jī)場(CRF)模型快耿。最近一些神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也被成功應(yīng)用到NER中囊陡,這被當(dāng)做是序列標(biāo)注任務(wù)。已有的RC方法也可以被分為基于手工構(gòu)造特征的方法和神經(jīng)網(wǎng)絡(luò)方法掀亥。
聯(lián)合抽取實體和關(guān)系使用的是單個模型撞反。大多數(shù)聯(lián)合式方法是基于特征來實現(xiàn)的,最近使用基于LSTM的模型能夠減少人工工作铺浇。
不同于以上的方法痢畜,這篇論文中提出的方法是基于特殊標(biāo)注方式的,因此我們使用end-to-end模型而不需要NER和RC鳍侣。End-to-end模型是把輸入句子映射一個有意義向量中然后再生成一個序列丁稀。它被廣泛應(yīng)用于機(jī)器翻譯和序列標(biāo)注任務(wù)。大多數(shù)方法都使用雙向LSTM對輸入句子進(jìn)行編碼倚聚,但是解碼方法總是不同的线衫。例如,使用一個CRF層解碼標(biāo)簽序列惑折,同時應(yīng)用LSTM層來產(chǎn)生標(biāo)簽序列授账。

3 方法

我們提出了一種帶有偏置損失函數(shù)的新標(biāo)注模式來聯(lián)合抽取實體和關(guān)系枯跑。這一部分,我們首先介紹如何把抽取問題轉(zhuǎn)換為標(biāo)注問題白热,然后詳述該模型敛助。


圖2

3.1 標(biāo)注模型

圖2是如何標(biāo)記結(jié)果的示例。為每個單詞分配一個有助于提取結(jié)果的標(biāo)簽屋确,標(biāo)簽“O”表示“其他”標(biāo)簽纳击,這意味著對應(yīng)的單詞與提取的結(jié)果無關(guān)。除了“O”之外攻臀,其他標(biāo)簽由三部分組成:實體中的單詞位置焕数,關(guān)系類型和關(guān)系角色。我們使用“BIES”(開始刨啸,內(nèi)部堡赔,結(jié)束,單個)標(biāo)志來表示實體中單詞的位置信息设联。關(guān)系類型信息是從一組預(yù)定的關(guān)系中獲得的善已,并且關(guān)系角色信息由數(shù)字“1”和“2”表示。提取的結(jié)果由三元組表示:(Entity1仑荐,RelationType雕拼,Entity2)。 “1”表示該詞屬于三元組中的第一個實體粘招,而“2”屬于關(guān)系類型后面的第二個實體。因此偎球,標(biāo)簽的總數(shù)為$N_{t} = 2 * 4 * | R | + 1$洒扎,其中| R |是預(yù)定義關(guān)系集的大小。圖2是說明我們的標(biāo)記方法的示例衰絮。 輸入句子包含兩個三元組:{美國袍冷,國家-總統(tǒng),特朗普}和{蘋果公司猫牡,公司-創(chuàng)始人胡诗,史蒂文·保羅·喬布斯,其中“國家總統(tǒng)”和“公司創(chuàng)始人”是預(yù)定義的關(guān)聯(lián)類型淌友。 “聯(lián)合”煌恢,“國家”,“特朗普”震庭,“蘋果”瑰抵,“公司”,“史蒂文”器联,“保羅”和“喬布斯”都與最終提取的結(jié)果相關(guān)二汛。 因此婿崭,它們是基于我們的特殊標(biāo)簽來標(biāo)記的。 例如肴颊,“聯(lián)合”這個詞是“美國”這個實體的第一個詞氓栈,與“國家總統(tǒng)”有關(guān),所以它的標(biāo)簽是“B-CP-1”婿着。 對應(yīng)于“美國”的另一個實體“特朗普”被標(biāo)記為“S-CP-2”授瘦。 另一方面,與最終結(jié)果無關(guān)的其他詞語標(biāo)記為“O”祟身。

3.2 從標(biāo)簽序列抽取結(jié)果

從圖2的標(biāo)簽序列奥务,我們知道“特朗普”和“美國”共享相同的關(guān)系類型“國家-總統(tǒng)”,“蘋果公司”和“史蒂文·保羅·喬布斯”共享相同的關(guān)系類型“公司-創(chuàng)始人”袜硫。 我們將具有相同關(guān)系類型的實體組合成三元組以獲得最終結(jié)果氯葬。 因此,“特朗普”和“美國”可以組合成一個關(guān)系類型是“國家總統(tǒng)”的三元組婉陷。 因為“特朗普”的關(guān)系角色是“2”帚称,“美國”是“1”,最終的結(jié)果是{美國秽澳,國家-總統(tǒng)闯睹,特朗普}。 這同樣適用于{蘋果公司担神,公司-創(chuàng)始人楼吃,史蒂文·保羅·喬布斯}。
此外妄讯,如果一個句子包含兩個或更多個具有相同關(guān)系類型的三元組孩锡,那么我們根據(jù)最近原則將每兩個實體組合成一個三元組。 例如亥贸,如果圖2中的關(guān)系類型“國家總統(tǒng)”是“公司創(chuàng)始人”躬窜,則在給定句子中將有四個實體具有相同的關(guān)系類型。 “美國”最接近實體“特朗普”炕置,“蘋果公司”最接近“喬布斯”荣挨,結(jié)果將是{美國,公司-創(chuàng)始人朴摊,特朗普}和{蘋果公司默垄,公司-創(chuàng)始人, 史蒂文·保羅·喬布斯}仍劈。
在這篇論文中厕倍,我們僅考慮一個實體只屬于一個三元組這種情況,把重疊關(guān)系識別的任務(wù)放到未來的工作中贩疙。

3.3 End-to-end模型

近年來讹弯,基于神經(jīng)網(wǎng)絡(luò)的end-to-end模型被廣泛應(yīng)用于序列標(biāo)簽任務(wù)中况既。在本文中,我們調(diào)查端到端模型來生成標(biāo)簽序列组民,如圖3所示棒仍, 它包含一個用于對輸入語句進(jìn)行編碼的雙向長短期記憶(Bi-LSTM)層和一個基于LSTM具有偏置損失函數(shù)的解碼層。偏置損失函數(shù)可以增強(qiáng)實體標(biāo)簽的相關(guān)性臭胜。

3.3.1 雙向LSTM編碼層

圖3

在序列標(biāo)注問題中莫其,Bi-LSTM編碼層已經(jīng)顯示了捕獲每個單詞的語義信息的有效性。它包含了前向lstm層耸三,向后lstm層和連接層乱陡。詞嵌入層將具有1-hot表示的單詞轉(zhuǎn)換為嵌入向量。 因此仪壮,一個詞序列可以表示為W = {w1憨颠,... wt,wt + 1 ... wn}积锅,其中$w_{t}\in R^g8kdgq2$是對應(yīng)于d維字向量中的第t個詞爽彤,n是給定句子的長度。字嵌入層后缚陷,有兩個平行的LSTM層:前向LSTM層和后向LSTM層适篙。 LSTM體系結(jié)構(gòu)由一組循環(huán)連接的子網(wǎng)組成,稱為內(nèi)存塊箫爷。 每個時間步長是一個LSTM內(nèi)存塊嚷节。Bi-LSTM編碼層中的LSTM存儲塊用于基于先前的隱藏向量$h_{t-1}$,先前的小區(qū)向量$c_{t-1}$和當(dāng)前輸入字嵌入$w_{t}$來計算當(dāng)前隱藏向量$h_{t}$虎锚。其結(jié)構(gòu)圖如圖3所示丹喻,詳細(xì)操作定義如下:



其中i,f和o分別是輸入門翁都,忘記門和輸出門,b是偏置項谅猾,c是單元存儲器柄慰,W(.)是參數(shù)。 對于每個單詞$w_{t}$税娜,前向LSTM層將通過考慮從$w_{1}$到$w_{0}$的上下文信息來編碼$w_{t}$坐搔,其被標(biāo)記為
。 以類似的方式敬矩,后向LSTM層將基于從$w_{n}$到$w_{t}$的上下文信息來編碼$w_{t}$概行,其被標(biāo)記為
。最后弧岳,我們連接


來表示t的編碼信息凳忙,表示為


业踏。

3.3.2 LSTM解碼層

我們還采用LSTM結(jié)構(gòu)來生成標(biāo)簽序列。當(dāng)檢測到單詞$w_{t}$的標(biāo)簽時涧卵,解碼層的輸入是:從Bi-LSTM編碼層得到的$h_{t}$勤家,前一個預(yù)測標(biāo)簽嵌入$T_{t-1}$,前一個單元值${c_{t-1}}{(2)}$柳恐,前一個解碼層的隱藏向量${h_{t-1}}{(2)}$伐脖。 $LSTM_sh88m81$內(nèi)存塊的結(jié)構(gòu)圖如圖3(c)所示,詳細(xì)操作定義如下:


最后通過softmax計算基于標(biāo)簽預(yù)測向量$T_{t}$計算歸一化的實體標(biāo)簽概率:

其中$W_{y}$是softmax矩陣乐设,$N_{t}$是標(biāo)簽數(shù)量讼庇。因為T類似于標(biāo)簽嵌入,LSTM能夠?qū)W習(xí)長期依賴性近尚,因此解碼方式可以建立標(biāo)簽交互蠕啄。

3.3.3 偏置目標(biāo)函數(shù)

我們訓(xùn)練我們的模型以最大化數(shù)據(jù)的對數(shù)似然,我們使用的優(yōu)化方法是Hinton在2012年中提出的RMSprop肿男。 目標(biāo)函數(shù)可以定義為:


其中|D|是訓(xùn)練集的大小介汹,$L_{j}$是句子$x_{j}$的長度,${y_{t}}{(j)}$是句子$x_{j}$中詞t的標(biāo)簽舶沛,${p_{t}}{(j)}$是公式15中定義好的標(biāo)簽的歸一化概率嘹承。此外,I(O)是一個切換函數(shù)如庭,用于區(qū)分可以指示結(jié)果的標(biāo)簽“O”和關(guān)系標(biāo)簽的損失量叹卷。 定義如下:

α是偏置權(quán)重。α越大坪它,其對模型中關(guān)系標(biāo)簽的影響越大骤竹。

4 實驗

4.1 實驗設(shè)置

4.1.1 數(shù)據(jù)集

為了評估我們的方法的性能,我們使用由遠(yuǎn)程監(jiān)督方法生成的公共數(shù)據(jù)集NYT2(Ren et al.,2017)往毡。通過遠(yuǎn)程監(jiān)控方法可以獲得大量的培訓(xùn)數(shù)據(jù)蒙揣,無需手動標(biāo)注,雖然手動標(biāo)注測試集可以確保其質(zhì)量开瞭。 總共訓(xùn)練數(shù)據(jù)包含353000個三元組懒震,測試集包含3880個三元組。 此外嗤详,關(guān)系集的大小是24个扰。

4.1.2 評估

我們采用標(biāo)準(zhǔn)精度(Prec),召回(Rec)和F1值來評估結(jié)果葱色。與傳統(tǒng)方法不同递宅,我們的方法可以提取三元組而不需要知道實體類型信息。 換句話說,我們沒有使用實體類型的標(biāo)簽來訓(xùn)練模型办龄,因此我們不需要在評估中考慮實體類型烘绽。當(dāng)它的關(guān)系類型和兩個對應(yīng)實體的頭部偏移都是正確時,三元組被認(rèn)為是正確的土榴。此外诀姚,如Ren等人所做的,提出了ground-truth關(guān)系并且排除“None”標(biāo)簽玷禽。我們通過從測試集中隨機(jī)抽取10%的數(shù)據(jù)創(chuàng)建一個驗證集赫段,并使用剩余的數(shù)據(jù)作為評估。 我們對每個實驗運行10次矢赁,然后報告平均結(jié)果及其標(biāo)準(zhǔn)差糯笙,如表1所示。


表1

4.1.3 超參數(shù)

我們的模型由Bi-LSTM編碼層和具有偏置目標(biāo)函數(shù)的LSTM解碼層組成撩银。在編碼部分中使用的詞嵌入是通過在NYT訓(xùn)練語料庫上運行word2vec來初始化的给涕。詞嵌入的維數(shù)為d = 300。我們使用嵌入層上的缺失來校準(zhǔn)我們的網(wǎng)絡(luò)额获,并且丟棄率是0.5够庙。編碼層的lstm單位數(shù)為300,解碼層數(shù)為600抄邀。與表1的結(jié)果對應(yīng)的偏置參數(shù)α為10耘眨。

4.1.4 基準(zhǔn)線

我們將我們的方法與幾種傳統(tǒng)的三元組提取方法進(jìn)行比較,可以分為以下幾類:串聯(lián)式方法境肾,聯(lián)合提取方法和基于我們的標(biāo)記方案的端到端方法剔难。
對于串聯(lián)式方法,我們遵循Ren等人2017年的設(shè)置:NER結(jié)果由CoType獲得奥喻,然后應(yīng)用幾種經(jīng)典關(guān)系分類方法來檢測關(guān)系偶宫。這些方法是:(1)DS-邏輯回歸是一種遠(yuǎn)程監(jiān)督和基于特征的方法,其結(jié)合了監(jiān)督IE和無監(jiān)督IE特征的優(yōu)點; (2)LINE是一種網(wǎng)絡(luò)嵌入方式环鲤,適用于任意類型的信息網(wǎng)絡(luò); (3)FCM是一種組合模型纯趋,它將詞匯化語言語境和詞匯嵌入結(jié)合起來進(jìn)行關(guān)聯(lián)抽取。
本文使用的聯(lián)合提取方法如下:(4)DS-Joint是一種監(jiān)督方法冷离,它使用結(jié)構(gòu)感知機(jī)在人工標(biāo)注的數(shù)據(jù)集合上提取實體和關(guān)系; (5)MultiR是基于多實例學(xué)習(xí)算法的典型的遠(yuǎn)程監(jiān)督方法结闸,用于對抗有噪點的訓(xùn)練數(shù)據(jù); (6)Co-Type是一個獨立領(lǐng)域的框架,它將實體酒朵,關(guān)系,文本特征和類型標(biāo)簽共同嵌入到有意義的表示中扎附。
此外蔫耽,我們也比較了我們的方法和兩種傳統(tǒng)的end-to-end標(biāo)注模型方法:LSTM-CRF和LSTM-LSTM。LSTM-CRF用于實體識別,它是通過使用雙向L-STM編碼輸入句和條件隨機(jī)字段來預(yù)測實體標(biāo)簽序列匙铡。 與LSTM-CRF不同图甜,LSTM-LSTM使用LSTM層解碼標(biāo)簽序列而不是CRF。這兩種方法是首次用基于我們的標(biāo)簽方案的聯(lián)合提取實體和關(guān)系的方法鳖眼。

4.2 實驗結(jié)果

從表1可以看出黑毅,我們的LSTM-LSTM-Bias方法在F1值的表現(xiàn)上優(yōu)于所有其它方法,并且比最好方法CoType有3%的提高钦讳。這顯示了我們提出的方法的有效性矿瘦。 此外,從表1可以看出愿卒,聯(lián)合提取方法優(yōu)于串聯(lián)式方法缚去,標(biāo)注方法比大多數(shù)聯(lián)合提取方法更好。這也驗證了我們的標(biāo)注模式對共同提取實體和關(guān)系的任務(wù)的有效性琼开。
與傳統(tǒng)方法相比易结,端對端模型的精度有顯著提高。但只有LSTM-LSTM-Bias才能更好地平衡精度和召回柜候。原因可能是這些端對端模型都使用Bi-LSTM編碼輸入句和不同的神經(jīng)網(wǎng)絡(luò)來解碼結(jié)果搞动。基于神經(jīng)網(wǎng)絡(luò)的方法可以很好地適應(yīng)數(shù)據(jù)渣刷。 因此鹦肿,他們可以很好地學(xué)習(xí)訓(xùn)練集的共同特征,并可能導(dǎo)致較低的可擴(kuò)展性飞主。我們也發(fā)現(xiàn)LSTM-LSTM模型要優(yōu)于LSTM-CRF模型狮惜。因為LSTM能夠?qū)W習(xí)長期的依賴關(guān)系,CRF很好地捕捉整個標(biāo)簽序列的聯(lián)合概率碌识。 相關(guān)標(biāo)簽可能彼此間距很遠(yuǎn)碾篡。 因此,LSTM的解碼方式要好于CRF筏餐。 LSTM-LSTM-Bias增加了偏差權(quán)重以增強(qiáng)實體標(biāo)簽的影響开泽,并削弱無效標(biāo)簽的影響。 因此魁瞪,在這種標(biāo)注方案中穆律,我們的方法可以比普通的LSTM解碼方法更好。

5 分析和討論

5.1 錯誤分析

表2

在本文中导俘,我們著重于提取由兩個實體和一個關(guān)系組成的三元組峦耘。 表1顯示了預(yù)測結(jié)果,只有當(dāng)兩個對應(yīng)的實體的關(guān)系類型和頭部偏移都是正確的時旅薄,找到的三元組才是是正確的辅髓。為了找出影響端對端模型結(jié)果的因素,我們分析了預(yù)測三元組中每個元素的性能,如表2所示洛口。E1和E2分別代表每個實體的預(yù)測性能矫付。如果第一個實體的頭部偏移正確,則E1的實例是正確的第焰,E2也是如此买优。無論關(guān)系類型如何,如果兩個對應(yīng)的實體的頭部偏移都是正確的挺举,則(E1杀赢,E2)的實例是正確的。
如表2所示豹悬,與E1和E2相比葵陵,(E1,E2)的精度更高瞻佛。但其召回率比E1和E2低脱篙。這意味著一些預(yù)測實體不會形成一對。他們只得到E1伤柄,找不到對應(yīng)的E2绊困,或獲得E2,找不到對應(yīng)的E1适刀。因此秤朗,它導(dǎo)致對更多單個E和更少(E1,E2)對的預(yù)測笔喉。 因此取视,實體對(E1,E2)具有比單個E更高的精度和更低的召回率常挚。此外作谭,與表1中的預(yù)測結(jié)果相比,表2中的(E1奄毡,E2)的預(yù)測結(jié)果具有約3%的改善折欠,這意味著3%的測試數(shù)據(jù)預(yù)測結(jié)果是錯誤的,因為預(yù)測關(guān)系類型是錯誤的吼过。

5.2 偏置損失分析

圖4

與LSTM-CRF和LSTM-LSTM不同锐秦,我們的方法偏向于關(guān)系標(biāo)簽,以增強(qiáng)實體之間的鏈接盗忱。 為了進(jìn)一步分析偏置目標(biāo)函數(shù)的影響酱床,我們可以從圖4中看出每個端對端方法預(yù)測單個實體的比例。單個實體是指找不到相應(yīng)實體的實體趟佃。無論圖4顯示的是E1還是E2斤葱,我們的方法都可以在單個實體上獲得相對較低的比例慷垮。這意味著當(dāng)比較LSTM-CRF和LSTM-LSTM時,我們的方法可以有效地關(guān)聯(lián)兩個實體揍堕,而不關(guān)心關(guān)系標(biāo)簽。
此外汤纸,我們調(diào)整偏置參數(shù)α從1到20衩茸,相應(yīng)的預(yù)測結(jié)果如圖5所示。如果α太大贮泞,會影響預(yù)測的準(zhǔn)確性楞慈,如果α太小,則召回率將下降啃擦。 當(dāng)α= 10時囊蓝,LSTM-LSTM-Bias可以平衡準(zhǔn)確率和召回率,獲得最佳的F1值令蛉。


圖5

5.3 案例分析

在本節(jié)中聚霜,我們觀察了端到端方法的預(yù)測結(jié)果,然后選擇幾個代表性的例子來說明方法的優(yōu)缺點珠叔,如表3所示蝎宇。每個示例包含三行,第一行是黃金標(biāo)準(zhǔn)祷安,第二行和第三行分別是LSTM-LSTM和LSTM-LSTM-Bias模型的提取結(jié)果姥芥。
S1表示兩個相互關(guān)聯(lián)的實體之間的距離越彼此遠(yuǎn)離,就越難以發(fā)現(xiàn)其關(guān)系汇鞭。與LSTM-LSTM相比凉唐,LSTM-LSTM-Bias使用偏差目標(biāo)函數(shù),增強(qiáng)實體之間的相關(guān)性霍骄。 因此台囱,在這個例子中,LSTM-LSTM-Bias可以提取兩個相關(guān)實體腕巡,而LSTM-LSTM只能提取一個“Florida”實體玄坦,不能檢測到“Panama City Beach”。
S2是一個負(fù)面例子绘沉,顯示這些方法可能會錯誤地預(yù)測一個實體煎楣。 Nuremberg和Germany之間沒有任何指示性的詞匯。 此外车伞,Germany和MiddleAges之間的“a * of *”這種模式可能容易錯誤的導(dǎo)致模型認(rèn)為它們之間存在“包含”關(guān)系择懂。可以通過將這種表達(dá)模式的一些樣本添加到訓(xùn)練集中來解決該問題另玖。
S3是一個模型可以預(yù)測實體的頭部偏移量困曙,但是關(guān)系角色是錯誤的例子表伦。 LSTM-LSTM將“Stephen A. Schwarzman”和“Blackstone Group”視為實體E1,找不到相應(yīng)的E2慷丽。 雖然LSTM-LSMT-Bias可以找到實體對(E1蹦哼,E2),但它顛倒了“Stephen A. Schwarzman”和“Blackstone Group”的角色要糊。 這表明LSTM-LSTM-Bias能夠更好地預(yù)測實體對纲熏,但在區(qū)分兩個實體之間的關(guān)系方面仍有待改進(jìn)。

6 結(jié)論

在本文中锄俄,我們提出了一種新穎的標(biāo)注方案局劲,并研究了端對端模型共同提取實體和關(guān)系。實驗結(jié)果表明我們提出的方法的有效性奶赠。但是鱼填,重疊關(guān)系的識別仍然存在缺陷。 在未來的工作中毅戈,我們將使用多個分類器替換輸出層中的softmax函數(shù)苹丸,以便一個單詞可以有多個標(biāo)簽。 這樣一來竹祷,一個字可以出現(xiàn)在多個三元組結(jié)果中谈跛,這可以解決重疊關(guān)系的問題。雖然塑陵,我們的模型可以增強(qiáng)實體標(biāo)簽的效果感憾,但兩個相應(yīng)實體之間的關(guān)聯(lián)仍然需要在下一個工作中進(jìn)行細(xì)化。

致謝

感謝Xiang Ren的數(shù)據(jù)集細(xì)節(jié)和有益的討論令花。 該工作也得到了中國國家高技術(shù)研究發(fā)展計劃(863計劃)(授權(quán)號:2015AA015402)阻桅,國家自然科學(xué)基金(61602479)和國家自然科學(xué)基金項目(61501463)的支持。

參考文獻(xiàn)

Michele Banko, Michael J Cafarella, Stephen Soder- land, Matthew Broadhead, and Oren Etzioni. 2007. Open information extraction from the web. In IJ- CAI. volume 7, pages 2670–2676.
Jason PC Chiu and Eric Nichols. 2015. Named enti- ty recognition with bidirectional lstm-cnns. In Pro- cessings of Transactions of the Association for Com- putational Linguistics.
C?cero Nogueira et al. dos Santos. 2015. Classifying relations by ranking with convolutional neural net- works. In Proceedings of the 53th ACL internation- al conference. volume 1, pages 626–634. Matthew R Gormley, Mo Yu, and Mark Dredze. 2015. Improved relation extraction with feature-rich com- positional embedding models. In Proceedings of the EMNLP. Sepp Hochreiter and Ju?rgen Schmidhuber. 1997. Long short-term memory. Neural computation 9(8):1735–1780.
Raphael Hoffmann, Congle Zhang, Xiao Ling, Luke Zettlemoyer, and Daniel S Weld. 2011. Knowledge- based weak supervision for information extraction of overlapping relations. In Proceedings of the 49th Annual Meeting of the Association for Computation- al Linguistics. Association for Computational Lin- guistics, pages 541–550.
Zhiheng Huang, Wei Xu, and Kai Yu. 2015. Bidirec- tional lstm-crf models for sequence tagging. arXiv preprint arXiv:1508.01991 .
Nal Kalchbrenner and Phil Blunsom. 2013. Recurren- t continuous translation models. In EMNLP. vol- ume 3, page 413.
Nanda Kambhatla. 2004. Combining lexical, syntactic, and semantic features with maximum entropy mod- els for extracting relations. In Proceedings of the 43th ACL international conference. page 22. Arzoo Katiyar and Claire Cardie. 2016. Investigating lstms for joint extraction of opinion entities and rela- tions. In Proceedings of the 54th ACL international conference.
John Lafferty, Andrew McCallum, Fernando Pereira, et al. 2001. Conditional random fields: Probabilis- tic models for segmenting and labeling sequence da- ta. In Proceedings of the eighteenth international conference on machine learning, ICML. volume 1, pages 282–289.
Guillaume Lample, Miguel Ballesteros, Sandeep Sub- ramanian, Kazuya Kawakami, and Chris Dyer. 2016. Neural architectures for named entity recognition. In Proceedings of the NAACL international confer- ence.
Qi Li and Heng Ji. 2014. Incremental joint extraction of entity mentions and relations. In Proceedings of the 52rd Annual Meeting of the Association for Computational Linguistics. pages 402–412. Gang Luo, Xiaojiang Huang, Chin-Yew Lin, and Za- iqing Nie. 2015. Joint entity recognition and disam- biguation. In Conference on Empirical Methods in Natural Language Processing. pages 879–888.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Cor- rado, and Jeff Dean. 2013. Distributed representa- tions of words and phrases and their compositional- ity. In Advances in neural information processing systems. pages 3111–3119.
Mike Mintz, Steven Bills, Rion Snow, and Dan Ju- rafsky. 2009. Distant supervision for relation ex- traction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL. Association for Computational Linguistics, pages 1003–1011.
Makoto Miwa and Mohit Bansal. 2016. End-to-end re- lation extraction using lstms on sequences and tree structures. In Proceedings of the 54rd Annual Meet- ing of the Association for Computational Linguistic- s.
Makoto Miwa and Yutaka Sasaki. 2014. Modeling joint entity and relation extraction with table repre- sentation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Process- ing. pages 1858–1869.
David Nadeau and Satoshi Sekine. 2007. A sur- vey of named entity recognition and classification. Lingvisticae Investigationes 30(1):3–26.
Alexandre Passos, Vineet Kumar, and Andrew McCal- lum. 2014. Lexicon infused phrase embeddings for named entity resolution. In International Confer- ence on Computational Linguistics. pages 78–86.
Xiang Ren, Zeqiu Wu, Wenqi He, Meng Qu, Clare R Voss, Heng Ji, Tarek F Abdelzaher, and Jiawei Han. 2017. Cotype: Joint extraction of typed entities and relations with knowledge bases. In Proceedings of the 26th WWW international conference.
Bryan et al. Rink. 2010. Utd: Classifying semantic re- lations by combining lexical and semantic resources. In Proceedings of the 5th International Workshop on Semantic Evaluation. pages 256–259. Sameer Singh, Sebastian Riedel, Brian Martin, Jiaping Zheng, and Andrew McCallum. 2013. Joint infer- ence of entities, relations, and coreference. In Pro- ceedings of the 2013 workshop on Automated knowl- edge base construction. ACM, pages 1–6.
Ilya Sutskever, Oriol Vinyals, and Quoc V Le. 2014. Sequence to sequence learning with neural network- s. In Advances in neural information processing sys- tems. pages 3104–3112.
Jian Tang, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan, and Qiaozhu Mei. 2015. Line: Large-scale in- formation network embedding. In Proceedings of the 24th International Conference on World Wide Web. ACM, pages 1067–1077.
Tijmen Tieleman and Geoffrey Hinton. 2012. Lecture 6.5-rmsprop. In COURSERA: Neural networks for machine learning.
Ashish Vaswani, Yonatan Bisk, Kenji Sagae, and Ryan Musa. 2016. Supertagging with lstms. In Proceed- ings of the NAACL international conference. pages 232–237.
Kun et al. Xu. 2015a. Semantic relation classification via convolutional neural networks with simple neg- ative sampling. In Proceedings of the EMNLP.
Yan et al. Xu. 2015b. Classifying relations via long short term memory networks along shortest depen- dency paths. In Proceedings of EMNLP internation- al conference.
Bishan Yang and Claire Cardie. 2013. Joint inference for fine-grained opinion extraction. In Proceedings of the 51rd Annual Meeting of the Association for Computational Linguistics. pages 1640–1649.
Xiaofeng Yu and Wai Lam. 2010. Jointly identifying entities and extracting relations in encyclopedia tex- t via a graphical model approach. In Proceedings of the 21th COLING international conference. pages 1399–1407.
Daojian et al. Zeng. 2014. Relation classification via convolutional deep neural network. In Proceedings of the 25th COLING international conference. pages 2335–2344.
Feifei Zhai, Saloni Potdar, Bing Xiang, and Bowen Zhou. 2017. Neural models for sequence chunk- ing. In Proceedings of the AAAI international con- ference.
Suncong Zheng, Jiaming Xu, Peng Zhou, Hongyun Bao, Zhenyu Qi, and Bo Xu. 2016. A neural net- work framework for relation extraction: Learning entity semantic and relation pattern. Knowledge- Based Systems 114:12–23.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末兼都,一起剝皮案震驚了整個濱河市嫂沉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌扮碧,老刑警劉巖趟章,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異慎王,居然都是意外死亡蚓土,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門赖淤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蜀漆,“玉大人,你說我怎么就攤上這事咱旱∪范” “怎么了绷耍?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鲜侥。 經(jīng)常有香客問我褂始,道長,這世上最難降的妖魔是什么描函? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任病袄,我火速辦了婚禮,結(jié)果婚禮上赘阀,老公的妹妹穿的比我還像新娘。我一直安慰自己脑奠,他們只是感情好基公,可當(dāng)我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著宋欺,像睡著了一般轰豆。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上齿诞,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天酸休,我揣著相機(jī)與錄音,去河邊找鬼祷杈。 笑死斑司,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的但汞。 我是一名探鬼主播宿刮,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼私蕾!你這毒婦竟也來了僵缺?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤踩叭,失蹤者是張志新(化名)和其女友劉穎磕潮,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體容贝,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡自脯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了嗤疯。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冤今。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖茂缚,靈堂內(nèi)的尸體忽然破棺而出戏罢,到底是詐尸還是另有隱情屋谭,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布龟糕,位于F島的核電站桐磁,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏讲岁。R本人自食惡果不足惜我擂,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望缓艳。 院中可真熱鬧校摩,春花似錦、人聲如沸阶淘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽溪窒。三九已至坤塞,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間澈蚌,已是汗流浹背摹芙。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留宛瞄,地道東北人浮禾。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像坛悉,于是被迫代替她去往敵國和親伐厌。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容