論文來(lái)源
這是中科院自動(dòng)化研究所鄭孫聰?shù)热税l(fā)表在ACL 2017上的一篇論文宦焦,并且被評(píng)為ACL2017杰出論文发钝。
簡(jiǎn)介
實(shí)體和關(guān)系的聯(lián)合抽取問(wèn)題作為信息抽取的關(guān)鍵任務(wù),其實(shí)現(xiàn)方法可以簡(jiǎn)單分為兩類:一類是串聯(lián)抽取方法波闹,另一類是聯(lián)合抽取方法酝豪。其中,傳統(tǒng)的串聯(lián)抽取就是首先進(jìn)行實(shí)體抽取精堕,然后進(jìn)行關(guān)系識(shí)別孵淘。這種分開(kāi)的方法比較容易實(shí)現(xiàn),而且各個(gè)模塊靈活度比較高歹篓。但是這種方法中瘫证,實(shí)體識(shí)別的結(jié)果會(huì)影響到關(guān)系識(shí)別的結(jié)果,所以容易產(chǎn)生誤差累積庄撮。聯(lián)合抽取方法使用一個(gè)模型同時(shí)實(shí)現(xiàn)實(shí)體抽取和關(guān)系抽取背捌,能更好的整合實(shí)體及其關(guān)系之間的信息。但現(xiàn)有的聯(lián)合抽取方法也存在諸多問(wèn)題洞斯,比如:大部分的聯(lián)合抽取模型需要人工參與構(gòu)建特征毡庆。為了減少人工抽取特征工作而提出基于神經(jīng)網(wǎng)絡(luò)的end-to-end模型,因在模型實(shí)現(xiàn)過(guò)程中分開(kāi)抽取實(shí)體及其關(guān)系而導(dǎo)致信息冗余等問(wèn)題巡扇。這篇論文中提出了一個(gè)新的模型框架來(lái)解決此類問(wèn)題扭仁,并在公開(kāi)數(shù)據(jù)集 NYT 上取得了很好的效果。
算法模型
本論文提出將一種新的標(biāo)注方法來(lái)解決聯(lián)合抽取任務(wù)厅翔,將聯(lián)合抽取問(wèn)題轉(zhuǎn)化為標(biāo)注問(wèn)題,這樣就可以避免復(fù)雜的特征工程搀突。由于LSTM在end-to-end的命名實(shí)體識(shí)別模型當(dāng)中有比較好的表現(xiàn)刀闷,而且LSTM本身能夠?qū)W習(xí)長(zhǎng)期依賴關(guān)系,有利于解決序列建模任務(wù)仰迁。所以本文基于新的標(biāo)注方法甸昏,研究了基于LSTM的end-to-end模型來(lái)解決聯(lián)合抽取實(shí)體和關(guān)系的任務(wù)。除此之外還在解碼的過(guò)程中增加了偏置損失函數(shù)徐许,增強(qiáng)了相關(guān)實(shí)體之間的聯(lián)系施蜜,讓模型更加適合特殊標(biāo)簽。
標(biāo)注方法
如圖1所示雌隅,模型的輸入一句非結(jié)構(gòu)化的文本翻默,輸出為一個(gè)預(yù)定關(guān)系類型的三元組缸沃。
為了實(shí)現(xiàn)該任務(wù),作者首先提出了一種新的標(biāo)注模式修械,將信息抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù)趾牧。如下圖2所示:
這種標(biāo)注模式將文本中的詞分為兩類,第一類代表與抽取結(jié)果無(wú)關(guān)的詞肯污,用標(biāo)簽”O(jiān)”來(lái)表示翘单;第二類代表與抽取結(jié)果相關(guān)的詞,這一類詞的標(biāo)簽由三部分組成:當(dāng)前詞在entity中的位置-關(guān)系類型-entity在關(guān)系中的角色蹦渣。作者使用“BIES”(Begin哄芜,Inside,End柬唯,Single)標(biāo)注认臊,來(lái)表示當(dāng)前詞在 entity中的位置。而關(guān)系類型則是從預(yù)先設(shè)定的關(guān)系類型集中獲得的权逗。entity 在關(guān)系中的角色信息美尸,用“1”,“2”來(lái)表示斟薇。其中“1”表示师坎,當(dāng)前詞屬于三元組(Entity1,RelationType堪滨,Entity2)的 Entity1胯陋,“”同理”2”表示當(dāng)前詞屬于 Entity2。最后根據(jù)標(biāo)注結(jié)果將同種關(guān)系類型的兩個(gè)相鄰順序?qū)嶓w組合為一個(gè)三元組袱箱。例如:通過(guò)標(biāo)注標(biāo)簽可知遏乔,“United”與“States”組合形成了實(shí)體“United States”发笔,實(shí)體“United States”與實(shí)體“Trump”組合成了三元組 {United States, Country-President, Trump}盟萨。如果一個(gè)句子中包含兩個(gè)或者更多相同關(guān)系類型的三元組,我們基于最近原則將兩個(gè)實(shí)體組合為三元組。本篇論文只考慮一個(gè)實(shí)體只屬于一個(gè)三元組的情況。
End-to-end模型
當(dāng)輸入為文本語(yǔ)句的時(shí)候伶棒,為了自動(dòng)實(shí)現(xiàn)對(duì)文本詞序列的標(biāo)注工作,作者提出了一個(gè)端到端的模型來(lái)實(shí)現(xiàn)了該工作鞭达。模型結(jié)構(gòu)如下圖3:
其中:
- 詞嵌入層將每個(gè)詞的 one-hot 表示向量轉(zhuǎn)化為低維稠密的詞嵌入向量(維度為 300) 梳玫;
- Bi-LSTM 編碼層(層數(shù)為 300)用于獲得詞的編碼信息;
- LSTM 解碼層(層數(shù)為 600)用于產(chǎn)生標(biāo)簽序列。其中加入偏移損失來(lái)增強(qiáng)實(shí)體標(biāo)簽的關(guān)聯(lián)性。
實(shí)驗(yàn)結(jié)果及分析
本實(shí)驗(yàn)采用NYT數(shù)據(jù)贪嫂,實(shí)驗(yàn)的訓(xùn)練集采用遠(yuǎn)程監(jiān)督方法標(biāo)注贞岭,而測(cè)試集為人工標(biāo)注瞄桨。訓(xùn)練數(shù)據(jù)包括353000個(gè)三元組,而測(cè)試數(shù)據(jù)包括3880個(gè)三元組留晚,關(guān)系集的大小為24酵紫。本實(shí)驗(yàn)采用精確度、召回率和F1值進(jìn)行評(píng)估错维。該算法與傳統(tǒng)方法的不同之處在于奖地,抽取三元組時(shí)不需要知道實(shí)體的類型信息,所以在評(píng)估過(guò)程中不需要考慮實(shí)體類型赋焕。當(dāng)三元組的關(guān)系類型参歹、以及對(duì)應(yīng)的兩個(gè)頭部偏移實(shí)體都正確時(shí),這個(gè)三元組被認(rèn)為是正確的隆判。實(shí)驗(yàn)結(jié)果如下:
前三行是串聯(lián)抽取的結(jié)果犬庇,中間4-6行是聯(lián)合抽取的結(jié)果,最后三行是基于基于本文所提出的新的標(biāo)注方法的end-to-end模型實(shí)現(xiàn)的聯(lián)合抽取的實(shí)驗(yàn)結(jié)果侨嘀〕敉欤可以發(fā)現(xiàn)聯(lián)合抽取的方法優(yōu)于串聯(lián)抽取的方法,而end-to-end的聯(lián)合抽取方法又優(yōu)于聯(lián)合抽取方法咬腕。而三種end-to-end模型中欢峰,編碼過(guò)程都采用雙向LSTM,而解碼過(guò)程則分別用CRF、LSTM以及LSTM+Bias纽帖,可以發(fā)現(xiàn)LSTM的解碼方式優(yōu)于CRF宠漩,出現(xiàn)這一結(jié)果的原因是CRF 旨在最大化整個(gè)標(biāo)簽序列的聯(lián)合概率,LSTM 能夠?qū)W習(xí)序列元素之間的長(zhǎng)距離依賴關(guān)系懊直,由于關(guān)聯(lián)標(biāo)簽之間可能彼此具有較長(zhǎng)距離扒吁,所以基于 LSTM 的解碼方式比 CRF 稍好。而增加了偏置權(quán)重以增強(qiáng)特殊標(biāo)簽的作用室囊,并削弱無(wú)效標(biāo)簽的影響的LSTM+Bias解碼方法可以獲得比常見(jiàn)端對(duì)端模型更好地效果雕崩。
結(jié)論
這篇論文提出一個(gè)新的標(biāo)注方法,并且研究了利用end-to-end模型來(lái)聯(lián)合抽取實(shí)體和關(guān)系波俄,實(shí)驗(yàn)結(jié)果證明該方法非常有效晨逝。但是面對(duì)重疊關(guān)系,依舊存在缺陷懦铺。后續(xù)將研究在輸出層用多分類代替softmax函數(shù)來(lái)解決重疊關(guān)系的問(wèn)題捉貌。