《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》論文分析

論文來(lái)源

這是中科院自動(dòng)化研究所鄭孫聰?shù)热税l(fā)表在ACL 2017上的一篇論文宦焦,并且被評(píng)為ACL2017杰出論文发钝。

簡(jiǎn)介

實(shí)體和關(guān)系的聯(lián)合抽取問(wèn)題作為信息抽取的關(guān)鍵任務(wù),其實(shí)現(xiàn)方法可以簡(jiǎn)單分為兩類:一類是串聯(lián)抽取方法波闹,另一類是聯(lián)合抽取方法酝豪。其中,傳統(tǒng)的串聯(lián)抽取就是首先進(jìn)行實(shí)體抽取精堕,然后進(jìn)行關(guān)系識(shí)別孵淘。這種分開(kāi)的方法比較容易實(shí)現(xiàn),而且各個(gè)模塊靈活度比較高歹篓。但是這種方法中瘫证,實(shí)體識(shí)別的結(jié)果會(huì)影響到關(guān)系識(shí)別的結(jié)果,所以容易產(chǎn)生誤差累積庄撮。聯(lián)合抽取方法使用一個(gè)模型同時(shí)實(shí)現(xiàn)實(shí)體抽取和關(guān)系抽取背捌,能更好的整合實(shí)體及其關(guān)系之間的信息。但現(xiàn)有的聯(lián)合抽取方法也存在諸多問(wèn)題洞斯,比如:大部分的聯(lián)合抽取模型需要人工參與構(gòu)建特征毡庆。為了減少人工抽取特征工作而提出基于神經(jīng)網(wǎng)絡(luò)的end-to-end模型,因在模型實(shí)現(xiàn)過(guò)程中分開(kāi)抽取實(shí)體及其關(guān)系而導(dǎo)致信息冗余等問(wèn)題巡扇。這篇論文中提出了一個(gè)新的模型框架來(lái)解決此類問(wèn)題扭仁,并在公開(kāi)數(shù)據(jù)集 NYT 上取得了很好的效果。

算法模型

本論文提出將一種新的標(biāo)注方法來(lái)解決聯(lián)合抽取任務(wù)厅翔,將聯(lián)合抽取問(wèn)題轉(zhuǎn)化為標(biāo)注問(wèn)題,這樣就可以避免復(fù)雜的特征工程搀突。由于LSTM在end-to-end的命名實(shí)體識(shí)別模型當(dāng)中有比較好的表現(xiàn)刀闷,而且LSTM本身能夠?qū)W習(xí)長(zhǎng)期依賴關(guān)系,有利于解決序列建模任務(wù)仰迁。所以本文基于新的標(biāo)注方法甸昏,研究了基于LSTM的end-to-end模型來(lái)解決聯(lián)合抽取實(shí)體和關(guān)系的任務(wù)。除此之外還在解碼的過(guò)程中增加了偏置損失函數(shù)徐许,增強(qiáng)了相關(guān)實(shí)體之間的聯(lián)系施蜜,讓模型更加適合特殊標(biāo)簽。

標(biāo)注方法

圖1

如圖1所示雌隅,模型的輸入一句非結(jié)構(gòu)化的文本翻默,輸出為一個(gè)預(yù)定關(guān)系類型的三元組缸沃。
為了實(shí)現(xiàn)該任務(wù),作者首先提出了一種新的標(biāo)注模式修械,將信息抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù)趾牧。如下圖2所示:


圖2

這種標(biāo)注模式將文本中的詞分為兩類,第一類代表與抽取結(jié)果無(wú)關(guān)的詞肯污,用標(biāo)簽”O(jiān)”來(lái)表示翘单;第二類代表與抽取結(jié)果相關(guān)的詞,這一類詞的標(biāo)簽由三部分組成:當(dāng)前詞在entity中的位置-關(guān)系類型-entity在關(guān)系中的角色蹦渣。作者使用“BIES”(Begin哄芜,Inside,End柬唯,Single)標(biāo)注认臊,來(lái)表示當(dāng)前詞在 entity中的位置。而關(guān)系類型則是從預(yù)先設(shè)定的關(guān)系類型集中獲得的权逗。entity 在關(guān)系中的角色信息美尸,用“1”,“2”來(lái)表示斟薇。其中“1”表示师坎,當(dāng)前詞屬于三元組(Entity1,RelationType堪滨,Entity2)的 Entity1胯陋,“”同理”2”表示當(dāng)前詞屬于 Entity2。最后根據(jù)標(biāo)注結(jié)果將同種關(guān)系類型的兩個(gè)相鄰順序?qū)嶓w組合為一個(gè)三元組袱箱。例如:通過(guò)標(biāo)注標(biāo)簽可知遏乔,“United”與“States”組合形成了實(shí)體“United States”发笔,實(shí)體“United States”與實(shí)體“Trump”組合成了三元組 {United States, Country-President, Trump}盟萨。如果一個(gè)句子中包含兩個(gè)或者更多相同關(guān)系類型的三元組,我們基于最近原則將兩個(gè)實(shí)體組合為三元組。本篇論文只考慮一個(gè)實(shí)體只屬于一個(gè)三元組的情況。

End-to-end模型

當(dāng)輸入為文本語(yǔ)句的時(shí)候伶棒,為了自動(dòng)實(shí)現(xiàn)對(duì)文本詞序列的標(biāo)注工作,作者提出了一個(gè)端到端的模型來(lái)實(shí)現(xiàn)了該工作鞭达。模型結(jié)構(gòu)如下圖3:


圖3

其中:

  1. 詞嵌入層將每個(gè)詞的 one-hot 表示向量轉(zhuǎn)化為低維稠密的詞嵌入向量(維度為 300) 梳玫;
  2. Bi-LSTM 編碼層(層數(shù)為 300)用于獲得詞的編碼信息;
  3. LSTM 解碼層(層數(shù)為 600)用于產(chǎn)生標(biāo)簽序列。其中加入偏移損失來(lái)增強(qiáng)實(shí)體標(biāo)簽的關(guān)聯(lián)性。

實(shí)驗(yàn)結(jié)果及分析

本實(shí)驗(yàn)采用NYT數(shù)據(jù)贪嫂,實(shí)驗(yàn)的訓(xùn)練集采用遠(yuǎn)程監(jiān)督方法標(biāo)注贞岭,而測(cè)試集為人工標(biāo)注瞄桨。訓(xùn)練數(shù)據(jù)包括353000個(gè)三元組,而測(cè)試數(shù)據(jù)包括3880個(gè)三元組留晚,關(guān)系集的大小為24酵紫。本實(shí)驗(yàn)采用精確度、召回率和F1值進(jìn)行評(píng)估错维。該算法與傳統(tǒng)方法的不同之處在于奖地,抽取三元組時(shí)不需要知道實(shí)體的類型信息,所以在評(píng)估過(guò)程中不需要考慮實(shí)體類型赋焕。當(dāng)三元組的關(guān)系類型参歹、以及對(duì)應(yīng)的兩個(gè)頭部偏移實(shí)體都正確時(shí),這個(gè)三元組被認(rèn)為是正確的隆判。實(shí)驗(yàn)結(jié)果如下:


圖4

前三行是串聯(lián)抽取的結(jié)果犬庇,中間4-6行是聯(lián)合抽取的結(jié)果,最后三行是基于基于本文所提出的新的標(biāo)注方法的end-to-end模型實(shí)現(xiàn)的聯(lián)合抽取的實(shí)驗(yàn)結(jié)果侨嘀〕敉欤可以發(fā)現(xiàn)聯(lián)合抽取的方法優(yōu)于串聯(lián)抽取的方法,而end-to-end的聯(lián)合抽取方法又優(yōu)于聯(lián)合抽取方法咬腕。而三種end-to-end模型中欢峰,編碼過(guò)程都采用雙向LSTM,而解碼過(guò)程則分別用CRF、LSTM以及LSTM+Bias纽帖,可以發(fā)現(xiàn)LSTM的解碼方式優(yōu)于CRF宠漩,出現(xiàn)這一結(jié)果的原因是CRF 旨在最大化整個(gè)標(biāo)簽序列的聯(lián)合概率,LSTM 能夠?qū)W習(xí)序列元素之間的長(zhǎng)距離依賴關(guān)系懊直,由于關(guān)聯(lián)標(biāo)簽之間可能彼此具有較長(zhǎng)距離扒吁,所以基于 LSTM 的解碼方式比 CRF 稍好。而增加了偏置權(quán)重以增強(qiáng)特殊標(biāo)簽的作用室囊,并削弱無(wú)效標(biāo)簽的影響的LSTM+Bias解碼方法可以獲得比常見(jiàn)端對(duì)端模型更好地效果雕崩。

結(jié)論

這篇論文提出一個(gè)新的標(biāo)注方法,并且研究了利用end-to-end模型來(lái)聯(lián)合抽取實(shí)體和關(guān)系波俄,實(shí)驗(yàn)結(jié)果證明該方法非常有效晨逝。但是面對(duì)重疊關(guān)系,依舊存在缺陷懦铺。后續(xù)將研究在輸出層用多分類代替softmax函數(shù)來(lái)解決重疊關(guān)系的問(wèn)題捉貌。

參考

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市冬念,隨后出現(xiàn)的幾起案子趁窃,更是在濱河造成了極大的恐慌,老刑警劉巖急前,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件醒陆,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡裆针,警方通過(guò)查閱死者的電腦和手機(jī)刨摩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)世吨,“玉大人澡刹,你說(shuō)我怎么就攤上這事≡呕椋” “怎么了罢浇?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)沐祷。 經(jīng)常有香客問(wèn)我嚷闭,道長(zhǎng),這世上最難降的妖魔是什么赖临? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任胞锰,我火速辦了婚禮,結(jié)果婚禮上兢榨,老公的妹妹穿的比我還像新娘胜蛉。我一直安慰自己挠进,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布誊册。 她就那樣靜靜地躺著,像睡著了一般暖璧。 火紅的嫁衣襯著肌膚如雪案怯。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,166評(píng)論 1 284
  • 那天澎办,我揣著相機(jī)與錄音嘲碱,去河邊找鬼。 笑死局蚀,一個(gè)胖子當(dāng)著我的面吹牛麦锯,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播琅绅,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼扶欣,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了千扶?” 一聲冷哼從身側(cè)響起料祠,我...
    開(kāi)封第一講書(shū)人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎澎羞,沒(méi)想到半個(gè)月后髓绽,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡妆绞,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年顺呕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片括饶。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡株茶,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出巷帝,到底是詐尸還是另有隱情忌卤,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布楞泼,位于F島的核電站驰徊,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏堕阔。R本人自食惡果不足惜棍厂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望超陆。 院中可真熱鬧牺弹,春花似錦浦马、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至航攒,卻和暖如春磺陡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背漠畜。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工币他, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人憔狞。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓蝴悉,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親瘾敢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子拍冠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容