論文筆記 | 用于事件抽取與生成的預(yù)訓(xùn)練語(yǔ)言模型

本文主要復(fù)述論文["Exploring Pre-trained Language Models for Event Extraction and Generation"] 的內(nèi)容贯吓,以便自我回顧孝情,也希望可以給大噶帶來(lái)幫助~

摘要

這篇文章研究事件抽取的角度是從有標(biāo)簽的訓(xùn)練數(shù)據(jù)描述的改含,以往的EE任務(wù)依賴(lài)于人工標(biāo)注數(shù)據(jù)趋翻,而不充分的訓(xùn)練數(shù)據(jù)會(huì)影響模型的效果护糖。文章采用了一個(gè)預(yù)訓(xùn)練語(yǔ)言模型來(lái)提取事件觸發(fā)詞侦副,通過(guò)角色預(yù)測(cè)分離方法來(lái)處理角色抽取任務(wù)中的角色重疊問(wèn)題竹挡,并利用Bert模型的Masked LM來(lái)自動(dòng)生成標(biāo)簽數(shù)據(jù)趾疚。該模型在ACE05數(shù)據(jù)集上的表現(xiàn)没咙,事件抽取任務(wù)上達(dá)到了81.1%的F1值猩谊,角色抽取任務(wù)上達(dá)到了58.9%的F1值。

介紹

角色重疊問(wèn)題

ACE05數(shù)據(jù)集上10%的事件有角色重疊問(wèn)題祭刚,例句The explosion killed the bomber and three shopperskilled觸發(fā)事件Attack牌捷,元素the bomber既可以觸發(fā)角色Attacker,又有角色Victim涡驮。之前的工作中會(huì)將該元素第一次被預(yù)測(cè)到的角色類(lèi)型判定為分類(lèi)好的角色標(biāo)簽暗甥,而沒(méi)有考慮該角色在多個(gè)角色類(lèi)型中的概率。

標(biāo)簽數(shù)據(jù)不足問(wèn)題

監(jiān)督學(xué)習(xí)下的事件抽取依賴(lài)于大量人工標(biāo)注的數(shù)據(jù)集捉捅,而ACE數(shù)據(jù)集當(dāng)中給出的事件標(biāo)簽數(shù)量有限撤防。為了解決這一問(wèn)題,之前也有工作通過(guò)遠(yuǎn)程監(jiān)督的方法來(lái)生成事件類(lèi)型標(biāo)簽擴(kuò)充訓(xùn)練集棒口,但這一方法也是依賴(lài)于源數(shù)據(jù)集的數(shù)量與質(zhì)量寄月。

解決方法

論文提出了預(yù)訓(xùn)練語(yǔ)言模型,利用從語(yǔ)料庫(kù)中獲得的知識(shí)來(lái)進(jìn)行事件生成陌凳。預(yù)訓(xùn)練語(yǔ)言模型包括事件抽取模型與角色抽取模型剥懒,角色重疊問(wèn)題通過(guò)計(jì)算角色類(lèi)型與事件類(lèi)型之間的關(guān)系,來(lái)重置角色分類(lèi)的概率值合敦。事件類(lèi)型標(biāo)簽也是通過(guò)這個(gè)預(yù)訓(xùn)練語(yǔ)言模型實(shí)踐初橘,將原訓(xùn)練集作為樣本,通過(guò)參數(shù)替換和輔助token重置這兩步生成新的事件類(lèi)型充岛。

預(yù)訓(xùn)練語(yǔ)言模型

預(yù)訓(xùn)練語(yǔ)言模型(PLMEE)由觸發(fā)詞提取保檐、角色提取兩個(gè)階段組成,二者的特征表示學(xué)習(xí)均在BERT模型上進(jìn)行崔梗。整體模型框架由Figure3描述:
觸發(fā)詞提取

事件抽取部分是直接用Bert模型得到詞向量表示夜只,最后加個(gè)分類(lèi)器完成觸發(fā)詞的提取。值得說(shuō)明的是蒜魄,這里每個(gè)token的輸入由三部分組成:word embedding + segment + position扔亥,整個(gè)模型基于句子級(jí)別场躯,這里的segments設(shè)為0。其他設(shè)定則與Bert保持一致旅挤。

元素提取

對(duì)于第一階段提取到的觸發(fā)詞踢关,這里會(huì)提取與其相關(guān)的成分的所有可能角色。作者總結(jié)的元素提取有三個(gè)難點(diǎn):1.元素對(duì)觸發(fā)詞的依賴(lài)性粘茄;2.元素大多由長(zhǎng)名詞短語(yǔ)構(gòu)成签舞;3.角色重疊。模型框架設(shè)定與前一階段相似柒瓣,也是需要注意的一點(diǎn):特征表示輸入的segment將觸發(fā)詞所在的span設(shè)為1儒搭。
分類(lèi)器則是設(shè)為所有角色標(biāo)簽的集合,即為對(duì)每個(gè)元素判斷所有角色類(lèi)型的概率芙贫,并在其分類(lèi)器上設(shè)置一個(gè)二元組搂鲫,用來(lái)判定該角色下的token的span,該跨度由(start, end)組成磺平。通過(guò)對(duì)每種可能的角色標(biāo)簽進(jìn)行計(jì)算默穴,改善角色重疊問(wèn)題。

角色span的判定

判定角色的span褪秀,也就是如何更準(zhǔn)確得到每個(gè)token的(start, end)域值。首先薛训,對(duì)于每一個(gè)tokent媒吗,經(jīng)softmax分別計(jì)算在角色r下的起始點(diǎn)的概率P^rs(t)與結(jié)束點(diǎn)的概率P^re(t)

是經(jīng)Bert得到的詞表示,W則為各自的權(quán)重乙埃。依據(jù)兩個(gè)得到每個(gè)token的起止?fàn)顟B(tài)闸英,構(gòu)成由二進(jìn)制組成的序列。經(jīng)過(guò)算法1計(jì)算出所有的span介袜。

損失權(quán)重重置

論文中處理一個(gè)元素有多種角色時(shí)應(yīng)該被分類(lèi)的角色標(biāo)簽甫何,依據(jù)了同一事件中每種角色出現(xiàn)的可能性會(huì)大不相同這一事實(shí)。因此文中給出了當(dāng)前角色在一個(gè)事件中的重要性判定條件:RF-IEF(這一定義與詞頻的TF-IDF類(lèi)似)遇伞,辙喂。由這一指標(biāo)可以得到角色r在事件類(lèi)型v中的重要程度I(r, v)

作者也對(duì)這一論點(diǎn)進(jìn)行了驗(yàn)證,由table1可知每種事件類(lèi)型對(duì)應(yīng)的角色標(biāo)簽數(shù)量只有少數(shù)鸠珠。
將這一重要性程度的指標(biāo)加入損失函數(shù)的計(jì)算當(dāng)中巍耗,可以起到損失權(quán)重重置的作用,提高角色提取的準(zhǔn)確率渐排。

生成標(biāo)簽數(shù)據(jù)

生成新的標(biāo)簽是將原有數(shù)據(jù)集作為樣本炬太,通過(guò)模型學(xué)習(xí)到新的之前沒(méi)有標(biāo)簽的詞并加入到訓(xùn)練集中,以起到擴(kuò)充語(yǔ)料的作用驯耻。這里是采用了Bert的Mask預(yù)訓(xùn)練方法亲族,通過(guò)兩個(gè)步驟:1.句中的元素替換為有相同角色標(biāo)簽的其他元素炒考;2.利用Bert的fine-tune替換觸發(fā)詞的輔助token。這里需要注意的幾點(diǎn):
1.輔助token是原有樣本數(shù)據(jù)集里未被識(shí)別成觸發(fā)詞或角色的token霎迫,除了詞斋枢、數(shù)字,還可以包括標(biāo)點(diǎn)女气。
2.元素替換是將具有相同角色標(biāo)簽的元素進(jìn)行代換杏慰。因此需要預(yù)先統(tǒng)計(jì)所有的實(shí)體以及對(duì)應(yīng)標(biāo)簽構(gòu)成{arg : role}字典集,并且這個(gè)字典集不包括有角色重疊的元素炼鞠。
3.這里的數(shù)據(jù)集擴(kuò)充并非給沒(méi)有標(biāo)簽的數(shù)據(jù)加上標(biāo)簽缘滥,而是保持觸發(fā)詞與角色的個(gè)數(shù)不變,通過(guò)輔助元素的替換將觸發(fā)詞與角色所在句子的成分做更改谒主,獲得同樣有標(biāo)簽的句子朝扼,以達(dá)到數(shù)據(jù)集的擴(kuò)充。

該圖示范了對(duì)一個(gè)句子輸入所進(jìn)行的替換霎肯。

  • 元素替換
    進(jìn)行替換的元素需要有相同的角色標(biāo)簽擎颖,為了保證被替換掉的數(shù)據(jù)可以呈現(xiàn)相似的語(yǔ)義,也就是語(yǔ)義相似观游、上下文語(yǔ)境相似搂捧,這里使用余弦相似度來(lái)衡量?jī)蓚€(gè)元素之前的相似度,用ELMo模型得到元素的向量表示懂缕,并統(tǒng)計(jì)概率值允跑,以分?jǐn)?shù)最高的作為替換元素。
  • 輔助token重寫(xiě)
    在已有元素替換的基礎(chǔ)上搪柑,作者認(rèn)為再添加一項(xiàng)輔助token的替換可以改善參數(shù)替換帶來(lái)的過(guò)擬合問(wèn)題聋丝,以調(diào)整表示的平滑度與多樣性。輔助token的替換由fine-tune實(shí)現(xiàn)工碾,先是以一定比例將輔助token設(shè)定為[mask]弱睦,再經(jīng)過(guò)模型依據(jù)上下文來(lái)生成更符合當(dāng)前語(yǔ)境的token以作替換。作者的實(shí)驗(yàn)中是將所有的輔助token都進(jìn)行了替換渊额。
  • 評(píng)測(cè)
    為了保證生成的句子可以對(duì)角色抽取產(chǎn)生積極的作用况木,作者使用了兩個(gè)值來(lái)對(duì)句子生成進(jìn)行評(píng)估:
    1.PPL:評(píng)估生成的合理性。
    2.DIS:評(píng)估生成語(yǔ)料與原有數(shù)據(jù)集之間的距離旬迹。
    (具體計(jì)算過(guò)程就不說(shuō)明了焦读,需要的可以參考論文~)

實(shí)驗(yàn)

PLMEE模型的結(jié)果:

寫(xiě)在最后

這篇論文比較有趣的一點(diǎn)是他統(tǒng)計(jì)了所有角色與事件類(lèi)型之間的關(guān)系RF-IEF,雖然相較于以前的工作舱权,這里會(huì)需要把多種不同標(biāo)簽都給計(jì)算一遍矗晃,但通過(guò)人為處理也是一個(gè)不錯(cuò)的選擇。我認(rèn)為理解這篇文章的難度在于需要掌握Bert的原理宴倍,由于我之前也沒(méi)好好研究過(guò)這個(gè)张症,所以看起來(lái)也特別費(fèi)勁仓技,事實(shí)證明Bert是真的很優(yōu)秀,這里的觸發(fā)詞識(shí)別與分類(lèi)模塊就將F1值提高了10個(gè)百分點(diǎn)俗他。句子生成這塊我覺(jué)得也是和Bert的Masked預(yù)訓(xùn)練原理結(jié)合的很巧妙脖捻,大多與Bert有關(guān)的我就沒(méi)有描述了,這里貼一個(gè)Bert模型講解兆衅,可以迅速上手~
還是新手地沮,水平有限,若有錯(cuò)誤還望不吝賜教~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載羡亩,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者摩疑。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市畏铆,隨后出現(xiàn)的幾起案子雷袋,更是在濱河造成了極大的恐慌,老刑警劉巖辞居,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件楷怒,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡瓦灶,警方通過(guò)查閱死者的電腦和手機(jī)鸠删,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)贼陶,“玉大人冶共,你說(shuō)我怎么就攤上這事∶拷纾” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵家卖,是天一觀的道長(zhǎng)眨层。 經(jīng)常有香客問(wèn)我,道長(zhǎng)上荡,這世上最難降的妖魔是什么趴樱? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮酪捡,結(jié)果婚禮上叁征,老公的妹妹穿的比我還像新娘。我一直安慰自己逛薇,他們只是感情好捺疼,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著永罚,像睡著了一般啤呼。 火紅的嫁衣襯著肌膚如雪卧秘。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天官扣,我揣著相機(jī)與錄音翅敌,去河邊找鬼。 笑死惕蹄,一個(gè)胖子當(dāng)著我的面吹牛蚯涮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播卖陵,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼遭顶,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了赶促?” 一聲冷哼從身側(cè)響起液肌,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎鸥滨,沒(méi)想到半個(gè)月后嗦哆,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡婿滓,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年老速,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片凸主。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡橘券,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出卿吐,到底是詐尸還是另有隱情旁舰,我是刑警寧澤,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布嗡官,位于F島的核電站箭窜,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏衍腥。R本人自食惡果不足惜磺樱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望婆咸。 院中可真熱鬧竹捉,春花似錦、人聲如沸尚骄。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至憾儒,卻和暖如春询兴,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背起趾。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工诗舰, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人训裆。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓眶根,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親边琉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子属百,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • ??JavaScript 與 HTML 之間的交互是通過(guò)事件實(shí)現(xiàn)的族扰。 ??事件,就是文檔或?yàn)g覽器窗口中發(fā)生的一些特...
    霜天曉閱讀 3,474評(píng)論 1 11
  • 本文上兩篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(中) 4.6 Bidirectional Encoder...
    weizier閱讀 6,394評(píng)論 1 22
  • 一定欧。 大山里 陡峭的山路 一個(gè)中年男人 抱著一個(gè)六七歲已經(jīng)昏迷的小女孩 一只手捂住小女孩的頭部 小女孩頭部鮮血染...
    jian123閱讀 235評(píng)論 0 0
  • 后天要去一個(gè)實(shí)習(xí)的面試渔呵,雖不是什么大公司,但卻在穿什么這件事上費(fèi)了好大功夫砍鸠。得出結(jié)論是±┣猓現(xiàn)在就要開(kāi)始咱衣服,鞋子了...
    Molly會(huì)飛的魚(yú)閱讀 310評(píng)論 0 0