本文主要復(fù)述論文["Exploring Pre-trained Language Models for Event Extraction and Generation"] 的內(nèi)容贯吓,以便自我回顧孝情,也希望可以給大噶帶來(lái)幫助~
摘要
這篇文章研究事件抽取的角度是從有標(biāo)簽的訓(xùn)練數(shù)據(jù)描述的改含,以往的EE任務(wù)依賴(lài)于人工標(biāo)注數(shù)據(jù)趋翻,而不充分的訓(xùn)練數(shù)據(jù)會(huì)影響模型的效果护糖。文章采用了一個(gè)預(yù)訓(xùn)練語(yǔ)言模型來(lái)提取事件觸發(fā)詞侦副,通過(guò)角色預(yù)測(cè)分離方法來(lái)處理角色抽取任務(wù)中的角色重疊問(wèn)題竹挡,并利用Bert模型的Masked LM來(lái)自動(dòng)生成標(biāo)簽數(shù)據(jù)趾疚。該模型在ACE05數(shù)據(jù)集上的表現(xiàn)没咙,事件抽取任務(wù)上達(dá)到了81.1%的F1值猩谊,角色抽取任務(wù)上達(dá)到了58.9%的F1值。
介紹
角色重疊問(wèn)題
ACE05數(shù)據(jù)集上10%的事件有角色重疊問(wèn)題祭刚,例句The explosion killed the bomber and three shoppers
中killed
觸發(fā)事件牌捷,元素the bomber
既可以觸發(fā)角色,又有角色涡驮。之前的工作中會(huì)將該元素第一次被預(yù)測(cè)到的角色類(lèi)型判定為分類(lèi)好的角色標(biāo)簽暗甥,而沒(méi)有考慮該角色在多個(gè)角色類(lèi)型中的概率。
標(biāo)簽數(shù)據(jù)不足問(wèn)題
監(jiān)督學(xué)習(xí)下的事件抽取依賴(lài)于大量人工標(biāo)注的數(shù)據(jù)集捉捅,而ACE數(shù)據(jù)集當(dāng)中給出的事件標(biāo)簽數(shù)量有限撤防。為了解決這一問(wèn)題,之前也有工作通過(guò)遠(yuǎn)程監(jiān)督的方法來(lái)生成事件類(lèi)型標(biāo)簽擴(kuò)充訓(xùn)練集棒口,但這一方法也是依賴(lài)于源數(shù)據(jù)集的數(shù)量與質(zhì)量寄月。
解決方法
論文提出了預(yù)訓(xùn)練語(yǔ)言模型,利用從語(yǔ)料庫(kù)中獲得的知識(shí)來(lái)進(jìn)行事件生成陌凳。預(yù)訓(xùn)練語(yǔ)言模型包括事件抽取模型與角色抽取模型剥懒,角色重疊問(wèn)題通過(guò)計(jì)算角色類(lèi)型與事件類(lèi)型之間的關(guān)系,來(lái)重置角色分類(lèi)的概率值合敦。事件類(lèi)型標(biāo)簽也是通過(guò)這個(gè)預(yù)訓(xùn)練語(yǔ)言模型實(shí)踐初橘,將原訓(xùn)練集作為樣本,通過(guò)參數(shù)替換和輔助token重置這兩步生成新的事件類(lèi)型充岛。
預(yù)訓(xùn)練語(yǔ)言模型
預(yù)訓(xùn)練語(yǔ)言模型(PLMEE)由觸發(fā)詞提取保檐、角色提取兩個(gè)階段組成,二者的特征表示學(xué)習(xí)均在BERT模型上進(jìn)行崔梗。整體模型框架由Figure3描述:觸發(fā)詞提取
事件抽取部分是直接用Bert模型得到詞向量表示夜只,最后加個(gè)分類(lèi)器完成觸發(fā)詞的提取。值得說(shuō)明的是蒜魄,這里每個(gè)token的輸入由三部分組成:word embedding + segment + position
扔亥,整個(gè)模型基于句子級(jí)別场躯,這里的segments
設(shè)為0。其他設(shè)定則與Bert保持一致旅挤。
元素提取
對(duì)于第一階段提取到的觸發(fā)詞踢关,這里會(huì)提取與其相關(guān)的成分的所有可能角色。作者總結(jié)的元素提取有三個(gè)難點(diǎn):1.元素對(duì)觸發(fā)詞的依賴(lài)性粘茄;2.元素大多由長(zhǎng)名詞短語(yǔ)構(gòu)成签舞;3.角色重疊。模型框架設(shè)定與前一階段相似柒瓣,也是需要注意的一點(diǎn):特征表示輸入的segment
將觸發(fā)詞所在的span設(shè)為1儒搭。
分類(lèi)器則是設(shè)為所有角色標(biāo)簽的集合,即為對(duì)每個(gè)元素判斷所有角色類(lèi)型的概率芙贫,并在其分類(lèi)器上設(shè)置一個(gè)二元組搂鲫,用來(lái)判定該角色下的token的span,該跨度由(start, end)
組成磺平。通過(guò)對(duì)每種可能的角色標(biāo)簽進(jìn)行計(jì)算默穴,改善角色重疊問(wèn)題。
角色span的判定
判定角色的span褪秀,也就是如何更準(zhǔn)確得到每個(gè)token的(start, end)
域值。首先薛训,對(duì)于每一個(gè)token媒吗,經(jīng)softmax分別計(jì)算在角色下的起始點(diǎn)的概率與結(jié)束點(diǎn)的概率:
損失權(quán)重重置
論文中處理一個(gè)元素有多種角色時(shí)應(yīng)該被分類(lèi)的角色標(biāo)簽甫何,依據(jù)了同一事件中每種角色出現(xiàn)的可能性會(huì)大不相同這一事實(shí)。因此文中給出了當(dāng)前角色在一個(gè)事件中的重要性判定條件:RF-IEF(這一定義與詞頻的TF-IDF類(lèi)似)遇伞,辙喂。由這一指標(biāo)可以得到角色在事件類(lèi)型中的重要程度:
生成標(biāo)簽數(shù)據(jù)
生成新的標(biāo)簽是將原有數(shù)據(jù)集作為樣本炬太,通過(guò)模型學(xué)習(xí)到新的之前沒(méi)有標(biāo)簽的詞并加入到訓(xùn)練集中,以起到擴(kuò)充語(yǔ)料的作用驯耻。這里是采用了Bert的Mask預(yù)訓(xùn)練方法亲族,通過(guò)兩個(gè)步驟:1.句中的元素替換為有相同角色標(biāo)簽的其他元素炒考;2.利用Bert的fine-tune替換觸發(fā)詞的輔助token。這里需要注意的幾點(diǎn):
1.輔助token是原有樣本數(shù)據(jù)集里未被識(shí)別成觸發(fā)詞或角色的token霎迫,除了詞斋枢、數(shù)字,還可以包括標(biāo)點(diǎn)女气。
2.元素替換是將具有相同角色標(biāo)簽的元素進(jìn)行代換杏慰。因此需要預(yù)先統(tǒng)計(jì)所有的實(shí)體以及對(duì)應(yīng)標(biāo)簽構(gòu)成{arg : role}
字典集,并且這個(gè)字典集不包括有角色重疊的元素炼鞠。
3.這里的數(shù)據(jù)集擴(kuò)充并非給沒(méi)有標(biāo)簽的數(shù)據(jù)加上標(biāo)簽缘滥,而是保持觸發(fā)詞與角色的個(gè)數(shù)不變,通過(guò)輔助元素的替換將觸發(fā)詞與角色所在句子的成分做更改谒主,獲得同樣有標(biāo)簽的句子朝扼,以達(dá)到數(shù)據(jù)集的擴(kuò)充。
- 元素替換
進(jìn)行替換的元素需要有相同的角色標(biāo)簽擎颖,為了保證被替換掉的數(shù)據(jù)可以呈現(xiàn)相似的語(yǔ)義,也就是語(yǔ)義相似观游、上下文語(yǔ)境相似搂捧,這里使用余弦相似度來(lái)衡量?jī)蓚€(gè)元素之前的相似度,用ELMo模型得到元素的向量表示懂缕,并統(tǒng)計(jì)概率值允跑,以分?jǐn)?shù)最高的作為替換元素。 - 輔助token重寫(xiě)
在已有元素替換的基礎(chǔ)上搪柑,作者認(rèn)為再添加一項(xiàng)輔助token的替換可以改善參數(shù)替換帶來(lái)的過(guò)擬合問(wèn)題聋丝,以調(diào)整表示的平滑度與多樣性。輔助token的替換由fine-tune實(shí)現(xiàn)工碾,先是以一定比例將輔助token設(shè)定為[mask]
弱睦,再經(jīng)過(guò)模型依據(jù)上下文來(lái)生成更符合當(dāng)前語(yǔ)境的token以作替換。作者的實(shí)驗(yàn)中是將所有的輔助token都進(jìn)行了替換渊额。 - 評(píng)測(cè)
為了保證生成的句子可以對(duì)角色抽取產(chǎn)生積極的作用况木,作者使用了兩個(gè)值來(lái)對(duì)句子生成進(jìn)行評(píng)估:
1.PPL:評(píng)估生成的合理性。
2.DIS:評(píng)估生成語(yǔ)料與原有數(shù)據(jù)集之間的距離旬迹。
(具體計(jì)算過(guò)程就不說(shuō)明了焦读,需要的可以參考論文~)
實(shí)驗(yàn)
PLMEE模型的結(jié)果:寫(xiě)在最后
這篇論文比較有趣的一點(diǎn)是他統(tǒng)計(jì)了所有角色與事件類(lèi)型之間的關(guān)系RF-IEF,雖然相較于以前的工作舱权,這里會(huì)需要把多種不同標(biāo)簽都給計(jì)算一遍矗晃,但通過(guò)人為處理也是一個(gè)不錯(cuò)的選擇。我認(rèn)為理解這篇文章的難度在于需要掌握Bert的原理宴倍,由于我之前也沒(méi)好好研究過(guò)這個(gè)张症,所以看起來(lái)也特別費(fèi)勁仓技,事實(shí)證明Bert是真的很優(yōu)秀,這里的觸發(fā)詞識(shí)別與分類(lèi)模塊就將F1值提高了10個(gè)百分點(diǎn)俗他。句子生成這塊我覺(jué)得也是和Bert的Masked預(yù)訓(xùn)練原理結(jié)合的很巧妙脖捻,大多與Bert有關(guān)的我就沒(méi)有描述了,這里貼一個(gè)Bert模型講解兆衅,可以迅速上手~
還是新手地沮,水平有限,若有錯(cuò)誤還望不吝賜教~