知識(shí)抽取-事件抽取

此文為轉(zhuǎn)載,原文鏈接:知識(shí)抽取-事件抽取 - 徐阿衡的文章 - 知乎
https://zhuanlan.zhihu.com/p/50903358

接上一篇知識(shí)抽取-實(shí)體及關(guān)系抽取埠帕。

事件是促使事情狀態(tài)和關(guān)系改變的條件[Dong et.al., 2010]阱扬。目前已存在的知識(shí)資源(如維基百科等) 所描述實(shí)體及實(shí)體間的關(guān)系大多是靜態(tài)的,而事件能描述粒度更大的像屋、動(dòng)態(tài)的、 結(jié)構(gòu)化的知識(shí),是現(xiàn)有知識(shí)資源的重要補(bǔ)充项炼。

與[關(guān)系抽取]相比,事件抽取同樣需要從文本中抽取 predicate 和對(duì)應(yīng)的 arguments示绊,但不同的是芥挣,關(guān)系抽取的問(wèn)題是 binary 的,且兩個(gè) arguments 通常都會(huì)在同一個(gè)句子中出現(xiàn)耻台,而事件抽取的難點(diǎn)在于空免,有多個(gè) arguments 和 modifiers*,可能會(huì)分布在多個(gè)句子中盆耽,且有些 arguments 不是必須的蹋砚,這使得 bootstrapping/distant learning/coreference 都變得非常困難。

整體而言摄杂,事件抽取的任務(wù)可以分兩大類(lèi):

  • 事件識(shí)別和抽取
    從描述事件信息的文本中識(shí)別并抽取出事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)坝咐,包括發(fā)生的時(shí)間、地點(diǎn)析恢、參與角色以及與之相關(guān)的動(dòng)作或者狀態(tài)的改變墨坚。

  • 事件檢測(cè)和追蹤
    事件檢測(cè)與追蹤旨在將文本新聞流按照其報(bào)道的事件進(jìn)行組織,為傳統(tǒng)媒體多種來(lái)源的新聞監(jiān)控提供核心技術(shù)映挂,以便讓用戶了解新聞及其發(fā)展泽篮。具體而言盗尸,事件發(fā)現(xiàn)與跟蹤包括三個(gè)主要任務(wù):
    分割、發(fā)現(xiàn)和追蹤帽撑,將新聞文本分解為事件泼各,發(fā)現(xiàn)新的(不可預(yù)見(jiàn)的)事件,并跟蹤以前報(bào)道事件的發(fā)展亏拉。
    事件發(fā)現(xiàn)任務(wù)又可細(xì)分為歷史事件發(fā)現(xiàn)和在線事件發(fā)現(xiàn)兩種形式扣蜻,前者目標(biāo)是從按時(shí)間排序的新聞文檔中發(fā)現(xiàn)以前沒(méi)有識(shí)別的事件,后者則是從實(shí)時(shí)新聞流中實(shí)時(shí)發(fā)現(xiàn)新的事件及塘。

本文的重點(diǎn)在于事件識(shí)別與抽取莽使。首先看一下相關(guān)的核心概念:

  • 事件描述(Event Mention)
    描述事件的詞組/句子/句群,包含一個(gè) trigger 以及任意數(shù)量的 arguments
  • 事件觸發(fā)(Event Trigger)
    事件描述中最能代表事件發(fā)生的詞匯笙僚,決定事件類(lèi)別的重要特征吮旅,一般是動(dòng)詞或者名詞
  • 事件元素(Event Argument)
    事件的重要信息,或者說(shuō)是實(shí)體描述(entity mention)味咳,主要由實(shí)體庇勃、屬性值等表達(dá)完整語(yǔ)義的細(xì)粒度單位組成
  • 元素角色(Argument Role)
    事件元素在事件中扮演的角色,事件元素與事件的語(yǔ)義關(guān)系槽驶,可以理解為 slot
  • 事件類(lèi)型(Event Type)

事件識(shí)別和抽取

直觀上來(lái)看责嚷,可以把事件抽取的任務(wù)理解成從文本中找到特定類(lèi)別的事件,然后進(jìn)行填表的過(guò)程掂铐。

嚴(yán)肅些看下事件識(shí)別和抽取的任務(wù)定義:

Given a text document, an event extraction system should predict event triggers with specific sub-types and their arguments for each sentence.

也就是說(shuō)罕拂,事件抽取任務(wù)最基礎(chǔ)的部分包括:

  • 識(shí)別事件觸發(fā)詞及事件類(lèi)型
  • 抽取事件元素(Event Argument)同時(shí)判斷其角色(Argument Role)
  • 抽出描述事件的詞組或句子

當(dāng)然還有一些其他的子任務(wù)包括事件屬性標(biāo)注、事件共指消解等全陨。

事件抽取大多是分階段進(jìn)行爆班,通常由 trigger classifier 開(kāi)始,如果有 trigger辱姨,把 trigger 以及它的上下文作為特征進(jìn)行分類(lèi)判斷事件類(lèi)型柿菩,再進(jìn)行下一步的 argument classifier,對(duì)句子中的每個(gè) entity mention 進(jìn)行分類(lèi)雨涛,判斷是否是 argument枢舶,如果是,判定它的角色替久。

基于模式匹配的方法

MUCs 最開(kāi)始凉泄,事件抽取的系統(tǒng)都是基于人工編寫(xiě)的規(guī)則,基于語(yǔ)法樹(shù)或者正則表達(dá)式蚯根,如 CIRCUS (Lehnert 1991), RAPIER (Califf & Mooney 1997), SRV (Freitag 1998), AutoSlog (Riloff 1993), LIEP (Huffman 1995), PALKA (Kim & Moldovan 1995), CRYSTAL (Soderland et al. 1995), HASTEN (Krupka 1995) 等等后众,后來(lái),慢慢的有了監(jiān)督學(xué)習(xí)的模型,在 ACE 的階段蒂誉,大多數(shù)系統(tǒng)都是基于監(jiān)督學(xué)習(xí)了教藻,但由于標(biāo)注一致性的問(wèn)題,系統(tǒng)的效果普遍較差拗盒,ACE 事件抽取只舉行了一次,在 2005 年锥债。

下面先來(lái)看一下基于模板的抽取方法陡蝇,基本都是通過(guò) 句法(syntactic)語(yǔ)義約束(semantic constraints) 來(lái)進(jìn)行識(shí)別。

基于人工標(biāo)注語(yǔ)料

在早期哮肚,模板創(chuàng)建過(guò)程通常從一個(gè)大的標(biāo)注集開(kāi)始登夫,模板的產(chǎn)生完全基于人工標(biāo)注語(yǔ)料,學(xué)習(xí)效果高度依賴(lài)于人工標(biāo)注質(zhì)量允趟。

  • AutoSlog(Riloff)
    基本假設(shè):
    a. 事件元素首次提及之處即可確定該元素與事件間的關(guān)系
    b. 事件元素周?chē)恼Z(yǔ)句中包含了事件元素在事件中的角色描述
    通過(guò)監(jiān)督學(xué)習(xí)和人工審查來(lái)建立抽取規(guī)則恼策。通過(guò)訓(xùn)練數(shù)據(jù)中已經(jīng)填充好的槽(filled slot),AutoSlog 解析 slot 附近的句法結(jié)構(gòu)潮剪,來(lái)自動(dòng)形成抽取規(guī)則涣楷,由于這個(gè)過(guò)程產(chǎn)生的模板 too-general,所以需要人工來(lái)審核抗碰。本質(zhì)上形成的是一個(gè)字典狮斗。
    舉個(gè)例子
    Ricardo Castellar, the mayor, was kidnapped yesterday by the FMLN.
    假設(shè) Ricardo Castellar 被標(biāo)注成了 victim,AutoSlog 根據(jù)句法分析判斷出 Ricardo Castellar 是主語(yǔ)弧蝇,然后觸發(fā)了主語(yǔ)的相關(guān)規(guī)則 (subj) passive-verb碳褒,將句子中相關(guān)的單詞填充進(jìn)去就得到了規(guī)則 (victim) was kidnapped,所以在之后的文本中看疗,只要 kidnapped 在一個(gè)被動(dòng)結(jié)構(gòu)中出現(xiàn)沙峻,它對(duì)應(yīng)的主語(yǔ)就會(huì)被標(biāo)記為 victim。
  • PALKA
    基本假設(shè):特定領(lǐng)域中高頻出現(xiàn)的語(yǔ)言表達(dá)方式是可數(shù)的
    用語(yǔ)義框架和短語(yǔ)模式結(jié)構(gòu)來(lái)表示特定領(lǐng)域中的抽取模式两芳,通過(guò)融入 WordNet 的語(yǔ)義信息摔寨,PALKA 在特定領(lǐng)域可取得接近純?nèi)斯こ槿〉男Ч?/li>

基于弱監(jiān)督

人工標(biāo)注耗時(shí)耗力,且存在一致性問(wèn)題怖辆,而弱監(jiān)督方法不需要對(duì)語(yǔ)料進(jìn)行完全標(biāo)注祷肯,只需人工對(duì)語(yǔ)料進(jìn)行一定的預(yù)分類(lèi)或者制定種子模板,由機(jī)器根據(jù)預(yù)分類(lèi)語(yǔ)料或種子模板自動(dòng)進(jìn)行模式學(xué)習(xí)疗隶。

  • AutoSlog-TS
    Riloff and Shoen, 1995
    AutoSlog-TS 不需要進(jìn)行文本的標(biāo)注佑笋,只需要一個(gè)預(yù)先分類(lèi)好的訓(xùn)練語(yǔ)料,類(lèi)別是與該領(lǐng)域相關(guān)還是不相關(guān)斑鼻。過(guò)程是先過(guò)一遍語(yǔ)料庫(kù)蒋纬,對(duì)每一個(gè)名詞短語(yǔ)(根據(jù)句法分析識(shí)別)都產(chǎn)生對(duì)應(yīng)的抽取規(guī)則,然后再整體過(guò)一遍語(yǔ)料庫(kù),產(chǎn)生每個(gè)規(guī)則的一些相關(guān)統(tǒng)計(jì)數(shù)據(jù)蜀备,基本的 idea 是與不相關(guān)文本相比关摇,在相關(guān)文本中更常出現(xiàn)的抽取規(guī)則更有可能是好的抽取規(guī)則。假設(shè)訓(xùn)練語(yǔ)料中相關(guān)與不相關(guān)的文本比例是 1:1碾阁,對(duì)產(chǎn)生的每條抽取規(guī)則計(jì)算相關(guān)比率 relevance rate输虱,相關(guān)文檔中出現(xiàn)規(guī)則的實(shí)例數(shù)/整個(gè)語(yǔ)料庫(kù)中出現(xiàn)規(guī)則的實(shí)例數(shù),那么 relevance rate < 50% 的抽取規(guī)則就被丟棄了脂凶,剩下的規(guī)則會(huì)按照 relevance_rate * log(frequency) 的形式從高到低進(jìn)行排序宪睹,然后由人工進(jìn)行審核。

  • TIMES
    Chai and Biermann, 1998
    引入了領(lǐng)域無(wú)關(guān)的概念知識(shí)庫(kù) WordNet蚕钦,提升模式學(xué)習(xí)的泛化能力亭病,并通過(guò)人工或規(guī)則進(jìn)行詞義消歧,使最終的模式更加準(zhǔn)確

  • NEXUS
    Piskorski et.al., 2001; Tanev et.al., 2008
    用聚類(lèi)對(duì)語(yǔ)料進(jìn)行預(yù)處理

  • GenPAM
    Jiang, 2005
    在由特例生成泛化模式的學(xué)習(xí)過(guò)程中嘶居,有效利用模式間的相似性實(shí)現(xiàn)詞義消歧罪帖,最大限度地減少了人工的工作量和對(duì)系統(tǒng)的干預(yù)

小結(jié)

基于模式匹配的方法在特定領(lǐng)域中性能較好,知識(shí)表示簡(jiǎn)潔邮屁,便于理解和后續(xù)應(yīng)用整袁,但對(duì)于語(yǔ)言、領(lǐng)域和文檔形式都有不同程度的依賴(lài)佑吝,覆蓋度和可移植性較差葬项。

模式匹配的方法中,模板準(zhǔn)確性是影響整個(gè)方法性能的重要因素迹蛤。在實(shí)際應(yīng)用中民珍,模式匹配方法應(yīng)用非常廣泛,主要特點(diǎn)是高準(zhǔn)確率低召回率盗飒,要提高召回率嚷量,一是要建立更完整的模板庫(kù),二是可以用半監(jiān)督的方法來(lái)建 trigger 字典逆趣。

基于統(tǒng)計(jì) - 傳統(tǒng)機(jī)器學(xué)習(xí)

建立在統(tǒng)計(jì)模型基礎(chǔ)上蝶溶,事件抽取方法可以分為 pipelinejoint model 兩大類(lèi)。

Pipeline

將事件抽取任務(wù)轉(zhuǎn)化為多階段的分類(lèi)問(wèn)題(管道抽刃)抖所,需要順序執(zhí)行下面的分類(lèi)器:

  1. 事件觸發(fā)詞分類(lèi)器(Trigger Classifier)
    判斷詞匯是否是事件觸發(fā)詞,以及事件類(lèi)別
  2. 元素分類(lèi)器(Argument Classifier)
    詞組是否是事件元素元素
  3. 角色分類(lèi)器(Role Classifier)
    判定元素的角色類(lèi)別
  4. 屬性分類(lèi)器(Attribute Classifier)
    判定事件屬性
  5. 可報(bào)告性分類(lèi)器(Reportable-Event Classifier)
    判定是否存在值得報(bào)告的事件實(shí)例

分類(lèi)器可以用 MaxEnt, SVM痕囱。重點(diǎn)還是在于提取和集成有區(qū)分性的特征田轧,包括 **句子級(jí)信息 **和 篇章級(jí)信息

句子級(jí)信息:與候選詞相關(guān)的詞法特征鞍恢、上下文特征傻粘、實(shí)體特征每窖、句法特征、語(yǔ)言學(xué)特征等弦悉,如:

篇章級(jí)特征:
跨文檔利用全局信息窒典。對(duì)于一個(gè)句子級(jí)的抽取結(jié)果不僅要考慮當(dāng)前的置信度,還要考慮與待抽取文本相關(guān)的文本對(duì)它的影響稽莉,以及全局信息如事件與話題的關(guān)系瀑志,事件與事件的共現(xiàn)信息等,主要工作有:

  • Ji and Grishman, 2008
  • Liao and Grishman, 2010
  • Hong et.al., 2011
  • Liu et.al., 2016a

早期大部分的研究都是基于 Pipeline 方法污秆,然而它的問(wèn)題也很明顯:

  • 誤差傳遞劈猪,導(dǎo)致性能衰減
  • 各環(huán)節(jié)預(yù)測(cè)任務(wù)獨(dú)立,缺少互動(dòng)混狠,如忽略了事件觸發(fā)詞和事件元素之間的相互影響
  • 無(wú)法處理全局的依賴(lài)關(guān)系

Joint Model

又分為 Joint Inference 和 Joint Modeling 兩種岸霹。


Joint Inference
使用集成學(xué)習(xí)的思路疾层,將各模型通過(guò)整體優(yōu)化目標(biāo)整合起來(lái)将饺,可以通過(guò)整數(shù)規(guī)劃等方法進(jìn)行優(yōu)化。
Joint Modeling (Structured)
又可以稱(chēng)為基于結(jié)構(gòu)的方法痛黎,將事件結(jié)構(gòu)看作依存樹(shù)予弧,抽取任務(wù)相應(yīng)轉(zhuǎn)化為依存樹(shù)結(jié)構(gòu)預(yù)測(cè)問(wèn)題,觸發(fā)詞識(shí)別和元素抽取可以同時(shí)完成湖饱,共享隱層特征掖蛤,使用搜索進(jìn)行求解,避免了誤差傳播導(dǎo)致的性能下降井厌,另外蚓庭,全局特征也可以從整體的結(jié)構(gòu)中學(xué)習(xí)得到,從而使用全局的信息來(lái)提升局部的預(yù)測(cè)仅仆。相關(guān)工作有:

  • Li et.al., 2013aLi
    提出基于結(jié)構(gòu)感知機(jī)的聯(lián)合模型同時(shí)完成事件觸發(fā)詞識(shí)別和事件元素識(shí)別兩個(gè)子任務(wù)器赞,并通過(guò) beam search 縮小搜索解空間
  • Li et.al., 2014
    為了利用更多的句子級(jí)信息,Li 等提出利用結(jié)構(gòu)預(yù)測(cè)模型將實(shí)體墓拜、關(guān)系和事件進(jìn)行聯(lián)合抽取

盡管 Li 等人的聯(lián)合系統(tǒng)優(yōu)勢(shì)明顯港柜,但在未見(jiàn)詞和特征上缺乏泛化,人工提取的特征集是離散表達(dá)咳榜,能力有限夏醉。

幾種方法的 trigger 和 argument 抽取結(jié)果,可以看出涌韩,實(shí)體之間協(xié)同消歧對(duì)效果提升非常明顯

基于統(tǒng)計(jì) - 深度學(xué)習(xí)

上面的方法在特征提取過(guò)程中還是會(huì)依賴(lài)依存分析畔柔、句法分析、詞性標(biāo)注等傳統(tǒng)的外部 NLP 工具臣樱,還是會(huì)造成誤差積累释树,另外有些語(yǔ)言和領(lǐng)域并沒(méi)有這類(lèi)處理工具肠槽,加之特征也需要人工設(shè)定,2015 年起基于深度學(xué)習(xí)的事件抽取方法逐漸成為研究熱點(diǎn)奢啥,相比于傳統(tǒng)機(jī)器學(xué)習(xí)秸仙,深度學(xué)習(xí)方法優(yōu)勢(shì)明顯:

  • 減少對(duì)外部 NLP 工具的依賴(lài) , 甚至不依賴(lài) NLP 工具 桩盲, 建立成端對(duì)端的系統(tǒng)
  • 使用詞向量作為輸入寂纪,蘊(yùn)含更為豐富的語(yǔ)言特征
  • 自動(dòng)提取句子特征, 避免了人工特征設(shè)計(jì)的繁瑣工作

Pipeline - DMCNN

Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks Yubo Chen et. al., ACL 2015

自然語(yǔ)言處理中赌结,傳統(tǒng) CNN 使用的最大池化對(duì)一個(gè) feature map 只能得到一個(gè)最大值捞蛋,這對(duì)事件抽取并不適用,因?yàn)槭录槿≈幸粋€(gè)句子中可能會(huì)包含多個(gè)事件柬姚,一個(gè) argument candidate 在不同的 trigger 下也會(huì)扮演不同的角色拟杉,傳統(tǒng)的最大池化只保留“最重要”的信息,而丟失的信息會(huì)導(dǎo)致 multiple-event sentence 下的事件漏分量承。DMCNN 使用動(dòng)態(tài)多池化卷積能實(shí)現(xiàn)對(duì)一個(gè)句子中不同部分的最大值獲取搬设,以保留更多有價(jià)值的信息,邏輯和 PCNN 相似撕捍。

DMCNN 作者把事件抽取看做兩個(gè)階段的多分類(lèi)任務(wù)拿穴,第一步是觸發(fā)詞分類(lèi)(trigger classification),利用 DMCNN 對(duì)句子中每個(gè)詞進(jìn)行分類(lèi)忧风,判斷是否是觸發(fā)詞默色,如果句子中存在觸發(fā)詞,執(zhí)行第二步論元分類(lèi)(argument classification)狮腿,同樣使用 DMCNN腿宰,給 trigger 分配 arguments,同時(shí)匹配 arguments 到 role缘厢,以第二個(gè)任務(wù)為例介紹一下過(guò)程吃度。

主要包括四個(gè)部分,以 argument classification 為例:

  1. 詞向量學(xué)習(xí)昧绣;
  2. Lexical-level 詞匯級(jí)別特征提取规肴;
    候選論元/觸發(fā)詞及其前后單詞的詞向量
  3. Sentence-level 句子級(jí)別特征提取
    輸入特征:
    a. Context-word feature(CWF)
    b. Position feature(PF)當(dāng)前詞語(yǔ)和候選論元/觸發(fā)詞之間的相對(duì)距離夜畴,距離值用向量表示拖刃,隨機(jī)初始化
    c. Event-type feature(EF)當(dāng)前 trigger 對(duì)應(yīng)的事件類(lèi)型特征
    d. CWF, PF, EF 拼接作為卷積的輸入卷積后,根據(jù) candidate argument 和 predicted trigger 將 feature map 分成三部分贪绘,分別對(duì)各部分進(jìn)行最大池化
  4. Output 分類(lèi)輸出
    拼接詞匯級(jí)別和句子級(jí)別的特征 F=[L, P]O = WF+b 算分兑牡,進(jìn)行 softmax,得到 argument role 的類(lèi)別

Trigger classification 階段:

  • Lexical-level
    只使用候選觸發(fā)詞和其左右token
  • Sentence-level
    CWF + PF税灌,PF 只使用候選觸發(fā)詞的位置作為嵌入位置特征
    句子由觸發(fā)詞分割成兩部分

DMCNN的表現(xiàn):


DMCNN 的效果是突破性的均函,但分兩個(gè)階段的預(yù)測(cè)仍有誤差傳遞的問(wèn)題亿虽,也沒(méi)有利用好 trigger 和 argument 之間的依賴(lài)關(guān)系

Joint Model - JRNN

JRNN: Joint Event Extraction via Recurrent Neural Networks, ACL 2016

Nguyen et.al., 2016 通過(guò) RNN 用聯(lián)合方法解決時(shí)間抽取的問(wèn)題苞也,繼承了 Li (2013) 和 Chen (2015) 的優(yōu)點(diǎn)洛勉,并克服了它們的一些缺陷。


  1. Encoding phase
    word embedding + entity type embedding + dependency tree relationdependency tree relation 是 binary 的如迟,個(gè)人理解應(yīng)該是維度對(duì)應(yīng)依存樹(shù)中單詞間所有可能的關(guān)系(如 conj_and, advcl 等)收毫,只有在依存樹(shù) W 中存在與 w_i 連接的一條對(duì)應(yīng)邊(如 conj_and 連接了 w_i 與 w_j)時(shí),該維度(conj_and 對(duì)應(yīng)維度)的值才設(shè)為 1殷勘,這個(gè)向量在 Li et al., 2013 的研究中是有用的此再。沒(méi)有用到位置特征,因?yàn)橥瑫r(shí)預(yù)測(cè) trigger 和 argument roles玲销,沒(méi)有固定的錨點(diǎn)输拇。雙向 GRU 進(jìn)行編碼

  2. Prediction phase





    當(dāng)輸入句子包含多個(gè)事件時(shí)(1/N),JRNN 明顯優(yōu)于其他方法贤斜。特別是策吠,JRNN 在觸發(fā)詞識(shí)別上 DMCNN 好13.9%,而論元分類(lèi)的相應(yīng)改進(jìn)為 6.5%蠢古,從而進(jìn)一步表明 JRNN 具有記憶功能的好處奴曙。在單事件句子(1/1)的表現(xiàn)上别凹,JRNN 在觸發(fā)詞分類(lèi)上仍然是最好的系統(tǒng)草讶,盡管在論元分類(lèi)上比 DMCNN 要差一些。

弱監(jiān)督/語(yǔ)料擴(kuò)充

有監(jiān)督的方法需要大量的標(biāo)注樣本炉菲,人工標(biāo)注耗時(shí)耗力堕战,還存在一致性的問(wèn)題,因此弱監(jiān)督方法也是事件抽取的一個(gè)重要分支拍霜。
Chen 等提出利用部分高質(zhì)量的標(biāo)注語(yǔ)料訓(xùn)練分類(lèi)器嘱丢,然后利用初步訓(xùn)練好的分類(lèi)器判斷未標(biāo)注的數(shù)據(jù),選取高置信度的分類(lèi)樣本作為訓(xùn)練樣本祠饺,通過(guò)迭代自動(dòng)擴(kuò)充訓(xùn)練樣本[Chen and Ji, 2009]越驻。Liao 等在相關(guān)文檔中使用自訓(xùn)練的(Self-Training)的半監(jiān)督學(xué)習(xí)方法擴(kuò)展標(biāo)注語(yǔ)料,并利用全局推理的方法考慮樣例的多樣性進(jìn)而完成事件抽鹊劳怠缀旁;進(jìn)一步提出同時(shí)針對(duì)詞匯和句子兩個(gè)粒度訓(xùn)練最大熵分類(lèi)器,并用協(xié)同訓(xùn)練(Co-training)的方法擴(kuò)展標(biāo)注數(shù)據(jù)勺鸦,進(jìn)而對(duì)分類(lèi)器進(jìn)行更充分的訓(xùn)練[Liao and Grishman, 2011a; 2011b]并巍。

而目前,弱監(jiān)督/訓(xùn)練數(shù)據(jù)生成方面比較流行的方向有利用外部資源换途,通過(guò)遠(yuǎn)程監(jiān)督懊渡,以及跨語(yǔ)料遷移的方法刽射。

外部資源
Leveraging FrameNet to Improve Automatic Event Detection, ACL2016
FrameNet 是語(yǔ)言學(xué)家定義及標(biāo)注的語(yǔ)義框架資源,采用層級(jí)的組織結(jié)構(gòu)剃执,有1000+框架誓禁、1000+詞法單元、150000+標(biāo)注例句肾档。在結(jié)構(gòu)上现横,F(xiàn)rameNet 和事件抽取有著很高的相似性,一個(gè)框架由一個(gè)詞法單元和若干框架元素組成阁最,一個(gè)事件有觸發(fā)詞和若干事件角色組成戒祠。另外,F(xiàn)rameNet 中很多 frame 其實(shí)也能夠表示某些事件速种,如

因此姜盈,Liu 等利用 ACE 語(yǔ)料訓(xùn)練的分類(lèi)器去判定 FrameNet 中句子的事件類(lèi)別,再利用全局推斷將 FrameNet 的語(yǔ)義框架和 ACE 中的事件類(lèi)別進(jìn)行映射配阵,進(jìn)而利用 FrameNet 中人工標(biāo)注的事件樣例擴(kuò)展訓(xùn)練數(shù)據(jù)以提升事件檢測(cè)性能 [Liu et.al., 2016b]馏颂。

遠(yuǎn)程監(jiān)督

Automatically Labeled Data Generation for Large Scale Event Extraction, ACL2017

Yubo Chen 提出運(yùn)用結(jié)構(gòu)化的知識(shí)庫(kù)來(lái)以及遠(yuǎn)程監(jiān)督的方法來(lái)自動(dòng)生成大規(guī)模事件語(yǔ)料。

當(dāng)把關(guān)系抽取中常用的遠(yuǎn)程監(jiān)督方法用到事件抽取中時(shí)棋傍,會(huì)發(fā)現(xiàn)有下面兩個(gè)問(wèn)題救拉,一是現(xiàn)有事件知識(shí)庫(kù)(如 Freebase)中缺乏觸發(fā)詞信息,如上圖瘫拣,在關(guān)系抽取中亿絮,我們可以用兩個(gè)論元 Barack Obama, Michelle Obama 進(jìn)行回標(biāo),但是在事件抽取中麸拄,marriage 這一事件類(lèi)型在 Freebase 中被表示為 m.02nqglv派昧,所以我們不能直接用事件類(lèi)型和論元來(lái)進(jìn)行回標(biāo),在用 DS 前拢切,必須先檢測(cè)觸發(fā)詞蒂萎。

根據(jù) DS 在 RE 中的應(yīng)用,可以假設(shè)如果一個(gè)句子中出現(xiàn)了所有的論元淮椰,那么這個(gè)句子就可以被作為是一個(gè)事件五慈,句子中的動(dòng)詞就可以作為觸發(fā)詞。然而一個(gè)事件中的論元可能出現(xiàn)在多個(gè)句子中主穗,如果用所有論元來(lái)進(jìn)行句子的回標(biāo)泻拦,那么能抽出的訓(xùn)練數(shù)據(jù)就非常少了,所以應(yīng)該對(duì)論元進(jìn)行排序黔牵,選擇有代表性的論元進(jìn)行回標(biāo)聪轿。

整個(gè)流程如下,首先對(duì) Freebase 中的核心論元進(jìn)行檢測(cè)猾浦,根據(jù)角色顯著性(role saliency)陆错、事件相關(guān)性( event relevance)核心率(key rate) 對(duì)論元進(jìn)行優(yōu)先級(jí)排序灯抛,接著利用所有的核心論元去 Wikipeida 中回標(biāo),根據(jù)觸發(fā)率(trigger rate)音瓷、觸發(fā)詞頻率( trigger candidate frequency)对嚼、觸發(fā)詞事件頻率(trigger event type frequency)來(lái)進(jìn)行觸發(fā)詞檢測(cè),這一階段得到的觸發(fā)詞表中只有動(dòng)詞绳慎,缺少名詞纵竖,也存在噪聲,于是再利用 FrameNet 過(guò)濾動(dòng)詞性觸發(fā)詞中的噪聲杏愤,同時(shí)擴(kuò)展名詞性觸發(fā)詞靡砌,最后利用 Soft Distant Supervision 來(lái)自動(dòng)生成標(biāo)注數(shù)據(jù)。

還有方法如 Karthik Narasimhan et al., EMNLP 2016珊楼,從網(wǎng)絡(luò)獲取同一事件的不同報(bào)道通殃,再使用強(qiáng)化學(xué)習(xí)方法,做信息融合的決策(互補(bǔ)信息的融合厕宗、冗余信息的選擇)画舌。

跨語(yǔ)料遷移
由于目前中文事件抽取缺少公認(rèn)語(yǔ)料,很多學(xué)者嘗試?yán)矛F(xiàn)有大量的高質(zhì)量英文標(biāo)注語(yǔ)料輔助中文事件抽取已慢。Chen 等首次提出該想法并利用跨語(yǔ)言協(xié)同訓(xùn)練的 Bootstrap 方法進(jìn)行事件抽取[Chen and Ji, 2009]曲聂。Ji 提出基于中英文單語(yǔ)事件抽取系統(tǒng)和基于并行語(yǔ)料兩種構(gòu)建跨語(yǔ)言同義謂詞集合的方法輔助進(jìn)行中文事件抽取[Ji, 2009],Zhu 等利用機(jī)器翻譯同時(shí)擴(kuò)大中文和英文訓(xùn)練語(yǔ)料佑惠,聯(lián)合利用兩種語(yǔ)料進(jìn)行事件抽取[Zhu et.al., 2014]朋腋。Hsi 等聯(lián)合利用符號(hào)特征和分布式特征的方法,利用英文事件語(yǔ)料提升中文事件抽取的性能[Hsi et.al., 2016]兢仰。

Event Detection via Gated Multilingual Attention Mechanism, AAAI2018

Motivation:

  1. 多語(yǔ)言一致性乍丈,不同語(yǔ)言中表達(dá)了相同含義的句子往往包含相同的語(yǔ)義成分如 MeiGuo TanKe 和 American tank 表達(dá)了相同含義剂碴,都是武器
  2. 多語(yǔ)言互補(bǔ)把将,某個(gè)詞在一種語(yǔ)言中有歧義,但在另一種語(yǔ)言中缺沒(méi)有歧義如英文 fire忆矛,因?yàn)橛虚_(kāi)火和解雇兩種意思,所以對(duì)應(yīng)事件可能是 Attack 也可能是 End-Position,然而在中文中開(kāi)火餐抢,Attach 類(lèi)型偿衰,解雇就是 End-Position 類(lèi)型,兩個(gè)詞沒(méi)有相同語(yǔ)義

所以文章提出了兩種 attention 機(jī)制漫拭,一是利用多語(yǔ)言一致性亚兄,分別對(duì)每種語(yǔ)言進(jìn)行單語(yǔ)語(yǔ)境的注意力計(jì)算,對(duì)每個(gè)候選觸發(fā)詞采驻,對(duì)其上下文進(jìn)行注意力機(jī)制审胚,注意力權(quán)重表示句子中不同單詞對(duì)預(yù)測(cè)事件類(lèi)型的重要性匈勋,二是利用互補(bǔ)信息,用 gated cross-lingual attention 來(lái)模擬其他語(yǔ)言的可信度膳叨,gate 來(lái)控制目標(biāo)語(yǔ)言流向源語(yǔ)言的信息洽洁,集成多語(yǔ)言的信息。

中文事件抽取

目前事件抽取的相關(guān)研究大部分是面向英文文本菲嘴,中文文本的工作才剛起步饿自,一方面,中文的自身特點(diǎn)(需要分詞龄坪、缺少時(shí)態(tài)和形態(tài)的變換)有一定挑戰(zhàn)昭雌,另一方面,數(shù)據(jù)集上也缺乏統(tǒng)一健田、公認(rèn)的語(yǔ)料資源和相關(guān)評(píng)測(cè)城豁。盡管如此,近年來(lái)中文事件抽取在公開(kāi)評(píng)測(cè)抄课、領(lǐng)域擴(kuò)展及上述的跨語(yǔ)料遷移方面也都取得了一些進(jìn)展唱星。

公開(kāi)評(píng)測(cè)方面,除了在模型方面的創(chuàng)新[Chen and Ng, 2012;Li et.al., 2012a;2013b]跟磨,在中文語(yǔ)言特性的利用方面间聊,Li 等通過(guò)中文詞語(yǔ)的形態(tài)結(jié)構(gòu)、同義詞等信息捕獲更多的未知觸發(fā)詞抵拘,進(jìn)而解決中文事件抽取面臨的分詞錯(cuò)誤和訓(xùn)練數(shù)據(jù)稀疏等問(wèn)題哎榴; 進(jìn)一步細(xì)分中文事件觸發(fā)詞內(nèi)部的組合語(yǔ)義(復(fù)合、附加和轉(zhuǎn)化)僵蛛,進(jìn)而提高系統(tǒng)的性能[Li et.al., 2012b]尚蝌。Ding 等利用聚類(lèi)的方法自動(dòng)生成新事件類(lèi)型的語(yǔ)料, 在抽取過(guò)程中特別地考慮了待抽取文本的 HowNet 相似度[Ding et.al., 2013]充尉。

特定領(lǐng)域方面飘言,國(guó)內(nèi)很多機(jī)構(gòu)均面向?qū)嶋H應(yīng)用展開(kāi)特定領(lǐng)域的事件抽取研究, 覆蓋突發(fā)災(zāi)難驼侠、金融姿鸿、軍事、體育倒源、音樂(lè)等多個(gè)領(lǐng)域苛预。例如,Zhou 等針對(duì)金融領(lǐng)域事件中的收購(gòu)笋熬、分紅和貸款三個(gè)典型事件热某,提出自動(dòng)構(gòu)建抽取規(guī)則集的方法進(jìn)行中文金融領(lǐng)域事件抽取 [Zhou, 2003];Liang 等利用事件框架的歸納和繼承特性實(shí)現(xiàn)對(duì)災(zāi)難事件的抽取[Liang and Wu, 2006]。

其他方向的一些 Paper:
特征表示:
– Argument Attention: Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms (ACL2017)多事件抽任舨觥:
– HBTNGMA: Collective Event Detection via a Hierarchical and Bias Tagging Networks with GatedMulti-level Attention (EMNLP-2018)
篇章級(jí)事件抽任叻薄:
– DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically LabeledTraining Data (ACL 2018)
事件關(guān)系抽取:
– ATT-ERNN: Attention-based Event Relevance Model for Stock Price Movement Prediction (CCKS-2017 Best Paper Award)
– MLNN: Event Coreference Resolution via Multi-loss Neural Network without Arguments (CCKS-2018)

主流方法包括基于相似度聚類(lèi)和基于概率統(tǒng)計(jì)兩類(lèi)绒极。在這不多做介紹骏令。以后有時(shí)間再補(bǔ)充。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末垄提,一起剝皮案震驚了整個(gè)濱河市榔袋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌铡俐,老刑警劉巖凰兑,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異审丘,居然都是意外死亡吏够,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)滩报,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)锅知,“玉大人,你說(shuō)我怎么就攤上這事脓钾∈鄱茫” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵可训,是天一觀的道長(zhǎng)昌妹。 經(jīng)常有香客問(wèn)我,道長(zhǎng)握截,這世上最難降的妖魔是什么飞崖? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮谨胞,結(jié)果婚禮上固歪,老公的妹妹穿的比我還像新娘。我一直安慰自己畜眨,他們只是感情好昼牛,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著康聂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪胞四。 梳的紋絲不亂的頭發(fā)上恬汁,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音辜伟,去河邊找鬼氓侧。 笑死脊另,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的约巷。 我是一名探鬼主播偎痛,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼独郎!你這毒婦竟也來(lái)了踩麦?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤氓癌,失蹤者是張志新(化名)和其女友劉穎谓谦,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體贪婉,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡反粥,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了疲迂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片才顿。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖尤蒿,靈堂內(nèi)的尸體忽然破棺而出娜膘,到底是詐尸還是另有隱情,我是刑警寧澤优质,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布竣贪,位于F島的核電站,受9級(jí)特大地震影響巩螃,放射性物質(zhì)發(fā)生泄漏演怎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一避乏、第九天 我趴在偏房一處隱蔽的房頂上張望爷耀。 院中可真熱鬧,春花似錦拍皮、人聲如沸歹叮。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)咆耿。三九已至,卻和暖如春爹橱,著一層夾襖步出監(jiān)牢的瞬間萨螺,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留慰技,地道東北人椭盏。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像吻商,于是被迫代替她去往敵國(guó)和親掏颊。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容