論文閱讀:Automatically Labeled Data Generation for Large Scale Event Extraction

簡介

這篇文章關(guān)注對event extraction提供標(biāo)注數(shù)據(jù)的方法。傳統(tǒng)的hand-labeled的訓(xùn)練數(shù)據(jù)非常昂貴犁珠,并且event覆蓋的非常有限缭裆。這使得一些supervised的方法很難去抽取大規(guī)模的event來進(jìn)行KBP(knowledge base population)。

我們知道底挫,關(guān)系抽取中可以用遠(yuǎn)程監(jiān)督的方法來自動標(biāo)注數(shù)據(jù),一種想法就是可以不可以把這種方法擴(kuò)展到event extraction脸侥。然而這樣會有兩個問題:

  • 第一個問題
    事件抽取的目標(biāo)是檢測事件實例的類型并抽取其argument及role建邓,即(event \, instance, event \, type; role_1, argument_1; role_2, argument_2; ...; role_n, argument_n)在Freebase等knowledge base中,事件的表示如圖所示:
    example-of-ee.png

    矩形表示事件實例的arguments睁枕,連接arguments和事件實例的每條邊都表示arguments的role官边,這樣看好像是可以使用遠(yuǎn)程監(jiān)督自動標(biāo)注數(shù)據(jù)沸手,但是在通常的事件抽取中,一個事件實例通常是使用trigger word來表示的注簿,但在現(xiàn)有的knowledge base 中并不存在事件的triggers契吉。為了解決這個問題,所以需要在使用遠(yuǎn)程監(jiān)督前找到事件的trigger word诡渴。
  • 第二個問題
    一個句子實際上并不能夠包含某一事件的所有參數(shù)捐晶,簡單地使用知識庫中的所有參數(shù)在句子中進(jìn)行標(biāo)記,將只有很少的句子滿足條件妄辩,因此作者選擇了幾個具有代表性的參數(shù)來代表事件惑灵。

方法

作者提出了一個利用world knowledge(Freebase)和linguistic knowledge(FrameNet)來自動標(biāo)注event extraction所需要的數(shù)據(jù)的方法。這個方法能夠探測到每一個event type的key argument和trigger word眼耀,然后用它們來從文本中標(biāo)注event英支。


method.png

方法主要分為4步:

  1. Key Argument Detection
    使用Key Rate(KR) 來衡量某一事件類型中各個參數(shù)的重要性,然后在Freebase中計算每個事件類型中所有argument的KR哮伟,然后選擇前K大個作為key argument干花。
    計算KR公式如下:
    K R_{i j}=R S_{i j} * E R_{i}
    其中,RS為角色顯著性(Role Saliency)楞黄。區(qū)分同一類型中一個事件實例和另一個事件實例把敢。
    R S_{i j}=\frac{\operatorname{Count}\left(A_{i}, E T_{j}\right)}{\operatorname{Count}\left(E T_{j}\right)}
    分子:eventType_j所有實例中出現(xiàn)Argument_i的數(shù)量,
    分母:eventType_j實例的總數(shù)谅辣。
    某一參數(shù)在某一特定類型中出現(xiàn)越多修赞,說明RS越大,越能代表這個類型的特點桑阶。
    ER為事件相關(guān)性(Event Relevance)柏副。區(qū)分不同事件類型。
    E R_{i}=\log \frac{\operatorname{Sum}(E T)}{1+\operatorname{Count}(E T C i)}
    分子:所有事件類型總數(shù)蚣录,
    分母:出現(xiàn)過Argument_i的事件類型的數(shù)量割择。
    如果一個參數(shù)在所有事件類型中都出現(xiàn),那么則這個參數(shù)區(qū)分性不高萎河,具有較低的ER荔泳。

  2. Trigger Word Detection
    包含所有key argument的句子更有可能表示Freebase中對應(yīng)的事件實例,首先使用key arguments在Wikipeida中篩選標(biāo)注句子虐杯,然后使用這些句子來進(jìn)行觸發(fā)詞檢測玛歌。
    這里有一個假設(shè):出現(xiàn)在這些句子中動詞往往傾向于觸發(fā)這類事件。
    動詞在同一種類型的事件中出現(xiàn)很多次擎椰,說明有可能為此事件的觸發(fā)詞支子,而如果動詞在不同類型中均出現(xiàn),則為觸發(fā)詞的概率很小达舒。作者使用Trigger Rate (TR)來衡量動詞是trigger word的概率值朋,最后選擇具有較高TR的動詞作為對應(yīng)事件類型的trigger word叹侄。
    計算TR公式如下:
    T R_{i j}=T C F_{i j} * T E T F_{i}
    其中,Trigger Candidate Frequency (TCF)動詞在同一類型事件中出現(xiàn)的頻率昨登。
    T C F_{i j}=\frac{\operatorname{Count}\left(V_{i}, E T S_{j}\right)}{\operatorname{Count}\left(E T S_{j}\right)}
    分子:j類型中包含動詞i的句子數(shù)量趾代,
    分母:j類型中的句子數(shù)量。
    Trigger Event Type Frequency (TETF)衡量了動詞在不同事件類型中的出現(xiàn)頻率丰辣。
    T E T F_{i}=\log \frac{\operatorname{Sum}(E T)}{1+\operatorname{Count}\left(E T I_{i}\right)}
    分子:所有事件類型總數(shù)撒强,
    分母:句子中出現(xiàn)過動詞i的事件類型數(shù)量。

  3. Trigger Word Filtering and Expansion
    上面得到的初始觸發(fā)詞中只有動詞糯俗,然而像marriage這種名詞也是可以作為觸發(fā)詞的尿褪,又因為句子中名詞數(shù)量遠(yuǎn)多于動詞,所以使用像動詞一樣的TR方法不現(xiàn)實得湘。故采用FrameNet來過濾和擴(kuò)展trigger words杖玲。使用詞嵌入技術(shù),來衡量詞的相似性淘正,將Freebase的事件映射到FrameNet的frame摆马,然后過濾掉在FrameNet中沒有對應(yīng)映射的動詞,在動詞映射到的frame中使用具有高度置信度的名詞來擴(kuò)展觸發(fā)詞鸿吆。

  4. Automatically labeled data generation
    包含某一事件類型所有key argument和任何trigger word的句子在某種意義上可表示一個事件囤采,這里使用Soft Distant Supervision的方法在Wikipedia中重新篩選和標(biāo)注句子。從而得到了自動標(biāo)注的數(shù)據(jù)惩淳。

實驗

人工對自動標(biāo)注的數(shù)據(jù)進(jìn)行檢查蕉毯,標(biāo)注正確就標(biāo)個y,反之標(biāo)n思犁。三個人進(jìn)行檢查代虾,最終結(jié)果投票決定,結(jié)果顯示自動標(biāo)注的數(shù)據(jù)質(zhì)量很高激蹲。
將自動標(biāo)注的數(shù)據(jù)與ACE數(shù)據(jù)結(jié)合棉磨,進(jìn)行檢查,實驗結(jié)果顯示大規(guī)模自動標(biāo)注的數(shù)據(jù)與精心設(shè)計的人工標(biāo)注的數(shù)據(jù)效果相當(dāng)学辱。所提出的自動標(biāo)注的數(shù)據(jù)能夠與人工標(biāo)注的數(shù)據(jù)結(jié)合用來提高利用這些數(shù)據(jù)訓(xùn)練的模型的性能乘瓤。
另外,為了緩解自動標(biāo)注過程中遠(yuǎn)程監(jiān)督帶來的誤標(biāo)注問題策泣,文中提到了一種多實例學(xué)習(xí)(Multi-instance Learning)的方法衙傀,將多個句子看作一個包,也帶來了事件抽取效果上的提升着降。

Reference

Automatically Labeled Data Generation for Large Scale Event Extraction

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末差油,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子任洞,更是在濱河造成了極大的恐慌蓄喇,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,865評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件交掏,死亡現(xiàn)場離奇詭異妆偏,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)盅弛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,296評論 3 399
  • 文/潘曉璐 我一進(jìn)店門钱骂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人挪鹏,你說我怎么就攤上這事见秽。” “怎么了讨盒?”我有些...
    開封第一講書人閱讀 169,631評論 0 364
  • 文/不壞的土叔 我叫張陵解取,是天一觀的道長。 經(jīng)常有香客問我返顺,道長禀苦,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,199評論 1 300
  • 正文 為了忘掉前任遂鹊,我火速辦了婚禮振乏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘秉扑。我一直安慰自己慧邮,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 69,196評論 6 398
  • 文/花漫 我一把揭開白布舟陆。 她就那樣靜靜地躺著误澳,像睡著了一般。 火紅的嫁衣襯著肌膚如雪吨娜。 梳的紋絲不亂的頭發(fā)上脓匿,一...
    開封第一講書人閱讀 52,793評論 1 314
  • 那天,我揣著相機(jī)與錄音宦赠,去河邊找鬼陪毡。 笑死,一個胖子當(dāng)著我的面吹牛勾扭,可吹牛的內(nèi)容都是我干的毡琉。 我是一名探鬼主播,決...
    沈念sama閱讀 41,221評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼妙色,長吁一口氣:“原來是場噩夢啊……” “哼桅滋!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,174評論 0 277
  • 序言:老撾萬榮一對情侶失蹤丐谋,失蹤者是張志新(化名)和其女友劉穎芍碧,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體号俐,經(jīng)...
    沈念sama閱讀 46,699評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡泌豆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,770評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了吏饿。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片踪危。...
    茶點故事閱讀 40,918評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖猪落,靈堂內(nèi)的尸體忽然破棺而出贞远,到底是詐尸還是另有隱情,我是刑警寧澤笨忌,帶...
    沈念sama閱讀 36,573評論 5 351
  • 正文 年R本政府宣布蓝仲,位于F島的核電站,受9級特大地震影響蜜唾,放射性物質(zhì)發(fā)生泄漏杂曲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,255評論 3 336
  • 文/蒙蒙 一袁余、第九天 我趴在偏房一處隱蔽的房頂上張望擎勘。 院中可真熱鬧,春花似錦颖榜、人聲如沸棚饵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,749評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽噪漾。三九已至,卻和暖如春且蓬,著一層夾襖步出監(jiān)牢的瞬間欣硼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,862評論 1 274
  • 我被黑心中介騙來泰國打工恶阴, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留诈胜,地道東北人。 一個月前我還...
    沈念sama閱讀 49,364評論 3 379
  • 正文 我出身青樓冯事,卻偏偏與公主長得像焦匈,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子昵仅,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,926評論 2 361