論文閱讀：Automatically Labeled Data Generation for Large Scale Event Extraction

簡介

這篇文章關(guān)注對event extraction提供標(biāo)注數(shù)據(jù)的方法。傳統(tǒng)的hand-labeled的訓(xùn)練數(shù)據(jù)非常昂貴犁珠，并且event覆蓋的非常有限缭裆。這使得一些supervised的方法很難去抽取大規(guī)模的event來進(jìn)行KBP(knowledge base population)。

我們知道底挫，關(guān)系抽取中可以用遠(yuǎn)程監(jiān)督的方法來自動標(biāo)注數(shù)據(jù)，一種想法就是可以不可以把這種方法擴(kuò)展到event extraction脸侥。然而這樣會有兩個問題：

第一個問題
事件抽取的目標(biāo)是檢測事件實例的類型并抽取其argument及role建邓，即 $(event \, instance, event \, type; role_1, argument_1; role_2, argument_2; ...; role_n, argument_n)$ 在Freebase等knowledge base中，事件的表示如圖所示：

example-of-ee.png

矩形表示事件實例的arguments睁枕，連接arguments和事件實例的每條邊都表示arguments的role官边，這樣看好像是可以使用遠(yuǎn)程監(jiān)督自動標(biāo)注數(shù)據(jù)沸手，但是在通常的事件抽取中，一個事件實例通常是使用trigger word來表示的注簿，但在現(xiàn)有的knowledge base 中并不存在事件的triggers契吉。為了解決這個問題，所以需要在使用遠(yuǎn)程監(jiān)督前找到事件的trigger word诡渴。
第二個問題
一個句子實際上并不能夠包含某一事件的所有參數(shù)捐晶，簡單地使用知識庫中的所有參數(shù)在句子中進(jìn)行標(biāo)記，將只有很少的句子滿足條件妄辩，因此作者選擇了幾個具有代表性的參數(shù)來代表事件惑灵。

方法

作者提出了一個利用world knowledge(Freebase)和linguistic knowledge(FrameNet)來自動標(biāo)注event extraction所需要的數(shù)據(jù)的方法。這個方法能夠探測到每一個event type的key argument和trigger word眼耀，然后用它們來從文本中標(biāo)注event英支。

method.png

方法主要分為4步：

Key Argument Detection
使用Key Rate(KR) 來衡量某一事件類型中各個參數(shù)的重要性，然后在Freebase中計算每個事件類型中所有argument的KR哮伟，然后選擇前 $K$ 大個作為key argument干花。
計算KR公式如下：
$K R_{i j}=R S_{i j} * E R_{i}$
其中，RS為角色顯著性（Role Saliency）楞黄。區(qū)分同一類型中一個事件實例和另一個事件實例把敢。
$R S_{i j}=\frac{\operatorname{Count}\left(A_{i}, E T_{j}\right)}{\operatorname{Count}\left(E T_{j}\right)}$
分子： $eventType_j$ 所有實例中出現(xiàn) $Argument_i$ 的數(shù)量，
分母： $eventType_j$ 實例的總數(shù)谅辣。
某一參數(shù)在某一特定類型中出現(xiàn)越多修赞，說明RS越大，越能代表這個類型的特點桑阶。
ER為事件相關(guān)性（Event Relevance）柏副。區(qū)分不同事件類型。
$E R_{i}=\log \frac{\operatorname{Sum}(E T)}{1+\operatorname{Count}(E T C i)}$
分子：所有事件類型總數(shù)蚣录，
分母：出現(xiàn)過 $Argument_i$ 的事件類型的數(shù)量割择。
如果一個參數(shù)在所有事件類型中都出現(xiàn)，那么則這個參數(shù)區(qū)分性不高萎河，具有較低的ER荔泳。
Trigger Word Detection
包含所有key argument的句子更有可能表示Freebase中對應(yīng)的事件實例，首先使用key arguments在Wikipeida中篩選標(biāo)注句子虐杯，然后使用這些句子來進(jìn)行觸發(fā)詞檢測玛歌。
這里有一個假設(shè)：出現(xiàn)在這些句子中動詞往往傾向于觸發(fā)這類事件。
動詞在同一種類型的事件中出現(xiàn)很多次擎椰，說明有可能為此事件的觸發(fā)詞支子，而如果動詞在不同類型中均出現(xiàn)，則為觸發(fā)詞的概率很小达舒。作者使用Trigger Rate (TR)來衡量動詞是trigger word的概率值朋，最后選擇具有較高TR的動詞作為對應(yīng)事件類型的trigger word叹侄。
計算TR公式如下：
$T R_{i j}=T C F_{i j} * T E T F_{i}$
其中，Trigger Candidate Frequency (TCF)動詞在同一類型事件中出現(xiàn)的頻率昨登。
$T C F_{i j}=\frac{\operatorname{Count}\left(V_{i}, E T S_{j}\right)}{\operatorname{Count}\left(E T S_{j}\right)}$
分子： $j$ 類型中包含動詞 $i$ 的句子數(shù)量趾代，
分母： $j$ 類型中的句子數(shù)量。
Trigger Event Type Frequency (TETF)衡量了動詞在不同事件類型中的出現(xiàn)頻率丰辣。
$T E T F_{i}=\log \frac{\operatorname{Sum}(E T)}{1+\operatorname{Count}\left(E T I_{i}\right)}$
分子：所有事件類型總數(shù)撒强，
分母：句子中出現(xiàn)過動詞 $i$ 的事件類型數(shù)量。
Trigger Word Filtering and Expansion
上面得到的初始觸發(fā)詞中只有動詞糯俗，然而像marriage這種名詞也是可以作為觸發(fā)詞的尿褪，又因為句子中名詞數(shù)量遠(yuǎn)多于動詞，所以使用像動詞一樣的TR方法不現(xiàn)實得湘。故采用FrameNet來過濾和擴(kuò)展trigger words杖玲。使用詞嵌入技術(shù)，來衡量詞的相似性淘正，將Freebase的事件映射到FrameNet的frame摆马，然后過濾掉在FrameNet中沒有對應(yīng)映射的動詞，在動詞映射到的frame中使用具有高度置信度的名詞來擴(kuò)展觸發(fā)詞鸿吆。
Automatically labeled data generation
包含某一事件類型所有key argument和任何trigger word的句子在某種意義上可表示一個事件囤采，這里使用Soft Distant Supervision的方法在Wikipedia中重新篩選和標(biāo)注句子。從而得到了自動標(biāo)注的數(shù)據(jù)惩淳。

實驗

人工對自動標(biāo)注的數(shù)據(jù)進(jìn)行檢查蕉毯，標(biāo)注正確就標(biāo)個y，反之標(biāo)n思犁。三個人進(jìn)行檢查代虾，最終結(jié)果投票決定，結(jié)果顯示自動標(biāo)注的數(shù)據(jù)質(zhì)量很高激蹲。
將自動標(biāo)注的數(shù)據(jù)與ACE數(shù)據(jù)結(jié)合棉磨，進(jìn)行檢查，實驗結(jié)果顯示大規(guī)模自動標(biāo)注的數(shù)據(jù)與精心設(shè)計的人工標(biāo)注的數(shù)據(jù)效果相當(dāng)学辱。所提出的自動標(biāo)注的數(shù)據(jù)能夠與人工標(biāo)注的數(shù)據(jù)結(jié)合用來提高利用這些數(shù)據(jù)訓(xùn)練的模型的性能乘瓤。
另外，為了緩解自動標(biāo)注過程中遠(yuǎn)程監(jiān)督帶來的誤標(biāo)注問題策泣，文中提到了一種多實例學(xué)習(xí)（Multi-instance Learning）的方法衙傀，將多個句子看作一個包，也帶來了事件抽取效果上的提升着降。

Reference

Automatically Labeled Data Generation for Large Scale Event Extraction