1. 任務(wù)概述
1.1 定義
事件抽取主要研究如何從描述事件信息的文本中抽取出用戶感興趣的事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)出來陕悬。
1.2 相關(guān)概念
- 事件指稱(event mention)
對一個(gè)客觀發(fā)生的具體事件進(jìn)行的自然語言形式的描述俏险,通常是一個(gè)句子或者句群。 - 事件觸發(fā)詞(event trigger)
一個(gè)事件指稱中最能代表事件發(fā)生的詞。 - 事件元素(event argument)
事件的參與者材蛛,是組成事件的核心部分臊泌,它與事件觸發(fā)詞構(gòu)成了事件的整個(gè)框架。 - 元素角色(event role)
是指事件元素與事件之間的語義關(guān)系坏平,即事件元素在相應(yīng)的事件中扮演什么角色拢操。 - 事件類別(event type)
事件元素和觸發(fā)詞決定了事件的類別。
1.3 相關(guān)評測和語料資源
-
MUC評測會(huì)議
MUC-3:針對拉丁美洲的恐怖襲擊的報(bào)道進(jìn)行抽取舶替,模板的槽為18個(gè)令境。
MUC-4:沿用了MUC-3的語料,模板的槽增加到了24個(gè)顾瞪。
MUC-3和MUC-4免費(fèi)舔庶,6和7需LDC號和付費(fèi)。 -
TDT評測會(huì)議——話題識(shí)別與跟蹤(Topic Detection and Tracking)
旨在以事件的形式組織新聞事件陈醒,對其進(jìn)行研究和評測惕橙。話題為TDT中最基本的概念,粒度比事件大孵延,包括一個(gè)核心事件以及與之直接相關(guān)的事件的集合吕漂。
貌似也需要LDC號和付費(fèi) -
ACE評測會(huì)議
ACE 2005是目前使用最廣泛的事件抽取標(biāo)注數(shù)據(jù)集。
ACE中的事件是預(yù)定義類型的尘应、句子級的事件惶凝,標(biāo)注格式采用了可擴(kuò)展標(biāo)記語言(XML),每個(gè)事件都標(biāo)注了事件觸發(fā)詞犬钢、事件類型苍鲜、事件子類型、事件元素和事件元素扮演的角色信息玷犹,此外混滔,還標(biāo)注了事件的極性(polarity,肯定或否定)、事件的時(shí)態(tài)(tense)坯屿、事件的指屬(genericity油湖,特指或泛指)、事件的形態(tài)(modality领跛,包括語氣非撤Φ拢肯定的事件和信念事件、假設(shè)事件等)吠昭。
需要LDC號和付費(fèi)喊括,不過博主已經(jīng)弄到了資源 -
ChFinAnn
清華大學(xué)構(gòu)建的金融領(lǐng)域事件抽取數(shù)據(jù)集,省略了事件觸發(fā)詞的識(shí)別矢棚。
免費(fèi)開源