論文簡(jiǎn)記 | 開(kāi)放域事件抽取綜述

來(lái)源:A Survey of Open Domain Event Extraction

概述

開(kāi)放域事件抽取概述:目前在EE領(lǐng)域研究較深的工作都是基于預(yù)定義的事件類(lèi)型宪迟,常見(jiàn)數(shù)據(jù)集有ACE2005和TAC KBP2017,基于這些數(shù)據(jù)集訓(xùn)練得到的模型在海量文本中的覆蓋率很低,無(wú)法推廣到現(xiàn)實(shí)場(chǎng)景中砾淌。相比于預(yù)定義的EE有各自明確的領(lǐng)域以及事件定義標(biāo)準(zhǔn),開(kāi)放域EE沒(méi)有固定明確的場(chǎng)景,所用文本來(lái)自于類(lèi)似社交媒體等大量嘈雜的語(yǔ)料庫(kù)。導(dǎo)致開(kāi)放域的EE缺少現(xiàn)有的參考文本以及大量復(fù)雜的基礎(chǔ)事件類(lèi)型和架構(gòu)器钟,但除去這些限制,也使得開(kāi)放域EE更加有研究前景妙蔗。
下文將從數(shù)據(jù)傲霸、模型、評(píng)價(jià)指標(biāo)這幾個(gè)方面介紹眉反。

數(shù)據(jù)

由監(jiān)督學(xué)習(xí)訓(xùn)練得到的開(kāi)放域事件抽取模型很難識(shí)別到大范圍的事件類(lèi)型昙啄,且監(jiān)督學(xué)習(xí)所使用的人工標(biāo)注數(shù)據(jù)成本較高。為了利用現(xiàn)有的未標(biāo)記文本數(shù)據(jù)寸五,有研究提出利用知識(shí)庫(kù)自動(dòng)生成標(biāo)記數(shù)據(jù)的方法梳凛。survey討論了兩種生成標(biāo)簽數(shù)據(jù)的方法:通過(guò)識(shí)別key argument和key trigger來(lái)生成數(shù)據(jù);二是僅通過(guò)識(shí)別key argument生成數(shù)據(jù)梳杏。

知識(shí)庫(kù)源

FreeBase:一種語(yǔ)義知識(shí)庫(kù)韧拒,它使用復(fù)合值類(lèi)型(CVT)將多個(gè)值組合為一個(gè)值。一條CVT就可以認(rèn)為是一個(gè)事件十性,其類(lèi)型定義為該事件的類(lèi)型叛溢,一條CVT下有若干條instance,每個(gè)instanc下的值作為事件的argument劲适。例如下圖中的soldbusiness.acquisition的一個(gè)實(shí)例楷掉,圖3為sold作為事件business.acquisition參數(shù)對(duì)應(yīng)的值。


FrameNet:也是一種語(yǔ)義知識(shí)庫(kù)减响,存儲(chǔ)有關(guān)詞匯和謂詞語(yǔ)義信息靖诗。FrameNet里大范圍標(biāo)注了許多個(gè)frame,每個(gè)frame下又有對(duì)應(yīng)的詞元支示。一個(gè)frame即可認(rèn)為一種事件類(lèi)型刊橘,frame下的詞元可以認(rèn)為當(dāng)前事件的觸發(fā)詞。例如句子:
Michelle baked her mother a cake for her birthday.
其中bake.vCooking_creation類(lèi)型的一個(gè)詞元颂鸿,即在句中bake可以被標(biāo)記為觸發(fā)詞來(lái)觸發(fā)事件類(lèi)型Cooking_creation促绵。
FrameNet資源獲取途徑:傳送門(mén)

Wikipedia:維基百科數(shù)據(jù)可以作為一個(gè)半結(jié)構(gòu)化,覆蓋大范圍的知識(shí)庫(kù)嘴纺,對(duì)實(shí)體鏈接败晴、命名實(shí)體識(shí)別都有很大效用。survey認(rèn)為栽渴,在事件抽取中尖坤,可以將相同含義的實(shí)體提及鏈接到特定的實(shí)體,提高開(kāi)放域EE模型效果闲擦。

數(shù)據(jù)生成途徑

直接使用遠(yuǎn)程監(jiān)督的方法慢味,在知識(shí)庫(kù)的輔助下生成數(shù)據(jù)有兩方面的問(wèn)題:一是現(xiàn)存知識(shí)庫(kù)未明確給出觸發(fā)詞,二是事件實(shí)例對(duì)應(yīng)的參數(shù)及其角色不僅出現(xiàn)在單一句子中墅冷。survey介紹了利用FreeBase和FrameNet來(lái)生成數(shù)據(jù)的方法纯路,其中有兩種途徑。
下列是第一種途徑識(shí)別觸發(fā)詞+關(guān)鍵參數(shù):

  1. 選擇key arguments寞忿。
  2. 使用key arguments來(lái)標(biāo)注事件以及觸發(fā)詞驰唬。
  3. 借助語(yǔ)言知識(shí)庫(kù)(FrameNet)來(lái)過(guò)濾噪聲并擴(kuò)充更多的觸發(fā)詞。
  4. 使用soft DS自動(dòng)標(biāo)注訓(xùn)練集腔彰。
    參考論文:Automatically labeled data generation for large scale event extraction

第二種途徑是僅識(shí)別關(guān)鍵參數(shù)

  1. 從CVT條目中識(shí)別key argument叫编。
  2. 基于現(xiàn)存結(jié)構(gòu)化知識(shí)庫(kù)生層標(biāo)簽數(shù)據(jù)。
    參考論文:Scale Up Event Extraction Learning via Automatic Training Data Generation

模型

survey中調(diào)研的文章來(lái)源于關(guān)系抽取與零樣本學(xué)習(xí)霹抛。
參考文獻(xiàn):
Zero-shot relation extraction via reading comprehension.
Zero-Shot Transfer Learning for Event Extraction.

評(píng)估

(待補(bǔ)充...)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末宵溅,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子上炎,更是在濱河造成了極大的恐慌恃逻,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件藕施,死亡現(xiàn)場(chǎng)離奇詭異寇损,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)裳食,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)矛市,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人诲祸,你說(shuō)我怎么就攤上這事浊吏《颍” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵找田,是天一觀(guān)的道長(zhǎng)歌憨。 經(jīng)常有香客問(wèn)我,道長(zhǎng)墩衙,這世上最難降的妖魔是什么务嫡? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮漆改,結(jié)果婚禮上心铃,老公的妹妹穿的比我還像新娘。我一直安慰自己挫剑,他們只是感情好去扣,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著樊破,像睡著了一般厅篓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上捶码,一...
    開(kāi)封第一講書(shū)人閱讀 51,541評(píng)論 1 305
  • 那天羽氮,我揣著相機(jī)與錄音,去河邊找鬼惫恼。 笑死档押,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的祈纯。 我是一名探鬼主播令宿,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼腕窥!你這毒婦竟也來(lái)了粒没?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤簇爆,失蹤者是張志新(化名)和其女友劉穎癞松,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體入蛆,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡响蓉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了哨毁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片枫甲。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出想幻,到底是詐尸還是另有隱情粱栖,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布脏毯,位于F島的核電站闹究,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏抄沮。R本人自食惡果不足惜跋核,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一岖瑰、第九天 我趴在偏房一處隱蔽的房頂上張望叛买。 院中可真熱鬧,春花似錦蹋订、人聲如沸率挣。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)椒功。三九已至,卻和暖如春智什,著一層夾襖步出監(jiān)牢的瞬間动漾,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工荠锭, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留旱眯,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓证九,卻偏偏與公主長(zhǎng)得像删豺,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子愧怜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355