來(lái)源:A Survey of Open Domain Event Extraction
概述
開(kāi)放域事件抽取概述:目前在EE領(lǐng)域研究較深的工作都是基于預(yù)定義的事件類(lèi)型宪迟,常見(jiàn)數(shù)據(jù)集有ACE2005和TAC KBP2017,基于這些數(shù)據(jù)集訓(xùn)練得到的模型在海量文本中的覆蓋率很低,無(wú)法推廣到現(xiàn)實(shí)場(chǎng)景中砾淌。相比于預(yù)定義的EE有各自明確的領(lǐng)域以及事件定義標(biāo)準(zhǔn),開(kāi)放域EE沒(méi)有固定明確的場(chǎng)景,所用文本來(lái)自于類(lèi)似社交媒體等大量嘈雜的語(yǔ)料庫(kù)。導(dǎo)致開(kāi)放域的EE缺少現(xiàn)有的參考文本以及大量復(fù)雜的基礎(chǔ)事件類(lèi)型和架構(gòu)器钟,但除去這些限制,也使得開(kāi)放域EE更加有研究前景妙蔗。
下文將從數(shù)據(jù)傲霸、模型、評(píng)價(jià)指標(biāo)這幾個(gè)方面介紹眉反。
數(shù)據(jù)
由監(jiān)督學(xué)習(xí)訓(xùn)練得到的開(kāi)放域事件抽取模型很難識(shí)別到大范圍的事件類(lèi)型昙啄,且監(jiān)督學(xué)習(xí)所使用的人工標(biāo)注數(shù)據(jù)成本較高。為了利用現(xiàn)有的未標(biāo)記文本數(shù)據(jù)寸五,有研究提出利用知識(shí)庫(kù)自動(dòng)生成標(biāo)記數(shù)據(jù)的方法梳凛。survey討論了兩種生成標(biāo)簽數(shù)據(jù)的方法:通過(guò)識(shí)別key argument和key trigger來(lái)生成數(shù)據(jù);二是僅通過(guò)識(shí)別key argument生成數(shù)據(jù)梳杏。
知識(shí)庫(kù)源
FreeBase:一種語(yǔ)義知識(shí)庫(kù)韧拒,它使用復(fù)合值類(lèi)型(CVT)將多個(gè)值組合為一個(gè)值。一條CVT就可以認(rèn)為是一個(gè)事件十性,其類(lèi)型定義為該事件的類(lèi)型叛溢,一條CVT下有若干條instance,每個(gè)instanc下的值作為事件的argument劲适。例如下圖中的sold
為business.acquisition
的一個(gè)實(shí)例楷掉,圖3為sold
作為事件business.acquisition
參數(shù)對(duì)應(yīng)的值。
FrameNet:也是一種語(yǔ)義知識(shí)庫(kù)减响,存儲(chǔ)有關(guān)詞匯和謂詞語(yǔ)義信息靖诗。FrameNet里大范圍標(biāo)注了許多個(gè)frame,每個(gè)frame下又有對(duì)應(yīng)的詞元支示。一個(gè)frame即可認(rèn)為一種事件類(lèi)型刊橘,frame下的詞元可以認(rèn)為當(dāng)前事件的觸發(fā)詞。例如句子:
Michelle baked her mother a cake for her birthday.
其中
bake.v
是Cooking_creation
類(lèi)型的一個(gè)詞元颂鸿,即在句中bake
可以被標(biāo)記為觸發(fā)詞來(lái)觸發(fā)事件類(lèi)型Cooking_creation
促绵。FrameNet資源獲取途徑:傳送門(mén)
Wikipedia:維基百科數(shù)據(jù)可以作為一個(gè)半結(jié)構(gòu)化,覆蓋大范圍的知識(shí)庫(kù)嘴纺,對(duì)實(shí)體鏈接败晴、命名實(shí)體識(shí)別都有很大效用。survey認(rèn)為栽渴,在事件抽取中尖坤,可以將相同含義的實(shí)體提及鏈接到特定的實(shí)體,提高開(kāi)放域EE模型效果闲擦。
數(shù)據(jù)生成途徑
直接使用遠(yuǎn)程監(jiān)督的方法慢味,在知識(shí)庫(kù)的輔助下生成數(shù)據(jù)有兩方面的問(wèn)題:一是現(xiàn)存知識(shí)庫(kù)未明確給出觸發(fā)詞,二是事件實(shí)例對(duì)應(yīng)的參數(shù)及其角色不僅出現(xiàn)在單一句子中墅冷。survey介紹了利用FreeBase和FrameNet來(lái)生成數(shù)據(jù)的方法纯路,其中有兩種途徑。
下列是第一種途徑識(shí)別觸發(fā)詞+關(guān)鍵參數(shù):
- 選擇key arguments寞忿。
- 使用key arguments來(lái)標(biāo)注事件以及觸發(fā)詞驰唬。
- 借助語(yǔ)言知識(shí)庫(kù)(FrameNet)來(lái)過(guò)濾噪聲并擴(kuò)充更多的觸發(fā)詞。
- 使用soft DS自動(dòng)標(biāo)注訓(xùn)練集腔彰。
參考論文:Automatically labeled data generation for large scale event extraction
第二種途徑是僅識(shí)別關(guān)鍵參數(shù):
- 從CVT條目中識(shí)別key argument叫编。
- 基于現(xiàn)存結(jié)構(gòu)化知識(shí)庫(kù)生層標(biāo)簽數(shù)據(jù)。
參考論文:Scale Up Event Extraction Learning via Automatic Training Data Generation
模型
survey中調(diào)研的文章來(lái)源于關(guān)系抽取與零樣本學(xué)習(xí)霹抛。
參考文獻(xiàn):
Zero-shot relation extraction via reading comprehension.
Zero-Shot Transfer Learning for Event Extraction.
評(píng)估
(待補(bǔ)充...)