本文主要復(fù)述論文["Distilling Discrimination and Generalization Knowledge for Event Detection via ?-Representation Learning"] 的內(nèi)容坡倔,以便自我回顧,也希望可以給大噶帶來幫助~
論文鏈接
摘要
事件檢測模型需要具差異化的信息來區(qū)分二義性觸發(fā)詞,以及用泛化知識來識別隱藏事件觸發(fā)詞罪塔。以往的事件檢測模型大多關(guān)注于具差異性的信息識別投蝉,本論文作者提出了一個△-特征表示學(xué)習(xí)方法通過解耦來同時提取差異化信息與泛化信息,并將二者融合得到事件特征表示征堪。實驗在ACE05和KBP2019數(shù)據(jù)集上進行瘩缆,結(jié)果證明方法可以更好的識別稀疏觸發(fā)詞匯。
介紹
- out-of-vocabulary(OOV):未登錄詞佃蚜。指訓(xùn)練時未出現(xiàn)庸娱,測試時出現(xiàn)了的詞,也就是這些詞匯在當(dāng)前的詞匯表里無法找到谐算。
- out-of-labels(OOL):指(word, event type)未出現(xiàn)在訓(xùn)練集當(dāng)中熟尉,但這個詞在訓(xùn)練集中卻有出現(xiàn)。
- Discrimination knowledge:識別觸發(fā)詞在不同語境下所觸發(fā)的事件類型洲脂;
- Generalization knowledge:主要來識別OOV斤儿、OOL以及稀疏性觸發(fā)詞。
這篇論文的任務(wù)介紹可以參考Figure1恐锦,例如S1中的(fire往果,EndPosition)
與S2中的(fire,Attack)
都是屬于densely觸發(fā)詞一铅,訓(xùn)練過程中可以通過上下問的詞匯信息來提取S4中觸發(fā)詞的事件類型棚放。而S5中的觸發(fā)詞hack
屬于未在訓(xùn)練集中學(xué)習(xí)到的觸發(fā)詞,這時候就需要提取S3中shot to death
這樣的結(jié)構(gòu)化信息來學(xué)習(xí)hack to death
可以觸發(fā)事件Attack
馅闽。
△-特征表示學(xué)習(xí)
論文中提出的這個表示學(xué)習(xí)方法是由三部分組成:飘蚯,其中是基于詞法信息的詞表示,是詞法無關(guān)的詞表示福也,是預(yù)訓(xùn)練時候得到的詞表示局骤,但是這個是動態(tài)的,會在模型訓(xùn)練過程中不斷得到更新暴凑。需要說明的是峦甩,作者對詞的預(yù)訓(xùn)練是基于ELMo模型來做的(當(dāng)然也有與其他預(yù)訓(xùn)練方法進行對比)。
整體模型的框架可由Figure2來表述:
基于詞法信息的詞表示與詞法無關(guān)的詞表示始終是相輔相成的现喳,但細節(jié)來講凯傲,基于詞法信息的詞表示學(xué)習(xí)能夠提取密集式的觸發(fā)詞,而詞法無關(guān)的詞表示學(xué)習(xí)能夠更好的提取稀疏式觸發(fā)詞嗦篱,通過△-特征表示方法將事件表示解耦成三個部分冰单,然后再將其融合得到最終的事件觸發(fā)詞特征表示通過softmax得到概率值,進行事件類型分類灸促。
lexical-specific Feature
這部分的特征表示采用attention-RNN進行學(xué)習(xí)诫欠,lexical-specific對應(yīng)差異化信息涵卵,能夠有效提取觸發(fā)詞在其對應(yīng)語境下的特征信息。
在模型中通過訓(xùn)練來增強這類觸發(fā)詞的lexical-specific信息表示荒叼,也就是希望在最終詞表示里所占權(quán)重大一些轿偎,作者提出的是lexical-enhanced ?-learning表示學(xué)習(xí)。該方法可參考下圖:
+Lexi
相當(dāng)于一個正反饋被廓,假設(shè)當(dāng)前的輸入坏晦,將觸發(fā)詞與其上下文表示為(t=triger, c=context, w=word)
,輸出分為兩部分:事件類型分類器與詞法二進制分類器嫁乘,其中事件分類器傳遞事件類型標(biāo)簽的信息昆婿,詞法二進制用來判定當(dāng)前詞是不是一個可由詞法表示增強學(xué)習(xí)的詞,即當(dāng)t = w
則生成標(biāo)簽(y, 1)
亦渗,反向傳播繼續(xù)學(xué)習(xí),反之則傳遞標(biāo)簽(y, 0)
汁尺。這里的loss為event classifier
與lexical classifier
二者之和法精,以確保既存儲詞法相關(guān)的信息又保留事件信息。
lexical-free Feature
lexical-free對應(yīng)上文說明的泛化信息痴突,作者采用的是DMCNN模型來學(xué)習(xí)這種類型的特征表示搂蜓。與詞法相關(guān)的表示相反,作者希望在這類觸發(fā)詞的詞表示當(dāng)中辽装,詞法表示占比小點帮碰,而詞法無關(guān)的結(jié)構(gòu)法信息來提供更多的特征信息,由此提出了lexical-adversarial ?-learning方法拾积。描述如下圖:
-Lexi
拓巧,也就是說對于(t, c, w)
斯碌,若輸出標(biāo)簽(y, 1)
,說明這部分的模型依舊能夠?qū)W習(xí)到當(dāng)前輸入的詞法相關(guān)信息肛度,那么模型就會通過-Lexi
操作來刨去這部分特征信息傻唾,使得下次遇到相同表示時,不會再學(xué)到詞法相關(guān)的信息承耿。其實這里是用的對抗網(wǎng)絡(luò)原理冠骄,作者用來表示詞法相關(guān)表示的參數(shù),用生成向量表示以混淆加袋,通過最小最大化方法在最大的情況下減弱對特征表示的影響凛辣。
同樣的,最終的loss為event classifier與lexical classifier二者之和职烧。
實驗結(jié)果
該模型在ACE05數(shù)據(jù)集上的結(jié)果:寫在最后
個人認為這篇論文的亮點是這個利用對抗網(wǎng)絡(luò)來生成詞法無關(guān)的特征表示蟀给。作者對數(shù)據(jù)集真的太了解了蝙砌,很多時候我們在考慮觸發(fā)詞的特征表示學(xué)習(xí)時只是正向思考,一味的捕獲上下文提供給觸發(fā)詞的信息跋理。雖然CNN本身可以獲取局部結(jié)構(gòu)化的特征信息择克,但利用對抗網(wǎng)絡(luò)將這部分結(jié)構(gòu)化信息當(dāng)中摻雜的上下文相關(guān)特征信息給刨去,也就是作者論文題目當(dāng)中的“蒸餾法”前普,使得結(jié)構(gòu)式的特征信息更為明顯肚邢,這樣一些觸發(fā)詞我們在訓(xùn)練當(dāng)中并未碰到,也不會因為網(wǎng)絡(luò)沒有學(xué)習(xí)到他而把他識別為負例標(biāo)簽拭卿。(秒~ 向作者學(xué)習(xí)骡湖!
還是新手,水平有限峻厚,若有錯誤還望不吝賜教~