論文
代碼位置1 or 代碼位置2
實(shí)驗數(shù)據(jù)
17,18年之前的實(shí)體類別劃分算是粗類別的劃分吧比被,主要分為:人名、地名稍计、組織機(jī)構(gòu)躁绸、專有名詞等。今天介紹的這篇論文是關(guān)于實(shí)體類型進(jìn)一步細(xì)分的問題臣嚣。
例句:“張三搶劫了李四净刮,張三最終被抓住了〖肭颍”
粗粒度實(shí)體識別:張三:人名庭瑰;李四:人名。
細(xì)粒度實(shí)體識別:張三:人名抢埋、犯罪分子;李四:人名督暂、受害者揪垄。
實(shí)體的細(xì)粒度劃分,在垂域逻翁、特定領(lǐng)域是有一定的利用價值的饥努,所以該問題的研究值得關(guān)注。
一八回、背景
為什么需要實(shí)體細(xì)粒度劃分酷愧?
文章:張三搶劫了李四,張三最終被抓了缠诅。
問:誰是罪犯溶浴? ——(有助于閱讀理解、知識問答)
如下圖所示管引,一個英語句子中的實(shí)體被‘{}’標(biāo)識出來了士败,細(xì)粒度實(shí)體識別任務(wù)就是判別該實(shí)體的細(xì)分類型是什么。第2個句子中的They實(shí)體褥伴,它的細(xì)粒度實(shí)體類型有:人谅将、被告人、嫌疑犯重慢。
下圖是三個數(shù)據(jù)弯淘,實(shí)體類別數(shù)量與占比圖绿店,圓圈越大表示該類別占數(shù)據(jù)集的比例越大。
1)這個數(shù)據(jù)集的“other”類別太多了庐橙,前5個類別總和達(dá)到了數(shù)據(jù)的70~80%假勿。
2)這個數(shù)據(jù)集的實(shí)體類別標(biāo)簽也比較少,且前5種類別總和達(dá)到了數(shù)據(jù)的70~80%态鳖。
3)這個數(shù)據(jù)集是該篇文章自建的一個數(shù)據(jù)集转培,它的實(shí)體類別種類繁多。更適合用來做細(xì)粒度實(shí)體識別任務(wù)浆竭。注:實(shí)驗數(shù)據(jù)可下載:數(shù)據(jù)浸须。
6000個實(shí)例,2500種類別
這個數(shù)據(jù)集是從多個領(lǐng)域數(shù)據(jù)集中采樣抽取出來的邦泄,然后用名詞來表示實(shí)體類型删窒,一個句子中的實(shí)體由5個人來標(biāo)注其細(xì)粒度實(shí)體類別,然后選3/5的標(biāo)注詞為該實(shí)體的細(xì)粒度實(shí)體類別顺囊。
9個大類:person, location, object, orga-nization, place, entity, object, time, event
121個細(xì)分類:(e.g. film, athlete)
10201個再細(xì)分類: (e.g. detective, law-suit, temple, weapon, composer)
二肌索、模型
問題定義:給一個句子且標(biāo)注出句子中的實(shí)體e,需要預(yù)測實(shí)體e的類別特碳。
如:“Bill Gates has donated billions to eradicate malaria.” 實(shí)體Bill Gates的實(shí)體類別應(yīng)該是“慈善家”诚亚,而不是“發(fā)明家”。這種標(biāo)注出來的具有區(qū)別性質(zhì)的實(shí)體類別午乓,對文本語義理解和問答系統(tǒng)有幫助站宗。
1.實(shí)體兩端的上下文處理過程
給一個句子,句子的每一個詞都一個對應(yīng)的預(yù)訓(xùn)練好的詞向量硅瞧,每一個有自己的位置向量份乒,然后將詞向量與位置向量拼接起來:[詞向量;位置向量]==腕唧,這作為bi-LSTM的輸入或辖,經(jīng)過bi-LSTM處理后,每一個詞的語義表示為枣接。與前人不同的是颂暇,該篇論文用兩個獨(dú)立的bi-LSTMs來處實(shí)體兩邊的文本。
2.實(shí)體自己處理過程
一個實(shí)體如:Bill Gates也是有兩個英語單詞構(gòu)成的财喳,所有由詞向量到實(shí)體向量也得有一個轉(zhuǎn)換過程:a)用CNN對實(shí)體進(jìn)行特征抽取處理;b)詞向量加權(quán)求平均察迟。得到的實(shí)體向量表示為,最終上下文和實(shí)體的語義向量表示為預(yù)測的類別向量:
3.標(biāo)簽預(yù)測
類別矩陣耳高,其中n表示標(biāo)簽的數(shù)量扎瓶,d表示類別r的維度。其實(shí)這個大類別矩陣由三個子矩陣組成:=9d維泌枪,=121d維概荷,=10201*d維。將上面1.2步驟處理得到的預(yù)測類別向量r與這個大的類別矩陣進(jìn)行相似度計算:碌燕,用sigmoid函數(shù)處理最終的值误证,這相當(dāng)于是一個多標(biāo)簽問題。那些的類別都視為預(yù)測得到的細(xì)粒度標(biāo)簽們修壕。
4.損失函數(shù)
由上可知雷厂,這是一個多標(biāo)簽問題,模型的最后輸出也是用的sigmoid函數(shù)做處理叠殷。該論文為這個模型定義了一個新的損失函數(shù)如下:
其中,是一個檢查函數(shù)诈皿,檢查t類別是否在這個category里林束,另一個計算公式如下:
三、結(jié)果
四稽亏、總結(jié)
該篇論文主要是自己構(gòu)建了一個新的數(shù)據(jù)集壶冒,并在這個數(shù)據(jù)集上將前人的模型進(jìn)行改進(jìn)后做實(shí)驗,取得一定的效果截歉。這篇文章的模型思路不難理解胖腾,只用到了兩類神經(jīng)網(wǎng)絡(luò)函數(shù)bi-LSTM、CNN瘪松,且定義了一個區(qū)分類別的損失函數(shù)咸作。