細(xì)粒度實(shí)體類別標(biāo)記《Ultra-Fine Entity Typing》


論文
代碼位置1 or 代碼位置2
實(shí)驗數(shù)據(jù)

17,18年之前的實(shí)體類別劃分算是粗類別的劃分吧比被,主要分為:人名、地名稍计、組織機(jī)構(gòu)躁绸、專有名詞等。今天介紹的這篇論文是關(guān)于實(shí)體類型進(jìn)一步細(xì)分的問題臣嚣。
例句:“張三搶劫了李四净刮,張三最終被抓住了〖肭颍”
粗粒度實(shí)體識別:張三:人名庭瑰;李四:人名。
細(xì)粒度實(shí)體識別:張三:人名抢埋、犯罪分子;李四:人名督暂、受害者揪垄。
實(shí)體的細(xì)粒度劃分,在垂域逻翁、特定領(lǐng)域是有一定的利用價值的饥努,所以該問題的研究值得關(guān)注。

一八回、背景

為什么需要實(shí)體細(xì)粒度劃分酷愧?
文章:張三搶劫了李四,張三最終被抓了缠诅。
問:誰是罪犯溶浴? ——(有助于閱讀理解、知識問答)
如下圖所示管引,一個英語句子中的實(shí)體被‘{}’標(biāo)識出來了士败,細(xì)粒度實(shí)體識別任務(wù)就是判別該實(shí)體的細(xì)分類型是什么。第2個句子中的They實(shí)體褥伴,它的細(xì)粒度實(shí)體類型有:人谅将、被告人、嫌疑犯重慢。

該篇文章定義細(xì)粒度實(shí)體劃分任務(wù)為:給出一個句子及標(biāo)注好的實(shí)體饥臂,現(xiàn)要找出可以描述這個標(biāo)注實(shí)體的所有名詞。以前的關(guān)系抽取似踱、問答系統(tǒng)隅熙、問句分析稽煤、共指消解等系統(tǒng)都是用比較粗糙的本體類型來進(jìn)行實(shí)體類型劃分的。然而猛们,人工設(shè)計本體的任務(wù)太耗費(fèi)成本念脯,且只考慮到有限領(lǐng)域的部分概念。
下圖是三個數(shù)據(jù)弯淘,實(shí)體類別數(shù)量與占比圖绿店,圓圈越大表示該類別占數(shù)據(jù)集的比例越大。

1)這個數(shù)據(jù)集的“other”類別太多了庐橙,前5個類別總和達(dá)到了數(shù)據(jù)的70~80%假勿。
OntoNotes

2)這個數(shù)據(jù)集的實(shí)體類別標(biāo)簽也比較少,且前5種類別總和達(dá)到了數(shù)據(jù)的70~80%态鳖。
FIGER

3)這個數(shù)據(jù)集是該篇文章自建的一個數(shù)據(jù)集转培,它的實(shí)體類別種類繁多。更適合用來做細(xì)粒度實(shí)體識別任務(wù)浆竭。注:實(shí)驗數(shù)據(jù)可下載:數(shù)據(jù)浸须。
6000個實(shí)例,2500種類別
這個數(shù)據(jù)集是從多個領(lǐng)域數(shù)據(jù)集中采樣抽取出來的邦泄,然后用名詞來表示實(shí)體類型删窒,一個句子中的實(shí)體由5個人來標(biāo)注其細(xì)粒度實(shí)體類別,然后選3/5的標(biāo)注詞為該實(shí)體的細(xì)粒度實(shí)體類別顺囊。
9個大類:person, location, object, orga-nization, place, entity, object, time, event
121個細(xì)分類:(e.g. film, athlete)
10201個再細(xì)分類: (e.g. detective, law-suit, temple, weapon, composer)
paper's data

二肌索、模型

問題定義:給一個句子且標(biāo)注出句子中的實(shí)體e,需要預(yù)測實(shí)體e的類別特碳。
如:“Bill Gates has donated billions to eradicate malaria.” 實(shí)體Bill Gates的實(shí)體類別應(yīng)該是“慈善家”诚亚,而不是“發(fā)明家”。這種標(biāo)注出來的具有區(qū)別性質(zhì)的實(shí)體類別午乓,對文本語義理解和問答系統(tǒng)有幫助站宗。

1.實(shí)體兩端的上下文處理過程

給一個句子x_{1},x_{2},...,x_{n},句子的每一個詞x_{i}都一個對應(yīng)的預(yù)訓(xùn)練好的詞向量v_{i}硅瞧,每一個有自己的位置向量l_{i}份乒,然后將詞向量與位置向量拼接起來:[詞向量;位置向量]==[x_{i};l_{i}]腕唧,這作為bi-LSTM的輸入或辖,經(jīng)過bi-LSTM處理后,每一個詞的語義表示為h_{i}枣接。與前人不同的是颂暇,該篇論文用兩個獨(dú)立的bi-LSTMs來處實(shí)體兩邊的文本。

以上公式是用一個MLP注意力機(jī)制來處理但惶,與一個注意力權(quán)重變量矩陣相乘耳鸯,然后用relu激活函數(shù)來激活它湿蛔,然后再乘以一個注意力機(jī)制參數(shù),最后選取县爬。以上就是實(shí)體上下文的處理過程阳啥,最終得到上下文的語義表示向量。

2.實(shí)體自己處理過程

一個實(shí)體如:Bill Gates也是有兩個英語單詞構(gòu)成的财喳,所有由詞向量到實(shí)體向量也得有一個轉(zhuǎn)換過程:a)用CNN對實(shí)體進(jìn)行特征抽取處理;b)詞向量加權(quán)求平均察迟。得到的實(shí)體向量表示為m,最終上下文和實(shí)體的語義向量表示為預(yù)測的類別向量:r=[c;m]

3.標(biāo)簽預(yù)測

類別矩陣W_{t}\in \mathbb{R}^{n\times d}耳高,其中n表示標(biāo)簽的數(shù)量扎瓶,d表示類別r的維度。其實(shí)這個大類別矩陣由三個子矩陣組成:W_{general}=9d維泌枪,W_{fine}=121d維概荷,W_{ultra}=10201*d維。將上面1.2步驟處理得到的預(yù)測類別向量r與這個大的類別矩陣進(jìn)行相似度計算:r:y=\sigma (W_{t}r)碌燕,用sigmoid函數(shù)處理最終的值误证,這相當(dāng)于是一個多標(biāo)簽問題。那些y_{t}>0.5的類別都視為預(yù)測得到的細(xì)粒度標(biāo)簽們修壕。

4.損失函數(shù)

由上可知雷厂,這是一個多標(biāo)簽問題,模型的最后輸出也是用的sigmoid函數(shù)做處理叠殷。該論文為這個模型定義了一個新的損失函數(shù)如下:


其中,是一個檢查函數(shù)诈皿,檢查t類別是否在這個category里林束,另一個計算公式如下:

三、結(jié)果

四稽亏、總結(jié)

該篇論文主要是自己構(gòu)建了一個新的數(shù)據(jù)集壶冒,并在這個數(shù)據(jù)集上將前人的模型進(jìn)行改進(jìn)后做實(shí)驗,取得一定的效果截歉。這篇文章的模型思路不難理解胖腾,只用到了兩類神經(jīng)網(wǎng)絡(luò)函數(shù)bi-LSTM、CNN瘪松,且定義了一個區(qū)分類別的損失函數(shù)咸作。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市宵睦,隨后出現(xiàn)的幾起案子记罚,更是在濱河造成了極大的恐慌,老刑警劉巖壳嚎,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件桐智,死亡現(xiàn)場離奇詭異末早,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)说庭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進(jìn)店門然磷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人刊驴,你說我怎么就攤上這事姿搜。” “怎么了缺脉?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵痪欲,是天一觀的道長。 經(jīng)常有香客問我攻礼,道長业踢,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任礁扮,我火速辦了婚禮知举,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘太伊。我一直安慰自己雇锡,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布僚焦。 她就那樣靜靜地躺著锰提,像睡著了一般。 火紅的嫁衣襯著肌膚如雪芳悲。 梳的紋絲不亂的頭發(fā)上立肘,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機(jī)與錄音名扛,去河邊找鬼谅年。 笑死,一個胖子當(dāng)著我的面吹牛肮韧,可吹牛的內(nèi)容都是我干的融蹂。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼弄企,長吁一口氣:“原來是場噩夢啊……” “哼超燃!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起桩蓉,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤淋纲,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后院究,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體洽瞬,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡本涕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了伙窃。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片菩颖。...
    茶點(diǎn)故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖为障,靈堂內(nèi)的尸體忽然破棺而出晦闰,到底是詐尸還是另有隱情,我是刑警寧澤鳍怨,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布呻右,位于F島的核電站,受9級特大地震影響鞋喇,放射性物質(zhì)發(fā)生泄漏声滥。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一侦香、第九天 我趴在偏房一處隱蔽的房頂上張望落塑。 院中可真熱鬧,春花似錦罐韩、人聲如沸憾赁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽龙考。三九已至,卻和暖如春矾睦,著一層夾襖步出監(jiān)牢的瞬間洲愤,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工顷锰, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人亡问。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓官紫,卻偏偏與公主長得像,于是被迫代替她去往敵國和親州藕。 傳聞我的和親對象是個殘疾皇子束世,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評論 2 348