細(xì)顆粒命名實(shí)體泛讀系列(一)—— Fine-Grained Entity Typing in Hyperbolic Space論文閱讀

一、寫在前面的話

該論文針對(duì)細(xì)顆粒的命名實(shí)體類別分類,主要基于Ultra-Fine Entity Typing所提出的更多顆粒的數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)忠寻。該模型主要的創(chuàng)新在于針對(duì)有層次的實(shí)體類別使用雙曲嵌入的方式生成類別向量焊夸,使其具備層次信息。


二千扶、Named Entity Typing

細(xì)顆粒的命名實(shí)體類別分類本質(zhì)是一個(gè)多標(biāo)簽分類問題,在已知實(shí)體和實(shí)體所在的上下文的情況下對(duì)實(shí)體的類別進(jìn)行分類。

如上圖所示吨述,針對(duì)一個(gè)實(shí)體,會(huì)存在多個(gè)有層次的標(biāo)簽钞脂,例如有粗顆粒的person和較細(xì)顆粒的defendant揣云。

1. An Attentive Neural Architecture for Fine-grained Entity Type Classification

這是一篇較早的基于深度學(xué)習(xí)的細(xì)顆粒的命名實(shí)體類別分類,其整體結(jié)構(gòu)如下圖所示冰啃,模型整體分成兩部分邓夕,實(shí)體表示和實(shí)體所在的上下文表示。實(shí)體就是一個(gè)簡(jiǎn)單的嵌入模型(實(shí)體各個(gè)單詞詞向量的平均值)阎毅,上下文表示部分則是以實(shí)體為界限分成上文部分和下文部分焚刚,兩者結(jié)構(gòu)相同,使用BiLSTM+Attention的結(jié)構(gòu)對(duì)其進(jìn)行編碼再拼接成上下文表示(文中還提到了更簡(jiǎn)單的上下文表示方法扇调,不過當(dāng)然效果欠佳)矿咕。


最后由于是多標(biāo)簽,所以直接取所有的概率大于0.5的輸出。

2. Neural Architectures for Fine-grained Entity Type Classification

該論文的模型結(jié)構(gòu)基本上沿襲上一篇論文(在上一篇的模型結(jié)構(gòu)上引入了一些人工特征)碳柱,主要的創(chuàng)新在于使用了hierarchical label encoding的方法捡絮,即先對(duì)所有的標(biāo)簽使用one-hot生成向量,然后對(duì)有層次的標(biāo)簽進(jìn)行疊加莲镣,例如假設(shè)/person被表征為[1, 0, 0, 0, 0, ...]福稳、/artist被表征為[0, 1, 0, 0, 0, ...]、/actor被表征為[0, 0, 1, 0, 0, ...]瑞侮,又由于/person/artist/actor這樣的層次信息的圆,故/artist被表征為[1, 1, 0, 0, 0, ...]、/actor被表征為[1, 1, 1, 0, 0, ...]半火。使用如下的方法生成類別的低維表示作為最后分類層的參數(shù)略板,進(jìn)行分類。

3. Ultra-Fine Entity Typing

這一篇模型就不講了慈缔,整體結(jié)構(gòu)基本上還是老樣子叮称,分別生成實(shí)體向量和上下文向量再拼接,最后進(jìn)行多標(biāo)簽分類藐鹤。相比模型瓤檐,該論文通過遠(yuǎn)程監(jiān)督和實(shí)體鏈接方法生成了新的數(shù)據(jù)集,包含更多的實(shí)體類別:

左邊是新數(shù)據(jù)集娱节,右邊兩個(gè)是之前的數(shù)據(jù)集

同時(shí)挠蛉,作者對(duì)實(shí)體類別的顆粒級(jí)別進(jìn)行了分類,《Fine-Grained Entity Typing in Hyperbolic Space》中也針對(duì)這一點(diǎn)進(jìn)行了優(yōu)化:


三 肄满、Fine-Grained Entity Typing in Hyperbolic Space

1. 模型結(jié)構(gòu)

該模型首先整體結(jié)構(gòu)上創(chuàng)新不多谴古,論文本身也沒重點(diǎn)提這一塊的內(nèi)容(還是BiLSTM+Attention的套路)。主要的亮點(diǎn)在于對(duì)三種顆粒類型分層生成類型向量稠歉。例如對(duì)于coarse向量直接使用實(shí)體向量和上下文向量拼接后的向量進(jìn)行計(jì)算得到掰担,fine向量則是使用coarse向量和使用實(shí)體向量以及上下文向量拼接后的向量進(jìn)行計(jì)算,ultrafine向量則是把coarse向量換成fine向量怒炸。

2. 雙曲嵌入

關(guān)于雙曲嵌入可以參考 淺談機(jī)器學(xué)習(xí)中的表示學(xué)習(xí):從歐式空間到雙曲空間學(xué)習(xí)带饱,簡(jiǎn)單來說就是可以獲得層次信息的向量嵌入。通過這個(gè)方法獲得實(shí)體類別標(biāo)簽的嵌入后阅羹,另一個(gè)問題就是計(jì)算雙曲空間上的距離勺疼。論文為了對(duì)比模型生成的向量和雙曲嵌入獲得的標(biāo)簽向量直接的距離,先通過下式將生成的向量映射到雙曲空間(簡(jiǎn)單來說就是讓生成的向量通過網(wǎng)絡(luò)產(chǎn)生新的向量捏鱼,最后通過網(wǎng)絡(luò)學(xué)習(xí)怎么使用這個(gè)映射是讓生成的向量映射到雙曲空間):

最后計(jì)算兩個(gè)向量直接的距離执庐,其中d_{cos}是余弦距離(具體證明還是參考原論文):


四、實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集:

左邊是Ultra-Fine导梆,右邊是Onto Notes

由于不太熟悉這一領(lǐng)域轨淌,所以看論文的時(shí)候找了很多前置的資料和論文看迂烁,感覺是個(gè)蠻有意思的領(lǐng)域,一些關(guān)于實(shí)體和上下文之間的處理也值得學(xué)習(xí)猿诸。說到這篇論文婚被,模型結(jié)構(gòu)上大體沿襲之前的論文狡忙,但在引入雙曲嵌入和怎么有效地使用雙曲嵌入上文章投入了大量的筆墨梳虽,對(duì)于有層次信息的任務(wù)來說,嘗試引入雙曲空間都是一個(gè)不錯(cuò)的點(diǎn)灾茁,而這篇論文則是在這一方面提供了行之有效的方法窜觉。


參考

  1. 淺談機(jī)器學(xué)習(xí)中的表示學(xué)習(xí):從歐式空間到雙曲空間
  2. Neural Network for Named Entity Typing方法總結(jié)
  3. 引入注意力機(jī)制的細(xì)粒度實(shí)體分類
  4. 細(xì)粒度實(shí)體類型分類的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
  5. 論文筆記:Ultra-Fine Entity Typing
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市北专,隨后出現(xiàn)的幾起案子禀挫,更是在濱河造成了極大的恐慌,老刑警劉巖拓颓,帶你破解...
    沈念sama閱讀 217,406評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件语婴,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡驶睦,警方通過查閱死者的電腦和手機(jī)砰左,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來场航,“玉大人缠导,你說我怎么就攤上這事「攘。” “怎么了僻造?”我有些...
    開封第一講書人閱讀 163,711評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)孩饼。 經(jīng)常有香客問我髓削,道長(zhǎng),這世上最難降的妖魔是什么镀娶? 我笑而不...
    開封第一講書人閱讀 58,380評(píng)論 1 293
  • 正文 為了忘掉前任蔬螟,我火速辦了婚禮,結(jié)果婚禮上汽畴,老公的妹妹穿的比我還像新娘旧巾。我一直安慰自己,他們只是感情好忍些,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評(píng)論 6 392
  • 文/花漫 我一把揭開白布鲁猩。 她就那樣靜靜地躺著,像睡著了一般罢坝。 火紅的嫁衣襯著肌膚如雪廓握。 梳的紋絲不亂的頭發(fā)上搅窿,一...
    開封第一講書人閱讀 51,301評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音隙券,去河邊找鬼男应。 笑死,一個(gè)胖子當(dāng)著我的面吹牛娱仔,可吹牛的內(nèi)容都是我干的沐飘。 我是一名探鬼主播,決...
    沈念sama閱讀 40,145評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼牲迫,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼耐朴!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起盹憎,我...
    開封第一講書人閱讀 39,008評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤筛峭,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后陪每,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體影晓,經(jīng)...
    沈念sama閱讀 45,443評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評(píng)論 3 334
  • 正文 我和宋清朗相戀三年檩禾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了挂签。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锌订,死狀恐怖竹握,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情辆飘,我是刑警寧澤啦辐,帶...
    沈念sama閱讀 35,501評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站蜈项,受9級(jí)特大地震影響芹关,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜紧卒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評(píng)論 3 328
  • 文/蒙蒙 一侥衬、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧跑芳,春花似錦轴总、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至盆佣,卻和暖如春往堡,著一層夾襖步出監(jiān)牢的瞬間械荷,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評(píng)論 1 269
  • 我被黑心中介騙來泰國打工虑灰, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吨瞎,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,899評(píng)論 2 370
  • 正文 我出身青樓穆咐,卻偏偏與公主長(zhǎng)得像颤诀,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子庸娱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容