論文筆記——Fine-Grained Entity Recognition

文章標題

Fine-Grained Entity Recognition細粒度實體識別

Summary

概述文章的內(nèi)容谣拣,用自己的語言描述

本文提出了FIGER數(shù)據(jù)集,并且提出了一種自適應感知器方法對實體進行多標簽分類赡茸,通過使用其他模型驗證了該數(shù)據(jù)集的可行性。

Research Objective

作者的研究目標

為了智能的理解文本并提取廣泛的信息祝闻,本文定義了一個由112個標簽組成的細粒度集合占卧,將標簽問題描述為多級、多標簽分類,描述了一種無監(jiān)督的收集訓練數(shù)據(jù)华蜒,并通過FIGER數(shù)據(jù)集展現(xiàn)舷蒲。任務:從自然語言句子中發(fā)現(xiàn)實體的類型信息,并對每個提及的實體匹配對應的實體類型友多。

Problem Statement

問題陳述牲平,需要解決的問題是什么

之前的大多ER研究只關注在有限的類型上:MUC-7(1997)包括:人、地點和組織域滥;CONLL03 增加了Other類型纵柿;ACE 引入了地緣政治實體、武器启绰、車輛和設施昂儒;Ontonotes(2006)將其分為18類;BBN 29(2005)中答案類型委可。提出了細粒度標簽的數(shù)據(jù)集FIGER

Method

作者解決問題的方法/算法

如下圖是整個系統(tǒng)的概覽圖渊跋,整個過程是流水線的方式:

給一個Plain Text(純文本)作為輸入

首先對句子進行分段,然后找到候選實體進行標記

其次着倾,應用Classifier for entiy tagging 分類器應用于識別的片段拾酝,并輸出其標簽。

傳統(tǒng)的NER系統(tǒng)最整個任務使用序列模型卡者,通常使用 linear-chain COnditional Random Field(CRF)蒿囤。在序列模型中,每個標記都有一個相應的隱藏變量崇决,指示其類型標簽材诽,隱藏變量的狀態(tài)空間與類型集的大小呈線性關系。如果允許一個片段有多個標簽恒傻,則狀態(tài)空間呈指數(shù)級增長脸侥。流水線模型則避免了這個問題。

作者首先提出了三個挑戰(zhàn)盈厘,并分別提出了相應的解決辦法

挑戰(zhàn):

selection of the tag set? 標簽集的選擇

creation of training data? 訓練數(shù)據(jù)的創(chuàng)建

development of a fast and accurate multi-class labeling algorithm 快速準確的多級標簽算法的開發(fā)

解決方案:

通過基于Freebase 類型管理一組112個獨特的標簽

Freebase的優(yōu)點:

1) 更廣泛覆蓋了世界上的實體

2) 允許一個實體承載多個重疊類型

使用遠程監(jiān)督(distant supervision)自動標注數(shù)據(jù)睁枕,利用Wikipedia文本中的錨定鏈接,用適當?shù)臉撕炞詣訕擞泴嶓w段扑庞。通過啟發(fā)式的方法刪除了費句子譬重,例如對句子中的逗號和分號進行閾值化

使用啟發(fā)式標記的訓練數(shù)據(jù)訓練一個CRF模型進行分割(識別提到實體的文本邊界),使用線性鏈式CRF模型來分割具有三個標準隱藏狀態(tài)罐氨,即“B”臀规、“i”和“O”。這些狀態(tài)分別表示提及的開始令牌栅隐、提及的非開始令牌和未提及的令牌塔嬉。以“B”作為起始標記的連續(xù)標記的最大序列玩徊,如果有,后面的標記是“I”谨究,則被視為實體提及/段恩袱。使用一種自適應感知器算法來解決這個多標簽分類問題

應用了一個經(jīng)典的線性分類器 感知器的形式是:

y ?? : 預測的標簽

f(x, y): 提及的x向量

w : 模型向量的權重?

Evaluation

作者如何評估自己的方法,實驗的setup是什么樣的胶哲,有沒有問題或者可以借鑒的地方畔塔。

作者為了評估FIGER,考慮了兩個問題

問題

how accurately can it assign tags 如何精確的分類標簽

do the fine-grained tags matter 細粒度的標記是否重要

解決方案

與Stanford’s coarse-grained NER system[1]? 和Illinois’ Named-Entity Linking system[2]進行了對比

使用了做好的關系抽取系統(tǒng)MultiR[3],接受每個FIGER預測的類型作為每個潛在關系的參數(shù)的特征

[1]?"Finkel,J.;Grenager,T.;andManning,C.2005.Incorporat-ingnon-localinformationintoinformationextractionsys-temsbygibbssampling.InProceedingsofACL,363–370.AssociationforComputationalLinguistics.Fleischman"?

[2]?"Ratinov,L.;Roth,D.;Downey,D.;andAnderson,M.2011.Localandglobalalgorithmsfordisambiguationtowikipedia.InProc.ofACL.Riedel"?

[3]: "Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In ACL."

Conclusion

作者給了哪些結(jié)論鸯屿,哪些是strong conclusions, 哪些又是weak的conclusions?

貢獻

介紹了一組從Freebase派生的實體類型集澈吨,這些實體類型對于人類理解和其他NLP任務有用

描述了FIGER,一個細粒度的實體識別數(shù)據(jù)集寄摆,他標識自然語言文本中實體的引用谅辣,并用適當?shù)臉擞泴ζ溥M行標記

將FIGER與兩個最先進的模型進行了比較,結(jié)果表明:(1)FIGER具有很好的整體準確度婶恼,在處理不常見實體時優(yōu)于其它方法(2)當作為特征使用時桑阶,細粒度標記可以顯著提高F1中關系提取性能

將FIGER的實現(xiàn)和它的數(shù)據(jù)作為開放源碼提供給研究人員使用和使用。

未來方向

對標簽相關性進行建模勾邦,以避免預測不太可能的組合蚣录。

減少來自遠程監(jiān)督的噪音

Notes

額外的筆記

1. 實體識別定義

Entity Recognition(ER)is a type of information extraction that seeks to identify regions of text(mentions)corresponding to entities and to categorize them into a predefined list of types.實體識別(ER)是一種信息抽取類型,目的是識別與實體相對應的文本(提及)區(qū)域检痰,并將其分類到預定義的類型列表中包归。

2.詞匯

adapted perceptron 自適應感知器empirically 經(jīng)驗為主地

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市铅歼,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌换可,老刑警劉巖椎椰,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異沾鳄,居然都是意外死亡慨飘,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進店門译荞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瓤的,“玉大人,你說我怎么就攤上這事吞歼∪Ω啵” “怎么了?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵篙骡,是天一觀的道長稽坤。 經(jīng)常有香客問我丈甸,道長,這世上最難降的妖魔是什么尿褪? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任睦擂,我火速辦了婚禮,結(jié)果婚禮上杖玲,老公的妹妹穿的比我還像新娘顿仇。我一直安慰自己,他們只是感情好摆马,可當我...
    茶點故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布臼闻。 她就那樣靜靜地躺著,像睡著了一般今膊。 火紅的嫁衣襯著肌膚如雪些阅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天斑唬,我揣著相機與錄音市埋,去河邊找鬼。 笑死恕刘,一個胖子當著我的面吹牛缤谎,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播褐着,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼坷澡,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了含蓉?” 一聲冷哼從身側(cè)響起频敛,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎馅扣,沒想到半個月后斟赚,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡差油,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年拗军,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蓄喇。...
    茶點故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡发侵,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出妆偏,到底是詐尸還是另有隱情刃鳄,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布楼眷,位于F島的核電站铲汪,受9級特大地震影響熊尉,放射性物質(zhì)發(fā)生泄漏毒租。R本人自食惡果不足惜麸俘,卻給世界環(huán)境...
    茶點故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望轻纪。 院中可真熱鬧齿梁,春花似錦催植、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至省核,卻和暖如春稿辙,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背气忠。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工邻储, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人旧噪。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓吨娜,卻偏偏與公主長得像,于是被迫代替她去往敵國和親淘钟。 傳聞我的和親對象是個殘疾皇子宦赠,可洞房花燭夜當晚...
    茶點故事閱讀 43,527評論 2 349