文章標題
Fine-Grained Entity Recognition細粒度實體識別
Summary
概述文章的內(nèi)容谣拣,用自己的語言描述
本文提出了FIGER數(shù)據(jù)集,并且提出了一種自適應感知器方法對實體進行多標簽分類赡茸,通過使用其他模型驗證了該數(shù)據(jù)集的可行性。
Research Objective
作者的研究目標
為了智能的理解文本并提取廣泛的信息祝闻,本文定義了一個由112個標簽組成的細粒度集合占卧,將標簽問題描述為多級、多標簽分類,描述了一種無監(jiān)督的收集訓練數(shù)據(jù)华蜒,并通過FIGER數(shù)據(jù)集展現(xiàn)舷蒲。任務:從自然語言句子中發(fā)現(xiàn)實體的類型信息,并對每個提及的實體匹配對應的實體類型友多。
Problem Statement
問題陳述牲平,需要解決的問題是什么
之前的大多ER研究只關注在有限的類型上:MUC-7(1997)包括:人、地點和組織域滥;CONLL03 增加了Other類型纵柿;ACE 引入了地緣政治實體、武器启绰、車輛和設施昂儒;Ontonotes(2006)將其分為18類;BBN 29(2005)中答案類型委可。提出了細粒度標簽的數(shù)據(jù)集FIGER
Method
作者解決問題的方法/算法
如下圖是整個系統(tǒng)的概覽圖渊跋,整個過程是流水線的方式:
給一個Plain Text(純文本)作為輸入
首先對句子進行分段,然后找到候選實體進行標記
其次着倾,應用Classifier for entiy tagging 分類器應用于識別的片段拾酝,并輸出其標簽。
傳統(tǒng)的NER系統(tǒng)最整個任務使用序列模型卡者,通常使用 linear-chain COnditional Random Field(CRF)蒿囤。在序列模型中,每個標記都有一個相應的隱藏變量崇决,指示其類型標簽材诽,隱藏變量的狀態(tài)空間與類型集的大小呈線性關系。如果允許一個片段有多個標簽恒傻,則狀態(tài)空間呈指數(shù)級增長脸侥。流水線模型則避免了這個問題。
作者首先提出了三個挑戰(zhàn)盈厘,并分別提出了相應的解決辦法
挑戰(zhàn):
selection of the tag set? 標簽集的選擇
creation of training data? 訓練數(shù)據(jù)的創(chuàng)建
development of a fast and accurate multi-class labeling algorithm 快速準確的多級標簽算法的開發(fā)
解決方案:
通過基于Freebase 類型管理一組112個獨特的標簽
Freebase的優(yōu)點:
1) 更廣泛覆蓋了世界上的實體
2) 允許一個實體承載多個重疊類型
使用遠程監(jiān)督(distant supervision)自動標注數(shù)據(jù)睁枕,利用Wikipedia文本中的錨定鏈接,用適當?shù)臉撕炞詣訕擞泴嶓w段扑庞。通過啟發(fā)式的方法刪除了費句子譬重,例如對句子中的逗號和分號進行閾值化
使用啟發(fā)式標記的訓練數(shù)據(jù)訓練一個CRF模型進行分割(識別提到實體的文本邊界),使用線性鏈式CRF模型來分割具有三個標準隱藏狀態(tài)罐氨,即“B”臀规、“i”和“O”。這些狀態(tài)分別表示提及的開始令牌栅隐、提及的非開始令牌和未提及的令牌塔嬉。以“B”作為起始標記的連續(xù)標記的最大序列玩徊,如果有,后面的標記是“I”谨究,則被視為實體提及/段恩袱。使用一種自適應感知器算法來解決這個多標簽分類問題
應用了一個經(jīng)典的線性分類器 感知器的形式是:
y ?? : 預測的標簽
f(x, y): 提及的x向量
w : 模型向量的權重?
Evaluation
作者如何評估自己的方法,實驗的setup是什么樣的胶哲,有沒有問題或者可以借鑒的地方畔塔。
作者為了評估FIGER,考慮了兩個問題
問題
how accurately can it assign tags 如何精確的分類標簽
do the fine-grained tags matter 細粒度的標記是否重要
解決方案
與Stanford’s coarse-grained NER system[1]? 和Illinois’ Named-Entity Linking system[2]進行了對比
使用了做好的關系抽取系統(tǒng)MultiR[3],接受每個FIGER預測的類型作為每個潛在關系的參數(shù)的特征
[1]?"Finkel,J.;Grenager,T.;andManning,C.2005.Incorporat-ingnon-localinformationintoinformationextractionsys-temsbygibbssampling.InProceedingsofACL,363–370.AssociationforComputationalLinguistics.Fleischman"?
[2]?"Ratinov,L.;Roth,D.;Downey,D.;andAnderson,M.2011.Localandglobalalgorithmsfordisambiguationtowikipedia.InProc.ofACL.Riedel"?
[3]: "Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In ACL."
Conclusion
作者給了哪些結(jié)論鸯屿,哪些是strong conclusions, 哪些又是weak的conclusions?
貢獻
介紹了一組從Freebase派生的實體類型集澈吨,這些實體類型對于人類理解和其他NLP任務有用
描述了FIGER,一個細粒度的實體識別數(shù)據(jù)集寄摆,他標識自然語言文本中實體的引用谅辣,并用適當?shù)臉擞泴ζ溥M行標記
將FIGER與兩個最先進的模型進行了比較,結(jié)果表明:(1)FIGER具有很好的整體準確度婶恼,在處理不常見實體時優(yōu)于其它方法(2)當作為特征使用時桑阶,細粒度標記可以顯著提高F1中關系提取性能
將FIGER的實現(xiàn)和它的數(shù)據(jù)作為開放源碼提供給研究人員使用和使用。
未來方向
對標簽相關性進行建模勾邦,以避免預測不太可能的組合蚣录。
減少來自遠程監(jiān)督的噪音
Notes
額外的筆記
1. 實體識別定義
Entity Recognition(ER)is a type of information extraction that seeks to identify regions of text(mentions)corresponding to entities and to categorize them into a predefined list of types.實體識別(ER)是一種信息抽取類型,目的是識別與實體相對應的文本(提及)區(qū)域检痰,并將其分類到預定義的類型列表中包归。
2.詞匯
adapted perceptron 自適應感知器empirically 經(jīng)驗為主地