實體識別(信息抽群┘椤)
2. 信息抽取的基礎(chǔ):分詞和詞性標注
2.6基于統(tǒng)計的分詞方法
基于統(tǒng)計的方法需要標注訓練語料訓練模型纱烘,可分為生成式統(tǒng)計分詞和判別式統(tǒng)計分詞
2.6.1 生成式方法
- 生成式方法優(yōu)缺點
- 優(yōu)點:在訓練語料規(guī)模足夠大和覆蓋領(lǐng)域足夠多的情況下尼夺,可以獲得較高的切分正確率
- 缺點:訓練語料的規(guī)模和覆蓋領(lǐng)域不好把握帕翻。模型實現(xiàn)復(fù)雜仅淑、計算量較大。
2.6.2 判別式方法
原理:在有限樣本條件下建立對于預(yù)測結(jié)果的判別函數(shù)绘梦,直接對預(yù)測結(jié)果進行判別橘忱。由字構(gòu)詞的分詞理念,將分詞問題轉(zhuǎn)化為判別式分類問題卸奉。
典型算法:Maxent SVM CRF Perceptron
-
分詞流程:
- 把分詞問題轉(zhuǎn)化為確定居中每個字在詞中位置問題
- 每個字在詞中可能的位置可以分為以下四種:詞首(B)钝诚,詞中(M),詞尾(E)择卦,獨字(S)敲长。
-
分詞結(jié)果展示
- 分詞結(jié)果:毛/B新/M年/E2/B0/M0/M0/M年/E畢/B業(yè)/E于/S東/B北/M大/M學/E
最大熵模型
-
最大熵理論:
- 在無外力作用下,事物總是朝著最混亂的方向發(fā)展
- 事物是約束和自由的統(tǒng)一體
- 事物總是在約束下爭取最大的自由權(quán)秉继,這其實也是自然界的根本原則
- 在已知條件下,熵最大的事物泽铛,最可能接近它的真實狀態(tài)
-
基于最大熵原理的模型選擇
- 任務(wù):研究某個隨機事件尚辑,根據(jù)已知信息,預(yù)測其未來行為盔腔。
- 方法:當無法獲得隨機事件的真實分布時杠茬,構(gòu)造統(tǒng)計模型對隨機事件進行模擬月褥。
- 難點:滿足已知信息要求的模型可能有很多個,用哪個模型來預(yù)測最合適呢瓢喉?
- 原則熵最大的模型
- Jaynes證明:對隨機事件的所有相容的預(yù)測中宁赤,熵最大的預(yù)測出現(xiàn)的概率占絕對優(yōu)勢
-
Tribus證明:正態(tài)分布、伽瑪分布栓票、指數(shù)分布等决左,都是最大熵原理的特殊情況。
在這里插入圖片描述
-
最大熵模型:天氣預(yù)報
假設(shè)要用今天的天氣預(yù)測明天的天氣走贪。- 天氣
{晴佛猛、陰、雨}
- 風向
{無坠狡、南继找、北}
- 已知今天的天氣和風向,要預(yù)測明天的天氣
- 天氣
-
樣本數(shù)據(jù)如下所示:
在這里插入圖片描述 -
問題定義:
在這里插入圖片描述 -
建模
- 建立天氣預(yù)報模型:給出所有可能的條件下結(jié)論的概率
- 為簡化問題,通常用聯(lián)合概率模型取代上述的條件概率模型
- 二者關(guān)系:
-
由于條件和結(jié)論都是離散量缩搅,理論上,所有的可能性是可以窮舉的触幼,因此只要給出所有可能性的概率即可硼瓣。
在這里插入圖片描述
- 建立天氣預(yù)報模型:給出所有可能的條件下結(jié)論的概率
-
上述模型需要滿足以下兩個條件:
-
模型的概率分布應(yīng)盡可能與樣本一致
在這里插入圖片描述 - 模型的熵最大
-
-
優(yōu)化目標:
- X熵最大:可以表示為:
[圖片上傳失敗...(image-4d16cc-1577674178954)] - 實際上,A(預(yù)測的條件)的可能性數(shù)量可能極其巨大置谦,窮舉所有可能性是不現(xiàn)實的堂鲤,如何對任意的條件和結(jié)論給出其概率?以及如何表示X的分布于已知樣本的分布一致這個問題媒峡?
- X熵最大:可以表示為:
-
引入特征
- 實際問題中瘟栖,由于條件
和結(jié)果
取值多樣化,為模型表示方便谅阿,通常將條件和結(jié)果表示為一些二制特征
- 特征
定義如下:
- 這樣每個時間都可以表示為一個由特征值{0半哟,1}組成的n維向量,不再直接用條件和結(jié)論來描述签餐。
- 實際問題中瘟栖,由于條件
-
引入約束
-
“模型分布與樣本分布一致”可以描述為:
在這里插入圖片描述
這個公式含義為:對于任何一個特征寓涨,模型和樣本應(yīng)該具有相同的均值(即,根據(jù)樣本數(shù)據(jù)統(tǒng)計各種出現(xiàn)的次數(shù))氯檐。由于特征取值只有{0,1}戒良,因此這個公式實質(zhì)上可以理解為:模型中任何一個特征為1的概率與樣本應(yīng)相同。
-
-
為天氣預(yù)報引入以下簡單特征:
在這里插入圖片描述 -
用簡單特征表示樣本:樣本表示
在這里插入圖片描述 -
用簡單特征表示樣本:建模目標(模型能預(yù)測所有的可能冠摄,并給出概率)
在這里插入圖片描述 -
利用上述簡單特診個糯崎,采用最大熵原理為天氣預(yù)報建模几缭,得到的模型是:
在這里插入圖片描述
而這個模型并不是我們想要的模型,我們需要得到的是類似于下面這樣的模型:
- 模型中“昨天天氣為晴”的情況下今天各種天氣的概率與樣本一致
-
符合特征(組合特征)
-
為了使得到的模型滿足我們所期望的約束條件沃呢,可以重新定義特征:
在這里插入圖片描述 -
按照這種方式定義特征年栓,那么所有的特征都反映了某種預(yù)測條件和結(jié)果之間的依賴關(guān)系,這樣得到的模型才是我們所期望的模型
在這里插入圖片描述
-
-
模型應(yīng)用
- 假設(shè)我們已經(jīng)得到一個滿足上述約束條件且熵最大的模型薄霜,如何預(yù)測天氣某抓?
- 給定預(yù)測條件
(今天天氣和今天風向),需要預(yù)測明天天氣
{晴黄锤、陰搪缨、雨},我們只要根據(jù)模型分別將
轉(zhuǎn)化為特征值流强,然后根據(jù)模型計算出相應(yīng)的概率痹届,取概率最大者即可。
-
最優(yōu)化:學習過程
-
根據(jù)前面的定義打月,最大熵模型的參數(shù)估計可以表示為一個約束條件下的極值問題
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
-
-
判別式方法優(yōu)缺點
- 優(yōu)點:分詞精度高队腐,新詞識別率較高
- 缺點:訓練速度慢,性能與特征緊密相連奏篙,需要人工標注訓練語料柴淘。
-
當前分詞技術(shù)存在的主要問題
- 訓練語料規(guī)模小:分詞模型過于依賴訓練樣本秘通,而標注大規(guī)模訓練樣本費時費力为严,由此導致分詞系統(tǒng)對新詞的識別能力差,往往在與訓練樣本差異較大的測試集上性能大幅度下降
- 訓練語料領(lǐng)域少:現(xiàn)有的訓練樣本主要在新聞領(lǐng)域肺稀,而實際應(yīng)用千差萬別第股。
- 對實體和專有名詞的識別性能較低。
3. 命名實體識別
-
命名實體的定義
- 狹義的講话原,命名實體指現(xiàn)實世界中具體或抽象的實體夕吻。如人、機構(gòu)繁仁、地點等涉馅,通常用唯一的標識符(專有名稱)表示。
- 廣義地講改备,命名實體還可以包含時間控漠、日期、數(shù)量表達式(100)悬钳、金錢(一億人民幣)等盐捷。
-
命名實體識別的任務(wù)
- 一般而言,主要是識別出待處理文本中七類(人名默勾、機構(gòu)名碉渡、地名、時間母剥、日期滞诺、貨幣和百分比)命名實體
- 兩個子任務(wù):實體邊界識別和確定實體識別
- 實體識別的任務(wù)中,人名环疼、地名习霹、機構(gòu)名的用字靈活,識別的難度較大
-
人名識別
- 英文人名識別已有很好的研究炫隶,其本身具有一些明顯的特征淋叶,切分造成的錯誤很少。
- 中文識別存在比較多難點:
- 名字用字范圍廣伪阶,分布松散煞檩,規(guī)律不很明顯
- 姓氏和名字都可以單獨使用用于特指某一人(eg.王二小,小王栅贴,二姓迮取)
- 許多姓氏用字和名字用字可以作為普通用字或詞被使用。
- 缺乏可利用的啟發(fā)標記(人名與上下文組合成詞)(eg.祝賀老總百戰(zhàn)百勝)
- 中國人名一般由姓檐薯、名凝赛、前綴(老王)、后綴(王總)部分組合而成坛缕。
- 中國人名各組成部分用字比較有規(guī)律:姓氏中使用頻度最高的前400個姓氏覆蓋率達到99%墓猎,名字中用字使用頻度最高的前400個字的覆蓋率達到90%
- 人名各組成部分的組合規(guī)律:姓+名,姓祷膳,名陶衅,前綴+姓,姓+后綴直晨,姓+姓+名
- 人名的上下文構(gòu)成規(guī)律:身份詞
- 前:工人搀军、教師、影星
- 后:先生勇皇、同志
- 前后:女士罩句、教授、經(jīng)理敛摘、小姐门烂、總理
-
中文地名的識別
- 難點:地名數(shù)量大,缺乏明確、規(guī)范的定義屯远;真實語料中地名出現(xiàn)情況復(fù)雜(地名簡稱蔓姚、地名 用詞與其它普通詞沖突、地名是其它專用名詞的一部分慨丐、地名長度不一)
-
中文機構(gòu)名識別
- 難點:機構(gòu)名中含有大量的人名坡脐、地名、企業(yè)字號等專有名稱房揭;用詞廣泛备闲;機構(gòu)名長度極其不固定;機構(gòu)名很不穩(wěn)定捅暴。
-
命名實體識別的方法:
- 有詞典切分/無詞典切分:在分詞的過程中使用詞典的方法是有詞典切分恬砂,反之是無詞典切分,有詞典切分的方法一般是基于規(guī)則的蓬痒,無詞典切分的方法一般是基于統(tǒng)計的
- 基于規(guī)則的方法/基于統(tǒng)計的方法:基于規(guī)則的方法不需要標注訓練語料泻骤,能直接根據(jù)詞典和規(guī)則進行分詞,基于統(tǒng)計的方法需要標注訓練語料訓練模型乳幸〉伤希基于統(tǒng)計的方法可以分為生成式統(tǒng)計命名實體識別和判別式命名實體識別。
-
基于字典的命名實體識別方法
- 按照一定的策略將待分析的漢字串與一個充分大的詞典中的詞條進行匹配粹断,若在詞典中找到某個字符串符欠,則匹配成功。
- 典型方法:正向瓶埋、反向最大匹配法希柿,最短路徑法。(與之前的分詞方法類似)
-
基于統(tǒng)計的命名實體識別方法
- 生成式方法
- 原理:首先建立學習樣本的生成模型养筒,再利用模型對預(yù)測結(jié)果進行間接推理
- 典型算法:HMM曾撤,PCFG(概率上下文無關(guān)文法)等
- 判別式方法
- 原理:由字構(gòu)詞的命名實體識別理念,將NER(命名實體識別)問題轉(zhuǎn)化為判別式分類問題(序列標注問題)
- 典型算法:Maxent晕粪,SVM挤悉,CRF,CNN巫湘,RNN装悲,LSTM+CRF
- 生成式方法
-
條件隨機場(CRF)
- 定義:條件隨機場(Conditional Random Field,CRF)是給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型。
- 特點:假設(shè)輸出隨機變量構(gòu)成馬爾可夫隨機場
- 應(yīng)用:可以應(yīng)用于不同類型的標注問題尚氛,例如:單個目標的標注诀诊、序列結(jié)構(gòu)的標注、圖結(jié)構(gòu)的標注
- 自然語言處理的很多任務(wù)可以轉(zhuǎn)化為序列結(jié)構(gòu)的標注問題阅嘶。
- 條件隨機場的三個基本問題:概率計算問題属瓣、解碼問題载迄、學習問題。
-
概率無向圖模型
- 圖是由節(jié)點及連接節(jié)點的邊組成的集合抡蛙。結(jié)點和邊分別記作v和e护昧,結(jié)點和邊的集合分別記作V和E,圖記作G=(V溜畅,E)
- 概率圖模型是由圖表示的概率分布:設(shè)有聯(lián)合概率分布P(Y)捏卓,Y是一組隨機變量极祸。由圖G=(V慈格,E)表示概率分布P(Y),即在圖G中遥金,一個結(jié)點v表示一個隨機變量
浴捆,邊e表示隨機變量之間的概率依賴關(guān)系。
- 概率圖模型可分為概率有向圖模型(例如隱馬爾可夫模型)和概率無向圖模型(例如條件隨機場模型)稿械。
-
概率無向圖模型:成對馬爾可夫性
- 任意沒有直接相連的一對結(jié)點选泻,在給定O的條件下互相獨立
- 設(shè)u和v是無向圖G中任意兩個沒有連接的結(jié)點,結(jié)點u和v分別對應(yīng)隨機變量
美莫。其它所有結(jié)點為O页眯,對應(yīng)的隨機變量組是
,成對馬爾可夫性是指給定隨機組
的條件下是
條件獨立的
在這里插入圖片描述
-
局部馬爾可夫性
-
任意一個結(jié)點與所有不與他直接相連的結(jié)點厢呵,在給定的條件下相互獨立窝撵。
在這里插入圖片描述
-
-
全局馬爾可夫性
-
被結(jié)點集合O分開的任意兩個結(jié)點集合A和B,在給定O的條件下相互獨立
在這里插入圖片描述
-
-
馬爾可夫隨機場
- 如果概率無向圖模型的聯(lián)合概率分布P(Y)滿足三種馬爾可夫性(成對襟铭、局部碌奉、全局),就稱此聯(lián)合概率分布為馬爾可夫隨機場寒砖。
- 對給定的馬爾可夫隨機場模型赐劣,希望將整體的聯(lián)合概率寫成若干子聯(lián)合概率的乘積的形式,也就是將聯(lián)合概率進行因子分解哩都。
-
因子分解
- 團(clique):無向圖G中任何兩個結(jié)點均為有邊連接的結(jié)點子集稱為團
- 最大團:若C是無向圖G的一個團魁兼,并且不能再加任何一個c的結(jié)點使其成為一個更大的團,則稱此C為最大團
-
示例:
在這里插入圖片描述 - 將馬爾可夫隨機場模型的聯(lián)合概率分布表示為其最大團上的隨機變量的函數(shù)的乘積形式的操作漠嵌,稱為馬爾可夫隨機場模型的因子分解咐汞。
- 給定馬爾可夫隨機場模型,設(shè)其無向圖為G献雅,C為G上的最大團碉考,
表示C對應(yīng)的隨機變量,那么馬爾可夫隨機場模型的聯(lián)合概率分布P(Y)可寫作圖中所有最大團C上的函數(shù)
的乘積形式挺身,即:
[圖片上傳失敗...(image-ad7560-1577674178954)] - Z是歸一化因子:
[圖片上傳失敗...(image-e487c4-1577674178954)]
-
條件隨機場
- 定義:設(shè)X與Y是隨機變量侯谁,P(X|Y)是在給定X的條件下Y的條件概率分布。若隨機變量Y構(gòu)成一個由無向圖G=(V,E)表示的馬爾可夫隨機場,則稱條件概率分布P(X|Y)為條件隨機場墙贱。
[圖片上傳失敗...(image-11fa62-1577674178954)]
其中w~v表示在圖G中與結(jié)點v有邊連接的所有結(jié)點w热芹,表示結(jié)點v意外的所有結(jié)點。
- 定義:設(shè)X與Y是隨機變量侯谁,P(X|Y)是在給定X的條件下Y的條件概率分布。若隨機變量Y構(gòu)成一個由無向圖G=(V,E)表示的馬爾可夫隨機場,則稱條件概率分布P(X|Y)為條件隨機場墙贱。
-
線性鏈條件隨機場
在這里插入圖片描述- 圖示:
[圖片上傳失敗...(image-a77127-1577674178954)]
在標注問題中惨撇,X表示輸入觀察序列伊脓,Y表示對應(yīng)的輸出標記序列或狀態(tài)序列。
這塊涉及到蠻多繁瑣的公式推導魁衙,后面慢慢再補充吧报腔。
- 圖示:
4. 開放域?qū)嶓w識別
-
開放類別實體抽取:
- 不限定實體類別
- 不限定目標文本
- 任務(wù):給定某一類別的實體實例剖淀,從網(wǎng)頁中抽取同一類別其他實體實例
例如纯蛾,<中國、美國纵隔、俄羅斯>作為輸入翻诉,稱為“種子”,找出其他國家<日本捌刮、德國碰煌、韓國、英國绅作、法國芦圾。。棚蓄。>
-
開放類別實體抽榷榉觥:主要方法
- 基本思路:種子詞與目標詞在網(wǎng)頁中具有相同或者類似的上下文
- 種子詞——>模板
- 模板——>更多同類實體
-
處理實例擴展問題的主流框架
在這里插入圖片描述 - 利用不同數(shù)據(jù)源(例如查詢?nèi)罩尽⒕W(wǎng)頁文檔梭依、知識庫文檔等)的不同特點稍算,設(shè)計方法。
- 基本思路:種子詞與目標詞在網(wǎng)頁中具有相同或者類似的上下文
-
Query Log問題
- 通過分析種子實例在查詢?nèi)罩局械纳舷挛膶W得模板役拴,再利用模板找到同類別的實例
-
構(gòu)造候選與種子上下文向量糊探,計算相似度。
在這里插入圖片描述
-
Web Page問題
- 動機
- 處理列表型網(wǎng)頁
-
在列表中河闰,種子與目標實體具有相同的網(wǎng)頁結(jié)構(gòu)
在這里插入圖片描述
- 系統(tǒng)框架
[圖片上傳失敗...(image-11fc3b-1577674178954)]- 爬取模塊(Fetcher):把種子送到搜索引擎科平,把返回的前100個網(wǎng)頁抓取下來作為語料
- 抽取模塊(Extractor):針對單個網(wǎng)頁學習模板,再使用模板抽取候選實例
- 排序模塊(Ranker):利用種子姜性、網(wǎng)頁瞪慧、模板、候選構(gòu)造一個圖部念,綜合考慮網(wǎng)頁和模板的質(zhì)量弃酌,使用Random Walk算法為候選打分并排序氨菇。
- 動機
-
融合多個數(shù)據(jù)源的方法(Pennacchiotti EMNLP 2009)
- 針對不同數(shù)據(jù)源,選取不同特征分別進行實例擴展妓湘,對結(jié)果進行融合
- 針對不同數(shù)據(jù)源選取不同的模板和特征
- 使用不同特征計算候選的置信度
- 結(jié)果融合