中文分詞算法之HMM算法

本系列中文十年回顧中講了時至今日黔牵,中文分詞中對效果影響最大的是未登錄詞的識別嗽交。今天要講的就是基于HMM算法的中文分詞花颗,可以用來發(fā)掘為登錄詞卖哎。

從中文分詞角度理解HMM

中文分詞弊添,就是給一個漢語句子作為輸入录淡,以“BEMS”組成的序列串作為輸出,然后再進行切詞油坝,進而得到輸入句子的劃分嫉戚。其中,B代表該字是詞語中的起始字免钻,M代表是詞語中的中間字彼水,E代表是詞語中的結束字,S則代表是單字成詞极舔。
下面是一個用字符標注方法進行識別的一個例子

  小明碩士畢業(yè)于中國科學院計算所
  BEBEBMEBEBMEBES
  BE/BE/BME/BE/BME/BE/S
  小明/碩士/畢業(yè)于/中國/科學院/計算/所

上面的例子就是一個給定觀察序列凤覆,得到狀態(tài)序列,在HMM中就是一個解碼過程拆魏。

HMM簡介

定義: HMM (隱馬爾可夫模型) 是關于時序的概率模型盯桦, 描述由一個隱藏的馬爾可夫鏈隨機生成不可觀察的狀態(tài)序列,再有狀態(tài)序列生成一個觀測序列的過程渤刃。
HMM有以下5個要素:
觀測序列-O:小明碩士畢業(yè)于中國科學院計算所
狀態(tài)序列-S:BEBEBMEBEBMEBES
初始狀態(tài)概率向量-π:句子的第一個字屬于{B,E,M,S}這四種狀態(tài)的概率


初始狀態(tài)

狀態(tài)轉移概率矩陣-A:如果前一個字位置是B拥峦,那么后一個字位置為BEMS的概率各是多少


狀態(tài)轉移矩陣

觀測概率矩陣-B:在狀態(tài)B的條件下,觀察值為耀的概率卖子,取對數(shù)后是-10.460


觀測概率矩陣

備注:示例數(shù)值是對概率值取對數(shù)之后的結果略号,為了將概率相乘的計算變成對數(shù)相加,其中-3.14e+100作為負無窮,也就是對應的概率值是0

三類問題
當通過五元組中某些已知條件來求未知時玄柠,就得到HMM的三類問題:

  • 似然度問題:參數(shù)(O突梦,π,A羽利,B)已知的情況下宫患,求(π,A这弧,B)下觀測序列O出現(xiàn)的概率
  • 解碼問題:參數(shù)(O娃闲,π,A匾浪,B)已知的情況下皇帮,求解狀態(tài)值序列S。(viterbi算法)
  • 學習問題:參數(shù)(O)已知的情況下户矢,求解(π玲献,A,B)梯浪。(Baum-Welch算法)

中文分詞屬于解碼問題捌年, 就是對給定的觀察序列,求解對應的最優(yōu)狀態(tài)的問題挂洛。
我們希望找到 s_1,s_2,s_3,... 使 P (s_1,s_2,s_3,...|o_1,o_2,o_3....) 達到最大礼预。
意思是,當我們觀測到信號 o_1,o_2,o_3,... 時虏劲,我們要根據(jù)這組信號推測出發(fā)送的句子 s_1,s_2,s_3,....托酸,顯然,我們應該在所有可能的句子中找最有可能性的一個柒巫。
HMM 的兩個假設:

  • 有限歷史假設:si 只由si-1 決定


  • 獨立輸出假設:第 i 時刻的接收信號 oi 只由狀態(tài) si 決定



    基于上面的兩個假設励堡,解碼問題可以推導如下:


Viterbi 算法

Viterbi算法:是一種動態(tài)規(guī)劃算法。它用于尋找最有可能產生觀測事件序列的維特比路徑——隱含狀態(tài)序列堡掏,特別是在馬爾可夫信息源上下文和隱馬爾可夫模型中应结。
定義在t時刻, 狀態(tài)為i的所有單路徑中最大的值為:



則在t+1時刻有:



則利用上面的兩個公式就可以完成解碼了泉唁。

Reference:

http://blog.csdn.net/u014365862/article/details/54891582

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末鹅龄,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子亭畜,更是在濱河造成了極大的恐慌扮休,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拴鸵,死亡現(xiàn)場離奇詭異玷坠,居然都是意外死亡蜗搔,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門侨糟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來碍扔,“玉大人瘩燥,你說我怎么就攤上這事秕重。” “怎么了厉膀?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵溶耘,是天一觀的道長。 經常有香客問我服鹅,道長凳兵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任企软,我火速辦了婚禮庐扫,結果婚禮上,老公的妹妹穿的比我還像新娘仗哨。我一直安慰自己形庭,他們只是感情好,可當我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布厌漂。 她就那樣靜靜地躺著萨醒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪苇倡。 梳的紋絲不亂的頭發(fā)上富纸,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機與錄音旨椒,去河邊找鬼晓褪。 笑死,一個胖子當著我的面吹牛综慎,可吹牛的內容都是我干的涣仿。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼寥粹,長吁一口氣:“原來是場噩夢啊……” “哼变过!你這毒婦竟也來了?” 一聲冷哼從身側響起涝涤,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤媚狰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后阔拳,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崭孤,經...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡类嗤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了辨宠。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片遗锣。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖嗤形,靈堂內的尸體忽然破棺而出精偿,到底是詐尸還是另有隱情,我是刑警寧澤赋兵,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布笔咽,位于F島的核電站,受9級特大地震影響霹期,放射性物質發(fā)生泄漏叶组。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一历造、第九天 我趴在偏房一處隱蔽的房頂上張望甩十。 院中可真熱鬧,春花似錦吭产、人聲如沸侣监。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽达吞。三九已至,卻和暖如春荒典,著一層夾襖步出監(jiān)牢的瞬間酪劫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工寺董, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留覆糟,地道東北人。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓遮咖,卻偏偏與公主長得像滩字,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子御吞,可洞房花燭夜當晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內容