分詞算法HMM隱馬爾可夫模型

前言

在網(wǎng)上看了很多關(guān)于馬爾可夫模型的資料缺猛,有很多文章寫得不錯,在此記錄自己學(xué)習(xí)過程中的筆記


一 HMM隱馬爾可夫模型

隱馬爾可夫模型(Hidden Markov Model, HMM)是關(guān)于時序的概率模型耻姥,描述由一個隱藏的馬爾可夫鏈隨機(jī)生成不可觀測的狀態(tài)隨機(jī)序列琐簇,再由各個狀態(tài)生成一個觀測而產(chǎn)生觀測隨機(jī)序列的過程座享。隱藏的馬爾可夫鏈隨機(jī)生成的狀態(tài)的序列,稱為狀態(tài)序列丈秩;每個狀態(tài)生成一個觀測淳衙,而由此產(chǎn)生的觀測的隨機(jī)序列,稱為觀測序列肠牲。序列的每一個位置又可以看作是一個時刻缀雳。

隱馬爾可夫模型由初始概率分布梢睛、狀態(tài)轉(zhuǎn)移概率分布以及觀測概率分布確定。

一個簡單的例子

假設(shè)我們有3顆不同的骰子竖独。第一個是6面體挤牛、第二個是4面體墓赴、第三個是8面體诫硕,對應(yīng)每一面數(shù)值分別為(1,2,3,4,5,6)刊侯、(1,2,3,4)、(1,2,3,4,5,6,7,8)藕届,出現(xiàn)概率分別為\frac{1}{6} 、\frac{1}{4} 梁厉、\frac{1}{8}

我們開始擲骰子词顾,我們從這三個骰子里挑選一個骰子的概率為\frac{1}{3}肉盹。我們擲骰子的數(shù)值在1~8之間疹尾。當(dāng)不停的擲骰子我們會得到一串?dāng)?shù)字序列。例如(擲骰10次):1航棱、6、3饮醇、5、2观蓄、7祠墅、3毁嗦、5亲茅、 2、4克锣。


上圖可以看出馬爾可夫模型為節(jié)點為隱含狀態(tài)袭祟,邊為轉(zhuǎn)移概率的有向圖模型捞附,接下來我們通過這個例子介紹幾個概念您没。

可見狀態(tài)鏈(觀測序列):擲骰子得到的這串?dāng)?shù)字對應(yīng)概念中我們可觀察的參數(shù)氨鹏。

隱含狀態(tài)鏈(狀態(tài)序列):在這個擲骰子的例子中隱含狀態(tài)鏈為我們擲的骰子的序列(有多種可能)辑舷。隱含狀態(tài)(骰子)之間存在轉(zhuǎn)換概率,D4的下一個狀態(tài)D4肢础、D6碌廓、D8的概率都是\frac{1}{3}

轉(zhuǎn)換概率(狀態(tài)轉(zhuǎn)移概率):隱含狀態(tài)轉(zhuǎn)換(骰子改變)的概率

輸出概率(發(fā)射狀態(tài)):盡管可見狀態(tài)之間沒有轉(zhuǎn)換概率慨蛙,但是隱含狀態(tài)和可見狀態(tài)之間有一個概率叫做輸出概率期贫。就我們的例子來說异袄,六面體擲出1的概率為\frac{1}{6},四面體擲出1的概率為\frac{1}{4}封孙,八面體擲出1的概率為\frac{1}{8}虎忌。

當(dāng)然轉(zhuǎn)換概率和輸出概率我們都是隨意更改的橱鹏,比如輸出概率方面我們對骰子做點手腳可以讓例如六面體擲出1的概率為\frac{1}{2},其它數(shù)字的概率為\frac{1}{10}狡蝶。轉(zhuǎn)換概率方面我們可以放入比如在2顆D6、4顆D4苏章、4顆D8中選擇篩子奏瞬,然后有放回的選擇篩子硼端,轉(zhuǎn)換概率D6為0.2寓搬, D4為0.4,D8為0.4镣典。


使用維特比算法(Viterbi algorithm)進(jìn)行分詞根據(jù)觀測序列推斷出狀態(tài)序列

觀察值序列:小明碩士畢業(yè)于中國科學(xué)院計算所

隱含狀態(tài)集:隱含狀態(tài)指的是每個字的狀態(tài)兄春。 有詞語的開頭锡溯、詞語的中間字、詞尾芜茵、單個字倡蝙,這里的隱含狀態(tài)集有4個狀態(tài)對應(yīng)的英文字母{B,M,E,S}

輸入:小明碩士畢業(yè)于中國科學(xué)院計算所

輸出:BEBEBMEBEBMEBES(BE/BE/BME/BE/BME/BE/S =小明/碩士/畢業(yè)于/中國/科學(xué)院/計算/所)


1蒸辆、定義V[id][字的狀態(tài)] = 概率析既,注意這里的概率,前幾個的字的狀態(tài)都確定下來了(概率最大)拂玻,這里的概率就是一個累乘的概率了宰译。

2、因為第一個字為‘小’闯第,所以第一個字的概率V[1][B]= 初始概率[B] *發(fā)射概率[B][‘小’]缀拭,同理可得V[1][M]填帽、V[1][E]篡腌、V[1][S]選擇其中概率最大的一個加入到結(jié)果序列勾效。

3、從第二個字開始层宫,對于字的狀態(tài)Y,都有前一個字的狀態(tài)是X的概率* X轉(zhuǎn)移到Y(jié)的概率 * Y狀態(tài)下輸出字為‘明’的概率缀台。因為前一個字的狀態(tài)Y有四種可能哮奇,所以Y的概率有四個,選取其中較大一個作為V[2][字的狀態(tài)]的概率哲身,同時加入到結(jié)果序列中贸伐。

4、比較V[15][B]脯丝、V[15][M]伏伐、V[15][E]、V[15][S]材蹬,找出較大的哪一個對應(yīng)的序列吝镣,就是最終結(jié)果。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末闸溃,一起剝皮案震驚了整個濱河市圈暗,隨后出現(xiàn)的幾起案子裕膀,更是在濱河造成了極大的恐慌,老刑警劉巖昼扛,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件抄谐,死亡現(xiàn)場離奇詭異,居然都是意外死亡毅厚,警方通過查閱死者的電腦和手機(jī)浦箱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來咽安,“玉大人蓬推,你說我怎么就攤上這事「馍海” “怎么了毅糟?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵留特,是天一觀的道長。 經(jīng)常有香客問我苟蹈,道長右核,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任菱鸥,我火速辦了婚禮,結(jié)果婚禮上氮采,老公的妹妹穿的比我還像新娘。我一直安慰自己主到,他們只是感情好躯概,可當(dāng)我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布娶靡。 她就那樣靜靜地躺著,像睡著了一般塔鳍。 火紅的嫁衣襯著肌膚如雪艾凯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天蜡感,我揣著相機(jī)與錄音恃泪,去河邊找鬼。 笑死情连,一個胖子當(dāng)著我的面吹牛览效,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播锤灿,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼但校,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了术裸?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤搀崭,失蹤者是張志新(化名)和其女友劉穎匹表,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體袍镀,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡苇羡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年设江,在試婚紗的時候發(fā)現(xiàn)自己被綠了攘轩。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡歼捏,死狀恐怖笨篷,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情率翅,我是刑警寧澤,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布腺晾,位于F島的核電站悯蝉,受9級特大地震影響念颈,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜嗡靡,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一讨彼、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧哩至,春花似錦、人聲如沸菩貌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽仇参。三九已至诈乒,卻和暖如春婆芦,著一層夾襖步出監(jiān)牢的瞬間怕磨,已是汗流浹背癌压。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工滩届, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留被啼,地道東北人。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓泡挺,卻偏偏與公主長得像娄猫,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子媳溺,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內(nèi)容