中文分詞之馬爾可夫模型

image

一 馬爾科夫模型

? 每個狀態(tài)只依賴之前有限個狀態(tài)
– N階馬爾科夫:依賴之前n個狀態(tài)
– 1階馬爾科夫(即《中文分詞基礎(chǔ)》中的二元模型):僅僅依賴前一個狀態(tài)
? p(w1,w2,w3,……,wn) = p(w1)p(w2|w1)p(w3|w1,w2)……p(wn|w1,w2,……,wn-1)
? =p(w1)p(w2|w1)p(w3|w2)……p(wn|wn-1)
? 例如:
? p(w1=今天,w2=我活孩,w3=寫映穗,w4=了崔列,w5=一個,w6=程序)

    ? =p(w1=今天)p(w2=我|w1=今天)p(w3=寫|w2=我)……p(w6=程序|w5=一個)
image

總結(jié):

image

? 參數(shù)(重要的3個概念)

– 狀態(tài)横侦,由數(shù)字表示奕塑,假設(shè)共有M個
– 初始概率,由?? k 表示

    如“時光荏苒妒蛇,歲月如梭”,在100篇文章中楷拳,“時光”開頭的文章共有10篇绣夺,則初始概率π(時光)= 10/100
image
– 狀態(tài)轉(zhuǎn)移概率,由a k,?? 表示

    p(荏苒|時光)= 荏苒緊跟在時光后面的次數(shù)/所有文章(語料庫)里“時光”的次數(shù)
image

例子:

? 天氣
– 狀態(tài)定義
? {晴天欢揖, 雨天陶耍, 多云}
– 狀態(tài)轉(zhuǎn)移概率a k,??
? P(晴天|雨天), P(雨天|多云)
– 初始概率?? k

    ? P(晴天)她混, P(雨天)烈钞, P(多云)
image

馬爾科夫模型參數(shù)估計
? 最大似然法(策略+算法)
– 狀態(tài)轉(zhuǎn)移概率a k,??
? P(St+1=l|St=k)=l緊跟k出現(xiàn)的次數(shù)/k出現(xiàn)的總次數(shù)
– 初始概率?? k

    ? P(S1=k)=k作為序列開始的次數(shù)/觀測序列總數(shù)

馬爾科夫模型應(yīng)用
? 天氣預(yù)測
– 前幾天天氣情況:晴天、晴天坤按、雨天毯欣、多云
– 接下來一天的天氣預(yù)計怎樣?

– 接下來三天天氣都是晴的可能性臭脓?

小結(jié)
? 馬爾科夫模型是對一個序列數(shù)據(jù)建模酗钞,但有時我們需要對兩個序列數(shù)據(jù)建模,此時只有一個序列的馬爾科夫模型完全不能滿足我們的需求
– 例如:
? 機(jī)器翻譯:源語言序列 <-> 目標(biāo)語言序列
? 語音識別:語音信號序列 <-> 文字序列
? 詞性標(biāo)注:文字序列 <-> 詞性序列
– 寫/一個/程序 ->輸入序列分詞

        – Verb/Num/Noun ->輸出序列是詞性:動詞/兩次/名詞

    – 拼音糾錯:原始文字序列 <--> 糾正過的文字序列
        ? 自己的事情自己做
        ? 自己的事情自已做

二 隱馬爾科夫模型

? 觀察序列O中的數(shù)據(jù)通常是由對應(yīng)的隱藏序列數(shù)據(jù)決定的来累,彼此間相互獨立
? 隱藏序列數(shù)據(jù)間相互依賴砚作,通常構(gòu)成了馬爾科夫序列
– 例如,語音識別中聲波信號每段信號都是相互獨立的,有對應(yīng)的文字決定

– 對應(yīng)的文字序列中相鄰的字相互依賴嘹锁,構(gòu)成Markov鏈

紅色為輸入序列葫录,綠色為輸出序列

image

? 觀察和隱藏序列共同構(gòu)成隱馬模型

image

? O(??1 ?? 2 …?? ?? ):觀測序列,??t 只依賴于?? t
? S(?? 1 ?? 2 …?? ?? ):狀態(tài)序列(隱藏序列)领猾,S是Markov序列米同,假設(shè)1階Markov序列求冷,則?? t+1只依賴于??t

HMM參數(shù)

– 狀態(tài),由數(shù)字表示窍霞,假設(shè)共有M個
– 觀測,由數(shù)字表示拯坟,假設(shè)共有N個
– 初始概率但金,由??k 表示 k出現(xiàn)在第一個的概率
– 狀態(tài)轉(zhuǎn)移概率,由 ak,l 表示
ak,l = P(??t+1 = l|??t = k ) k,l = 1,2,…,M
– 發(fā)射概率郁季,由bk(u) 表示,是上圖“這”-“信1”的橋梁冷溃,比如了讀liao還是le
bk(u) = P (Ot = ??|??t = k) ?? = 1,2,…,N k = 1,2,…,M
比如給定“了”,liao=40%,le=60%,所以發(fā)射概率為p(liao|了)=40%

? 初始概率(取概率的Log值)

image

– BEMS:位置信息
? B(開頭)
? M(中間)
? E(結(jié)尾)
? S(獨立成詞)
– 詞性:
? n 名詞
? nr 人名
? ns 地名
? v 動詞
? vd 副動詞
? vn 名動詞
比如“廣州本田雅閣汽車”->廣州:BE 本田雅閣:4個漢字組成的詞語BMME(中間用M表示)
未登錄詞“雅閣汽車”在語料庫中不存在梦裂,將其一個字為一個詞切分似枕,jieba分詞然后通過HMM來解析,則輸入序列為“雅”“閣”“汽”“車”年柠,輸出序列為<B,n>,<E,n>,<B,n>,<E,n>凿歼,則得到“雅閣”、“汽車”
如果輸出序列為<B,n>,<E,n>,<M,n>,<S,n>冗恨,則得到“雅閣汽”答憔、“車”
進(jìn)入jieba-master\jieba\posseg,查看prob_start.py掀抹,可以看到文章以n開頭的概率大于量詞開頭的概率虐拓,幾乎都是B開頭,ME幾乎為0傲武,只不過為了平衡蓉驹,給了一個很小的默認(rèn)值而已


image.png

? 轉(zhuǎn)移概率

image

查看prob_trans.py


image.png

? 發(fā)射概率

image

查看prob_emit.py,比如由(B揪利,a)發(fā)射成某一個漢字的概率态兴,比如嘆詞詞性,幾乎就為啊唉嗚哇


image.png

HMM生成過程

? 先生成第一個狀態(tài)疟位,然后依次由當(dāng)前狀態(tài)生成下一個狀態(tài)诗茎,最后每個狀態(tài)發(fā)射出一個觀察值


HMM的生成過程

求兩個序列的聯(lián)合概率P(o1:t,s1:t),等于所有轉(zhuǎn)移概率和發(fā)射概率的連乘(初始概率所有的狀態(tài)轉(zhuǎn)移概率發(fā)射概率),此時圖已生成完成献汗,初始概率πk和狀態(tài)轉(zhuǎn)移概率敢订、發(fā)射概率都將不再發(fā)生變化。
? 三個基本問題
– 模型參數(shù)估計
M個狀態(tài)就有M個初始概率 狀態(tài)轉(zhuǎn)移概率為一個M*M的矩陣 發(fā)射概率個數(shù)為M個狀態(tài)和N個觀測的乘積

參數(shù)估計

– 給定模型??罢吃,計算一個觀測序列出現(xiàn)的概率P??(O)
O為HMM生成過程中序列O
– 給定模型??和觀測序列??楚午,找到最優(yōu)的隱藏狀態(tài)序列(切分方案)
QQ截圖20180516103132.png

前向 - 后向算法

前向 - 后向概率

前向概率:
后向概率:t時刻k的概率,


前向概率

無論前M個狀態(tài)如何轉(zhuǎn)移尿招,只要t時刻為K的概率矾柜,然后對1~t-1時刻的所有概率進(jìn)行加和得到阱驾,這種方式過于粗暴了,實踐復(fù)雜度太高


前向概率公式

前向概率公式的優(yōu)化

image.png

公式推導(dǎo)

最終結(jié)果

后向概率

后向概率公式

其他概率

其他概率

其他概率公式

隱馬模型參數(shù)估計

image.png

完全數(shù)據(jù)下的參數(shù)估計

完全數(shù)據(jù)下的參數(shù)估計

完全數(shù)據(jù)下的參數(shù)估計

完全數(shù)據(jù)下的參數(shù)估計

HMM的應(yīng)用

image.png

? 給定O怪蔑,尋找最優(yōu)的S
? 尋找一條最優(yōu)的路徑
? 如果比較所有路徑:遍歷所有的S里覆,算出一個最大的,則時間復(fù)雜度是?? ?? 缆瓣,不可接受喧枷!


image.png

HMM應(yīng)用-viterbi算法

? 動態(tài)規(guī)劃,在t+1位置重用t的結(jié)果


QQ截圖20180331145551.png
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末弓坞,一起剝皮案震驚了整個濱河市隧甚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌渡冻,老刑警劉巖戚扳,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異族吻,居然都是意外死亡帽借,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門超歌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來宜雀,“玉大人,你說我怎么就攤上這事握础》” “怎么了?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵禀综,是天一觀的道長简烘。 經(jīng)常有香客問我,道長定枷,這世上最難降的妖魔是什么孤澎? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮欠窒,結(jié)果婚禮上覆旭,老公的妹妹穿的比我還像新娘。我一直安慰自己岖妄,他們只是感情好型将,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著荐虐,像睡著了一般七兜。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上福扬,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天腕铸,我揣著相機(jī)與錄音惜犀,去河邊找鬼。 笑死狠裹,一個胖子當(dāng)著我的面吹牛虽界,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播涛菠,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼莉御,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了碗暗?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤梢夯,失蹤者是張志新(化名)和其女友劉穎言疗,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體颂砸,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡噪奄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了人乓。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片勤篮。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖色罚,靈堂內(nèi)的尸體忽然破棺而出碰缔,到底是詐尸還是另有隱情,我是刑警寧澤戳护,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布金抡,位于F島的核電站,受9級特大地震影響腌且,放射性物質(zhì)發(fā)生泄漏梗肝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一铺董、第九天 我趴在偏房一處隱蔽的房頂上張望巫击。 院中可真熱鬧,春花似錦精续、人聲如沸坝锰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽什黑。三九已至,卻和暖如春堪夭,著一層夾襖步出監(jiān)牢的瞬間愕把,已是汗流浹背拣凹。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留恨豁,地道東北人嚣镜。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像橘蜜,于是被迫代替她去往敵國和親菊匿。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 隱馬爾可夫模型(Hidden Markov Model计福,HMM) 最初由 L. E. Baum 和其它一些學(xué)者發(fā)表...
    vlnk2012閱讀 6,623評論 3 47
  • 本系列第三篇跌捆,承接前面的《淺談機(jī)器學(xué)習(xí)基礎(chǔ)》和《淺談深度學(xué)習(xí)基礎(chǔ)》。 自然語言處理緒論 什么是自然語言處理象颖? 自然...
    我偏笑_NSNirvana閱讀 17,545評論 2 68
  • 這個不錯分享給大家佩厚,從扣上看到的,就轉(zhuǎn)過來了 《電腦專業(yè)英語》 file [fail] n. 文件说订;v. 保存文...
    麥子先生R閱讀 6,552評論 5 24
  • 張愛玲說:于千萬人之中遇見你所要遇見的人陶冷,于千萬年之中钙姊,時間的無涯的荒野里,沒有早一步埂伦,也沒有晚一步煞额,剛巧趕上了,...
    安之若素520xia閱讀 1,667評論 0 6
  • 躺在鍵盤旁邊沾谜,我害怕他一翻就壓到我的ESC鍵立镶。我要是把他掀到另一邊吧,他還不開心的喵喵类早。 而且這么睡著睡著媚媒,會突然...
    海森堡的簡書閱讀 235評論 1 1