語言模型
- 基于規(guī)則的模型
- 基于概率的模型
統(tǒng)計(jì)語言模型
問題:整個(gè)句子的概率:
為了保證句子通順,不出現(xiàn)歧義激才,計(jì)算整個(gè)句子的概率
P(S) = P(w1,w2,w3,w4,...)
其中拓型,S代表整個(gè)句子,w1,w2,w3,w4代表句子中的每個(gè)詞贸营,P(w1,w2,w3,w4,...)表示這些詞按順序出現(xiàn)的概率轉(zhuǎn)化為:所有詞語的條件概率
P(S) = P(w1,w2,w3,w4,...) = P(w1)P(w2|w1)P(w3|w1,w2)P(w4|w1,w2,w3)...問題簡化:馬爾可夫簡化
由于上一步中的靠后詞語的條件概率太難計(jì)算吨述,因?yàn)樗c前面所有的詞語都有關(guān)系,問題無法求解钞脂。所以揣云,俄國科學(xué)家馬爾可夫提出了一個(gè)簡化計(jì)算方案(假設(shè)):任意一個(gè)詞語的條件概率只與它前面緊鄰的一個(gè)詞有關(guān)。則:
P(S) ≈ P(w1)P(w2|w1)P(w3|w2)P(w4|w3)...
由于冰啃,條件概率只用了一個(gè)參數(shù)邓夕,稱為二元模型刘莹。
注意:這個(gè)公式是在假設(shè)條件下得出的,并不是完全準(zhǔn)確焚刚。但夠用就行啦
-- 繼續(xù)求解:
因?yàn)榈阃洌~語W(i)和W(i-1)是兩個(gè)獨(dú)立、互斥的事件矿咕,P(wi,wi-1)=P(wi)*P(wi-1)抢肛。
則:P(wi|wi-1) = P(wi,wi-1)/P(wi-1)
Ps: 我怎么習(xí)慣性地想起了貝葉斯公式。貝葉斯解決的是兩個(gè)彼此影響碳柱、不獨(dú)立的對象捡絮,這里是獨(dú)立的詞語啊。
P(wi,wi-1):通過從語料庫中去統(tǒng)計(jì)wi,wi-1兩個(gè)詞同時(shí)出現(xiàn)的頻度莲镣。只要統(tǒng)計(jì)數(shù)量足夠福稳,由大數(shù)定律,這個(gè)頻度就約等于它的真實(shí)概率瑞侮;
P(wi-1):繼續(xù)統(tǒng)計(jì)P(wi-1)在同一批文本中單獨(dú)出現(xiàn)的頻度的圆。同樣,由大數(shù)定律半火,這個(gè)頻度就約等于它的真實(shí)概率越妈。
-- 問題解決,計(jì)算出整個(gè)句子出現(xiàn)的概率P(S)效果評估:
馬爾可夫簡化方式還是過于簡單慈缔,實(shí)際上一個(gè)句子中的詞語通常并不僅僅與它前面緊鄰的一個(gè)詞有關(guān)叮称。因此种玛,還需要改進(jìn)藐鹤。假設(shè)改進(jìn):假設(shè)當(dāng)前詞語與其前面最近的N個(gè)詞語有關(guān)
這種假設(shè)被稱為 N-1 階馬爾科夫假設(shè),對應(yīng)的語言模型被稱為 N元模型赂韵。
癥結(jié):由于該方法的空間復(fù)雜度隨N呈指數(shù)增長娱节,決定了N不可能太大,否則計(jì)算機(jī)也無法計(jì)算祭示。
現(xiàn)狀:目前使用的模型中肄满,通常 N=3,基本能夠平衡模型準(zhǔn)確度和資源占用质涛、計(jì)算效率問題稠歉。馬爾科夫假設(shè)方法的局限:
由于實(shí)際中有時(shí)存在段落間的相關(guān)性。這種方法存在天生缺陷:無法解決長程依賴性問題汇陆。其他:
后半部分還談及了實(shí)際使用過程中遇到的:極低概率事件平滑怒炸、零概率問題等。
談?wù)劮衷~
示例:中國航天官員應(yīng)邀到美國與太空總署的官員開會(huì)
以前的方法:
查字典:按照字典中的詞語分類標(biāo)識毡代;
查字典優(yōu)化:用更少的詞語進(jìn)行分類阅羹。-
郭進(jìn):用統(tǒng)計(jì)語言模型進(jìn)行分詞
第一種分詞:
A1,A2,A3,A4,A5,A6....
第二種分詞:
B1,B2,B3,B4,B5,B6....
第三種分詞:
C1,C2,C3,C4,C5,C6....
……
第n種分詞:
N1,N2,N3,N4,N5,N6....
因?yàn)榫渥庸潭ㄉ滋邸⒃~語有限,一個(gè)句子的分詞組合是有限的捏鱼。因此执庐,可以通過同樣的概率計(jì)算方法,找出概率最大的那個(gè)分詞方式就行了导梆。
當(dāng)然轨淌,這種窮舉分詞組合的方法計(jì)算量還是比較大,有個(gè)更討巧的辦法:看成動(dòng)態(tài)規(guī)劃問題看尼,用維特比算法快速找到最佳分詞方法猿诸。--細(xì)節(jié)問題1:對詞語的定義不同
示例:北京大學(xué) or 北京、大學(xué)
解決辦法:在分詞的同時(shí)狡忙,找到復(fù)合詞的嵌套結(jié)構(gòu)梳虽。先找出“北京大學(xué)”,再找出它的嵌套詞“北京”灾茁、“大學(xué)”窜觉。--細(xì)節(jié)問題2:不同的應(yīng)用場景,對詞語的顆粒度要求不同
解決辦法:根據(jù)自己的應(yīng)用需求北专,建立專門的分詞系統(tǒng)禀挫。--延伸:西方語言中是否有分詞問題
答案:其實(shí)西方語言本身并沒有分詞的需求,只是在手寫識別輸入中需要用到拓颓,以自動(dòng)識別空格语婴。