數(shù)學基礎(重要)
統(tǒng)計學+信息論
概率論+統(tǒng)計學+信息論+語言學知識
----概率論
1. 樣本空間
2. 條件概率與獨立性
3. 鏈式規(guī)則
鏈式規(guī)則--推導隱馬
4. 貝葉斯定理(重要)
貝葉斯定理的優(yōu)勢在于計算概率時可交換相關事件的次序视事,也就是說通過P(B|A)的值間接計算P(A|B)的值超营。尤其當其中一個很難計算時,可以利用另一個來求未知概率的值
P(A)可以看作歸一化常數(shù)
5. 期望與方差
6. 概率函數(shù)P的估計
例如英文句子the cow chewed its cud 在日常生活中出現(xiàn)的概率是多大茸俭?最常用的技巧就是假設某些語言現(xiàn)象服從某一類已知的概率分布全谤,例如二項分布或者正態(tài)分布肤晓。我們稱這種方法為參數(shù)化方法,它有兩個優(yōu)點。這就意味著我們有一個數(shù)據(jù)生成過程的概率模型补憾,需要在一系列可能的概率分布中確定出一個來漫萄;另一方面,因為只有幾個參數(shù)需要決定盈匾,它需要的訓練樣本數(shù)據(jù)的規(guī)模也不會很大腾务,我們甚至可以計算出為達到理想的估計結(jié)果所需要的訓練數(shù)據(jù)量。
但是預定義的概率模型并不能描述所有的NLP問題削饵,例如新聞報紙中所涉及某類主題的文章詞的分布岩瘦。這種分布是不規(guī)則的,所以不能用一些簡單的分布(如二項分布)來刻畫它窿撬,否則會遇到很多問題启昧,得出的概率估計也是錯誤的。
這種情況一般都使用非參數(shù)化的方法或者稱為自由分布的方法劈伴,即用簡單的統(tǒng)計方法去估計概率分布密末,估計的結(jié)果相當于產(chǎn)生了一個離散的概率分布。當然跛璧,通過插值法也可以得到一個連續(xù)的分布函數(shù)P严里。非參數(shù)化的方法存在兩個缺陷。第一追城,訓練數(shù)據(jù)有限田炭,估計結(jié)果需要做平滑操作。為了進行平滑往往又利用了假設隱含分布漓柑,相當于又回到了參數(shù)化方法的老路上了;第二采用非參數(shù)化的方法等同于我們對樣本數(shù)據(jù)如何生成一無所知叨吮,因此先驗知識的匱乏意味著我們不得不需要更多的訓練數(shù)據(jù)去估計參數(shù)辆布。
----二項分布:
當重復一個只有兩種輸出(假設為0和1的實驗),并且實驗之間相互獨立時茶鉴,我們就說結(jié)果符合二項分布锋玲。二項分布在NLP中使用得非常廣泛,例如估計英文文本中含有單詞the的句子所占百分比涵叮,或者確定一個動詞在語言中是否常被用于及物動詞或者非及物動詞惭蹂。(0,1兩種情況)
比如垃圾郵件和非垃圾郵件。
期望np割粮,方差npq
----連續(xù)分布函數(shù):正態(tài)分布
到 目前為止盾碗,前面討論的都是離散概率分布和離散隨機變量
在統(tǒng)計自然語言處理和模式識別領域中更多地稱之為高斯分布
在許多統(tǒng)計應用中,我們用連續(xù)的正態(tài)分布函數(shù)來近似離散的二項分布舀瓢。但是在自然語言處理中存在一些稀有事件廷雅。假設shade tree mechanics 在文章中的出現(xiàn)次數(shù),顯然即使是在大規(guī)模文本中,這個短語出現(xiàn)的頻率也很小航缀,這時用正態(tài)分布近似二項分布會出現(xiàn)很大的誤差商架。
-----高斯分布
高斯分布經(jīng)常用于解決聚類問題,這里給出的僅僅是一維或單變量的正態(tài)分布
還有一些其他分布芥玉,比如t分布用在假設檢驗上
-------貝葉斯統(tǒng)計
貝葉斯更新
假設我們重復10次拋硬幣蛇摸,其中有8次結(jié)果都是正面向上,從頻率論來看會認為是一種極大似然估計灿巧。但這里先入為主了一個知識赶袄,就是硬幣是均勻的,每次向上和向下的概率是相等的砸烦。貝葉斯更新會在不斷獲取證據(jù)的基礎上重復更新這些先驗知識弃鸦,更新方法就是用的貝葉斯定理。
每當出現(xiàn)新的證據(jù)時幢痘,通過最大化后驗概率(MAP)的方法來重新更新原來的先驗假設唬格,這個過程又稱為貝葉斯更新。
貝葉斯決策定理
可以用來評估哪個模型或者模型族能更好地適應數(shù)據(jù)颜说,解釋數(shù)據(jù)购岗。假設我們實際上不能直接看到拋硬幣的結(jié)果,比如可能是其他人報告的結(jié)果门粪。目前為止喊积,可能是這樣一種情況:假設報告的實驗結(jié)果真實地反映一個不均勻硬幣的實驗結(jié)果。我們假設一類模型族玄妈,稱為理論μ乾吻,模型中有一個參數(shù)專門用來表示硬幣的質(zhì)量分布。現(xiàn)在存在另一種假設拟蜻,我們每次拋出的是兩個而不是一個質(zhì)地均勻的硬幣稱為理論v
注意绎签,在這兩個理論中,一個需要自由參數(shù)酝锅,表示類似硬幣的均勻度概念诡必,另一個則不需要任何參數(shù),我們不妨假設這兩個理論是等可能的搔扁。
現(xiàn)在我們就可以在已知觀測樣本數(shù)據(jù)的條件下爸舒,利用貝葉斯定理判斷兩個理論中哪一個更有可能:
當存在更多而不是兩個理論假設時,我們兩兩比較并選擇一個最有可能的假設稿蹲,在詞義消除問題中我們往往使用的也是貝葉斯決策