自然語言處理NLP(三)

數(shù)學基礎(重要)

統(tǒng)計學+信息論

概率論+統(tǒng)計學+信息論+語言學知識

----概率論

1. 樣本空間

2. 條件概率與獨立性

A\B相互獨立

3. 鏈式規(guī)則

鏈式規(guī)則--推導隱馬

4. 貝葉斯定理(重要)

貝葉斯定理的優(yōu)勢在于計算概率時可交換相關事件的次序视事,也就是說通過P(B|A)的值間接計算P(A|B)的值超营。尤其當其中一個很難計算時,可以利用另一個來求未知概率的值

貝葉斯定理

P(A)可以看作歸一化常數(shù)

完整貝葉斯定理
計算匹配識別概率

5. 期望與方差

期望
方差

6. 概率函數(shù)P的估計

例如英文句子the cow chewed its cud 在日常生活中出現(xiàn)的概率是多大茸俭?最常用的技巧就是假設某些語言現(xiàn)象服從某一類已知的概率分布全谤,例如二項分布或者正態(tài)分布肤晓。我們稱這種方法為參數(shù)化方法,它有兩個優(yōu)點。這就意味著我們有一個數(shù)據(jù)生成過程的概率模型补憾,需要在一系列可能的概率分布中確定出一個來漫萄;另一方面,因為只有幾個參數(shù)需要決定盈匾,它需要的訓練樣本數(shù)據(jù)的規(guī)模也不會很大腾务,我們甚至可以計算出為達到理想的估計結(jié)果所需要的訓練數(shù)據(jù)量。

但是預定義的概率模型并不能描述所有的NLP問題削饵,例如新聞報紙中所涉及某類主題的文章詞的分布岩瘦。這種分布是不規(guī)則的,所以不能用一些簡單的分布(如二項分布)來刻畫它窿撬,否則會遇到很多問題启昧,得出的概率估計也是錯誤的。

這種情況一般都使用非參數(shù)化的方法或者稱為自由分布的方法劈伴,即用簡單的統(tǒng)計方法去估計概率分布密末,估計的結(jié)果相當于產(chǎn)生了一個離散的概率分布。當然跛璧,通過插值法也可以得到一個連續(xù)的分布函數(shù)P严里。非參數(shù)化的方法存在兩個缺陷。第一追城,訓練數(shù)據(jù)有限田炭,估計結(jié)果需要做平滑操作。為了進行平滑往往又利用了假設隱含分布漓柑,相當于又回到了參數(shù)化方法的老路上了;第二采用非參數(shù)化的方法等同于我們對樣本數(shù)據(jù)如何生成一無所知叨吮,因此先驗知識的匱乏意味著我們不得不需要更多的訓練數(shù)據(jù)去估計參數(shù)辆布。

----二項分布:

當重復一個只有兩種輸出(假設為0和1的實驗),并且實驗之間相互獨立時茶鉴,我們就說結(jié)果符合二項分布锋玲。二項分布在NLP中使用得非常廣泛,例如估計英文文本中含有單詞the的句子所占百分比涵叮,或者確定一個動詞在語言中是否常被用于及物動詞或者非及物動詞惭蹂。(0,1兩種情況)

二項分布

比如垃圾郵件和非垃圾郵件。

期望np割粮,方差npq

----連續(xù)分布函數(shù):正態(tài)分布

到 目前為止盾碗,前面討論的都是離散概率分布和離散隨機變量

正態(tài)分布

在統(tǒng)計自然語言處理和模式識別領域中更多地稱之為高斯分布

在許多統(tǒng)計應用中,我們用連續(xù)的正態(tài)分布函數(shù)來近似離散的二項分布舀瓢。但是在自然語言處理中存在一些稀有事件廷雅。假設shade tree mechanics 在文章中的出現(xiàn)次數(shù),顯然即使是在大規(guī)模文本中,這個短語出現(xiàn)的頻率也很小航缀,這時用正態(tài)分布近似二項分布會出現(xiàn)很大的誤差商架。

-----高斯分布

高斯分布經(jīng)常用于解決聚類問題,這里給出的僅僅是一維或單變量的正態(tài)分布

還有一些其他分布芥玉,比如t分布用在假設檢驗上

-------貝葉斯統(tǒng)計

貝葉斯更新

假設我們重復10次拋硬幣蛇摸,其中有8次結(jié)果都是正面向上,從頻率論來看會認為是一種極大似然估計灿巧。但這里先入為主了一個知識赶袄,就是硬幣是均勻的,每次向上和向下的概率是相等的砸烦。貝葉斯更新會在不斷獲取證據(jù)的基礎上重復更新這些先驗知識弃鸦,更新方法就是用的貝葉斯定理。

每當出現(xiàn)新的證據(jù)時幢痘,通過最大化后驗概率(MAP)的方法來重新更新原來的先驗假設唬格,這個過程又稱為貝葉斯更新。

貝葉斯決策定理

可以用來評估哪個模型或者模型族能更好地適應數(shù)據(jù)颜说,解釋數(shù)據(jù)购岗。假設我們實際上不能直接看到拋硬幣的結(jié)果,比如可能是其他人報告的結(jié)果门粪。目前為止喊积,可能是這樣一種情況:假設報告的實驗結(jié)果真實地反映一個不均勻硬幣的實驗結(jié)果。我們假設一類模型族玄妈,稱為理論μ乾吻,模型中有一個參數(shù)專門用來表示硬幣的質(zhì)量分布。現(xiàn)在存在另一種假設拟蜻,我們每次拋出的是兩個而不是一個質(zhì)地均勻的硬幣稱為理論v

注意绎签,在這兩個理論中,一個需要自由參數(shù)酝锅,表示類似硬幣的均勻度概念诡必,另一個則不需要任何參數(shù),我們不妨假設這兩個理論是等可能的搔扁。

現(xiàn)在我們就可以在已知觀測樣本數(shù)據(jù)的條件下爸舒,利用貝葉斯定理判斷兩個理論中哪一個更有可能:

貝葉斯定理選擇模型

當存在更多而不是兩個理論假設時,我們兩兩比較并選擇一個最有可能的假設稿蹲,在詞義消除問題中我們往往使用的也是貝葉斯決策

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末扭勉,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子苛聘,更是在濱河造成了極大的恐慌剖效,老刑警劉巖逼蒙,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件畴博,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機淹遵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門矗愧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來柱徙,“玉大人席怪,你說我怎么就攤上這事≈颍” “怎么了欢瞪?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長徐裸。 經(jīng)常有香客問我遣鼓,道長,這世上最難降的妖魔是什么重贺? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任骑祟,我火速辦了婚禮,結(jié)果婚禮上气笙,老公的妹妹穿的比我還像新娘次企。我一直安慰自己,他們只是感情好潜圃,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布缸棵。 她就那樣靜靜地躺著,像睡著了一般谭期。 火紅的嫁衣襯著肌膚如雪堵第。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天隧出,我揣著相機與錄音型诚,去河邊找鬼。 笑死鸳劳,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的也搓。 我是一名探鬼主播赏廓,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼傍妒!你這毒婦竟也來了幔摸?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤颤练,失蹤者是張志新(化名)和其女友劉穎既忆,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡患雇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年跃脊,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片苛吱。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡酪术,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出翠储,到底是詐尸還是另有隱情绘雁,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布援所,位于F島的核電站庐舟,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏住拭。R本人自食惡果不足惜挪略,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望废酷。 院中可真熱鬧瘟檩,春花似錦、人聲如沸澈蟆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽趴俘。三九已至睹簇,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間寥闪,已是汗流浹背太惠。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留疲憋,地道東北人凿渊。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像缚柳,于是被迫代替她去往敵國和親埃脏。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容