貝葉斯

貝葉斯

1. 貝葉斯簡(jiǎn)介

  • 貝葉斯Thomas Bayes,英國(guó)數(shù)學(xué)家
  • 貝葉斯方法源于他生前為解決一個(gè)“逆概”問(wèn)題寫的一篇文章橙喘。
  • 貝葉斯要解決的問(wèn)題:
    • 正向概率:假設(shè)袋子里面有N個(gè)白球易稠,M個(gè)黑球筋搏,你伸手進(jìn)去摸一把,摸出黑球的概率有多大糖权?
      • 黑球數(shù)量/總球數(shù)量
    • 逆向概率:如果我們事先不知道袋子里黑白球的比例堵腹,而是閉著眼睛摸出一個(gè)(好幾個(gè))球,觀察這些取出來(lái)的球的顏色之后星澳,那么我們可以就此對(duì)袋子里面的黑白球的比例作出什么樣的推測(cè)疚顷。
  • 為什么使用貝葉斯?
    • 現(xiàn)實(shí)世界本身就是不確定的禁偎,人類的觀察能力是有局限性的
    • 我們?nèi)粘K^察到的只是事物表面上的結(jié)果腿堤,因此我們需要提供一個(gè)猜測(cè)。

2. 貝葉斯推導(dǎo)實(shí)例

有個(gè)學(xué)校如暖,男生占60%笆檀,女生占40%。男生總是穿長(zhǎng)褲装处,女生一半穿長(zhǎng)褲一半穿褲子误债。

  • 正向概率:隨機(jī)選擇一個(gè)學(xué)生浸船,他(她)穿長(zhǎng)褲的概率和穿裙子的概率是多大
  • 逆向概率:迎面走來(lái)一個(gè)學(xué)生妄迁,你能夠看的見他(她)穿的是否是長(zhǎng)褲,而無(wú)法確定性別李命,你能夠推斷出他(她)是女生的概率是多大登淘?
  • 求解穿長(zhǎng)褲的人里面有多少女生
    • 假設(shè)學(xué)校里面總?cè)藬?shù)是U個(gè)
    • 穿長(zhǎng)褲的男生:U * P(Boy) * P(Pants|Boy)
      • P(Boy)是男生的概率=60%
      • P(Pants|Boy)是條件概率,即在Boy這個(gè)條件下穿長(zhǎng)褲的概率是多大封字,這里是100%黔州,因?yàn)樗心猩即╅L(zhǎng)褲尿招。
    • 穿長(zhǎng)褲的女生:U * P(Girl) * P(Pants|Girl)
    • 穿長(zhǎng)褲總數(shù):U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl)
    • P(Girl|Pants) = U * P(Girl) * P(Pants|Girl)/穿長(zhǎng)褲總數(shù)
    • 化簡(jiǎn)后: P(Girl|Pants) = P(Girl) * P(Pants|Girl)/P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)
    • 化簡(jiǎn)后發(fā)現(xiàn)與校園內(nèi)的總數(shù)無(wú)關(guān)捶惜,可以消去。
    • 分母其實(shí)就是P(Pants)
    • 分子其實(shí)就是P(Pants,Girl)
  • 貝葉斯公式:
    貝葉斯公式

3. 拼寫糾正實(shí)例

問(wèn)題是我們看到用戶輸入了一個(gè)不在字典中的單詞,我們需要去擦測(cè)用戶真正想輸入的單詞是什么弓坞?

  • P(我們擦測(cè)它輸入的單詞|他實(shí)際輸入的單詞)
  • 用戶實(shí)際輸入的單詞記為D
    • 猜測(cè)1:P(h1|D),猜測(cè)2:P(h2|D)纺蛆,猜測(cè)3:P(h3|D)...統(tǒng)一為:P(h|D)

    • P(h|D)=P(h)*P(D|h)/P(D)

      • P(h):代表猜測(cè)的詞在字典中出現(xiàn)的概率算利,比如語(yǔ)料庫(kù)中有10000個(gè)詞(有重復(fù)),the出現(xiàn)5000次证薇,那么P(the)=5000/10000度苔。P(h)其實(shí)是一個(gè)先驗(yàn)概率,拿到數(shù)據(jù)之后浑度,可以事先統(tǒng)計(jì)好寇窑。
      • P(D|h):想輸一個(gè)詞,輸錯(cuò)的概率箩张。比如甩骏,D:tha,h:the,P(D|h)表示想輸入the,輸?shù)氖莟ha的概率有多大先慷。
    • 對(duì)于具體的不同的猜測(cè)h1,h2,h3...横漏,P(D)都是一樣的,所以在比較P(h1|D)和P(h2|D)的時(shí)候我們可以忽略這個(gè)常數(shù)

    • P(h|D) 正比于 P(h)*P(D|h)

      對(duì)于給定的觀測(cè)數(shù)據(jù)熟掂,一個(gè)猜測(cè)的是好是壞取決于“這個(gè)猜測(cè)先驗(yàn)概率的大小”和“這個(gè)猜測(cè)生成我們觀測(cè)到的數(shù)據(jù)的可能性大卸薪健(the寫成tha的概率大小)”赴肚。

  • 貝葉斯方法計(jì)算:P(h)*P(D|h),P(h)是特定猜測(cè)的先驗(yàn)概率
  • 比如用戶輸入tlp,那到底是top還是tip呢素跺?這個(gè)時(shí)候,當(dāng)最大似然估計(jì)不能做出判斷時(shí)誉券,先驗(yàn)概率就可以插手進(jìn)來(lái)給出指示——top出現(xiàn)的程度要高許多指厌,所以更可能輸入的是top。

4. 垃圾郵件過(guò)濾實(shí)例

問(wèn)題:給定一封郵件踊跟,判定它是否屬于垃圾郵件踩验,D表示這封郵件,D由N個(gè)單詞組成商玫。用h+來(lái)表示垃圾郵件箕憾,h-表示正常郵件。

  • P(h+|D)=P(h+) * P(D|h+)/P(D)
  • P(h-|D)=P(h-) * P(D|h-)/P(D)
  • P(h+)和P(h-)這兩個(gè)先驗(yàn)概率都是很容易求出來(lái)的拳昌,要計(jì)算一個(gè)郵件庫(kù)里面垃圾郵件和正常郵件的比例就行了袭异。
  • D里面含有N個(gè)單詞d1,d2,d3...,P(D|h+)=P(d1,d2,...,dn|h+)
    • P(d1,d2,...,dn|h+)就是說(shuō)在垃圾郵件當(dāng)中出現(xiàn)跟我們這封郵件一模一樣的一封郵件的概率是多大炬藤!(可想而知御铃,一模一樣的概率會(huì)非常小碴里,但是我們判定為垃圾郵件不一定要一模一樣,大致相同就認(rèn)為是垃圾郵件了上真。)
    • P(d1,d2,...,dn|h+)擴(kuò)展為:P(d1|h+) * P(d2|d1,h+) * P(d3|d2,d1,h+) * ...
  • 把原始貝葉斯轉(zhuǎn)換為樸素貝葉斯咬腋。假設(shè)di與di-1是完全條件無(wú)關(guān)的(樸素貝葉斯假設(shè)特征之間是獨(dú)立的,互不影響睡互。)
    • 簡(jiǎn)化為:P(d1|h+) * P(d2|h+) * P(d3|h+) * ...
    • 對(duì)于P(d1|h+) * P(d2|h+) * P(d3|h+) * ... 只要統(tǒng)計(jì)di這個(gè)單詞在垃圾郵件中出現(xiàn)的頻率即可帝火。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市湃缎,隨后出現(xiàn)的幾起案子犀填,更是在濱河造成了極大的恐慌,老刑警劉巖嗓违,帶你破解...
    沈念sama閱讀 217,084評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件九巡,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡蹂季,警方通過(guò)查閱死者的電腦和手機(jī)冕广,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)偿洁,“玉大人撒汉,你說(shuō)我怎么就攤上這事√樽蹋” “怎么了睬辐?”我有些...
    開封第一講書人閱讀 163,450評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)宾肺。 經(jīng)常有香客問(wèn)我溯饵,道長(zhǎng),這世上最難降的妖魔是什么锨用? 我笑而不...
    開封第一講書人閱讀 58,322評(píng)論 1 293
  • 正文 為了忘掉前任丰刊,我火速辦了婚禮,結(jié)果婚禮上增拥,老公的妹妹穿的比我還像新娘啄巧。我一直安慰自己,他們只是感情好掌栅,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評(píng)論 6 390
  • 文/花漫 我一把揭開白布秩仆。 她就那樣靜靜地躺著,像睡著了一般渣玲。 火紅的嫁衣襯著肌膚如雪逗概。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,274評(píng)論 1 300
  • 那天忘衍,我揣著相機(jī)與錄音逾苫,去河邊找鬼。 笑死枚钓,一個(gè)胖子當(dāng)著我的面吹牛铅搓,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播搀捷,決...
    沈念sama閱讀 40,126評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼星掰,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了嫩舟?” 一聲冷哼從身側(cè)響起氢烘,我...
    開封第一講書人閱讀 38,980評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎家厌,沒想到半個(gè)月后播玖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,414評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡饭于,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評(píng)論 3 334
  • 正文 我和宋清朗相戀三年蜀踏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片掰吕。...
    茶點(diǎn)故事閱讀 39,773評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡果覆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出殖熟,到底是詐尸還是另有隱情局待,我是刑警寧澤,帶...
    沈念sama閱讀 35,470評(píng)論 5 344
  • 正文 年R本政府宣布菱属,位于F島的核電站燎猛,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏照皆。R本人自食惡果不足惜重绷,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望膜毁。 院中可真熱鬧昭卓,春花似錦、人聲如沸瘟滨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,713評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)杂瘸。三九已至倒淫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間败玉,已是汗流浹背敌土。 一陣腳步聲響...
    開封第一講書人閱讀 32,852評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工镜硕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人返干。 一個(gè)月前我還...
    沈念sama閱讀 47,865評(píng)論 2 370
  • 正文 我出身青樓兴枯,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親矩欠。 傳聞我的和親對(duì)象是個(gè)殘疾皇子财剖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容