剩余

文章含有“program”的概率各個(gè)選集中調(diào)查如下:

p(Y1=1|X=dev) = 0.271

p(Y1=1|X=admin) = 0.136

條件概率p(Y1=1|X=dev) 是「dev選集中马胧,含有“program”的概率」。同理衔峰,X=admin 也是一樣佩脊。

確實(shí)p(Y1=1|X=dev) > p(Y1=1|X=admin) 成立。

同理垫卤,隨機(jī)變量 Y2 作為「文章中含有“application”」威彰,試求它的概率浦译。

p(Y2=1|X=dev) = 0.172

p(Y2=1|X=admin) = 0.523

這樣就可以判斷「含有“application”结榄,不含“program”的文章」術(shù)語(yǔ)哪個(gè)類別。

雖已知滿足這個(gè)條件的隨機(jī)變量是 Y1=0, Y2=1 魏滚,表示類別的隨機(jī)變量X還是未知的豹缀。這里,可以判斷:如果求出p(X=dev|Y1=0, Y2=1)?和 p(X=admin|Y1=0, Y2=1) 慨代,概率值大的一方被作為「可信用的 X 值」邢笙。

寫文章時(shí),先寫完內(nèi)容再確定類別侍匙,是很少見(jiàn)的氮惯。總之想暗,p(X|Y1, Y2)就是事后概率妇汗,計(jì)算出該值就可以推斷出文章中隱藏的信息 (例:「文章是為了發(fā)表在dev文集而寫的!」)

這一系列的過(guò)程就是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的一個(gè)典型思考方式说莫。

雖然得到了使用貝葉斯公式計(jì)算出事后概率的公式铛纬,但是使用乘法定理把聯(lián)合概率展開為2個(gè)式子是不是更容易理解一些呢?

p(X, Y1,Y2)

= p(X|Y1,Y2) p(Y1, Y2)

= p(Y1,Y2|X) p(X)

由第2式和第3式可以推導(dǎo)出p(X|Y1, Y2)等于下式:


公式

想一下式子的右邊可以計(jì)算出來(lái)嗎?

關(guān)于分子中的p(Y1, Y2|X)唬滑,假定賦值給X時(shí)Y1, Y2是獨(dú)立。(也叫做「條件獨(dú)立」),從剛才的論證可得晶密,p(Y1, Y2|X)= p(Y1|X) p(Y2|X)成立擒悬。

p(X)和p(Y1|X)已知時(shí),式子的右側(cè)可以計(jì)算出來(lái)稻艰。

至于分母的p(Y1, Y2)懂牧,可以通過(guò)把分子當(dāng)作「隨機(jī)變量X的邊緣化」計(jì)算出來(lái)。

具體講尊勿,利用乗法定理中p(Y1, Y2|X) p(X) = p(X, Y1, Y2)僧凤,然后使用加法定理消去X后,變成p(Y1, Y2)元扔。想起來(lái)最開始說(shuō)的「機(jī)器學(xué)習(xí)中反復(fù)使用加法定理和乗法定理」「加法定理也叫做邊緣化」了嗎躯保?

但是,因?yàn)榉帜傅膒(Y1, Y2)中并沒(méi)有X(與X無(wú)關(guān))澎语,如果「想求出p(X|Y1, Y2)最大的X」途事,僅僅比較分子就足夠了。

最后擅羞,「包含“application”尸变,不包含“program”的文章」,也就是計(jì)算Y1=0, Y2=1兩種情況的事后概率减俏。

想分別求出各個(gè)X的值召烂,先求出分子。

p(Y1=0,Y2=1|X=dev) p(X=dev)

= (1 - 0.271) *0.172 * 0.652

= 0.082

p(Y1=0,Y2=1|X=admin) p(X=admin)

= (1 - 0.136) *0.523 * 0.348

= 0.157

把分母邊緣化后得到的娃承,就是2個(gè)值得和奏夫。

p(Y1=0,Y2=1)

= p(X=dev, Y1=0,Y2=1) + p(X=admin, Y1=0, Y2=1)

= 0.082 + 0.157

= 0.239

接著,事后概率如下所示:

p(X=dev|Y1=0,Y2=1)

= p(Y1=0,Y2=1|X=dev) p(X=dev) / p(Y1=0, Y2=1)

= 0.082 / 0.239

= 0.343

p(X=admin|Y1=0,Y2=1)

= p(Y1=0,Y2=1|X=admin) p(X=admin) / p(Y1=0, Y2=1)

= 0.157 / 0.239

= 0.657

哪個(gè)才是更適合的分類草慧,已經(jīng)明白了吧桶蛔?

這里的「基于條件概率的獨(dú)立性」被稱作「條件獨(dú)立」或者「樸素貝葉斯」「單純貝葉斯」。

當(dāng)然漫谷,這里的「條件獨(dú)立」是假設(shè)的仔雷,并不是真的獨(dú)立。盡管做了如此大膽的假設(shè)舔示,樸素貝葉斯還是有很高的精準(zhǔn)度的碟婆。通過(guò)簡(jiǎn)單計(jì)算并得到好的結(jié)果的就是「好的模型」。

實(shí)際上惕稻,樸素貝葉斯在文本分類和信用過(guò)濾中經(jīng)常使用竖共。樸素貝葉斯不僅限與用在類別和單詞種類為2的情況,更普通的情況也適用俺祠。

下篇為實(shí)踐課程公给,以樸素貝葉斯為題材借帘,動(dòng)手實(shí)現(xiàn)概率的計(jì)算。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末淌铐,一起剝皮案震驚了整個(gè)濱河市肺然,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌腿准,老刑警劉巖际起,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異吐葱,居然都是意外死亡街望,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門弟跑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)灾前,“玉大人,你說(shuō)我怎么就攤上這事窖认≡ゼ恚” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵扑浸,是天一觀的道長(zhǎng)烧给。 經(jīng)常有香客問(wèn)我,道長(zhǎng)喝噪,這世上最難降的妖魔是什么础嫡? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮酝惧,結(jié)果婚禮上榴鼎,老公的妹妹穿的比我還像新娘。我一直安慰自己晚唇,他們只是感情好巫财,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著哩陕,像睡著了一般平项。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上悍及,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天闽瓢,我揣著相機(jī)與錄音,去河邊找鬼心赶。 笑死扣讼,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的缨叫。 我是一名探鬼主播椭符,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼荔燎,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了艰山?” 一聲冷哼從身側(cè)響起湖雹,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎曙搬,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鸽嫂,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡纵装,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了据某。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片橡娄。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖癣籽,靈堂內(nèi)的尸體忽然破棺而出挽唉,到底是詐尸還是另有隱情,我是刑警寧澤筷狼,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布瓶籽,位于F島的核電站,受9級(jí)特大地震影響埂材,放射性物質(zhì)發(fā)生泄漏塑顺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一俏险、第九天 我趴在偏房一處隱蔽的房頂上張望严拒。 院中可真熱鬧,春花似錦竖独、人聲如沸裤唠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)种蘸。三九已至,卻和暖如春格二,著一層夾襖步出監(jiān)牢的瞬間劈彪,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工顶猜, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留沧奴,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓长窄,卻偏偏與公主長(zhǎng)得像滔吠,于是被迫代替她去往敵國(guó)和親纲菌。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 這一節(jié)是講解關(guān)于機(jī)器學(xué)習(xí)中的概率的疮绷。 概率是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)中最重要的基礎(chǔ)知識(shí)翰舌。由于從零開始講解概率是有點(diǎn)不現(xiàn)實(shí)...
    小豬剛剛1993閱讀 909評(píng)論 1 2
  • 來(lái)源: http://www.douban.com/group/topic/14820131/ 調(diào)整變量格式: f...
    MC1229閱讀 6,917評(píng)論 0 5
  • MCMC和Gibbs Sampling 1.隨機(jī)模擬 隨機(jī)模擬又名蒙特卡羅方法,蒙特卡羅方法的源頭就是當(dāng)年用...
    wlj1107閱讀 6,271評(píng)論 3 6
  • 首先重點(diǎn)講解中國(guó)剩余定理冬骚,舉例:一個(gè)數(shù)x除d1余r1椅贱,除d2余r2,除d3余r3只冻,那么庇麦,求這個(gè)數(shù)的最小值 。解答:...
    碧影江白閱讀 2,169評(píng)論 0 2
  • 10歲時(shí),你無(wú)憂無(wú)慮奔跑在鄉(xiāng)間的小路上舍悯;15歲時(shí)航棱,你因理想與現(xiàn)實(shí)的差距苦悶著;18歲時(shí)萌衬,你因自己落后的成績(jī)哭泣著饮醇;...
    胡喜平閱讀 269評(píng)論 0 2