統(tǒng)計學習方法 | 樸素貝葉斯法

01 分類方法

之前我們學習了一種分類方法——K近鄰法(KNN),今天我們再學習一種更常用的分類方法

樸素貝葉斯法

這里,我們先區(qū)分一下“分類”和“聚類”

  • 分類的目的是學會一個分類函數(shù)或分類模型(也常常稱作分類器 )丈攒,該模型能把新輸入的數(shù)據(jù)映射到給定類別中的某一個類中。

  • 聚類(clustering)是指根據(jù)“物以類聚”原理嫂便,將本身沒有類別的樣本聚集成不同的組(簇)念赶,并且對每一個這樣的簇進行描述的過程。它的目的是使得屬于同一個簇的樣本之間應該彼此相似怖竭,而不同簇的樣本應該足夠不相似锥债。

我們在上一篇文章中講到的K-Means就屬于聚類算法,KNN痊臭、樸素貝葉斯則屬于分類方法哮肚。

下面詳細講解樸素貝葉斯方法。

02 相關概念

學習樸素貝葉斯之前广匙,先理清下面三個概念允趟,要不然你的腦袋會暈掉的。

  1. 先驗概率
    事件發(fā)生前的預判概率鸦致〕奔簦可以是基于歷史數(shù)據(jù)的統(tǒng)計,可以由背景常識得出分唾,也可以是人的主觀觀點給出抗碰。一般都是單獨事件概率,如P(X),P(Y)绽乔。

  2. 條件概率
    一個事件發(fā)生后另一個事件發(fā)生的概率弧蝇。一般的形式為P(X|Y),表示Y發(fā)生的條件下X發(fā)生的概率折砸。

  3. 后驗概率
    事件發(fā)生后求的反向條件概率看疗;或者說,基于先驗概率求得的反向條件概率睦授。表達形式與條件概率相同两芳。如P(Y|X)

03 樸素貝葉斯

基本假設
樸素貝葉斯,英文叫Naive Bayes去枷。

Naive盗扇?

那是有原因的祷肯,樸素貝葉斯對輸入變量做了一個很強的假設——條件獨立

條件獨立

輸入變量之間是相互獨立的,沒有概率依存關系疗隶。(若相互依存佑笋,那叫貝葉斯網(wǎng)絡)

即,用于分類的特征(xj)在類(y=ck)確定的條件下斑鼻,都是相互獨立的蒋纬,即
P(X=x|Y=ck)=P(X1=x2,X2=x2...Xn=xn|Y=ck)
=P(X1=x1|Y=ck)P(X2=x2|Y=ck)...P(Xn=xn|Y=ck)

就是這么個意思:

貝葉斯公式

基本原理:P(X,Y)=P(Y|X)P(X)=P(X|Y)P(Y) => P(Y|X)=P(X|Y)P(Y)/P(X)

于是對于后驗概率P(Y|X),有:

樸素貝葉斯分類器

根據(jù)貝葉斯公式坚弱,樸素貝葉斯分類器就產(chǎn)生了:
y=f(x)=argmax(P(Y|X))

一波公式變換和等價之后蜀备,得到了樸素貝葉斯分類器:

這個分類器要做的就是,對于新輸入x荒叶,計算所有可能的Y對應的后驗概率P(Y|X)碾阁,認為后驗概率最大的那個Y就是這個新輸入x的類。

04 樸素貝葉斯的參數(shù)估計方法

參數(shù)估計目的

根據(jù)上一節(jié)些楣,樸素貝葉斯分類器其實就是先驗概率P(Y)和條件概率P(X|Y)的乘積脂凶,要使用樸素貝葉斯分類器,就要估計先驗概率P(Y=ck)和條件概率P(Xj=ajl|Y=ck)愁茁,這就是參數(shù)估計蚕钦。

常使用極大似然估計和貝葉斯估計去求這兩個概率。

極大似然估計

  • 先驗概率
  • 條件概率

貝葉斯估計

  • 先驗概率
  • 條件概率

上式的朗母達=1時鹅很,叫做——拉普拉斯平滑(Laplace smoothing)

相比于極大似然估計嘶居,貝葉斯估計可以處理有概率為0的情況,加入了Sj促煮、K等參數(shù)邮屁,其中Sj是X的第i個參數(shù)的第j個特征可能的數(shù)值個數(shù),K是Y可能的類別個數(shù)菠齿。

05 樸素貝葉斯算法過程

在看下面這個算法過程的時候佑吝,建議你腦子里一直想著一個實例:垃圾郵件分類。

算法過程看完可能還是云里霧里泞当,我們舉個例子說明吧。

06 總結(jié)

今天我們學習了另一種分類方法:樸素貝葉斯法民珍,它實現(xiàn)簡單襟士,學習和預測的效率較高,是一種很常用的分類方法嚷量,比如垃圾郵件分類陋桂、商品映射到行業(yè)體系等。

注意區(qū)分分類和聚類方法蝶溶。

下期我們將學習另一種分類方法——決策樹嗜历,敬請期待~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宣渗,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子梨州,更是在濱河造成了極大的恐慌痕囱,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件暴匠,死亡現(xiàn)場離奇詭異鞍恢,居然都是意外死亡,警方通過查閱死者的電腦和手機每窖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進店門帮掉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人窒典,你說我怎么就攤上這事蟆炊。” “怎么了瀑志?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵涩搓,是天一觀的道長。 經(jīng)常有香客問我后室,道長缩膝,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任岸霹,我火速辦了婚禮疾层,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘贡避。我一直安慰自己痛黎,他們只是感情好,可當我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布刮吧。 她就那樣靜靜地躺著湖饱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪杀捻。 梳的紋絲不亂的頭發(fā)上井厌,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天,我揣著相機與錄音致讥,去河邊找鬼仅仆。 笑死,一個胖子當著我的面吹牛垢袱,可吹牛的內(nèi)容都是我干的墓拜。 我是一名探鬼主播,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼请契,長吁一口氣:“原來是場噩夢啊……” “哼咳榜!你這毒婦竟也來了夏醉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤涌韩,失蹤者是張志新(化名)和其女友劉穎畔柔,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贸辈,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡释树,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了擎淤。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奢啥。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖嘴拢,靈堂內(nèi)的尸體忽然破棺而出桩盲,到底是詐尸還是另有隱情,我是刑警寧澤席吴,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布赌结,位于F島的核電站,受9級特大地震影響孝冒,放射性物質(zhì)發(fā)生泄漏柬姚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一庄涡、第九天 我趴在偏房一處隱蔽的房頂上張望量承。 院中可真熱鬧,春花似錦穴店、人聲如沸撕捍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽忧风。三九已至,卻和暖如春球凰,著一層夾襖步出監(jiān)牢的瞬間狮腿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工呕诉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留缘厢,地道東北人。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓义钉,卻偏偏與公主長得像昧绣,于是被迫代替她去往敵國和親规肴。 傳聞我的和親對象是個殘疾皇子捶闸,可洞房花燭夜當晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內(nèi)容