01 分類方法
之前我們學習了一種分類方法——K近鄰法(KNN),今天我們再學習一種更常用的分類方法
樸素貝葉斯法
這里,我們先區(qū)分一下“分類”和“聚類”
分類的目的是學會一個分類函數(shù)或分類模型(也常常稱作分類器 )丈攒,該模型能把新輸入的數(shù)據(jù)映射到給定類別中的某一個類中。
聚類(clustering)是指根據(jù)“物以類聚”原理嫂便,將本身沒有類別的樣本聚集成不同的組(簇)念赶,并且對每一個這樣的簇進行描述的過程。它的目的是使得屬于同一個簇的樣本之間應該彼此相似怖竭,而不同簇的樣本應該足夠不相似锥债。
我們在上一篇文章中講到的K-Means就屬于聚類算法,KNN痊臭、樸素貝葉斯則屬于分類方法哮肚。
下面詳細講解樸素貝葉斯方法。
02 相關概念
學習樸素貝葉斯之前广匙,先理清下面三個概念允趟,要不然你的腦袋會暈掉的。
先驗概率
事件發(fā)生前的預判概率鸦致〕奔簦可以是基于歷史數(shù)據(jù)的統(tǒng)計,可以由背景常識得出分唾,也可以是人的主觀觀點給出抗碰。一般都是單獨事件概率,如P(X),P(Y)绽乔。條件概率
一個事件發(fā)生后另一個事件發(fā)生的概率弧蝇。一般的形式為P(X|Y),表示Y發(fā)生的條件下X發(fā)生的概率折砸。后驗概率
事件發(fā)生后求的反向條件概率看疗;或者說,基于先驗概率求得的反向條件概率睦授。表達形式與條件概率相同两芳。如P(Y|X)
03 樸素貝葉斯
基本假設
樸素貝葉斯,英文叫Naive Bayes去枷。
Naive盗扇?
那是有原因的祷肯,樸素貝葉斯對輸入變量做了一個很強的假設——條件獨立
就是這么個意思:條件獨立
輸入變量之間是相互獨立的,沒有概率依存關系疗隶。(若相互依存佑笋,那叫貝葉斯網(wǎng)絡)
即,用于分類的特征(xj)在類(y=ck)確定的條件下斑鼻,都是相互獨立的蒋纬,即
P(X=x|Y=ck)=P(X1=x2,X2=x2...Xn=xn|Y=ck)
=P(X1=x1|Y=ck)P(X2=x2|Y=ck)...P(Xn=xn|Y=ck)
貝葉斯公式
基本原理:P(X,Y)=P(Y|X)P(X)=P(X|Y)P(Y) => P(Y|X)=P(X|Y)P(Y)/P(X)
于是對于后驗概率P(Y|X),有:樸素貝葉斯分類器
根據(jù)貝葉斯公式坚弱,樸素貝葉斯分類器就產(chǎn)生了:
y=f(x)=argmax(P(Y|X))
這個分類器要做的就是,對于新輸入x荒叶,計算所有可能的Y對應的后驗概率P(Y|X)碾阁,認為后驗概率最大的那個Y就是這個新輸入x的類。
04 樸素貝葉斯的參數(shù)估計方法
參數(shù)估計目的
根據(jù)上一節(jié)些楣,樸素貝葉斯分類器其實就是先驗概率P(Y)和條件概率P(X|Y)的乘積脂凶,要使用樸素貝葉斯分類器,就要估計先驗概率P(Y=ck)和條件概率P(Xj=ajl|Y=ck)愁茁,這就是參數(shù)估計蚕钦。
常使用極大似然估計和貝葉斯估計去求這兩個概率。
極大似然估計
-
先驗概率
-
條件概率
貝葉斯估計
-
先驗概率
-
條件概率
上式的朗母達=1時鹅很,叫做——拉普拉斯平滑(Laplace smoothing)
相比于極大似然估計嘶居,貝葉斯估計可以處理有概率為0的情況,加入了Sj促煮、K等參數(shù)邮屁,其中Sj是X的第i個參數(shù)的第j個特征可能的數(shù)值個數(shù),K是Y可能的類別個數(shù)菠齿。
05 樸素貝葉斯算法過程
在看下面這個算法過程的時候佑吝,建議你腦子里一直想著一個實例:垃圾郵件分類。
算法過程看完可能還是云里霧里泞当,我們舉個例子說明吧。
06 總結(jié)
今天我們學習了另一種分類方法:樸素貝葉斯法民珍,它實現(xiàn)簡單襟士,學習和預測的效率較高,是一種很常用的分類方法嚷量,比如垃圾郵件分類陋桂、商品映射到行業(yè)體系等。
注意區(qū)分分類和聚類方法蝶溶。
下期我們將學習另一種分類方法——決策樹嗜历,敬請期待~~