1.思路:
給定訓(xùn)練集后思灰,假設(shè)特征之間都是互相獨(dú)立的玷犹。
(1)計(jì)算輸入輸出的聯(lián)合概率分布
(2)對于給定的輸入x,利用貝葉斯原理求出后驗(yàn)概率最大的輸出y
2.優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
(1)學(xué)習(xí)和預(yù)測的效率高洒疚,模型簡單歹颓,且易于實(shí)現(xiàn);在數(shù)據(jù)較少的情況下仍然有效油湖,可以處理多分類問題巍扛;
(2)對缺失數(shù)據(jù)不敏感。
缺點(diǎn):
(1)分類效果不一定很高乏德,特征獨(dú)立性假設(shè)會(huì)是樸素貝葉斯變得簡單撤奸,特征獨(dú)立在實(shí)際應(yīng)用中往往不成立,所以會(huì)犧牲一定的分類準(zhǔn)確率喊括,在屬性個(gè)數(shù)多并且相關(guān)性強(qiáng)的時(shí)候胧瓜,樸素貝葉斯的分類效率不如樹模型;
(2)需要已知先驗(yàn)概率
3.原理:
對于輸入空間x為n維向量的集合:
![][01]
[01]:http://latex.codecogs.com/png.latex?x:(x_1,x_2,x_3,...,x_n)
輸出空間c的標(biāo)簽集合為:
![][02]
[02]:http://latex.codecogs.com/png.latex?c:(c_1,c_2,c_3,...,c_n)
假設(shè)X是定義在輸入空間上的隨機(jī)變量郑什,C是定義在輸出空間上的隨機(jī)變量府喳,則X和Y的聯(lián)合概率分布為:
![][03]
[03]:http://latex.codecogs.com/png.latex?P(X,C)
樸素貝葉斯法通過訓(xùn)練數(shù)據(jù)集學(xué)習(xí)聯(lián)合概率分布,學(xué)習(xí)聯(lián)合概率分布主要是得到先驗(yàn)概率和條件概率分布蹦误。
先驗(yàn)概率分布:
![][04]
[04]:http://latex.codecogs.com/png.latex?P(Y=c_k),k=0,1,2...
條件分布概率為:
![][05]
[05]:http://latex.codecogs.com/png.latex?P(X=x|Y=c_k)
即可得后驗(yàn)概率分布劫拢,如下圖所示: