1 概述
????????樸素貝葉斯(na?ve Bayes)法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法砍艾。對于給定的訓(xùn)練數(shù)據(jù)集固该,首先基于特征條件獨立假設(shè)學(xué)習(xí)輸入/輸出的聯(lián)合概率分布;然后基于此模型脆诉,對給定的輸入x甚亭,利用貝葉斯定理求出后驗概率最大的輸出y。樸素貝葉斯法實現(xiàn)簡單击胜,學(xué)習(xí)與預(yù)測的效率都很高亏狰,是一種常用的方法。
2 基本方法
????????(1)條件獨立性假設(shè)
? ??????????????????????
這是一個較強的假設(shè)偶摔,樸素貝葉斯法也由此得名暇唾。樸素貝葉斯法實際上學(xué)習(xí)到生成數(shù)據(jù)的機制,所以屬于生成模型辰斋。條件獨立假設(shè)等于是說用于分類的特征在類確定的條件下都是條件獨立的策州。這一假設(shè)使樸素貝葉斯法變得簡單,但有時會犧牲一定的分類準(zhǔn)確率够挂。
????????(2)貝葉斯定理
? ??????????????????????
?????????兩者結(jié)合就是樸素貝葉斯分類的基本公式:
? ??????????????????????
? ? ? ? (3)于是办悟,樸素貝葉斯分類器可表示為:
? ?????????????????????????
????????因為上式中铺然,分母是用于歸一化的證據(jù)分子烘挫。對于給定樣本x,證據(jù)因子p(x)與類標(biāo)記無關(guān),所以分母對所有的是相同的嚎货,因此
? ??????????????????????????????????????????????
????????顯然洗显,樸素貝葉斯分類器的訓(xùn)練過程就是基于訓(xùn)練集來估計類先驗概率
,并為每個屬性估計條件概率
滔驾。
3 后驗概率最大化的含義
????????貝葉斯判定準(zhǔn)則?:為最小化總體風(fēng)險
,只需在每個樣本上選擇那個能使條件風(fēng)險
最小的類別標(biāo)記颅悉。
? ??????樸素貝葉斯法將實例分到后驗概率最大的類中沽瞭。這等價于期望風(fēng)險最小化。假設(shè)選擇 0-1損失函數(shù):
式中是分類決策函數(shù)剩瓶。這時驹溃,期望風(fēng)險函數(shù)為?
? ??????????????????????????????????????????????????????????????????????????????
期望是對聯(lián)合分布取的。由此取條件期望
? ?????????????????????????????????????????????????????????????????????
為了使期望風(fēng)險最小化延曙,只需對X=x逐個極小化豌鹤,由此得到:
? ??????????????????????????????????????????
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
4 參數(shù)估計
4.1 極大似然估計
????????在樸素貝葉斯法中,學(xué)習(xí)意味著估計和
枝缔〔几恚可以應(yīng)用極大似然估計法估計相應(yīng)的概率蚊惯。先驗概率
的極大似然估計是
? ??????????????????????????????????????????
設(shè)第j個特征可能的取值的集合為{,
},條件概率
的極大似然估計是
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ??????????????????????????????????????????????|
其中灵临,I為指示函數(shù)截型,即
算法4.1(樸素貝葉斯算法(na?ve Bayes algorithm))
輸入:訓(xùn)練數(shù)據(jù),其中
儒溉,
是第i個樣本的第j個特征宦焦,
,
是第j個特征可能取的第l個值顿涣,
波闹;實例x;
?輸出:實例x的分類涛碑。
(1)計算先驗概率及條件概率
? ??????????????????????????????????(2)對于給定的實例x=(x(1),x(2),…,x(n))T精堕,計算
??????????????????????????????????
(3)確定實例x的類
?????????????????????????????????
4.2 貝葉斯估計
? ??????用極大似然估計可能會出現(xiàn)所要估計的概率值為0的情況。這時會影響到后驗概率的計算結(jié)果锌唾,使分類產(chǎn)生偏差锄码。為了避免其他屬性攜帶的信息被訓(xùn)練集中未出現(xiàn)的屬性值“抹去”,解決這一問題的方法是采用貝葉斯估計晌涕。具體地滋捶,條件概率的貝葉斯估計是
? ??????????????????????????????????????????
?式中?。等價于在隨機變量各個取值的頻數(shù)上賦予一個正數(shù)
>0余黎。當(dāng)
=0時就是極大似然估計重窟。常取
=1局齿,這時稱為拉普拉斯平滑(Laplace smoothing)首妖。
? ? ? ??同樣常侦,先驗概率的貝葉斯估計是????????
總結(jié)
優(yōu)點:
(1) 算法邏輯簡單,易于實現(xiàn)
(2)穩(wěn)定的分類效率蹬蚁。
(3)NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感
(4) 貝葉斯方法的特點是結(jié)合先驗概率和后驗概率冈闭,即避免了只使用先驗概率的主觀偏見呢簸,也避免了單獨使用樣本信息的過擬合現(xiàn)象苔咪。
(5)貝葉斯分類算法在數(shù)據(jù)集較大的情況下表現(xiàn)出較高的準(zhǔn)確率搀突,同時算法本身也比較簡單刀闷。
(6)當(dāng)數(shù)據(jù)集屬性之間的關(guān)系相對比較獨立時,樸素貝葉斯分類算法會有較好的效果
缺點:
理論上仰迁,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率甸昏。但是實際上并非總是如此,這是因為樸素貝葉斯模型假設(shè)屬性之間相互獨立徐许,這個假設(shè)在實際應(yīng)用中往往是不成立的施蜜,在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,分類效果不好雌隅。