樸素貝葉斯

1 概述

????????樸素貝葉斯(na?ve Bayes)法是基于貝葉斯定理特征條件獨立假設(shè)的分類方法砍艾。對于給定的訓(xùn)練數(shù)據(jù)集固该,首先基于特征條件獨立假設(shè)學(xué)習(xí)輸入/輸出的聯(lián)合概率分布;然后基于此模型脆诉,對給定的輸入x甚亭,利用貝葉斯定理求出后驗概率最大的輸出y。樸素貝葉斯法實現(xiàn)簡單击胜,學(xué)習(xí)與預(yù)測的效率都很高亏狰,是一種常用的方法。

2 基本方法

????????(1)條件獨立性假設(shè)
? ??????????????????????P(X=x|Y=c_{k} )=P(X^{(1)}= x^{(1)},...,X^{(n)}= x^{(n)})=\prod_{j=1}^n P(X^{(j)}= x^{(j )}|Y=c_{k} )
這是一個較強的假設(shè)偶摔,樸素貝葉斯法也由此得名暇唾。樸素貝葉斯法實際上學(xué)習(xí)到生成數(shù)據(jù)的機制,所以屬于生成模型辰斋。條件獨立假設(shè)等于是說用于分類的特征在類確定的條件下都是條件獨立的策州。這一假設(shè)使樸素貝葉斯法變得簡單,但有時會犧牲一定的分類準(zhǔn)確率够挂。

????????(2)貝葉斯定理
? ??????????????????????P(X=x|Y=c_{k} )=\frac{P(X=x|Y=c_{k})P(Y=c_{k}) }{\sum_{k}P(X=x|Y=c_{k})P(Y=c_{k})}

?????????兩者結(jié)合就是樸素貝葉斯分類的基本公式:
? ??????????????????????P(X=x|Y=c_{k} )=\frac{P(Y=c_{k})\prod_{j=1} P(X^{(j)}= x^{(j )}|Y=c_{k} ) }{\sum_P(Y=c_{k})\prod_{j=1} P(X^{(j)}= x^{(j )}|Y=c_{k} )} ,k=1,2,...,K

? ? ? ? (3)于是办悟,樸素貝葉斯分類器可表示為:
? ?????????????????????????y=f(x)=arg \max_{c_{k} }  \frac{P(Y=c_{k})\prod_{j=1} P(X^{(j)}= x^{(j )}|Y=c_{k} ) }{\sum_P(Y=c_{k})\prod_{j=1} P(X^{(j)}= x^{(j )}|Y=c_{k} )}

????????因為上式中铺然,分母是用于歸一化的證據(jù)分子烘挫。對于給定樣本x,證據(jù)因子p(x)與類標(biāo)記無關(guān),所以分母對所有的c_{k} 是相同的嚎货,因此

? ??????????????????????????????????????????????y=arg \max_{c_{k} }  P(Y=c_{k})\prod_{j=1} P(X^{(j)}= x^{(j )}|Y=c_{k} )

????????顯然洗显,樸素貝葉斯分類器的訓(xùn)練過程就是基于訓(xùn)練集T來估計類先驗概率P(Y=c_{k} ),并為每個屬性估計條件概率P(X^{(j)}= x^{(j )}|Y=c_{k} )滔驾。

3 后驗概率最大化的含義

????????貝葉斯判定準(zhǔn)則?:為最小化總體風(fēng)險R(c_{i} |x)=\sum_{j=1}^N \lambda _{ij}P(c_{j}|x) ,只需在每個樣本上選擇那個能使條件風(fēng)險P(c|x)最小的類別標(biāo)記颅悉。

? ??????樸素貝葉斯法將實例分到后驗概率最大的類中沽瞭。這等價于期望風(fēng)險最小化。假設(shè)選擇 0-1損失函數(shù):

式中f(X)是分類決策函數(shù)剩瓶。這時驹溃,期望風(fēng)險函數(shù)為?
? ??????????????????????????????????????????????????????????????????????????????R_{exp}(f)=E [L(Y,f(X))]
期望是對聯(lián)合分布P(X,Y)取的。由此取條件期望
? ?????????????????????????????????????????????????????????????????????R_{exp}(f)=E_{X}\sum_{k=1}^K [L(c_{k},f(x))]P(c_{k} |X)

為了使期望風(fēng)險最小化延曙,只需對X=x逐個極小化豌鹤,由此得到:
? ??????????????????????????????????????????f(x)=arg \min_{y\in Y} \sum_{k=1}^KL(c_{k},y)P(c_{k}|X=x)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?=arg \min_{y\in Y} \sum_{k=1}^KP(y\neq c_{k}|X=x)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?=arg \min_{y\in Y} (1-P(y= c_{k}|X=x) )
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?=arg \max_{y\in Y} P(y=c_{k}|X=x)

4 參數(shù)估計

4.1 極大似然估計

????????在樸素貝葉斯法中,學(xué)習(xí)意味著估計P(Y=c_{k}) P(X^{(j)}=x^{(j)}|  Y=c_{k}) 枝缔〔几恚可以應(yīng)用極大似然估計法估計相應(yīng)的概率蚊惯。先驗概率P(Y=c_{k}) 的極大似然估計是

? ??????????????????????????????????????????P(Y=c_{k}) =\frac{\sum_{i=1}^NI(y_{i}=c_{k})   }{N},k=1,2,...,K

設(shè)第j個特征x^{(j)} 可能的取值的集合為{,{a_{j1},a_{j2},...,a_{js_{j} } }},條件概率P(X^{(j)}=x^{(j)}|  Y=c_{k}) 的極大似然估計是
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?P(X^{(j)}= a_{jl} |  Y=c_{k}) =\frac{\sum_{i=1}^NI(x^{(j)}=a_{j1} ,y_{i}=c_{k})}{\sum_{i=1}^NI(y_{i}=c_{k})}

? ??????????????????????????????????????????????j=1,2,...,n;l=1,2,...,S_{j} ;k=1,2,...,K|
其中灵临,I為指示函數(shù)截型,即


算法4.1(樸素貝葉斯算法(na?ve Bayes algorithm))
輸入:訓(xùn)練數(shù)據(jù)T=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right\} ,其中x_{i}=( x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)} )^T  儒溉, x_{i} ^{(j)}是第i個樣本的第j個特征宦焦,x_{i}^{(j)} \in \left\{ a_{j1}, a_{j2} ,..., a_{js_{j} } \right\}  a_{jl}是第j個特征可能取的第l個值顿涣,j=1,2,...,n;l=1,2,...,S_{j} ;k=1,2,...,K波闹;實例x;
?輸出:實例x的分類涛碑。
(1)計算先驗概率及條件概率
? ??????????????????????????????????P(Y=c_{k}) =\frac{\sum_{i=1}^NI(y_{i}=c_{k})   }{N},k=1,2,...,K
P(X^{(j)}= a_{jl} |  Y=c_{k}) =\frac{\sum_{i=1}^NI(x^{(j)}=a_{j1} ,y_{i}=c_{k})}{\sum_{i=1}^NI(y_{i}=c_{k})} ,j=1,2,...,n;l=1,2,...,S_{j} ;k=1,2,...,K

(2)對于給定的實例x=(x(1),x(2),…,x(n))T精堕,計算
??????????????????????????????????{P(Y=c_{k})\prod_{j=1}^n P(X^{(j)}= x^{(j )}|Y=c_{k} ) },k=1,2,...,K

(3)確定實例x的類
?????????????????????????????????y=f(x)=arg \max_{c_{k} }  {P(Y=c_{k})\prod_{j=1} P(X^{(j)}= x^{(j )}|Y=c_{k} ) }

4.2 貝葉斯估計

? ??????用極大似然估計可能會出現(xiàn)所要估計的概率值為0的情況。這時會影響到后驗概率的計算結(jié)果锌唾,使分類產(chǎn)生偏差锄码。為了避免其他屬性攜帶的信息被訓(xùn)練集中未出現(xiàn)的屬性值“抹去”,解決這一問題的方法是采用貝葉斯估計晌涕。具體地滋捶,條件概率的貝葉斯估計是
? ??????????????????????????????????????????P_{\lambda } (X^{(j)}=a_{jl}  |  Y=c_{k}) =\frac{\sum_{i=1}^NI(x^{(j)}=a_{j1} ,y_{i}=c_{k})+\lambda }{\sum_{i=1}^NI(y_{i}=c_{k})+S_{j}\lambda  }

?式中\lambda \geq 0?。等價于在隨機變量各個取值的頻數(shù)上賦予一個正數(shù) \lambda >0余黎。當(dāng) \lambda =0時就是極大似然估計重窟。常取 \lambda =1局齿,這時稱為拉普拉斯平滑(Laplace smoothing)首妖。
? ? ? ??同樣常侦,先驗概率的貝葉斯估計是????????P_{\lambda } (Y=c_{k}) =\frac{\sum_{i=1}^NI(y_{i}=c_{k}) +\lambda   }{N+K\lambda }

總結(jié)

優(yōu)點:
(1) 算法邏輯簡單,易于實現(xiàn)
(2)穩(wěn)定的分類效率蹬蚁。
(3)NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感
(4) 貝葉斯方法的特點是結(jié)合先驗概率和后驗概率冈闭,即避免了只使用先驗概率的主觀偏見呢簸,也避免了單獨使用樣本信息的過擬合現(xiàn)象苔咪。
(5)貝葉斯分類算法在數(shù)據(jù)集較大的情況下表現(xiàn)出較高的準(zhǔn)確率搀突,同時算法本身也比較簡單刀闷。
(6)當(dāng)數(shù)據(jù)集屬性之間的關(guān)系相對比較獨立時,樸素貝葉斯分類算法會有較好的效果

缺點:
理論上仰迁,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率甸昏。但是實際上并非總是如此,這是因為樸素貝葉斯模型假設(shè)屬性之間相互獨立徐许,這個假設(shè)在實際應(yīng)用中往往是不成立的施蜜,在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,分類效果不好雌隅。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末翻默,一起剝皮案震驚了整個濱河市缸沃,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌冰蘑,老刑警劉巖和泌,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件村缸,死亡現(xiàn)場離奇詭異祠肥,居然都是意外死亡,警方通過查閱死者的電腦和手機梯皿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進店門仇箱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人东羹,你說我怎么就攤上這事剂桥。” “怎么了属提?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵权逗,是天一觀的道長。 經(jīng)常有香客問我冤议,道長斟薇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任恕酸,我火速辦了婚禮堪滨,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蕊温。我一直安慰自己袱箱,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布义矛。 她就那樣靜靜地躺著发笔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪凉翻。 梳的紋絲不亂的頭發(fā)上了讨,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天,我揣著相機與錄音噪矛,去河邊找鬼量蕊。 笑死,一個胖子當(dāng)著我的面吹牛艇挨,可吹牛的內(nèi)容都是我干的残炮。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼缩滨,長吁一口氣:“原來是場噩夢啊……” “哼势就!你這毒婦竟也來了泉瞻?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤苞冯,失蹤者是張志新(化名)和其女友劉穎袖牙,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體舅锄,經(jīng)...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡鞭达,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了皇忿。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片畴蹭。...
    茶點故事閱讀 40,127評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖鳍烁,靈堂內(nèi)的尸體忽然破棺而出叨襟,到底是詐尸還是另有隱情,我是刑警寧澤幔荒,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布糊闽,位于F島的核電站,受9級特大地震影響爹梁,放射性物質(zhì)發(fā)生泄漏右犹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一卫键、第九天 我趴在偏房一處隱蔽的房頂上張望傀履。 院中可真熱鬧,春花似錦莉炉、人聲如沸钓账。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽梆暮。三九已至,卻和暖如春绍昂,著一層夾襖步出監(jiān)牢的瞬間啦粹,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工窘游, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留唠椭,地道東北人。 一個月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓忍饰,卻偏偏與公主長得像贪嫂,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子艾蓝,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內(nèi)容