樸素貝葉斯分類算法

title: 樸素貝葉斯分類算法
date: 2016-10-07 19:30:29
comments: true
categories: 算法
tags: 分類算法

樸素貝葉斯簡介

??樸素貝葉斯是貝葉斯分類中最簡單的一類往果，要求必須事先已知樣本總體能夠分為幾類疆液。它首先根據(jù)訓練樣本的分類分布情況，得出先驗概率陕贮。然后利用貝葉斯公式堕油，得到后驗概率，從而對對整個的待分類集合進行分類肮之，其分類依據(jù)是將待分類集合中的元素分類到最可能的那種類別掉缺。

貝葉斯公式

??基于貝葉斯公式的分類算法很多，樸素貝葉斯的應用極為廣泛戈擒。但是眶明，它也有其缺陷，因為它要求待分類集合的屬性獨立筐高，因此這種方法在有些特征屬性之間關(guān)系比較復雜的情況下搜囱，往往不能表現(xiàn)出良好的性能。在這里給出貝葉斯的數(shù)學公式和解讀：
$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$
向來數(shù)學公式是裝逼利器(<small>當然上面這個比較簡單除外</small>)柑土，下面對這個公式做解讀蜀肘。$P(A|B)$是Ａ對Ｂ的條件概率，也就是在事件Ｂ發(fā)生的情況下冰单，事件Ａ發(fā)生的概率幌缝，實際上等于$\frac{P(AB)}{P(B)}$。分子上根據(jù)條件概率的公式展開即可诫欠。這個公式比較簡單就不贅述了涵卵。但是它在統(tǒng)計學中分量很重，可以通俗的表示為:
$$后驗概率＝\frac{似然度.先驗概率}{標準化常量}$$
如果我們把上述的Ａ當作已知分類集合Ｙ荒叼，把Ｂ當作待分類集合Ｘ轿偎。那么可以看出利用已知分類集合Ｙ(用機器學習的術(shù)語來表述就是訓練樣本集合Ｙ可以求得先驗概率，然后通過待分類樣本求得似然度和標準化常量被廓，最后得到分類的后驗概率坏晦，取其最大值，設(shè)定為待分類樣本所屬的類嫁乘。其實貝葉斯公式在這里主要是給我們提供了一個分類器供我們使用昆婿。

樸素貝葉斯分類的原理

??其實上面說了那么多，估計還是云里霧里的蜓斧，舉個例子就明白了仓蛆，因為我們每個人在平常的生活中都會發(fā)揮分類的作用。比如說挎春，你來到了一所高中看疙，突然你的面前出現(xiàn)了一個身長2米的同學豆拨，你肯定會對其進行判斷，如果把判斷的方面限制到能庆，判斷這個同學是什么運動隊的施禾。你的第一反應就是這個人肯定是籃球隊的。在這里先驗條件就是搁胆，高個子的學生打籃球的幾率可能比較大弥搞，這里的待分類樣本其實是這名同學的身高。這個例子菜的摳腳丰涉，原諒博主神一般的腦回路拓巧，實在想不起更有趣的例子。當然一死，這名同學有可能不是肛度，如果人家喜歡繡花，你也不能攔著人家投慈。其實說了這么多承耿，就是告訴我們，貝葉斯估計能夠結(jié)合先驗概率和樣本的似然程度對樣本進行分類伪煤，這就大大提高了分類的準確程度加袋，并且在數(shù)據(jù)量很大的時候，樸素貝葉斯展現(xiàn)了它的強大抱既。

??下面給出樸素貝葉斯分類的正式定義：
1.　設(shè)存在待分類項$x= \lbrace a_1,a_2,a_3,...,a_n \rbrace $ 职烧，其中$a_i$表示的是待分類樣本的特征屬性，在此處假定他們獨立防泵。
2.　同時已知分類集合$C= \lbrace y_1,y_2,y_3,...,y_n \rbrace $蚀之。
3.　分別計算$Ｐ(y_1|x),P(y_2|x),P(y_3|x),...,P(y_n|x)$的條件概率。
4.　$P(y_d|x) = max \lbrace P(y_1|x),P(y_2|x),P(y_3|x),...,P(y_n|x) \rbrace$捷泞，也就是將樣本x歸類于可能行最大的分類y中足删。

??我們來尋找整個分類過程中的已知量和未知量。
1.　待分類項也就是待分類的樣本集合中的樣本锁右。
2.　已知分類集合失受，可以通過訓練樣本結(jié)合進行訓練和提取。
3.　根據(jù)貝葉斯公式:
$$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$$
要求左邊咏瑟，只需要求出右邊拂到，在右邊的分式中，分母是常數(shù)码泞，因為當測試樣本確定之后$P(x)$也就確定了兄旬，只需要求出分母的最大值就可以確定待分類項的所屬分類。又因為分類項$x$中的特征屬性獨立浦夷∠绞裕可得:
$$ P(x|y_i) P(y_i) = P(a_1|y_i)P(a_2|y_i)...P(a_n|y_i)P(y_i)=P(y_i) \prod^n_jP(a_j|y_i) $$
所以就求所有特征屬性在分類確定的情況下的似然度的連乘和分類本身在訓練樣本中所占概率做乘積。其中的最大值就是我們所求的結(jié)果劈狐，最大值所對應的分類就是待分類項的類別罐孝。在這里，我所實驗的樣本是離散的肥缔，所以只需要求得每個分類和每個分類的屬性在訓練樣本中的頻數(shù)就可以確定先驗概率莲兢，然后求出測試樣本中在分類確定的情況下，各個特征屬性出現(xiàn)的頻數(shù)就可以確定似然度续膳，當然出現(xiàn)的頻數(shù)越大似然度也就越大改艇，從而就可以進行分類。

??下面給出整個樸素貝葉斯分類的流程圖：

image

可以看到坟岔，整個樸素貝葉斯分類分為三個階段：
??第一階段——準備工作階段谒兄，這個階段的任務是為樸素貝葉斯分類做必要的準備，主要工作是根據(jù)具體情況確定特征屬性社付，并對每個特征屬性進行適當劃分承疲，然后由人工對一部分待分類項進行分類，形成訓練樣本集合鸥咖。這一階段的輸入是所有待分類數(shù)據(jù)燕鸽，輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段啼辣，其質(zhì)量對整個過程將有重要影響啊研，分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓練樣本質(zhì)量決定鸥拧。
??第二階段——分類器訓練階段党远，這個階段的任務就是生成分類器，主要工作是計算每個類別在訓練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計住涉，并將結(jié)果記錄麸锉。其輸入是特征屬性和訓練樣本，輸出是分類器舆声。這一階段是機械性階段花沉，根據(jù)前面討論的公式可以由程序自動計算完成。
??第三階段——應用階段媳握。這個階段的任務是使用分類器對待分類項進行分類碱屁，其輸入是分類器和待分類項，輸出是待分類項與類別的映射關(guān)系蛾找。這一階段也是機械性階段娩脾，由程序完成。

樣本特征屬性選擇和數(shù)據(jù)處理

特征屬性選擇

??在文章的開頭就已經(jīng)說明打毛，樸素貝葉斯算法柿赊，人為的限制所有樣本的特征屬性獨立俩功。所以在選擇特征屬性的時候，應當注意選擇權(quán)重較大碰声，獨立性較高的屬性來作為特征屬性诡蜓。

拉普拉斯校準

??細心閱讀上面的內(nèi)容，會發(fā)現(xiàn)如果一個待測樣本的某一個特征屬性在某個分類上出現(xiàn)的次數(shù)為０時，它將會導致整個分子的乘積為０，這有可能導致就算待測樣本在其他屬性上與一個已知分類一模一樣训裆，也不會被劃分到該類。因此會大大降低整個分類的效果豺谈。與此同時，這種情況在現(xiàn)實生活中也是不被允許的贡这。舉個例子茬末，就比如你今天穿了紅上衣和媽媽打完招呼之后，高高興興的去上學藕坯，然后放學回家的路上掉到了水坑里团南，回家之后不得不換了一件黑上衣。此時你母親再看到你的時候炼彪，不能因為你是黑上衣吐根，就說你不是她的孩子。從機器學習的角度看辐马，她會降低上衣顏色這個屬性的權(quán)重拷橘，通過對其他屬性的評估來確認。當然這個例子也不是太好喜爷，比較極端冗疮，但是它確實說明了問題的嚴重性。

??因此檩帐，需要我們對整個數(shù)據(jù)進行處理术幔。在這里的表現(xiàn)就是拉普拉斯校準。也就是當一個屬性在分類中出現(xiàn)的詞頻是０的時候湃密，我默認其為１诅挑，當然其他的樣本的個數(shù)都要加１．相應的１變成２，２變成３泛源。這樣的話拔妥，保證了分子不為０，而且在數(shù)據(jù)量很大的情況下达箍，它并不會影響結(jié)果没龙。所以利用拉普拉斯校準解決了這個問題。

總結(jié)

??樸素貝葉斯算法能夠很好的完成分類工作，但是它人為強加的條件限制了它的使用場景硬纤。我在Hadoop下利用MapReduce實現(xiàn)了樸素貝葉斯算法解滓，確實能夠達到不錯分類效果。如果有讀者需要程序筝家，可以發(fā)送郵件給我伐蒂。希望各位讀者對文章中出現(xiàn)的問題和錯誤進行斧正，歡迎大家一起探討相關(guān)方面的問題

最后編輯于：2018.02.05 11:40:07

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末肛鹏，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子恩沛，更是在濱河造成了極大的恐慌在扰，老刑警劉巖，帶你破解...
沈念sama閱讀 219,539評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件雷客，死亡現(xiàn)場離奇詭異芒珠，居然都是意外死亡，警方通過查閱死者的電腦和手機搅裙，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門皱卓，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人部逮，你說我怎么就攤上這事娜汁。” “怎么了兄朋？”我有些...
開封第一講書人閱讀 165,871評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵掐禁，是天一觀的道長。經(jīng)常有香客問我颅和，道長傅事，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,963評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任峡扩，我火速辦了婚禮蹭越，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘教届。我一直安慰自己响鹃，他們只是感情好，可當我...
茶點故事閱讀 67,984評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布巍佑。她就那樣靜靜地躺著茴迁，像睡著了一般。火紅的嫁衣襯著肌膚如雪萤衰。梳的紋絲不亂的頭發(fā)上堕义，一...
開封第一講書人閱讀 51,763評論 1贊 307
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼倦卖。笑死洒擦，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的怕膛。我是一名探鬼主播熟嫩，決...
沈念sama閱讀 40,468評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼褐捻！你這毒婦竟也來了掸茅？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤柠逞，失蹤者是張志新（化名）和其女友劉穎昧狮，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體板壮，經(jīng)...
沈念sama閱讀 45,850評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡逗鸣，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,002評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了绰精。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片撒璧。...
茶點故事閱讀 40,144評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖笨使，靈堂內(nèi)的尸體忽然破棺而出卿樱，到底是詐尸還是另有隱情，我是刑警寧澤硫椰，帶...
沈念sama閱讀 35,823評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布殿如，位于F島的核電站，受9級特大地震影響最爬，放射性物質(zhì)發(fā)生泄漏涉馁。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,483評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一爱致、第九天我趴在偏房一處隱蔽的房頂上張望烤送。院中可真熱鬧，春花似錦糠悯、人聲如沸帮坚。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評論 0贊 22
一樁弒父案互艾，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽试和。三九已至，卻和暖如春纫普，著一層夾襖步出監(jiān)牢的瞬間阅悍，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,150評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留节视，地道東北人拳锚。一個月前我還...
沈念sama閱讀 48,415評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像寻行，于是被迫代替她去往敵國和親霍掺。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,092評論 2贊 355