title: 樸素貝葉斯分類算法
date: 2016-10-07 19:30:29
comments: true
categories: 算法
tags: 分類算法
樸素貝葉斯簡介
??樸素貝葉斯是貝葉斯分類中最簡單的一類往果,要求必須事先已知樣本總體能夠分為幾類疆液。它首先根據(jù)訓練樣本的分類分布情況,得出先驗概率陕贮。然后利用貝葉斯公式堕油,得到后驗概率,從而對對整個的待分類集合進行分類肮之,其分類依據(jù)是將待分類集合中的元素分類到最可能的那種類別掉缺。
貝葉斯公式
??基于貝葉斯公式的分類算法很多,樸素貝葉斯的應用極為廣泛戈擒。但是眶明,它也有其缺陷,因為它要求待分類集合的屬性獨立筐高,因此這種方法在有些特征屬性之間關(guān)系比較復雜的情況下搜囱,往往不能表現(xiàn)出良好的性能。在這里給出貝葉斯的數(shù)學公式和解讀:
$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$
向來數(shù)學公式是裝逼利器(<small>當然上面這個比較簡單除外</small>)柑土,下面對這個公式做解讀蜀肘。$P(A|B)$是A對B的條件概率,也就是在事件B發(fā)生的情況下冰单,事件A發(fā)生的概率幌缝,實際上等于$\frac{P(AB)}{P(B)}$。分子上根據(jù)條件概率的公式展開即可诫欠。這個公式比較簡單就不贅述了涵卵。但是它在統(tǒng)計學中分量很重,可以通俗的表示為:
$$后驗概率=\frac{似然度.先驗概率}{標準化常量}$$
如果我們把上述的A當作已知分類集合Y荒叼,把B當作待分類集合X轿偎。那么可以看出利用已知分類集合Y(用機器學習的術(shù)語來表述就是訓練樣本集合Y可以求得先驗概率,然后通過待分類樣本求得似然度和標準化常量被廓,最后得到分類的后驗概率坏晦,取其最大值,設(shè)定為待分類樣本所屬的類嫁乘。其實貝葉斯公式在這里主要是給我們提供了一個分類器供我們使用昆婿。
樸素貝葉斯分類的原理
??其實上面說了那么多,估計還是云里霧里的蜓斧,舉個例子就明白了仓蛆,因為我們每個人在平常的生活中都會發(fā)揮分類的作用。比如說挎春,你來到了一所高中看疙,突然你的面前出現(xiàn)了一個身長2米的同學豆拨,你肯定會對其進行判斷,如果把判斷的方面限制到能庆,判斷這個同學是什么運動隊的施禾。你的第一反應就是這個人肯定是籃球隊的。在這里先驗條件就是搁胆,高個子的學生打籃球的幾率可能比較大弥搞,這里的待分類樣本其實是這名同學的身高。這個例子菜的摳腳丰涉,原諒博主神一般的腦回路拓巧,實在想不起更有趣的例子。當然一死,這名同學有可能不是肛度,如果人家喜歡繡花,你也不能攔著人家投慈。其實說了這么多承耿,就是告訴我們,貝葉斯估計能夠結(jié)合先驗概率和樣本的似然程度對樣本進行分類伪煤,這就大大提高了分類的準確程度加袋,并且在數(shù)據(jù)量很大的時候,樸素貝葉斯展現(xiàn)了它的強大抱既。
??下面給出樸素貝葉斯分類的正式定義:
1. 設(shè)存在待分類項$x= \lbrace a_1,a_2,a_3,...,a_n \rbrace $ 职烧,其中$a_i$表示的是待分類樣本的特征屬性,在此處假定他們獨立防泵。
2. 同時已知分類集合$C= \lbrace y_1,y_2,y_3,...,y_n \rbrace $蚀之。
3. 分別計算$P(y_1|x),P(y_2|x),P(y_3|x),...,P(y_n|x)$的條件概率。
4. $P(y_d|x) = max \lbrace P(y_1|x),P(y_2|x),P(y_3|x),...,P(y_n|x) \rbrace$捷泞,也就是將樣本x歸類于可能行最大的分類y中足删。
??我們來尋找整個分類過程中的已知量和未知量。
1. 待分類項也就是待分類的樣本集合中的樣本锁右。
2. 已知分類集合失受,可以通過訓練樣本結(jié)合進行訓練和提取。
3. 根據(jù)貝葉斯公式:
$$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$$
要求左邊咏瑟,只需要求出右邊拂到,在右邊的分式中,分母是常數(shù)码泞,因為當測試樣本確定之后$P(x)$也就確定了兄旬,只需要求出分母的最大值就可以確定待分類項的所屬分類。又因為分類項$x$中的特征屬性獨立浦夷∠绞裕可得:
$$ P(x|y_i) P(y_i) = P(a_1|y_i)P(a_2|y_i)...P(a_n|y_i)P(y_i)=P(y_i) \prod^n_jP(a_j|y_i) $$
所以就求所有特征屬性在分類確定的情況下的似然度的連乘和分類本身在訓練樣本中所占概率做乘積。其中的最大值就是我們所求的結(jié)果劈狐,最大值所對應的分類就是待分類項的類別罐孝。在這里,我所實驗的樣本是離散的肥缔,所以只需要求得每個分類和每個分類的屬性在訓練樣本中的頻數(shù)就可以確定先驗概率莲兢,然后求出測試樣本中在分類確定的情況下,各個特征屬性出現(xiàn)的頻數(shù)就可以確定似然度续膳,當然出現(xiàn)的頻數(shù)越大似然度也就越大改艇,從而就可以進行分類。
??下面給出整個樸素貝葉斯分類的流程圖:
可以看到坟岔,整個樸素貝葉斯分類分為三個階段:
??第一階段——準備工作階段谒兄,這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據(jù)具體情況確定特征屬性社付,并對每個特征屬性進行適當劃分承疲,然后由人工對一部分待分類項進行分類,形成訓練樣本集合鸥咖。這一階段的輸入是所有待分類數(shù)據(jù)燕鸽,輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段啼辣,其質(zhì)量對整個過程將有重要影響啊研,分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓練樣本質(zhì)量決定鸥拧。
??第二階段——分類器訓練階段党远,這個階段的任務就是生成分類器,主要工作是計算每個類別在訓練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計住涉,并將結(jié)果記錄麸锉。其輸入是特征屬性和訓練樣本,輸出是分類器舆声。這一階段是機械性階段花沉,根據(jù)前面討論的公式可以由程序自動計算完成。
??第三階段——應用階段媳握。這個階段的任務是使用分類器對待分類項進行分類碱屁,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關(guān)系蛾找。這一階段也是機械性階段娩脾,由程序完成。
樣本特征屬性選擇和數(shù)據(jù)處理
特征屬性選擇
??在文章的開頭就已經(jīng)說明打毛,樸素貝葉斯算法柿赊,人為的限制所有樣本的特征屬性獨立俩功。所以在選擇特征屬性的時候,應當注意選擇權(quán)重較大碰声,獨立性較高的屬性來作為特征屬性诡蜓。
拉普拉斯校準
??細心閱讀上面的內(nèi)容,會發(fā)現(xiàn)如果一個待測樣本的某一個特征屬性在某個分類上出現(xiàn)的次數(shù)為0時,它將會導致整個分子的乘積為0,這有可能導致就算待測樣本在其他屬性上與一個已知分類一模一樣训裆,也不會被劃分到該類。因此會大大降低整個分類的效果豺谈。與此同時,這種情況在現(xiàn)實生活中也是不被允許的贡这。舉個例子茬末,就比如你今天穿了紅上衣和媽媽打完招呼之后,高高興興的去上學藕坯,然后放學回家的路上掉到了水坑里团南,回家之后不得不換了一件黑上衣。此時你母親再看到你的時候炼彪,不能因為你是黑上衣吐根,就說你不是她的孩子。從機器學習的角度看辐马,她會降低上衣顏色這個屬性的權(quán)重拷橘,通過對其他屬性的評估來確認。當然這個例子也不是太好喜爷,比較極端冗疮,但是它確實說明了問題的嚴重性。
??因此檩帐,需要我們對整個數(shù)據(jù)進行處理术幔。在這里的表現(xiàn)就是拉普拉斯校準。也就是當一個屬性在分類中出現(xiàn)的詞頻是0的時候湃密,我默認其為1诅挑,當然其他的樣本的個數(shù)都要加1.相應的1變成2,2變成3泛源。這樣的話拔妥,保證了分子不為0,而且在數(shù)據(jù)量很大的情況下达箍,它并不會影響結(jié)果没龙。所以利用拉普拉斯校準解決了這個問題。
總結(jié)
??樸素貝葉斯算法能夠很好的完成分類工作,但是它人為強加的條件限制了它的使用場景硬纤。我在Hadoop下利用MapReduce實現(xiàn)了樸素貝葉斯算法解滓,確實能夠達到不錯分類效果。如果有讀者需要程序筝家,可以發(fā)送郵件給我伐蒂。希望各位讀者對文章中出現(xiàn)的問題和錯誤進行斧正,歡迎大家一起探討相關(guān)方面的問題