伯努利樸素貝葉斯

TIME : 2018-05-17

sklearn.naive_bayes.BernoulliNB


與多項(xiàng)式模型一樣吮蛹,伯努利模型適用于離散特征的情況咳焚,所不同的是枣申,伯努利模型中每個(gè)特征的取值只能是1和0(以文本分類為例还棱,某個(gè)單詞在文檔中出現(xiàn)過撤摸,則其特征值為1温眉,否則為0).
伯努利模型和多項(xiàng)式模型是一致的缸匪,BernoulliNB需要比MultinomialNB多定義一個(gè)二值化的方法,該方法會(huì)接受一個(gè)閾值并將輸入的特征二值化(1类溢,0).當(dāng)然也可以直接采用MultinomialNB凌蔬,但需要預(yù)先將輸入的特征二值化.

參數(shù):

BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True,class_prior=None)

  • alpha
  • binarize
  • fit_prior
  • class_prior

[其他參數(shù)說明見<<多項(xiàng)式樸素貝葉斯>>文章]

屬性:
  • class_log_prior_

參數(shù)說明:


參數(shù) binarize:將數(shù)據(jù)特征二值化的閾值
<=binarize的值處理為0,>binarize的值處理為1

import numpy as np  
from sklearn.naive_bayes import BernoulliNB  
x = np.array([[1,2,3,4],[1,3,4,4],[2,4,5,5]])
# 等價(jià)于 <=>  X = np.array([[0,0,0,1],[0,0,1,1],[0,1,1,1]]) 
y = np.array([1,1,2])  
clf = BernoulliNB(alpha=2.0,binarize = 3.0,fit_prior=True)  
clf.fit(x,y)  

屬性說明:


屬性 class_log_prior_
先驗(yàn)概率對(duì)數(shù)值,類先驗(yàn)概率=各類的個(gè)數(shù)/類的總個(gè)數(shù)

clf.class_log_prior_  
#>>output:
[-0.40546511, -1.09861229]  

等價(jià)于 <=>
print(np.log(1/3))
>>output:-1.0986122886681098

print(np.log(2/3))  
>>output:-0.40546510810816444

屬性 feature_log_prob_
指定類的各特征概率(條件概率)對(duì)數(shù)值闯冷,返回形狀為(n_classes, n_features)數(shù)組

計(jì)算過程:
假設(shè)X對(duì)應(yīng)的四個(gè)特征為A1砂心、A2、A3窃躲、A4计贰,類別為c1,c2,類別為c1時(shí),特征A1的概率為:P(A1|c=c1) = P(A1=0|c=c1)* A1+P(A1=1|c=c1)* A1
由于A1=0, 所以:
P(A1|c=c1)=(類c1中 含有A1特征的樣本數(shù) +α )/(當(dāng)前類別的樣本數(shù) + α*類別數(shù))

import numpy as np  
from sklearn.naive_bayes import BernoulliNB  
X = np.array([[1,2,3,4],[1,3,4,4],[2,4,5,5]])  
y = np.array([1,1,2])  
clf = BernoulliNB(alpha=2.0,binarize = 3.0,fit_prior=True)  
clf.fit(X,y)
print(clf.feature_log_prob_) 
>>output:
[[-1.09861229 -1.09861229 -0.69314718 -0.40546511]  
 [-0.91629073 -0.51082562 -0.51082562 -0.51082562]]  

print(
[np.log((2+2)/(2+2*2))*0+np.log((0 + 2 )/(2+    2 * 2))*1,
 np.log((2+2)/(2+2*2))*0+np.log((0 + 2 )/(2+    2 * 2))*1,
 np.log((1+2)/(2+2*2))*0+np.log((1 + 2 )/(2+    2 * 2))*1,
 np.log((0+2)/(2+2*2))*0+np.log((2 + 2 )/(2+    2 * 2))*1])
         ↑A                      ↑B  ↑α   ↑樣本  ↑α  ↑類別數(shù)     
#說明:
二值化后如下
[[0,0,0,1],   類別1
 [0,0,1,1],   類別1
 [0,1,1,1]]   類別2
A列為2,2,1,0  類別1中0個(gè)數(shù)        
B列為0,0,1,2  類別2中1個(gè)數(shù)
樣本:為當(dāng)前類別樣本數(shù)
>>output: 
[-1.0986122886681098, -1.0986122886681098, 
-0.69314718055994529, -0.40546510810816444]  

print(
[np.log((0+2)/(1+2*2))*1,
 np.log((1+2)/(1+2*2))*1,
 np.log((1+2)/(1+2*2))*1,
 np.log((1+2)/(1+2*2))*1])
>>output:
>[-0.916290731874155, -0.5108256237659907, 
  -0.5108256237659907, -0.5108256237659907]

屬性 class_count_
按類別順序輸出其對(duì)應(yīng)的個(gè)數(shù)

print(clf.class_count_)  

#>>output:[ 2.,  1.]  

屬性 eature_count_
各類別各特征值之和蒂窒,按類的順序輸出躁倒,返回形狀為(n_classes, n_features) 的數(shù)組

clf.feature_count_  

#>>output:
[[ 0.,  0.,  1.,  2.],  
[ 0.,  1.,  1.,  1.]]

方法說明:


[見<<多項(xiàng)式樸素貝葉斯>>文章]

伯努利與多項(xiàng)式區(qū)別:


多項(xiàng)式模型中:

設(shè)某文檔d=(t1,t2,…,tk),tk是該文檔中出現(xiàn)過的單詞洒琢,允許重復(fù)秧秉,則

(1)先驗(yàn)概率P(c)= 類c下樣本總數(shù)/整個(gè)訓(xùn)練樣本的樣本總數(shù)

(2)類條件概率P(tk|c) =(類c下單詞tk數(shù)目+α)/(指定類下所有特征出現(xiàn)次數(shù)之和+類別數(shù)*α)

伯努利模型中:

(1)先驗(yàn)概率P(c)= 類c下樣本總數(shù)/整個(gè)訓(xùn)練樣本的樣本總數(shù)

(2)類條件概率P(tk|c)=(類c下包含單詞tk的文件數(shù)+α)/(類c下樣本數(shù)+類別數(shù)*α)
[注:如果有平滑修正,需要加平滑修正值]

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市衰抑,隨后出現(xiàn)的幾起案子象迎,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件砾淌,死亡現(xiàn)場(chǎng)離奇詭異啦撮,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)汪厨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門赃春,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人劫乱,你說我怎么就攤上這事织中。” “怎么了衷戈?”我有些...
    開封第一講書人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵狭吼,是天一觀的道長。 經(jīng)常有香客問我殖妇,道長刁笙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任谦趣,我火速辦了婚禮采盒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蔚润。我一直安慰自己,他們只是感情好尺栖,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開白布嫡纠。 她就那樣靜靜地躺著,像睡著了一般延赌。 火紅的嫁衣襯著肌膚如雪除盏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,441評(píng)論 1 310
  • 那天挫以,我揣著相機(jī)與錄音者蠕,去河邊找鬼。 笑死掐松,一個(gè)胖子當(dāng)著我的面吹牛踱侣,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播大磺,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼抡句,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了杠愧?” 一聲冷哼從身側(cè)響起待榔,我...
    開封第一講書人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎流济,沒想到半個(gè)月后锐锣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體腌闯,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年雕憔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了姿骏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡橘茉,死狀恐怖工腋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情畅卓,我是刑警寧澤擅腰,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站翁潘,受9級(jí)特大地震影響趁冈,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拜马,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一渗勘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧俩莽,春花似錦旺坠、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至出刷,卻和暖如春璧疗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背馁龟。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來泰國打工崩侠, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人坷檩。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓却音,卻偏偏與公主長得像,于是被迫代替她去往敵國和親淌喻。 傳聞我的和親對(duì)象是個(gè)殘疾皇子僧家,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容