數(shù)據(jù)挖掘-樸素貝葉斯算法

用途

樸素貝葉斯算法琢融,主要用于對(duì)相互獨(dú)立的屬性的類變量的分類預(yù)測(cè)界牡。(各個(gè)屬性/特征之間完全沒(méi)有關(guān)系,叫做相互獨(dú)立吏奸,事實(shí)上這很難存在欢揖,但是這個(gè)方法依然比較有效。)

貝葉斯定理

大學(xué)的概率論里一般都學(xué)過(guò)這個(gè)貝葉斯定理奋蔚,簡(jiǎn)單闡述如下:

設(shè)有兩個(gè)相互獨(dú)立的隨機(jī)變量X她混,Y烈钞,則P(X=x,Y=y)是指X變量取x且Y變量取y的概率坤按,P(Y=y|X=x)指的是在X取x的情況下毯欣,Y取y的概率,叫做條件概率臭脓,根據(jù)以上說(shuō)法酗钞,有公式P(X,Y) = P(Y|X)*P(X) = P(X|Y)*P(Y)
變化一下可以得到:P(Y|X) = \frac{P(X|Y)*P(Y)}{P(X)}
其中P(X)就是X發(fā)生的概率,Y就是Y發(fā)生的概率来累,由于是相互獨(dú)立的砚作,可以不考慮其他因素,通常來(lái)說(shuō)嘹锁,求P(X)需要用到全概率公式葫录。

全概率公式

若事件X_1X_2领猾,…構(gòu)成一個(gè)事件且都有正概率米同,則對(duì)任意一個(gè)事件Y,有如下公式成立:則有P(Y) = \sum^n_{i=1}{P(X_i)P(Y|X_i)}

先驗(yàn)概率和后驗(yàn)概率

如果X表示特征/屬性摔竿,Y表示類變量面粮,如果類變量和屬性之間的關(guān)系不確定,那么X和Y可以視作隨機(jī)變量继低,則P(Y|X)為Y的后驗(yàn)概率熬苍,P(Y)為Y的先驗(yàn)概率。
以圖為例:

圖片摘自[https://blog.csdn.net/qiu_zhi_liao/article/details/90671932]

我們需要根據(jù)身高郁季、體重冷溃、鞋碼判斷是男是女钱磅,則Y就是性別梦裂,X就是(身高、體重盖淡、鞋碼)這一組特征年柠。如果我們要先算是男的概率,則先驗(yàn)概率就是P(Y=男)=4/8=0.5褪迟,而后驗(yàn)概率則是我們未來(lái)將要輸入的一組特征已知的情況下冗恨,Y=男的概率(要預(yù)測(cè)的分類的概率),這樣的話味赃,根據(jù)貝葉斯定理掀抹,我們就可以用P(X|Y)、P(X)心俗、P(Y)來(lái)求出P(Y|X)傲武,這就是貝葉斯定理在預(yù)測(cè)中的應(yīng)用蓉驹。

樸素貝葉斯

假設(shè)Y變量取y值時(shí)概率為P(Y=y),X中的各個(gè)特征相互獨(dú)立揪利,則有公式如下:P(X|Y=y) = \prod_{i=1}^d{P(X_i|Y=y)}
其中每個(gè)特征集X包含d個(gè)特征态兴。
根據(jù)公式,對(duì)比上面的圖來(lái)說(shuō)疟位,如果性別是男的時(shí)候瞻润,身高是高,體重是重甜刻,鞋碼為大的概率就等于

性別男時(shí)身高為高的概率*性別男時(shí)體重為重的概率*性別男時(shí)鞋碼為大的概率绍撞。

有了這個(gè)公式,結(jié)合之前的貝葉斯公式得院,就能得到給定一組特征值的情況下楚午, 這組特征屬于什么樣的類別的概率公式:P(Y|X) = \frac{P(Y)\prod^d_{i=1}P(X_i|Y)}{P(X)}
其中的X代表一組特征,X_i代表一組中的一個(gè)尿招。
對(duì)于所有的Y來(lái)說(shuō)矾柜,P(X)時(shí)固定的,因此只要找出使分子P(Y)\prod^d_{i=1}P(X_i|Y)最大的類別就可以判斷預(yù)測(cè)的類別了就谜。

P(X_i|Y)的概率分為兩種情況來(lái)區(qū)別怪蔑,一種是對(duì)分類特征的概率確定,一種是連續(xù)特征的概率確定丧荐。

接下來(lái)借用《數(shù)據(jù)挖掘?qū)д摗飞系睦觼?lái)說(shuō)明概率確定的方式缆瓣。

Tid 有房 婚姻狀況 年收入 拖欠貸款
1 單身 125K
2 已婚 100K
3 單身 70K
4 已婚 120K
5 離婚 95K
6 已婚 60K
7 離婚 220K
8 單身 85K
9 已婚 75K
10 單身 90K

對(duì)分類特征的概率確定

對(duì)于分類的特征,可以首先找到訓(xùn)練集中為y值的個(gè)數(shù)虹统,然后根據(jù)不同的特征類型占這些個(gè)數(shù)中的比例作為分類特征的概率弓坞。
例如上表中求不拖欠貸款的情況下,有房的人數(shù)就是P(X_{有房}=是|Y=否)=3/7车荔,不拖欠貸款的有7個(gè)渡冻,其中有房的是3個(gè)。以此類推可以求出婚姻狀況的條件概率忧便。
年收入是連續(xù)特征族吻,需要區(qū)分對(duì)待。

對(duì)連續(xù)特征的概率確定

  1. 把每個(gè)屬性離散化珠增,然后每個(gè)值落入哪個(gè)離散區(qū)間超歌,就用該區(qū)間替換值,離散化的方法有:

    • 非監(jiān)督離散化
      · 等寬
      · 等頻率
      · 等深
      · 聚類
    • 監(jiān)督離散化
      ·基于信息熵
      這樣的話蒂教,根據(jù)離散化區(qū)間就可以按照對(duì)分類特征的概率確定方式來(lái)求條件概率巍举,估計(jì)誤差取決于離散化的方式和區(qū)間的數(shù)目,如果每個(gè)區(qū)間中的數(shù)據(jù)太少凝垛,則做不出可靠的預(yù)測(cè)懊悯,如果區(qū)間太少简烘,則預(yù)測(cè)可能不準(zhǔn)確。
  2. 可以假設(shè)連續(xù)特征符合某種分布定枷,然后使用數(shù)據(jù)估計(jì)分布的參數(shù)孤澎,一般采用正態(tài)分布(高斯分布)來(lái)表示連續(xù)屬性的條件概率分布,該分布有兩個(gè)參數(shù)欠窒,均值μ和方差σ^2覆旭。對(duì)于每個(gè)類y_i,特征X_i的條件概率表示為:P(X_i=x_i|Y=y_j)=\frac{{1}}{{\sqrt{2\pi}σ_{ij}}}e^{-\frac{(x_i-μ_{ij})^2}{2σ_{ij}^2}}
    μ_{ij}可以用y_j下所有訓(xùn)練數(shù)據(jù)關(guān)于X_i的樣均值來(lái)估計(jì)岖妄,同理σ_{ij}用這些訓(xùn)練數(shù)據(jù)的標(biāo)準(zhǔn)差來(lái)估計(jì)型将。以上面表格為例:μ_{ij} = \frac{125+100+70+···+75}{7}=110
    σ_{ij}^2 = \frac{(125-110)^2 + (100-110)^2 +···+(75-110)^2}{7(6)}=2975
    σ_{ij} = \sqrt{2975} = 54.54
    需要注意的是,總體方差和樣本方差的差距荐虐,樣本方差分母是n-1七兜,總體是n,這就是7(6)的原因福扬。
    另外腕铸,這些樣本數(shù)據(jù)都是Y=否的數(shù)據(jù),需要注意铛碑。

根據(jù)上述算法狠裹,如果要求沒(méi)有拖欠貸款情況下,年收入是120K的概率汽烦,就是P(收入=120K|Y=否) = \frac{1}{\sqrt{2\pi}*54.54}e^{-\frac{(120-110)^2}{2*2975}} = 0.0072

例子

如果要預(yù)測(cè)測(cè)試記錄X=(有房=否涛菠,婚姻狀況=已婚,年收入=120K)這個(gè)樣本是否可能拖欠貸款撇吞,則需要計(jì)算兩個(gè)概率:P(Y=是|X)P(Y=否|X)
則有:P(Y=否|X) = \frac{{P(Y=否)P(X|Y=否)}}{P(X)}
由于P(X)是不變的(對(duì)于Y=是和Y=否)俗冻,則只考慮上面的分子即可,那么拋開(kāi)P(X)不看牍颈,則有:
P(有房=否|Y=否)*P(婚姻狀況=已婚|Y=否)*P(年收入=120K|Y=否)
P(Y=否|X)=4/7 * 4/7 * 0.0072 * 7/10 * \alpha = 0.0024\alpha
其中7/10就是P(Y=否)迄薄,α是P(X)
同理可得P(Y=是|X) = 1 * 0 * 1.2e-1 = 0.
這樣一比較,那么分類就是否颂砸。

樸素貝葉斯的m估計(jì)

看這個(gè)例子中噪奄,如果有一個(gè)特征的條件概率是0死姚,那么整體的概率就是0人乓,從而后驗(yàn)概率也一定是0,那么如果訓(xùn)練集樣本太少都毒,這種方法就不是很準(zhǔn)確了色罚。
如果當(dāng)訓(xùn)練集樣本個(gè)數(shù)比特征還少的時(shí)候,就無(wú)法分類某些測(cè)試集了账劲,因此引入m估計(jì)(m-estimate)來(lái)估計(jì)條件概率戳护,公式如下:
P(x_i|y_j) = \frac{n_c + mp}{n + m}
其中金抡,n是類y_j中的樣本總數(shù),n_c是類y_j中取x_i的樣本數(shù)腌且,m是稱為等價(jià)樣本大小的參數(shù)梗肝,p是用戶指定的參數(shù),p可以看作在類y_j中觀察特征值x_i的先驗(yàn)概率铺董。等價(jià)樣本大小決定先驗(yàn)概率p和觀測(cè)概率n_c/n之間的平衡巫击。

引入m估計(jì)的根本原因是樣本數(shù)量過(guò)小。所以為了避免此問(wèn)題精续,最好的方法是等效的擴(kuò)大樣本的數(shù)量坝锰,即在為觀察樣本添加m個(gè)等效的樣本,所以要在該類別中增加的等效的類別的數(shù)量就是等效樣本數(shù)m乘以先驗(yàn)估計(jì)p重付。

在之前的例子中顷级,設(shè)m=3,p=1/3(m可以設(shè)置為特征數(shù)量,p則是倒數(shù))确垫。則:P(婚姻狀況=已婚|Y=是) = (0+3*1/3)/(3+3) = 1/6
從而可以重新計(jì)算P(Y=否|X) = 0.0026弓颈,P(Y=是|X) = 1.3e^{-10}。從而解決了某個(gè)條件概率為0的問(wèn)題删掀。

樸素貝葉斯算法的特征

面對(duì)相互獨(dú)立的特征比較適用恨豁,如果有相關(guān)的特征,則會(huì)降低其性能爬迟。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末橘蜜,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子付呕,更是在濱河造成了極大的恐慌计福,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件徽职,死亡現(xiàn)場(chǎng)離奇詭異象颖,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)姆钉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)说订,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人潮瓶,你說(shuō)我怎么就攤上這事陶冷。” “怎么了毯辅?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵埂伦,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我思恐,道長(zhǎng)沾谜,這世上最難降的妖魔是什么膊毁? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮基跑,結(jié)果婚禮上婚温,老公的妹妹穿的比我還像新娘。我一直安慰自己媳否,他們只是感情好缭召,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著逆日,像睡著了一般嵌巷。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上室抽,一...
    開(kāi)封第一講書(shū)人閱讀 49,764評(píng)論 1 290
  • 那天搪哪,我揣著相機(jī)與錄音,去河邊找鬼坪圾。 笑死晓折,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的兽泄。 我是一名探鬼主播漓概,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼病梢!你這毒婦竟也來(lái)了胃珍?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蜓陌,失蹤者是張志新(化名)和其女友劉穎觅彰,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體钮热,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡填抬,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了隧期。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片飒责。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖仆潮,靈堂內(nèi)的尸體忽然破棺而出宏蛉,到底是詐尸還是另有隱情,我是刑警寧澤鸵闪,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布檐晕,位于F島的核電站,受9級(jí)特大地震影響蚌讼,放射性物質(zhì)發(fā)生泄漏辟灰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一篡石、第九天 我趴在偏房一處隱蔽的房頂上張望芥喇。 院中可真熱鬧,春花似錦凰萨、人聲如沸继控。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)武通。三九已至,卻和暖如春珊搀,著一層夾襖步出監(jiān)牢的瞬間冶忱,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工境析, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留囚枪,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓劳淆,卻偏偏與公主長(zhǎng)得像链沼,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子沛鸵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容