機(jī)器學(xué)習(xí)算法樸素貝葉斯分類

貝葉斯分類是一類分類算法的總稱壁拉,這類算法均以貝葉斯定理為基礎(chǔ)泊柬,故統(tǒng)稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡(jiǎn)單艺晴,也是常見的一種分類方法。這篇文章我盡可能用直白的話語總結(jié)一下我們學(xué)習(xí)會(huì)上講到的樸素貝葉斯分類算法掸屡,希望有利于他人理解封寞。

分類問題綜述

對(duì)于分類問題,其實(shí)誰都不會(huì)陌生仅财,日常生活中我們每天都進(jìn)行著分類過程狈究。例如,當(dāng)你看到一個(gè)人盏求,你的腦子下意識(shí)判斷他是學(xué)生還是社會(huì)上的人抖锥;你可能經(jīng)常會(huì)走在路上對(duì)身旁的朋友說“這個(gè)人一看就很有錢、”之類的話碎罚,其實(shí)這就是一種分類操作磅废。

既然是貝葉斯分類算法,那么分類的數(shù)學(xué)描述又是什么呢荆烈?

**從數(shù)學(xué)角度來說拯勉,分類問題可做如下定義:已知集合C = y1,y2,y3,..yn 和I= x1,x2,x3..xn

,確定映射規(guī)則y = f()憔购,使得任意xi

有且僅有一個(gè)yi ,使得 y = f(x) 成立**谜喊。

其中C叫做類別集合,其中每一個(gè)元素是一個(gè)類別倦始,而I叫做項(xiàng)集合(特征集合),其中每一個(gè)元素是一個(gè)待分類項(xiàng)山卦,f叫做分類器鞋邑。分類算法的任務(wù)就是構(gòu)造分類器f。

分類算法的內(nèi)容是要求給定特征账蓉,讓我們得出類別枚碗,這也是所有分類問題的關(guān)鍵。那么如何由指定特征铸本,得到我們最終的類別肮雨,也是我們下面要講的,每一個(gè)不同的分類算法箱玷,對(duì)應(yīng)著不同的核心思想怨规。

本篇文章陌宿,我會(huì)用一個(gè)具體實(shí)例,對(duì)樸素貝葉斯算法幾乎所有的重要知識(shí)點(diǎn)進(jìn)行講解波丰。

樸素貝葉斯分類
那么既然是樸素貝葉斯分類算法壳坪,它的核心算法又是什么呢?

是下面這個(gè)貝葉斯公式:


v2-15b16ce6d37b616a5443c0f7e42e03ec_hd.png

換個(gè)表達(dá)形式就會(huì)明朗很多掰烟,如下:


v2-a2a73f43adcbb0bf4b9bae19b9495f81_hd.png

我們最終求的p(類別|特征)即可爽蝴!就相當(dāng)于完成了我們的任務(wù)。
例題分析
下面我先給出例子問題纫骑。

給定數(shù)據(jù)如下:

v2-8b7031854b7c8eb4dabbfd7254579721_hd.png

現(xiàn)在給我們的問題是蝎亚,如果一對(duì)男女朋友,男生想女生求婚先馆,男生的四個(gè)特點(diǎn)分別是不帥发框,性格不好,身高矮磨隘,不上進(jìn)缤底,請(qǐng)你判斷一下女生是嫁還是不嫁?

這是一個(gè)典型的分類問題番捂,轉(zhuǎn)為數(shù)學(xué)問題就是比較p(嫁|(不帥个唧、性格不好、身高矮设预、不上進(jìn)))與p(不嫁|(不帥徙歼、性格不好、身高矮鳖枕、不上進(jìn)))的概率魄梯,誰的概率大,我就能給出嫁或者不嫁的答案宾符!

這里我們聯(lián)系到樸素貝葉斯公式:
v2-38d81b31721da4d53c62ef7babb177ea_hd.png

我們需要求p(嫁|(不帥酿秸、性格不好、身高矮魏烫、不上進(jìn)),這是我們不知道的辣苏,但是通過樸素貝葉斯公式可以轉(zhuǎn)化為好求的三個(gè)量,p(不帥哄褒、性格不好稀蟋、身高矮、不上進(jìn)|嫁)呐赡、p(不帥退客、性格不好、身高矮、不上進(jìn))萌狂、p(嫁)(至于為什么能求档玻,后面會(huì)講,那么就太好了粥脚,將待求的量轉(zhuǎn)化為其它可求的值窃肠,這就相當(dāng)于解決了我們的問題!)
樸素貝葉斯算法的樸素一詞解釋
那么這三個(gè)量是如何求得刷允?

是根據(jù)已知訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)得來冤留,下面詳細(xì)給出該例子的求解過程。

回憶一下我們要求的公式如下:

v2-38d81b31721da4d53c62ef7babb177ea_hd-1.png

那么我只要求得p(不帥树灶、性格不好纤怒、身高矮、不上進(jìn)|嫁)天通、p(不帥泊窘、性格不好、身高矮像寒、不上進(jìn))烘豹、p(嫁)即可,好的诺祸,下面我分別求出這幾個(gè)概率携悯,最后一比,就得到最終結(jié)果筷笨。
p(不帥憔鬼、性格不好、身高矮胃夏、不上進(jìn)|嫁) = p(不帥|嫁)p(性格不好|嫁)p(身高矮|嫁)*p(不上進(jìn)|嫁)轴或,那么我就要分別統(tǒng)計(jì)后面幾個(gè)概率,也就得到了左邊的概率仰禀!

等等照雁,為什么這個(gè)成立呢?學(xué)過概率論的同學(xué)可能有感覺了答恶,這個(gè)等式成立的條件需要特征之間相互獨(dú)立吧囊榜!

對(duì)的!這也就是為什么樸素貝葉斯分類有樸素一詞的來源亥宿,樸素貝葉斯算法是假設(shè)各個(gè)特征之間相互獨(dú)立,那么這個(gè)等式就成立了砂沛!

但是為什么需要假設(shè)特征之間相互獨(dú)立呢烫扼?

1、我們這么想碍庵,假如沒有這個(gè)假設(shè)映企,那么我們對(duì)右邊這些概率的估計(jì)其實(shí)是不可做的悟狱,這么說,我們這個(gè)例子有4個(gè)特征堰氓,其中帥包括{帥挤渐,不帥},性格包括{不好双絮,好浴麻,爆好},身高包括{高囤攀,矮软免,中},上進(jìn)包括{不上進(jìn)焚挠,上進(jìn)}膏萧,那么四個(gè)特征的聯(lián)合概率分布總共是4維空間,總個(gè)數(shù)為233*2=36個(gè)蝌衔。

24個(gè)榛泛,計(jì)算機(jī)掃描統(tǒng)計(jì)還可以,但是現(xiàn)實(shí)生活中噩斟,往往有非常多的特征曹锨,每一個(gè)特征的取值也是非常之多,那么通過統(tǒng)計(jì)來估計(jì)后面概率的值亩冬,變得幾乎不可做艘希,這也是為什么需要假設(shè)特征之間獨(dú)立的原因。

2硅急、假如我們沒有假設(shè)特征之間相互獨(dú)立覆享,那么我們統(tǒng)計(jì)的時(shí)候,就需要在整個(gè)特征空間中去找营袜,比如統(tǒng)計(jì)p(不帥撒顿、性格不好、身高矮荚板、不上進(jìn)|嫁),

我們就需要在嫁的條件下凤壁,去找四種特征全滿足分別是不帥,性格不好跪另,身高矮拧抖,不上進(jìn)的人的個(gè)數(shù),這樣的話免绿,由于數(shù)據(jù)的稀疏性唧席,很容易統(tǒng)計(jì)到0的情況。 這樣是不合適的。

根據(jù)上面?zhèn)z個(gè)原因淌哟,樸素貝葉斯法對(duì)條件概率分布做了條件獨(dú)立性的假設(shè)迹卢,由于這是一個(gè)較強(qiáng)的假設(shè),樸素貝葉斯也由此得名徒仓!這一假設(shè)使得樸素貝葉斯法變得簡(jiǎn)單腐碱,但有時(shí)會(huì)犧牲一定的分類準(zhǔn)確率。

好的掉弛,上面我解釋了為什么可以拆成分開連乘形式症见。那么下面我們就開始求解!

我們將上面公式整理一下如下:

v2-e0abd30b1376c18c3dfd0d0bf4375c26_hd.png

下面我將一個(gè)一個(gè)的進(jìn)行統(tǒng)計(jì)計(jì)算(在數(shù)據(jù)量很大的時(shí)候狰晚,根據(jù)中心極限定理筒饰,頻率是等于概率的,這里只是一個(gè)例子壁晒,所以我就進(jìn)行統(tǒng)計(jì)即可)瓷们。
p(嫁)=?

首先我們整理訓(xùn)練數(shù)據(jù)中秒咐,嫁的樣本數(shù)如下:

v2-82d69514c761c791c6eaf90dc0771b44_hd.png

則 p(嫁) = 6/12(總樣本數(shù)) = 1/2
p(不帥|嫁)=谬晕?統(tǒng)計(jì)滿足樣本數(shù)如下:

v2-88728bc679158c4178a52ce7e2ad88dd_hd.png

則p(不帥|嫁) = 3/6 = 1/2
p(性格不好|嫁)= ?統(tǒng)計(jì)滿足樣本數(shù)如下:

image

則p(性格不好|嫁)= 1/6

p(矮|嫁) = ?統(tǒng)計(jì)滿足樣本數(shù)如下:

image

則p(矮|嫁) = 1/6

p(不上進(jìn)|嫁) = ?統(tǒng)計(jì)滿足樣本數(shù)如下:

image
則p(不上進(jìn)|嫁) = 1/6

下面開始求分母携取,p(不帥)攒钳,p(性格不好),p(矮)雷滋,p(不上進(jìn))
統(tǒng)計(jì)樣本如下:

image

不帥統(tǒng)計(jì)如上紅色所示不撑,占4個(gè),那么p(不帥) = 4/12 = 1/3

image

性格不好統(tǒng)計(jì)如上紅色所示晤斩,占4個(gè)焕檬,那么p(性格不好) = 4/12 = 1/3


image

身高矮統(tǒng)計(jì)如上紅色所示,占7個(gè)澳泵,那么p(身高矮) = 7/12


image

不上進(jìn)統(tǒng)計(jì)如上紅色所示实愚,占4個(gè),那么p(不上進(jìn)) = 4/12 = 1/3

到這里兔辅,要求p(不帥腊敲、性格不好、身高矮维苔、不上進(jìn)|嫁)的所需項(xiàng)全部求出來了碰辅,下面我?guī)脒M(jìn)去即可,

image

= (1/21/61/61/61/2)/(1/31/37/12*1/3)

下面我們根據(jù)同樣的方法來求p(不嫁|不帥介时,性格不好乎赴,身高矮忍法,不上進(jìn)),完全一樣的做法榕吼,為了方便理解,我這里也走一遍幫助理解勉失。首先公式如下:

image

下面我也一個(gè)一個(gè)來進(jìn)行統(tǒng)計(jì)計(jì)算羹蚣,這里與上面公式中,分母是一樣的乱凿,于是我們分母不需要重新統(tǒng)計(jì)計(jì)算顽素!

p(不嫁)=?根據(jù)統(tǒng)計(jì)計(jì)算如下(紅色為滿足條件):

image

則p(不嫁)=6/12 = 1/2

p(不帥|不嫁) = 徒蟆?統(tǒng)計(jì)滿足條件的樣本如下(紅色為滿足條件):

image

則p(不帥|不嫁) = 1/6

p(性格不好|不嫁) = 胁出?據(jù)統(tǒng)計(jì)計(jì)算如下(紅色為滿足條件):

image

則p(性格不好|不嫁) =3/6 = 1/2

p(矮|不嫁) = ?據(jù)統(tǒng)計(jì)計(jì)算如下(紅色為滿足條件):

image

則p(矮|不嫁) = 6/6 = 1

p(不上進(jìn)|不嫁) = 段审?據(jù)統(tǒng)計(jì)計(jì)算如下(紅色為滿足條件):

image

則p(不上進(jìn)|不嫁) = 3/6 = 1/2

那么根據(jù)公式:

image

p (不嫁|不帥全蝶、性格不好、身高矮寺枉、不上進(jìn)) = ((1/61/211/2)1/2)/(1/31/37/12*1/3)

很顯然(1/61/211/2) > (1/21/61/61/61/2)*

于是有p (不嫁|不帥抑淫、性格不好、身高矮姥闪、不上進(jìn))>p (嫁|不帥始苇、性格不好、身高矮筐喳、不上進(jìn))

所以我們根據(jù)樸素貝葉斯算法可以給這個(gè)女生答案亡电,是不嫁!7戳А1康臁!

樸素貝葉斯分類的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

(1) 算法邏輯簡(jiǎn)單,易于實(shí)現(xiàn)

(2)分類過程中時(shí)空開銷小

缺點(diǎn):

理論上槐脏,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率喉童。但是實(shí)際上并非總是如此,這是因?yàn)闃闼刎惾~斯模型假設(shè)屬性之間相互獨(dú)立顿天,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的堂氯,在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),分類效果不好牌废。

而在屬性相關(guān)性較小時(shí)咽白,樸素貝葉斯性能最為良好。對(duì)于這一點(diǎn)鸟缕,有半樸素貝葉斯之類的算法通過考慮部分關(guān)聯(lián)性適度改進(jìn)晶框。

整個(gè)例子詳細(xì)的講解了樸素貝葉斯算法的分類過程排抬,希望對(duì)大家的理解有幫助~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市授段,隨后出現(xiàn)的幾起案子蹲蒲,更是在濱河造成了極大的恐慌,老刑警劉巖侵贵,帶你破解...
    沈念sama閱讀 218,858評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件届搁,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡窍育,警方通過查閱死者的電腦和手機(jī)卡睦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來漱抓,“玉大人表锻,你說我怎么就攤上這事∑蚵Γ” “怎么了瞬逊?”我有些...
    開封第一講書人閱讀 165,282評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)补胚。 經(jīng)常有香客問我码耐,道長(zhǎng),這世上最難降的妖魔是什么溶其? 我笑而不...
    開封第一講書人閱讀 58,842評(píng)論 1 295
  • 正文 為了忘掉前任骚腥,我火速辦了婚禮,結(jié)果婚禮上瓶逃,老公的妹妹穿的比我還像新娘束铭。我一直安慰自己,他們只是感情好厢绝,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評(píng)論 6 392
  • 文/花漫 我一把揭開白布契沫。 她就那樣靜靜地躺著,像睡著了一般昔汉。 火紅的嫁衣襯著肌膚如雪懈万。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評(píng)論 1 305
  • 那天靶病,我揣著相機(jī)與錄音会通,去河邊找鬼。 笑死娄周,一個(gè)胖子當(dāng)著我的面吹牛涕侈,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播煤辨,決...
    沈念sama閱讀 40,406評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼裳涛,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼木张!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起端三,我...
    開封第一講書人閱讀 39,311評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤舷礼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后郊闯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體且轨,經(jīng)...
    沈念sama閱讀 45,767評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年虚婿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泳挥。...
    茶點(diǎn)故事閱讀 40,090評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡然痊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出屉符,到底是詐尸還是另有隱情剧浸,我是刑警寧澤,帶...
    沈念sama閱讀 35,785評(píng)論 5 346
  • 正文 年R本政府宣布矗钟,位于F島的核電站唆香,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏吨艇。R本人自食惡果不足惜躬它,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望东涡。 院中可真熱鬧冯吓,春花似錦、人聲如沸疮跑。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽祖娘。三九已至失尖,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間渐苏,已是汗流浹背掀潮。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評(píng)論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留整以,地道東北人胧辽。 一個(gè)月前我還...
    沈念sama閱讀 48,298評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像公黑,于是被迫代替她去往敵國和親邑商。 傳聞我的和親對(duì)象是個(gè)殘疾皇子摄咆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評(píng)論 2 355