分類算法 - 樸素貝葉斯算法

一、貝葉斯原理

相信很多同學(xué)在高中或者大學(xué)的時(shí)候都學(xué)過貝葉斯原理,即條件原理饮亏。


image.png
例題:

現(xiàn)分別有 A、B 兩個(gè)容器阅爽,在容器 A 里分別有 7 個(gè)紅球和 3 個(gè)白球路幸,在容器 B 里有 1 個(gè)紅球和 9 個(gè)白球,現(xiàn)已知從這兩個(gè)容器里任意抽出了一個(gè)紅球付翁,問這個(gè)球來自容器 A 的概率是多少?

答:

假設(shè)已經(jīng)抽出紅球?yàn)槭录?B劝赔,選中容器 A 為事件 A,則有:P(B) = 8/20胆敞,P(A) = 1/2着帽,P(B|A) = 7/10,按照公式移层,則有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875

二仍翰、樸素貝葉斯

之所以稱為樸素貝葉斯,是因?yàn)樗僭O(shè)每個(gè)輸入變量是獨(dú)立的观话。現(xiàn)實(shí)生活中這種情況基本不滿足予借,但是這項(xiàng)技術(shù)對(duì)于絕大部分的復(fù)雜問題仍然非常有效。

樸素貝葉斯模型由兩種類型的概率組成:
1频蛔、每個(gè)類別的概率P(Cj)灵迫;
2、每個(gè)屬性的條件概率P(Ai|Cj)晦溪。

為了訓(xùn)練樸素貝葉斯模型瀑粥,我們需要先給出訓(xùn)練數(shù)據(jù),以及這些數(shù)據(jù)對(duì)應(yīng)的分類三圆。那么上面這兩個(gè)概率狞换,也就是類別概率和條件概率。他們都可以從給出的訓(xùn)練數(shù)據(jù)中計(jì)算出來舟肉。一旦計(jì)算出來修噪,概率模型就可以使用貝葉斯原理對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。

貝葉斯原理路媚、貝葉斯分類和樸素貝葉斯這三者之間是有區(qū)別的
貝葉斯原理是最大的概念黄琼,它解決了概率論中“逆向概率”的問題,在這個(gè)理論基礎(chǔ)上整慎,人們?cè)O(shè)計(jì)出了貝葉斯分類器脏款,樸素貝葉斯分類是貝葉斯分類器中的一種围苫,也是最簡單,最常用的分類器弛矛。樸素貝葉斯之所以樸素是因?yàn)樗僭O(shè)屬性是相互獨(dú)立的够吩,因此對(duì)實(shí)際情況有所約束比然,如果屬性之間存在關(guān)聯(lián)丈氓,分類準(zhǔn)確率會(huì)降低。

三强法、樸素貝葉斯算法的優(yōu)缺點(diǎn)
1万俗、優(yōu)點(diǎn):

(1) 算法邏輯簡單,易于實(shí)現(xiàn)
(2)分類過程中時(shí)空開銷小(假設(shè)特征相互獨(dú)立饮怯,只會(huì)涉及到二維存儲(chǔ))

2闰歪、缺點(diǎn):

(1)理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率蓖墅。但是實(shí)際上并非總是如此库倘,這是因?yàn)闃闼刎惾~斯模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的论矾,在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí)教翩,分類效果不好。
(2)在屬性相關(guān)性較小時(shí)贪壳,樸素貝葉斯性能最為良好饱亿。對(duì)于這一點(diǎn),有半樸素貝葉斯之類的算法通過考慮部分關(guān)聯(lián)性適度改進(jìn)闰靴。

樸素貝葉斯分類常用于文本分類彪笼,尤其是對(duì)于英文等語言來說,分類效果很好蚂且。它常用于垃圾文本過濾配猫、情感預(yù)測(cè)、推薦系統(tǒng)等杏死。

四章姓、scikit-learn 樸素貝葉斯類庫

庫有3種算法:GaussianNB、MultinomialNB和BernoulliNB识埋。
這三個(gè)類適用的分類場(chǎng)景各不相同凡伊,主要根據(jù)數(shù)據(jù)類型來進(jìn)行模型的選擇。一般來說窒舟,如果樣本特征的分布大部分是連續(xù)值系忙,使用GaussianNB會(huì)比較好。如果如果樣本特征的分大部分是多元離散值惠豺,使用MultinomialNB比較合適银还。而如果樣本特征是二元離散值或者很稀疏的多元離散值风宁,應(yīng)該使用BernoulliNB。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蛹疯,一起剝皮案震驚了整個(gè)濱河市戒财,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌捺弦,老刑警劉巖饮寞,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異列吼,居然都是意外死亡幽崩,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門寞钥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來慌申,“玉大人,你說我怎么就攤上這事理郑√愀龋” “怎么了?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵您炉,是天一觀的道長柒爵。 經(jīng)常有香客問我,道長邻吭,這世上最難降的妖魔是什么餐弱? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮囱晴,結(jié)果婚禮上膏蚓,老公的妹妹穿的比我還像新娘。我一直安慰自己畸写,他們只是感情好驮瞧,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著枯芬,像睡著了一般论笔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上千所,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天狂魔,我揣著相機(jī)與錄音,去河邊找鬼淫痰。 笑死最楷,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播籽孙,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼烈评,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了犯建?” 一聲冷哼從身側(cè)響起讲冠,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎适瓦,沒想到半個(gè)月后竿开,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡犹菇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年德迹,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了芽卿。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片揭芍。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖卸例,靈堂內(nèi)的尸體忽然破棺而出称杨,到底是詐尸還是另有隱情,我是刑警寧澤筷转,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布姑原,位于F島的核電站,受9級(jí)特大地震影響呜舒,放射性物質(zhì)發(fā)生泄漏锭汛。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一袭蝗、第九天 我趴在偏房一處隱蔽的房頂上張望唤殴。 院中可真熱鬧,春花似錦到腥、人聲如沸朵逝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽配名。三九已至,卻和暖如春晋辆,著一層夾襖步出監(jiān)牢的瞬間渠脉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國打工瓶佳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留芋膘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像索赏,于是被迫代替她去往敵國和親盼玄。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容