一、貝葉斯原理
相信很多同學(xué)在高中或者大學(xué)的時(shí)候都學(xué)過貝葉斯原理,即條件原理饮亏。
例題:
現(xiàn)分別有 A、B 兩個(gè)容器阅爽,在容器 A 里分別有 7 個(gè)紅球和 3 個(gè)白球路幸,在容器 B 里有 1 個(gè)紅球和 9 個(gè)白球,現(xiàn)已知從這兩個(gè)容器里任意抽出了一個(gè)紅球付翁,問這個(gè)球來自容器 A 的概率是多少?
答:
假設(shè)已經(jīng)抽出紅球?yàn)槭录?B劝赔,選中容器 A 為事件 A,則有:P(B) = 8/20胆敞,P(A) = 1/2着帽,P(B|A) = 7/10,按照公式移层,則有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875
二仍翰、樸素貝葉斯
之所以稱為樸素貝葉斯,是因?yàn)樗僭O(shè)每個(gè)輸入變量是獨(dú)立的观话。現(xiàn)實(shí)生活中這種情況基本不滿足予借,但是這項(xiàng)技術(shù)對(duì)于絕大部分的復(fù)雜問題仍然非常有效。
樸素貝葉斯模型由兩種類型的概率組成:
1频蛔、每個(gè)類別的概率P(Cj)灵迫;
2、每個(gè)屬性的條件概率P(Ai|Cj)晦溪。
為了訓(xùn)練樸素貝葉斯模型瀑粥,我們需要先給出訓(xùn)練數(shù)據(jù),以及這些數(shù)據(jù)對(duì)應(yīng)的分類三圆。那么上面這兩個(gè)概率狞换,也就是類別概率和條件概率。他們都可以從給出的訓(xùn)練數(shù)據(jù)中計(jì)算出來舟肉。一旦計(jì)算出來修噪,概率模型就可以使用貝葉斯原理對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。
貝葉斯原理路媚、貝葉斯分類和樸素貝葉斯這三者之間是有區(qū)別的
貝葉斯原理是最大的概念黄琼,它解決了概率論中“逆向概率”的問題,在這個(gè)理論基礎(chǔ)上整慎,人們?cè)O(shè)計(jì)出了貝葉斯分類器脏款,樸素貝葉斯分類是貝葉斯分類器中的一種围苫,也是最簡單,最常用的分類器弛矛。樸素貝葉斯之所以樸素是因?yàn)樗僭O(shè)屬性是相互獨(dú)立的够吩,因此對(duì)實(shí)際情況有所約束比然,如果屬性之間存在關(guān)聯(lián)丈氓,分類準(zhǔn)確率會(huì)降低。
三强法、樸素貝葉斯算法的優(yōu)缺點(diǎn)
1万俗、優(yōu)點(diǎn):
(1) 算法邏輯簡單,易于實(shí)現(xiàn)
(2)分類過程中時(shí)空開銷小(假設(shè)特征相互獨(dú)立饮怯,只會(huì)涉及到二維存儲(chǔ))
2闰歪、缺點(diǎn):
(1)理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率蓖墅。但是實(shí)際上并非總是如此库倘,這是因?yàn)闃闼刎惾~斯模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的论矾,在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí)教翩,分類效果不好。
(2)在屬性相關(guān)性較小時(shí)贪壳,樸素貝葉斯性能最為良好饱亿。對(duì)于這一點(diǎn),有半樸素貝葉斯之類的算法通過考慮部分關(guān)聯(lián)性適度改進(jìn)闰靴。
樸素貝葉斯分類常用于文本分類彪笼,尤其是對(duì)于英文等語言來說,分類效果很好蚂且。它常用于垃圾文本過濾配猫、情感預(yù)測(cè)、推薦系統(tǒng)等杏死。
四章姓、scikit-learn 樸素貝葉斯類庫
庫有3種算法:GaussianNB、MultinomialNB和BernoulliNB识埋。
這三個(gè)類適用的分類場(chǎng)景各不相同凡伊,主要根據(jù)數(shù)據(jù)類型來進(jìn)行模型的選擇。一般來說窒舟,如果樣本特征的分布大部分是連續(xù)值系忙,使用GaussianNB會(huì)比較好。如果如果樣本特征的分大部分是多元離散值惠豺,使用MultinomialNB比較合適银还。而如果樣本特征是二元離散值或者很稀疏的多元離散值风宁,應(yīng)該使用BernoulliNB。