貝葉斯網(wǎng)絡是有向無環(huán)圖
樸素貝葉斯的優(yōu)點與缺點:
優(yōu)點:
- 容易快速建模窑多,在多分類問題中表現(xiàn)優(yōu)良碎赢;
- 當特征獨立時诵次,樸素貝葉斯分類效果好于邏輯回歸等其他分類器秒裕,且需要的數(shù)據(jù)量更少袱蚓;
- 相對連續(xù)性的數(shù)據(jù),它在離散性的數(shù)據(jù)表現(xiàn)更好几蜻;當數(shù)據(jù)是連續(xù)時喇潘,數(shù)據(jù)的假設前提是正態(tài)分布;
缺點: - 如果離散型的數(shù)據(jù)在測試集中未出現(xiàn)梭稚,模型會無法給出預測(0頻率)颖低。需要使用平滑方法解決,常用的方法為拉普拉斯平滑弧烤;
- 另一方面樸素貝葉斯的預測概率并未能真實反映真正的概率忱屑,并不能太當真;
- 另一個限制是樸素貝葉斯是假設特征獨立的扼褪。在顯示生活中想幻,這幾乎是不可能的粱栖;
以下是提高樸素貝葉斯模型的方法:
- 如果連續(xù)型的數(shù)據(jù)特征不是正態(tài)分布话浇,需要先把其轉(zhuǎn)換為正態(tài)分布;
- 如果數(shù)據(jù)出現(xiàn)0概率的闹究,使用拉普拉斯平滑修正幔崖;
- 去除相關(guān)性的特征,特別是高度相關(guān)的特征渣淤,因為這些會導致模型過于強調(diào)該類特征的重要性赏寇;
- 樸素貝葉斯分類只有很少的超參數(shù)。
alpha=1
用于平滑,fit_prior=[True|False]
是否使用先驗概率价认。priors
先驗概率值嗅定。應把重點放在數(shù)據(jù)清洗和特征選擇; - ensembling, bagging和boosting等減少方差的提升方法對樸素貝葉斯沒有作用用踩。因為樸素貝葉斯沒有方差可以減少渠退;
原文:https://www.analyticsvidhya.com/blog/2017/09/naive-bayes-explained/