機器學(xué)習(xí)樸素貝葉斯—Apple的學(xué)習(xí)筆記
用數(shù)學(xué)公式來表述貝葉斯定理:
P(c∣x)=P(c)P(x∣c)P(x)=P(x,c)P(x)P(c∣x)=P(c)P(x∣c)P(x)=P(x,c)P(x)?????P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(x,c)}{P(x)}P(c∣x)=P(x)P(c)P(x∣c)?=P(x)P(x,c)?
c表示的是隨機事件發(fā)生的一種情況。x表示的就是證據(jù)(evidence)\狀況(condition)脆丁,泛指與隨機事件相關(guān)的因素。
P(c|x):在x的條件下,隨機事件出現(xiàn)c情況的概率钠四。(后驗概率)
P?:(不考慮相關(guān)因素)隨機事件出現(xiàn)c情況的概率辆琅。(先驗概率)
P(x|c):在已知事件出現(xiàn)c情況的條件下冻晤,條件x出現(xiàn)的概率苇羡。(后驗概率)
P(x):x出現(xiàn)的概率绸吸。(先驗概率)
接著就是解析公式鼻弧,變成條件概率的計算。最后按特征來判斷分類的概率锦茁,哪個概率大攘轩,就判斷為哪類。
提升貝葉斯表現(xiàn)
1. 如果連續(xù)型數(shù)據(jù)但是不滿足正態(tài)分布码俩,則將其轉(zhuǎn)化為符合正態(tài)分布的數(shù)據(jù)
2. 如果測試數(shù)據(jù)特征出現(xiàn)頻率為0的數(shù)據(jù)度帮,就用平滑技術(shù)“拉普拉斯變換”來進(jìn)行預(yù)測
3. 刪除相關(guān)聯(lián)的特征,可能造成過擬合
4. 注意各個參數(shù)選項的影響稿存,建議在數(shù)據(jù)與處理和特征選擇階段處理參數(shù)問題
5. 集成笨篷、提升、裝袋方法由于目的是減小方差瓣履,所以對于樸素貝葉斯沒有任何幫助
參考
https://blog.csdn.net/amds123/article/details/70173402
https://www.cnblogs.com/csguo/p/7804355.html
https://blog.csdn.net/assassinangjie/article/details/78303255