最近一段時間主要精力在樸素貝葉斯的學習上蚀乔,現(xiàn)在總結一下烁竭。
有關貝葉斯的歷史,這里先不寫了吉挣,有時間我會補充進去派撕,聽過他的個人故事覺得還是蠻有意思,牛逼的人生活多多少少都會有遺憾睬魂,貝葉斯就是這樣终吼,有時間我會補充進去。
-
基礎理解
貝葉斯方法有很多分類氯哮,樸素貝葉斯是最簡單的應該說际跪,還有什么多項式貝葉斯,高斯貝葉斯,等等吧垫卤。這些我會陸續(xù)描述到威彰,但是我目前的進階還是無法深入的吃透這些算法,當搬運工也只是浪費時間而已穴肘,但是只要我有新的理解歇盼,我都會補充進去。
樸素貝葉斯方法评抚,native bayes method豹缀。貝葉斯方法是一種分類算法。通俗的說慨代,通過已知的數(shù)據(jù)樣本邢笙,來預測未知數(shù)據(jù)的屬性。
分類器里侍匙,我目前接觸到的有SVM氮惯,感知機分類,接下來就是樸素貝葉斯分布了想暗。
貝葉斯有一個最為知名的公式妇汗。
他的牛逼之處在于,解決了一些古典統(tǒng)計概率所不能解決的問題说莫。傳統(tǒng)意義的統(tǒng)計我們是說杨箭,有多少事件A同時有多少事件B發(fā)生,我們計算一個頻數(shù)储狭,當數(shù)據(jù)樣本一定大的時候互婿,我們就稱之為概率。但是辽狈,這種算法很有局限性慈参,比如說,明天下雨的概率是30%稻艰,一個人的心臟病的概率是40%懂牧,某地發(fā)生地震的概率是5%,當遇到這種情況時尊勿,我們傳統(tǒng)的統(tǒng)計學就遇到了瓶頸僧凤。古典統(tǒng)計學沒法對此解釋,難道真的是某地100次機會里地震了5次元扔?同理躯保,拋硬幣,我們拋了三次澎语,三次都是正面途事,我們就認為正面的概率是100%验懊?所以,這也是古典統(tǒng)計學的弊端尸变。
古典統(tǒng)計結果的準確性過于依賴數(shù)據(jù)樣本的大小义图。而貝葉斯的牛逼在于,當數(shù)據(jù)樣本不大時召烂,可以通過引入經(jīng)驗概率作為先驗概率碱工,從而反向計算后驗概率。假使結果已成為既定事實奏夫,那么造成原因什么怕篷,這就是貝葉斯在做的。
-
一些概念
樸素貝葉斯的假設:條件相互獨立酗昼。條件獨立假設就是:
先驗概率&后驗概率:
假如某一個不確定事件發(fā)生的主觀概率因為某一個新的情況發(fā)生的改變廊谓,那么改變前的就稱為先驗概率,改變后的就稱為后驗概率麻削。
比如:醫(yī)院里有病人檢查蒸痹,歷史上,癌癥確診病人被診斷為陽性的概率是90%碟婆,非癌癥患者被診斷為陽性的概率為10%电抚,現(xiàn)在有一個病人被診斷為陽性,那么他是不是癌癥竖共?
如果放到不信任科學的人這里,那這個病人八九不離十是癌癥了俺祠,如果按照我們傳統(tǒng)意義的統(tǒng)計學來說公给,我們就要去調(diào)查,有多少病人是確診的陽性蜘渣,有多少確診陽性的病人是癌癥患者淌铐,而統(tǒng)計出來的頻數(shù)換來的概率如果樣本太少,在大數(shù)定律面前蔫缸,可信度又被否認腿准。
在這里我們用貝葉斯理論進行評估,我們了解到單純癌癥患者的概率是在1%拾碌,也就是醫(yī)院里有100個病人吐葱,估計就1名患者是癌癥。這個在貝葉斯的計算里校翔,我們稱為“先驗概率”弟跑,也就是我們在對應具體情況前的一種主觀意識。通過貝葉斯計算出來的結果防症,我們叫做“后驗概率”孟辑,是針對具體情況的具體預測哎甲。我們通過貝葉斯理論計算出來,該陽性患者是癌癥的概率為0.084饲嗽,該陽性患者不是癌癥的概率是0.917炭玫,根據(jù)后驗概率最大化思想,非癌癥的概率大于癌癥概率貌虾,因此吞加,這位病人不是癌癥患者。
似然函數(shù)
說到似然函數(shù)需要區(qū)分一個概念酝惧,概率函數(shù)榴鼎。
概率函數(shù):就是不確定樣本的情況下,我們知道某某事件發(fā)生的概率晚唇。
似然函數(shù):不清楚某某事件發(fā)生的概率巫财,只知道樣本數(shù),這時候我們得到一個函數(shù)關系哩陕。
我們假設\theta為單個事件發(fā)生的概率平项,\x為樣本數(shù),
那么悍及,概率函數(shù)P=f(x)闽瓢,是一個有關x的概率分布,而似然函數(shù)就是P=f(theta)心赶,是一個有關theta的概率分布扣讼。
在似然函數(shù)中,我們可以很容易找到缨叫,函數(shù)的極值椭符,也就是極大似然定理。
具體參考:https://blog.csdn.net/zengxiantao1994/article/details/72787849
-
案例
我們常見的貝葉斯公式:
這里耻姥,P(w):先驗概率销钝,P(w|x):后驗概率,P(x|w):類條件概率
但是琐簇,實際問題中蒸健,我們獲得的數(shù)據(jù)樣本可能只有有限數(shù)目的樣本數(shù)據(jù),而先驗概率和類條件概率都是未知的婉商。根據(jù)僅有的樣本數(shù)據(jù)進行分類時,我們一般需要先對先驗概率和類條件概率進行估計据某,然后再套用貝葉斯分類器。
- 先驗概率的估計
(1) 每個樣本的自然狀態(tài)是已知的(有監(jiān)督學習癣籽,樣本標簽已知)滤祖;
(2)依靠經(jīng)驗
(3) 用訓練樣本的各類頻率估計 - 類條件概率的估計
把概率密度估計問題轉(zhuǎn)化為參數(shù)估計問題,選擇概率密度函數(shù)瓶籽,通過極大似然估計方法匠童。
這篇主要概念塑顺,接下來會陸續(xù)把理論用于實際項目中,方便理解