樸素貝葉斯的理解

最近一段時間主要精力在樸素貝葉斯的學習上蚀乔,現(xiàn)在總結一下烁竭。
有關貝葉斯的歷史,這里先不寫了吉挣,有時間我會補充進去派撕,聽過他的個人故事覺得還是蠻有意思,牛逼的人生活多多少少都會有遺憾睬魂,貝葉斯就是這樣终吼,有時間我會補充進去。

  • 基礎理解

貝葉斯方法有很多分類氯哮,樸素貝葉斯是最簡單的應該說际跪,還有什么多項式貝葉斯,高斯貝葉斯,等等吧垫卤。這些我會陸續(xù)描述到威彰,但是我目前的進階還是無法深入的吃透這些算法,當搬運工也只是浪費時間而已穴肘,但是只要我有新的理解歇盼,我都會補充進去。
樸素貝葉斯方法评抚,native bayes method豹缀。貝葉斯方法是一種分類算法。通俗的說慨代,通過已知的數(shù)據(jù)樣本邢笙,來預測未知數(shù)據(jù)的屬性。
分類器里侍匙,我目前接觸到的有SVM氮惯,感知機分類,接下來就是樸素貝葉斯分布了想暗。
貝葉斯有一個最為知名的公式妇汗。
他的牛逼之處在于,解決了一些古典統(tǒng)計概率所不能解決的問題说莫。傳統(tǒng)意義的統(tǒng)計我們是說杨箭,有多少事件A同時有多少事件B發(fā)生,我們計算一個頻數(shù)储狭,當數(shù)據(jù)樣本一定大的時候互婿,我們就稱之為概率。但是辽狈,這種算法很有局限性慈参,比如說,明天下雨的概率是30%稻艰,一個人的心臟病的概率是40%懂牧,某地發(fā)生地震的概率是5%,當遇到這種情況時尊勿,我們傳統(tǒng)的統(tǒng)計學就遇到了瓶頸僧凤。古典統(tǒng)計學沒法對此解釋,難道真的是某地100次機會里地震了5次元扔?同理躯保,拋硬幣,我們拋了三次澎语,三次都是正面途事,我們就認為正面的概率是100%验懊?所以,這也是古典統(tǒng)計學的弊端尸变。
古典統(tǒng)計結果的準確性過于依賴數(shù)據(jù)樣本的大小义图。而貝葉斯的牛逼在于,當數(shù)據(jù)樣本不大時召烂,可以通過引入經(jīng)驗概率作為先驗概率碱工,從而反向計算后驗概率。假使結果已成為既定事實奏夫,那么造成原因什么怕篷,這就是貝葉斯在做的。

  • 一些概念

樸素貝葉斯的假設:條件相互獨立酗昼。條件獨立假設就是:



先驗概率&后驗概率:

假如某一個不確定事件發(fā)生的主觀概率因為某一個新的情況發(fā)生的改變廊谓,那么改變前的就稱為先驗概率,改變后的就稱為后驗概率麻削。

比如:醫(yī)院里有病人檢查蒸痹,歷史上,癌癥確診病人被診斷為陽性的概率是90%碟婆,非癌癥患者被診斷為陽性的概率為10%电抚,現(xiàn)在有一個病人被診斷為陽性,那么他是不是癌癥竖共?

如果放到不信任科學的人這里,那這個病人八九不離十是癌癥了俺祠,如果按照我們傳統(tǒng)意義的統(tǒng)計學來說公给,我們就要去調(diào)查,有多少病人是確診的陽性蜘渣,有多少確診陽性的病人是癌癥患者淌铐,而統(tǒng)計出來的頻數(shù)換來的概率如果樣本太少,在大數(shù)定律面前蔫缸,可信度又被否認腿准。

在這里我們用貝葉斯理論進行評估,我們了解到單純癌癥患者的概率是在1%拾碌,也就是醫(yī)院里有100個病人吐葱,估計就1名患者是癌癥。這個在貝葉斯的計算里校翔,我們稱為“先驗概率”弟跑,也就是我們在對應具體情況前的一種主觀意識。通過貝葉斯計算出來的結果防症,我們叫做“后驗概率”孟辑,是針對具體情況的具體預測哎甲。我們通過貝葉斯理論計算出來,該陽性患者是癌癥的概率為0.084饲嗽,該陽性患者不是癌癥的概率是0.917炭玫,根據(jù)后驗概率最大化思想,非癌癥的概率大于癌癥概率貌虾,因此吞加,這位病人不是癌癥患者。


似然函數(shù)

說到似然函數(shù)需要區(qū)分一個概念酝惧,概率函數(shù)榴鼎。
概率函數(shù):就是不確定樣本的情況下,我們知道某某事件發(fā)生的概率晚唇。
似然函數(shù):不清楚某某事件發(fā)生的概率巫财,只知道樣本數(shù),這時候我們得到一個函數(shù)關系哩陕。
我們假設\theta為單個事件發(fā)生的概率平项,\x為樣本數(shù),
那么悍及,概率函數(shù)P=f(x)闽瓢,是一個有關x的概率分布,而似然函數(shù)就是P=f(theta)心赶,是一個有關theta的概率分布扣讼。
在似然函數(shù)中,我們可以很容易找到缨叫,函數(shù)的極值椭符,也就是極大似然定理。
具體參考:https://blog.csdn.net/zengxiantao1994/article/details/72787849

  • 案例

我們常見的貝葉斯公式:



這里耻姥,P(w):先驗概率销钝,P(w|x):后驗概率,P(x|w):類條件概率
但是琐簇,實際問題中蒸健,我們獲得的數(shù)據(jù)樣本可能只有有限數(shù)目的樣本數(shù)據(jù),而先驗概率和類條件概率都是未知的婉商。根據(jù)僅有的樣本數(shù)據(jù)進行分類時,我們一般需要先對先驗概率和類條件概率進行估計据某,然后再套用貝葉斯分類器。

  1. 先驗概率的估計
    (1) 每個樣本的自然狀態(tài)是已知的(有監(jiān)督學習癣籽,樣本標簽已知)滤祖;
    (2)依靠經(jīng)驗
    (3) 用訓練樣本的各類頻率估計
  2. 類條件概率的估計
    把概率密度估計問題轉(zhuǎn)化為參數(shù)估計問題,選擇概率密度函數(shù)瓶籽,通過極大似然估計方法匠童。

這篇主要概念塑顺,接下來會陸續(xù)把理論用于實際項目中,方便理解

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末严拒,一起剝皮案震驚了整個濱河市扬绪,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌裤唠,老刑警劉巖挤牛,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件种蘸,死亡現(xiàn)場離奇詭異,居然都是意外死亡航瞭,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門章办,熙熙樓的掌柜王于貴愁眉苦臉地迎上來滨彻,“玉大人纲菌,你說我怎么就攤上這事疮绷∠保” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵只冻,是天一觀的道長计技。 經(jīng)常有香客問我喜德,道長垮媒,這世上最難降的妖魔是什么航棱? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任萌衬,我火速辦了婚禮,結果婚禮上朴艰,老公的妹妹穿的比我還像新娘。我一直安慰自己混移,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布毁嗦。 她就那樣靜靜地躺著沮脖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪勺届。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天饼酿,我揣著相機與錄音胚膊,去河邊找鬼。 笑死紊婉,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的喻犁。 我是一名探鬼主播槽片,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼还栓,長吁一口氣:“原來是場噩夢啊……” “哼传轰!你這毒婦竟也來了剩盒?” 一聲冷哼從身側響起慨蛙,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎身隐,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贾铝,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡垢揩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了叁巨。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡蚀瘸,死狀恐怖庶橱,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情苏章,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布泉孩,位于F島的核電站并淋,受9級特大地震影響寓搬,放射性物質(zhì)發(fā)生泄漏县耽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望骆撇。 院中可真熱鬧,春花似錦肴裙、人聲如沸趾唱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宛乃。三九已至,卻和暖如春征炼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背眼坏。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工酸些, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人魄懂。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像肋坚,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子智厌,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容