在簡書的第一篇博客复旬、作為總結(jié)機器學習的開始,網(wǎng)上已經(jīng)有了很多關(guān)于貝葉斯公式以及樸素貝葉斯的資料冲泥,但我還是想自己記錄一下自己學習過程中的一些要點驹碍。
一 貝葉斯公式:
在學習貝葉斯公式之前,先了解幾個定義:
1.邊緣概率(又稱先驗概率): 某個事件發(fā)生的概率凡恍。邊緣概率是這樣得到的:在聯(lián)合概率中志秃,把最終結(jié)果中那些不需要的事件通過合并成它們的全概率,而消去它們(對離散隨機變量用求和得全概率咳焚,對連續(xù)隨機變量用積分得全概率)洽损,這稱邊緣化,如事件A的邊緣概率為P(A)革半,B的邊緣概率表示為P(B)碑定。
2.聯(lián)合概率:表示為兩個事件共同發(fā)生的概率流码。A與B的聯(lián)合概率表示為P(AB)或者P(A,B)延刘。
3.條件概率(又稱為后驗概率):事件A在另外一個事件B已經(jīng)發(fā)生的情況下發(fā)生的概率漫试。條件概率表示為P(A|B),表示為在B條件下A的概率碘赖。
貝葉斯公式:
在網(wǎng)上發(fā)現(xiàn)一個比較恰當例子來解釋這個公式:
有甲驾荣、乙兩條生產(chǎn)線,甲生產(chǎn)線的產(chǎn)品合格率為90%普泡,乙生產(chǎn)線的產(chǎn)品合格率為95%播掷,兩條生產(chǎn)線的生產(chǎn)量占比分別為30%和70%,現(xiàn)在發(fā)現(xiàn)了一件不合格品撼班,判斷這個不合格品是甲生產(chǎn)線生產(chǎn)出來的概率歧匈? 假設(shè)現(xiàn)在生產(chǎn)出來的產(chǎn)品總量為1000個,如圖中所示砰嘁,甲乙生產(chǎn)線的產(chǎn)量分別是300和700個件炉,則不合格品分別為30和35個
現(xiàn)用A表示生產(chǎn)不合格品事件, B1、B2分別表示甲乙兩條生產(chǎn)線
推導:
不合格品總數(shù) = 甲不合格數(shù)量 + 乙不合格數(shù)量 = 總產(chǎn)量X甲產(chǎn)量占比X甲不合格率 + 總產(chǎn)量X乙產(chǎn)量占比X乙不合格率 = 總產(chǎn)量XP(B1)XP(A|B1) + 總產(chǎn)量XP(B2)XP(A|B2)
得到:?
?
假設(shè)為n條生產(chǎn)線則有:?
單變量條件概率推導
根據(jù)條件概率的定義矮湘,在事件B發(fā)生的條件下事件A發(fā)生的概率為:
事件A發(fā)生的條件下事件B的概率為:
綜合上述兩個式子得到:
二 樸素貝葉斯
先簡單介紹幾個名詞的概念
樸素貝葉斯:NaiveBayes
樸素:特征條件獨立
貝葉斯:基于貝葉斯定理
屬于監(jiān)督學習的生成模型斟冕,實現(xiàn)簡單,并沒有迭代缅阳,有貝葉斯理論作為支撐磕蛇。
我們先看一個例子然后在看理論
(1)病人分類
某個醫(yī)院早上收了六個病人,如上圖券时,現(xiàn)在又來了第七個病人孤里,是一個身上發(fā)熱的建筑工人,請問他換上感冒的概率有多大橘洞?
根據(jù)貝葉斯定理:
假設(shè)“發(fā)熱”和“建筑工人”這個兩個屬性是獨立的捌袜,因此,上式可化為
通過已有數(shù)據(jù)可算出上式結(jié)果為0.66,因此這個發(fā)熱建筑工人有0.66的概率得了感冒炸枣。同理可以算出這個病人患上過敏或腦震蕩的概率虏等。比較這幾個概率得到最大值,可以知道他最有可能得什么病
(2)理論
這段內(nèi)容來自韓家煒先生的書《數(shù)據(jù)挖掘:概念與技術(shù)》第351頁:
解釋下,其中訓練元組可以理解為訓練的樣本适肠,上文例子中每一個病人樣本霍衫,x1~xn可以表示為n個屬性,A1~An可以理解為屬性值,C1~Cn可以理解為有多少種疾病分類,其中的不等式表示求該算式最大值,繼續(xù)看書有
可以看到一個關(guān)鍵的要點,為了計算P(X|Ci)假設(shè)類條件獨立的樸素嘉定,對應(yīng)我們在病人分類的例子里計算概率所使用的方法侯养,假設(shè)條件獨立后敦跌,計算復雜度降低了幾個數(shù)量級,同時根據(jù)樣本計算獨立的概率還是很容易的,這也是樸素貝葉斯的由來柠傍,可以說貝葉斯和樸素貝葉斯的最大區(qū)別就在‘樸素’上即條件獨立麸俘,引入樸素貝葉斯的目的是為了降低計算量