公式介紹
貝葉斯定理(貝葉斯公式又被稱為貝葉斯定理)由英國數(shù)學家貝葉斯 ( Thomas Bayes 1702-1761 ) 發(fā)展构资,用來描述兩個條件概率之間的關(guān)系罐监。
它的公式是: P(B|A) = P(A|B)*P(B) / P(A)
意思是說巷折,(在事件A發(fā)生的情況下俯萌,B發(fā)生的概率) 等于 (B發(fā)生的情況下钥屈,A發(fā)生的概率) 乘以 (B發(fā)生的概率) 除上 (A發(fā)生的概率)
貝葉斯公式涛贯,是用來解決逆向概率問題的末捣。比如百科上面的一個例子:
一座別墅在過去的 20 年里一共發(fā)生過 2 次被盜光督,別墅的主人有一條狗,狗平均每周晚上叫 3 次塔粒,在盜賊入侵時狗叫的概率被估計為 0.9结借,問題是:在狗叫的時候發(fā)生入侵的概率是多少?
當我們知道了一些正向概率的情況下卒茬,需要根據(jù)這些數(shù)據(jù)船老,反過來求逆向概率的時候咖熟,就使用貝葉斯公式。
貝葉斯公式推導
下面有幾個基本概念柳畔,首先假設(shè)有事件A和事件B馍管。
-
事件相互獨立
事件A的發(fā)生與事件B發(fā)生沒有關(guān)系,記P (B | A) = P(B)薪韩, 就是無論事件A發(fā)生或不發(fā)生确沸,事件B發(fā)生的概率不變。
-
事件相互不獨立
事件A的發(fā)生與事件B發(fā)生沒有關(guān)系俘陷,P(B|A) 不等于 P(B)罗捎, 貝葉斯定理中的兩個事件就是這種關(guān)系。
-
條件概率
指在事件A發(fā)生的情況下事件B的概率拉盾,記作 P (B | A)桨菜。
-
聯(lián)合概率
指事件A和事件B同時發(fā)生的概率,記作 P(BA) 或 P(AB)捉偏。
-
P(AB) 與 P(A | B)的區(qū)別
如下圖的右邊部分倒得,方框表示事件所有的情況, 即包括A不發(fā)生夭禽,B不發(fā)生霞掺,A發(fā)生,B發(fā)生等等讹躯。 P(A|B)表示根悼,先在B的橢圓中,在去計算橢圓A在B中的占比蜀撑, 不考慮B不發(fā)生的情況挤巡。概率等于圖中陰影部分除以B的部分。 P(AB)表示酷麦,在所有的情況下找到A和B同時發(fā)生的部分矿卑,也就是陰影部分, 不過沃饶,概率卻是等于圖中陰影部分除以整個方框的部分母廷。
我自己畫的,汗糊肤!
根據(jù)條件概率的公式有 P(AB) = P(A)P(B|A)琴昆,意思就是AB同時發(fā)生的概率等于A發(fā)生的概率乘上在A發(fā)生的情況下B發(fā)生的概率。
而P(AB) = P(BA) -------- (1)
P(AB) = P(A)P(B|A) --------- (2)
P(BA) = P(B)P(A|B) --------- (3)
根據(jù) (1)(2)(3) 可以得到 P(A)P(B|A) = P(B)P(A|B)馆揉,這樣就可以直接得到貝葉斯公式
P(B|A) = P(A|B)*P(B) / P(A)
樸素貝葉斯
樸素貝葉斯是用來解決特征有多個維度的情況业舍,在這種情況下,特征不是只有一個值,而是一組值舷暮,這樣求 P(X | Y)就不容易得到态罪。
貝葉斯定理、特征條件獨立假設(shè)就是樸素貝葉斯的兩個重要的理論基礎(chǔ)下面。
特征條件獨立假設(shè)
樸素貝葉斯 在這里就做了一個特征條件獨立假設(shè)复颈,就是假設(shè)特征之間是獨立互不影響的。
比如 x 是一個向量沥割,為 {x1, x2, x3} 耗啦,類別為 y。要求P (X | y)机杜,如果沒有這個假設(shè)帜讲,x1的出現(xiàn)頻率和x2的出現(xiàn)頻率有關(guān)系,那這樣就沒法求了叉庐。有了假設(shè)后,我們分別求出x1会喝、x2陡叠、x3出現(xiàn)的概率在相乘就可以得到 P(X | Y)的值了。
樸素貝葉斯推導
給定訓練數(shù)據(jù)集(X,Y)肢执,其中每個樣本x都包括n維特征枉阵,即x=(x1,x2,x3,...,xn),類標記集合含有k種類別预茄,即y=(y1,y2,...,yk)兴溜。
具體數(shù)據(jù)大概是如果現(xiàn)在來了一個新樣本x,我們要怎么判斷它的類別耻陕?從概率的角度來看拙徽,這個問題就是給定x,它屬于哪個類別的概率最大诗宣。
這樣我們可以分別求出 P( y1 | X)膘怕、P( y2 | X) ... P( yn | X),概率最大的就是判斷的分類召庞。
以 P( y1 | X)為例岛心,根據(jù)貝葉斯定理,P( y1 | X) = P( X | y1) * P (y1) / P (X)篮灼。其中 P(X) 是 P (X)出現(xiàn)的概率忘古,可以發(fā)現(xiàn),無論Y如何取值诅诱,P (X)都是固定的髓堪,所以我們可以將P(X)忽略掉,直接求 P (X | y1) * P (y1) 來比較大小。
對于 P(y1) 比較容易得到旦袋,就是y1出現(xiàn)的次數(shù)除以y的類別數(shù)量骤菠。
對于 P (X | y1),因為我們剛剛做了特征條件獨立假設(shè)疤孕,所以 P (X | y1) = P (x1 | y1) * P (x2 | y1) * ... * P (xn | y1)商乎。這個也比較容易求得。
在算出所有的 P( y2 | X) ... P( yn | X)祭阀,取概率最大的分類鹉戚。
三種常見的模型
多項式模型
當某一維特征的值xi沒在訓練樣本中出現(xiàn)過時,會導致P(xi|yk)=0专控,從而導致后驗概率為0抹凳。多項式模型可以克服這個問題。
當特征是離散的時候伦腐,可以使用多項式模型赢底。
多項式模型在計算先概率 P(yk) 和條件概率 P(xi|yk) 時,會做一些平滑處理柏蘑,具體公式為:
當α=1時幸冻,稱作Laplace平滑,當0<α<1時咳焚,稱作Lidstone平滑洽损,α=0時不做平滑。
高斯模型
當特征是連續(xù)值的時候革半,運用多項式模型(不做平滑處理時)就會發(fā)現(xiàn)很多 P (xi | y) 都是 0 碑定,即使做平滑處理,也不能描述真實情況又官。
所以在連續(xù)值的時候延刘,可以選用高斯模型。下面是高斯正太分布公式
下面是一組人類身體特征的統(tǒng)計資料六敬。
性別 | 身高(英尺) | 體重(磅) | 腳掌(英寸) |
---|---|---|---|
男 | 6 | 180 | 12 |
男 | 5.92 | 190 | 11 |
男 | 5.58 | 170 | 12 |
男 | 5.92 | 165 | 10 |
女 | 5 | 100 | 6 |
女 | 5.5 | 150 | 8 |
女 | 5.42 | 130 | 7 |
女 | 5.75 | 150 | 9 |
已知某人身高6英尺访娶、體重130磅,腳掌8英寸觉阅,請問該人是男是女崖疤?
根據(jù)樸素貝葉斯分類器,計算下面這個式子的值典勇。
P(身高|性別) x P(體重|性別) x P(腳掌|性別) x P(性別)劫哼。
這里 身高 體重 腳掌尺寸 都是連續(xù)變量,并且數(shù)量不多割笙,不好分成區(qū)間权烧。
這時眯亦,可以假設(shè)男性和女性的身高、體重般码、腳掌都是正態(tài)分布妻率,通過樣本計算出均值和方差,也就是得到正態(tài)分布的密度函數(shù)板祝。有了密度函數(shù)宫静,就可以把值代入,算出某一點的密度函數(shù)的值券时。
比如孤里,男性的身高是均值5.855、方差0.035的正態(tài)分布橘洞。所以捌袜,男性的身高為6英尺的概率的相對值等于1.5789(大于1并沒有關(guān)系,因為這里是密度函數(shù)的值炸枣,只用來反映各個值的相對可能性)虏等。
對于腳掌和體重同樣可以計算其均值與方差。有了這些數(shù)據(jù)以后适肠,就可以計算性別的分類了霍衫。
P(男) = P(身高=6|男) x P(體重=130|男) x P(腳掌=8|男) x P(男)
= 6.1984 x e-9
P(女) = P(身高=6|女) x P(體重=130|女) x P(腳掌=8|女) x P(女)
= 5.3778 x e-4
可以看到,女性的概率比男性要高出將近10000倍迂猴,所以判斷該人為女性慕淡。