貝葉斯

公式介紹

貝葉斯定理(貝葉斯公式又被稱為貝葉斯定理)由英國數(shù)學家貝葉斯 ( Thomas Bayes 1702-1761 ) 發(fā)展构资,用來描述兩個條件概率之間的關(guān)系罐监。

它的公式是: P(B|A) = P(A|B)*P(B) / P(A)

意思是說巷折,(在事件A發(fā)生的情況下俯萌,B發(fā)生的概率) 等于 (B發(fā)生的情況下钥屈,A發(fā)生的概率) 乘以 (B發(fā)生的概率) 除上 (A發(fā)生的概率)

貝葉斯公式涛贯,是用來解決逆向概率問題的末捣。比如百科上面的一個例子:

一座別墅在過去的 20 年里一共發(fā)生過 2 次被盜光督,別墅的主人有一條狗,狗平均每周晚上叫 3 次塔粒,在盜賊入侵時狗叫的概率被估計為 0.9结借,問題是:在狗叫的時候發(fā)生入侵的概率是多少?

當我們知道了一些正向概率的情況下卒茬,需要根據(jù)這些數(shù)據(jù)船老,反過來求逆向概率的時候咖熟,就使用貝葉斯公式。

貝葉斯公式推導

下面有幾個基本概念柳畔,首先假設(shè)有事件A和事件B馍管。

  • 事件相互獨立

    事件A的發(fā)生與事件B發(fā)生沒有關(guān)系,記P (B | A) = P(B)薪韩,
    就是無論事件A發(fā)生或不發(fā)生确沸,事件B發(fā)生的概率不變。
    
  • 事件相互不獨立

    事件A的發(fā)生與事件B發(fā)生沒有關(guān)系俘陷,P(B|A) 不等于 P(B)罗捎,
    貝葉斯定理中的兩個事件就是這種關(guān)系。
    
  • 條件概率

    指在事件A發(fā)生的情況下事件B的概率拉盾,記作 P (B | A)桨菜。
    
  • 聯(lián)合概率

    指事件A和事件B同時發(fā)生的概率,記作 P(BA) 或 P(AB)捉偏。
    
  • P(AB) 與 P(A | B)的區(qū)別

    如下圖的右邊部分倒得,方框表示事件所有的情況,
    即包括A不發(fā)生夭禽,B不發(fā)生霞掺,A發(fā)生,B發(fā)生等等讹躯。
    
    P(A|B)表示根悼,先在B的橢圓中,在去計算橢圓A在B中的占比蜀撑,
    不考慮B不發(fā)生的情況挤巡。概率等于圖中陰影部分除以B的部分。
    
    P(AB)表示酷麦,在所有的情況下找到A和B同時發(fā)生的部分矿卑,也就是陰影部分,
    不過沃饶,概率卻是等于圖中陰影部分除以整個方框的部分母廷。
    
屏幕快照 2018-06-12 21.41.18.png

我自己畫的,汗糊肤!

根據(jù)條件概率的公式有 P(AB) = P(A)P(B|A)琴昆,意思就是AB同時發(fā)生的概率等于A發(fā)生的概率乘上在A發(fā)生的情況下B發(fā)生的概率。

而P(AB) = P(BA) -------- (1)
P(AB) = P(A)P(B|A) --------- (2)
P(BA) = P(B)P(A|B) --------- (3)

根據(jù) (1)(2)(3) 可以得到 P(A)P(B|A) = P(B)P(A|B)馆揉,這樣就可以直接得到貝葉斯公式

P(B|A) = P(A|B)*P(B) / P(A)

樸素貝葉斯

樸素貝葉斯是用來解決特征有多個維度的情況业舍,在這種情況下,特征不是只有一個值,而是一組值舷暮,這樣求 P(X | Y)就不容易得到态罪。

貝葉斯定理、特征條件獨立假設(shè)就是樸素貝葉斯的兩個重要的理論基礎(chǔ)下面。

特征條件獨立假設(shè)

樸素貝葉斯 在這里就做了一個特征條件獨立假設(shè)复颈,就是假設(shè)特征之間是獨立互不影響的。

比如 x 是一個向量沥割,為 {x1, x2, x3} 耗啦,類別為 y。要求P (X | y)机杜,如果沒有這個假設(shè)帜讲,x1的出現(xiàn)頻率和x2的出現(xiàn)頻率有關(guān)系,那這樣就沒法求了叉庐。有了假設(shè)后,我們分別求出x1会喝、x2陡叠、x3出現(xiàn)的概率在相乘就可以得到 P(X | Y)的值了。

樸素貝葉斯推導

給定訓練數(shù)據(jù)集(X,Y)肢执,其中每個樣本x都包括n維特征枉阵,即x=(x1,x2,x3,...,xn),類標記集合含有k種類別预茄,即y=(y1,y2,...,yk)兴溜。

具體數(shù)據(jù)大概是
gif.latex-2.gif

如果現(xiàn)在來了一個新樣本x,我們要怎么判斷它的類別耻陕?從概率的角度來看拙徽,這個問題就是給定x,它屬于哪個類別的概率最大诗宣。

這樣我們可以分別求出 P( y1 | X)膘怕、P( y2 | X) ... P( yn | X),概率最大的就是判斷的分類召庞。

以 P( y1 | X)為例岛心,根據(jù)貝葉斯定理,P( y1 | X) = P( X | y1) * P (y1) / P (X)篮灼。其中 P(X) 是 P (X)出現(xiàn)的概率忘古,可以發(fā)現(xiàn),無論Y如何取值诅诱,P (X)都是固定的髓堪,所以我們可以將P(X)忽略掉,直接求 P (X | y1) * P (y1) 來比較大小。

對于 P(y1) 比較容易得到旦袋,就是y1出現(xiàn)的次數(shù)除以y的類別數(shù)量骤菠。
對于 P (X | y1),因為我們剛剛做了特征條件獨立假設(shè)疤孕,所以 P (X | y1) = P (x1 | y1) * P (x2 | y1) * ... * P (xn | y1)商乎。這個也比較容易求得。

在算出所有的 P( y2 | X) ... P( yn | X)祭阀,取概率最大的分類鹉戚。

三種常見的模型

多項式模型

當某一維特征的值xi沒在訓練樣本中出現(xiàn)過時,會導致P(xi|yk)=0专控,從而導致后驗概率為0抹凳。多項式模型可以克服這個問題。

當特征是離散的時候伦腐,可以使用多項式模型赢底。

多項式模型在計算先概率 P(yk) 和條件概率 P(xi|yk) 時,會做一些平滑處理柏蘑,具體公式為:

屏幕快照 2018-06-11 22.31.29.png

當α=1時幸冻,稱作Laplace平滑,當0<α<1時咳焚,稱作Lidstone平滑洽损,α=0時不做平滑。

高斯模型

當特征是連續(xù)值的時候革半,運用多項式模型(不做平滑處理時)就會發(fā)現(xiàn)很多 P (xi | y) 都是 0 碑定,即使做平滑處理,也不能描述真實情況又官。

所以在連續(xù)值的時候延刘,可以選用高斯模型。下面是高斯正太分布公式

屏幕快照 2018-06-12 下午3.17.58.png

下面是一組人類身體特征的統(tǒng)計資料六敬。

性別 身高(英尺) 體重(磅) 腳掌(英寸)
6 180 12
5.92 190 11
5.58 170 12
5.92 165 10
5 100 6
5.5 150 8
5.42 130 7
5.75 150 9

已知某人身高6英尺访娶、體重130磅,腳掌8英寸觉阅,請問該人是男是女崖疤?
根據(jù)樸素貝葉斯分類器,計算下面這個式子的值典勇。

P(身高|性別) x P(體重|性別) x P(腳掌|性別) x P(性別)劫哼。

這里 身高 體重 腳掌尺寸 都是連續(xù)變量,并且數(shù)量不多割笙,不好分成區(qū)間权烧。

這時眯亦,可以假設(shè)男性和女性的身高、體重般码、腳掌都是正態(tài)分布妻率,通過樣本計算出均值和方差,也就是得到正態(tài)分布的密度函數(shù)板祝。有了密度函數(shù)宫静,就可以把值代入,算出某一點的密度函數(shù)的值券时。

比如孤里,男性的身高是均值5.855、方差0.035的正態(tài)分布橘洞。所以捌袜,男性的身高為6英尺的概率的相對值等于1.5789(大于1并沒有關(guān)系,因為這里是密度函數(shù)的值炸枣,只用來反映各個值的相對可能性)虏等。

20150909092824838.png

對于腳掌和體重同樣可以計算其均值與方差。有了這些數(shù)據(jù)以后适肠,就可以計算性別的分類了霍衫。

P(男) = P(身高=6|男) x P(體重=130|男) x P(腳掌=8|男) x P(男)
    = 6.1984 x e-9
P(女) = P(身高=6|女) x P(體重=130|女) x P(腳掌=8|女) x P(女)
    = 5.3778 x e-4

可以看到,女性的概率比男性要高出將近10000倍迂猴,所以判斷該人為女性慕淡。

參考

https://blog.csdn.net/u012162613/article/details/48323777/

高斯模型例子

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末背伴,一起剝皮案震驚了整個濱河市沸毁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌傻寂,老刑警劉巖息尺,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異疾掰,居然都是意外死亡搂誉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進店門静檬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來炭懊,“玉大人,你說我怎么就攤上這事拂檩∥旮梗” “怎么了?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵稻励,是天一觀的道長父阻。 經(jīng)常有香客問我愈涩,道長,這世上最難降的妖魔是什么加矛? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任履婉,我火速辦了婚禮,結(jié)果婚禮上斟览,老公的妹妹穿的比我還像新娘毁腿。我一直安慰自己,他們只是感情好趣惠,可當我...
    茶點故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布狸棍。 她就那樣靜靜地躺著,像睡著了一般味悄。 火紅的嫁衣襯著肌膚如雪草戈。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天侍瑟,我揣著相機與錄音唐片,去河邊找鬼。 笑死涨颜,一個胖子當著我的面吹牛费韭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播庭瑰,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼星持,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了弹灭?” 一聲冷哼從身側(cè)響起督暂,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎穷吮,沒想到半個月后逻翁,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡捡鱼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年八回,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片驾诈。...
    茶點故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡缠诅,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出乍迄,到底是詐尸還是另有隱情管引,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布就乓,位于F島的核電站汉匙,受9級特大地震影響拱烁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜噩翠,卻給世界環(huán)境...
    茶點故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一戏自、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧伤锚,春花似錦擅笔、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至狞洋,卻和暖如春弯淘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背吉懊。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工庐橙, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人借嗽。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓态鳖,卻偏偏與公主長得像,于是被迫代替她去往敵國和親恶导。 傳聞我的和親對象是個殘疾皇子浆竭,可洞房花燭夜當晚...
    茶點故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容