貝葉斯
托馬斯·貝葉斯(Thomas Bayes斑芜,1702-1761),18世紀(jì)英國(guó)神學(xué)家祟霍、數(shù)學(xué)家杏头、數(shù)理統(tǒng)計(jì)學(xué)家和哲學(xué)家,概率論理論創(chuàng)始人沸呐,貝葉斯統(tǒng)計(jì)的創(chuàng)立者醇王,“歸納地”運(yùn)用數(shù)學(xué)概率,“從特殊推論一般崭添、從樣本推論全體”的第一人寓娩。【1】
BTW,貝葉斯創(chuàng)立貝葉斯統(tǒng)計(jì)的本意棘伴,是要證明上帝的存在(步偉大的艾薩克·牛頓爵士的后塵)寞埠,然而可能連他自己都沒(méi)有想到的是,這一理論最終成為了人工智能和統(tǒng)計(jì)學(xué)賴以建立的“Holy Grail ”焊夸。
條件概率
直接介紹貝葉斯法則可能會(huì)讓初學(xué)者有些茫然不知所措(比方說(shuō)我仁连。。阱穗。)怖糊,讓我們從貝葉斯法則的基礎(chǔ)條件概率開始說(shuō)起。
例如颇象,假定人口總體的 1% 患癌伍伤。對(duì)一群人進(jìn)行癌癥檢測(cè),得到陽(yáng)性檢驗(yàn)測(cè)試結(jié)果的概率依賴于你是否具有某種特殊條件遣钳。如果具備條件扰魂,測(cè)試結(jié)果就是陽(yáng)性的。
由此蕴茴,我們?cè)O(shè)事件A和B:
- B:目標(biāo)人患癌劝评。
- :目標(biāo)人不患癌。
- A:目標(biāo)人癌癥檢驗(yàn)為陽(yáng)性倦淀。
- :目標(biāo)人癌癥檢驗(yàn)為陰性蒋畜。
在實(shí)際的生產(chǎn)生活中,一些事件發(fā)生的概率往往是已知的撞叽,如人口總體中患癌的概率姻成,這種事件的概率稱為先驗(yàn)概率。
通常事件并不像擲硬幣和骰子一樣是獨(dú)立的愿棋。實(shí)際上科展,某個(gè)事件的結(jié)果依賴于之前的事件。被依賴事件可以理解為依賴事件的“因”糠雨,依賴事件是被依賴事件的“果”才睹,例如這里,B(目標(biāo)人患癌)就是被依賴事件甘邀,也就是“因”琅攘,而A(目標(biāo)人癌癥檢測(cè)為陽(yáng)性)就是依賴事件,是“果”松邪。因?yàn)锽事件發(fā)生了坞琴,才會(huì)有A事件發(fā)生。在B事件發(fā)生的情況下测摔,A事件發(fā)生的概率就是條件概率置济。
我們通過(guò)以下方式用公式表示兩個(gè)事件的條件概率:
在這個(gè)??中,我們要表達(dá)的意思是:
其中 |代表 "鑒于"锋八,∩ 代表 "和"浙于。
聯(lián)合概率
P(A∩B):稱為聯(lián)合概率。意思是事件A和
B同時(shí)發(fā)生的概率挟纱。在這個(gè)??里羞酗,表示目標(biāo)人患癌且檢測(cè)結(jié)果為陽(yáng)性。條件概率計(jì)算公式的變形:乘法公式
P(A∩B)=P(B)P(A|B)
利用這個(gè)公式把復(fù)雜概率分解成互不相容的簡(jiǎn)單事件概率:
P(A|B)+P(|B) = 1由條件概率公式可得全概率公式
P(A) = P(A|B) * P(B) + P(A|) * P()
貝葉斯法則
后驗(yàn)概率
后驗(yàn)概率和條件概率類似紊服,都是描述在一個(gè)事件發(fā)生的情況下檀轨,另一個(gè)事件發(fā)生的概率。但是與條件概率的不同之處在于欺嗤,它限定了目標(biāo)事件為被依賴事件参萄,而其中的條件為依賴事件,通常就是觀測(cè)結(jié)果煎饼。 如果說(shuō)條件概率是由因求果讹挎,那么后驗(yàn)概率就是由果求因∵壕粒【2】
回到我們之前的??:
在A事件(目標(biāo)人癌癥檢測(cè)為陽(yáng)性)發(fā)生的情況下筒溃,B事件(目標(biāo)人患癌)發(fā)生的概率就是后驗(yàn)概率。
P(B|A)
貝葉斯法則定義
貝葉斯法則就是由先驗(yàn)概率求后驗(yàn)概率的公式沾乘。
貝葉斯法則怜奖, 盡管它是一個(gè)數(shù)學(xué)公式,但其原理毋需數(shù)字也可明了翅阵。如果你看到一個(gè)人總是做一些好事歪玲,則那個(gè)人多半會(huì)是一個(gè)好人。這就是說(shuō)掷匠,當(dāng)你不能準(zhǔn)確知悉一個(gè)事物的本質(zhì)時(shí)读慎,你可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。 用數(shù)學(xué)語(yǔ)言表達(dá)就是:支持某項(xiàng)屬性的事件發(fā)生得愈多槐雾,則該屬性成立的可能性就愈大【3】夭委。
求解過(guò)程
我們將前面的問(wèn)題完整化:
假定人口總體的 1%
患癌。如果患癌募强,檢測(cè)結(jié)果為陽(yáng)性的可能性為 90%
株灸,如果不患癌,檢測(cè)結(jié)果為陰性的可能性為 90%
擎值,在這種情景下慌烧,如果你的測(cè)試結(jié)果為陽(yáng)性,患癌的概率是多少鸠儿?
以下是問(wèn)題求解過(guò)程的簡(jiǎn)圖:
首先看圖的左上角:
事件C表示人口總體中患癌的概率(先驗(yàn)概率):
P(C) = 0.01經(jīng)過(guò)Test(癌癥檢測(cè))屹蚊,發(fā)現(xiàn):
- 患癌人群中厕氨,檢驗(yàn)結(jié)果為陽(yáng)性的概率:P(Pos|C):0.9
- 非患癌人群中,檢驗(yàn)結(jié)果為陰性的概率:P(Neg|):0.9
- 右圖P(Pos|C) 為0.9
- 右圖P(Pos|)
由上文乘法公式的推論汹粤,P(Pos|) = 1 - P(Neg|) = 0.1 - 由條件概率計(jì)算公式:
P(C命斧,Pos) = P(Pos|C) * P(C) = 0.9 * 0.01 = 0.009 (圖左下角紅色部分)
P(,Pos) = P(Pos|) * P() = 0.1 * 0.99 = 0.099(圖左下角綠色部分) - 歸一化
因?yàn)镻(C嘱兼,Pos)和P(国葬,Pos) 的和不為1,所以需要對(duì)前兩個(gè)概率歸一化芹壕,即分別求他們對(duì)和的比例汇四。二者的和為紫色線內(nèi)的部分。
P(C|Pos) = P(C踢涌,Pos) / ( P(C通孽,Pos) + P(,Pos) ) = 0.009/(0.009 + 0.099) = 0.083
P(|Pos) = P(睁壁,Pos) / ( P(C利虫,Pos) + P(,Pos) ) = 0.099/(0.009 + 0.099) = 0.917 - 最終堡僻,我們通過(guò)先驗(yàn)概率求出了后驗(yàn)概率糠惫。
P(C|Pos) = 0.083
P(|Pos) = 0.917
specificity
特異度,如果不患癌钉疫,檢測(cè)結(jié)果為陰性的可能性為 90%硼讽。
sensitivity
敏感度,如果患癌牲阁,檢測(cè)結(jié)果為陽(yáng)性的可能性為 90%固阁。
【1】托馬斯·貝葉斯
【2】后驗(yàn)概率與條件概率區(qū)別 這里作者為了強(qiáng)調(diào)后驗(yàn)概率和條件概率的區(qū)別,將條件概率狹義的理解為“由因求果”城菊,不是很嚴(yán)謹(jǐn)备燃,但是便于突出后驗(yàn)概率的特點(diǎn)。還請(qǐng)讀者注意凌唬。
【3】貝葉斯公式