貝葉斯方法? ? ?課程分享51
這是通識選修課《社會科學(xué)與數(shù)學(xué)》第五講《法學(xué)與數(shù)學(xué)》的第四節(jié)《貝葉斯方法》疫赎。
第五講?法學(xué)與數(shù)學(xué)
第四節(jié)?貝葉斯方法
貝葉斯(Thomas Bayes糠赦,1702-1763)锅铅,英國數(shù)學(xué)家,1702年出生于倫敦绍在,做過神甫。1742年成為英國皇家學(xué)會會員。1763年4月7日逝世枣购。
貝葉斯在數(shù)學(xué)方面主要研究概率論。他首先將歸納推理法用于概率論基礎(chǔ)理論擦耀,并創(chuàng)立了貝葉斯統(tǒng)計理論棉圈,對于統(tǒng)計決策函數(shù)、統(tǒng)計推斷眷蜓、統(tǒng)計的估算等做出了貢獻.1763年發(fā)表了這方面的論著分瘾,對于現(xiàn)代概率論和數(shù)理統(tǒng)計都有很重要的作用。貝葉斯的另一著作《機會的學(xué)說概論》發(fā)表于1758年吁系。貝葉斯所采用的許多術(shù)語被沿用至今德召。
貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分∑耍“歸納地”運用數(shù)學(xué)概率上岗,“從特殊推論一般、從樣本推論全體”的第一人蕴坪。
貝葉斯決策就是在不完全情報下肴掷,對部分未知的狀態(tài)用主觀概率估計,然后用貝葉斯公式對發(fā)生概率進行修正背传,最后再利用期望值和修正概率做出最優(yōu)決策呆瞻。
貝葉斯決策理論方法是統(tǒng)計模型決策中的一個基本方法,其基本思想是:
1径玖、已知類條件概率密度參數(shù)表達式和先驗概率痴脾。
2、利用貝葉斯公式轉(zhuǎn)換成后驗概率挺狰。
3明郭、根據(jù)后驗概率大小進行決策分類。
他對統(tǒng)計推理的主要貢獻是使用了“逆概率”這個概念丰泊,并把它作為一種普遍的推理方法提出來薯定。貝葉斯定理原本是概率論中的一個定理,這一定理可用一個數(shù)學(xué)公式來表達瞳购,這個公式就是著名的貝葉斯公式话侄。貝葉斯公式是他在1763年提出來的(更準(zhǔn)確的說法是,1763年12月23日由理查德·普萊斯(Richard Price)整理發(fā)表的貝葉斯的成果《An Essay towards solving a Problem in the Doctrine of Chances》中,提出了貝葉斯公式):
假定B1,B2,……是某個過程的若干可能的前提年堆,則P(Bi)是人們事先對各前提條件出現(xiàn)可能性大小的估計吞杭,稱之為先驗概率。如果這個過程得到了一個結(jié)果A变丧,那么貝葉斯公式提供了我們根據(jù)A的出現(xiàn)而對前提條件做出新評價的方法芽狗。P(Bi∣A)既是對以A為前提下Bi的出現(xiàn)概率的重新認(rèn)識,稱 P(Bi∣A)為后驗概率痒蓬。
經(jīng)過多年的發(fā)展與完善童擎,貝葉斯公式以及由此發(fā)展起來的一整套理論與方法,已經(jīng)成為概率統(tǒng)計中的一個冠以“貝葉斯”名字的學(xué)派攻晒,在自然科學(xué)及經(jīng)濟學(xué)的許多領(lǐng)域中有著廣泛應(yīng)用顾复。
貝葉斯公式
設(shè)D1,D2鲁捏,……芯砸,Dn為樣本空間S的一個劃分,如果以P(Di)表示事件Di發(fā)生的概率给梅,且P(Di)>0(i=1假丧,2,…破喻,n)虎谢。對于任一事件x,P(x)>0曹质,則有貝葉斯公式:
P(Dj/x)=p(x/Dj)P(Dj)/∑P(x/Di)P(Di)
我們舉一個比上一節(jié)那個連帶責(zé)任案例(第三節(jié)案例5)更簡單些婴噩,但性質(zhì)相同的例子來說明貝葉斯方法的應(yīng)用。
案例6
假設(shè)原告被一輛公共汽車撞傷羽德,已知在原告被撞的路段上几莽,60%的公共汽車由A公共汽車公司所有,40%的公共汽車屬于B公司宅静。原告僅以這一統(tǒng)計證據(jù)為由向A公司提起訴訟章蚣,要求法院裁決,法院應(yīng)如何裁決姨夹?
最簡單的做法就是判A纤垂、B兩家公司各按60%和40%的比例支付賠償金。
但是磷账,如果有人提供證據(jù):從以往的數(shù)據(jù)記錄可知峭沦,A公司的交通事故率為萬分之一,而B公司為萬分之二逃糟。如果以此為據(jù)吼鱼,該怎么判呢蓬豁?
解決這個問題,需要用到概率論中的條件概率菇肃、全概率和逆概率等概念地粪。
條件概率:在事件b已經(jīng)發(fā)生的條件下,計算事件a的概率,則這種概率稱為事件a在事件b已發(fā)生的條件下的條件概率,記作p(a|b),有如下計算公式:
p(a|b)=p(a交b)/p(b)
乘法定理:兩事件的積事件的概率等于其中一事件的概率與另一事件在前一事件出現(xiàn)之下的條件概率的乘積,即p(ab)=p(a)p(b|a)=p(b)p(a|b)
全概率公式:
如果事件組b1鼻忠,b2,…递雀,bn滿足
(1)b1乡括,b2,…翻屈,bn互斥陈哑,且p(bi)>0
(i=1,2, …,n)
(2)b1+b2+…+bn=u
則對任一事件a皆有
p(a)=p(b1)p(a|b1)+p(b2)p(a|b2)+…+p(bn)p(a|bn),
滿足條件(1)伸眶,(2)的事件組b1惊窖,b2,…厘贼,bn稱為完備事件組界酒,也稱某隨機試驗e的樣本空間。
逆概率公式(貝葉斯公式):
設(shè)b1嘴秸,b2毁欣,…,bn為一完備事件組岳掐,則對任一事件a(p(a)≠0)有
p(bj|a)=p(bj)p(a|bj)/ p(b1)p(a|b1)+p(b2)p(a|b2)+…+p(bn)p(a|bn),
公式右邊可這樣記憶:分母為全概公式凭疮,是n項之和,分子是分母中的某一項串述。
對于剛才的案例执解,設(shè)A、B公司出車的概率分別為P(A)=0.6纲酗,P(B)=0.4衰腌,肇事用X表示,這樣根據(jù)貝葉斯公式觅赊,A右蕊、B兩公司的肇事概率分別為:
P(A|X)=P(X|A)P(A)/P(X)=3/7
P(B|X)=P(X|B)P(B)/P(X)=4/7
其中,P(X)=P(X|A)P(A)+P(X|B)P(B)
P(X|A)=1/萬茉兰,P(X|B)=2/萬尤泽。
結(jié)果是B公司承擔(dān)的賠償責(zé)任比A公司多。
這樣的結(jié)果明顯更加公平。但隨之而來的問題是坯约,這些數(shù)據(jù)如何獲得熊咽?或者能否采信?有人就評論這種做法是“血統(tǒng)論”闹丐,其實這也正是貝葉斯主義的核心所在——主觀概率横殴。
有趣的是,前面提到的理查德·波斯納法官是贊同貝葉斯主義的卿拴,但對這種判案結(jié)果卻持否定態(tài)度衫仑。原因是,他認(rèn)為這樣做的成本太高了堕花。
但是文狱,貝葉斯理論的現(xiàn)實意義是不言而喻的,它對信息科學(xué)缘挽、機器學(xué)習(xí)瞄崇、人工智能等等現(xiàn)代科學(xué)所帶來的基礎(chǔ)性、原理性的貢獻壕曼,恐怕是300年前的貝葉斯自己也想不到的苏研。
附錄1.貝葉斯算法原理分析
(下面內(nèi)容來自CSDN博客:
http://blog.csdn.net/brightgems/archive/2008/01/28/2069759.aspx)
Bayes法是一種在已知先驗概率與條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體腮郊。
Bayes方法的薄弱環(huán)節(jié)在于實際情況下摹蘑,類別總體的概率分布和各類樣本的概率分布函數(shù)(或密度函數(shù))常常是不知道的。為了獲得它們轧飞,就要求樣本 足夠大衅鹿。另外,Bayes法要求表達文本的主題詞相互獨立踪少,這樣的條件在實際文本中一般很難滿足塘安,因此該方法往往在效果上難以達到理論上的最大值。
1.貝葉斯法則
機器學(xué)習(xí)的任務(wù):在給定訓(xùn)練數(shù)據(jù)D時援奢,確定假設(shè)空間H中的最佳假設(shè)兼犯。
最佳假設(shè):一種方法是把它定義為在給定數(shù)據(jù)D以及H中不同假設(shè)的先驗概率的有關(guān)知識下的最可能假設(shè)。貝葉斯理論提供了一種計算假設(shè)概率的方法集漾,基于假設(shè)的先驗概率切黔、給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。
2.先驗概率和后驗概率
用P(h)表示在沒有訓(xùn)練數(shù)據(jù)前假設(shè)h擁有的初始概率具篇。P(h)被稱為h的先驗概率纬霞。先驗概率反映了關(guān)于h是一正確假設(shè)的機會的背景知識如果沒有 這一先驗知識,可以簡單地將每一候選假設(shè)賦予相同的先驗概率驱显。類似地诗芜,P(D)表示訓(xùn)練數(shù)據(jù)D的先驗概率瞳抓,P(D|h)表示假設(shè)h成立時D的概率。機器學(xué) 習(xí)中伏恐,我們關(guān)心的是P(h|D)孩哑,即給定D時h的成立的概率,稱為h的后驗概率翠桦。
3.貝葉斯公式
貝葉斯公式提供了從先驗概率P(h)横蜒、P(D)和P(D|h)計算后驗概率P(h|D)的方法
p(h|D)=P(D|H)*P(H)/P(D)
P(h|D)隨著P(h)和P(D|h)的增長而增長,隨著P(D)的增長而減少销凑,即如果D獨立于h時被觀察到的可能性越大丛晌,那么D對h的支持度越小。
4.極大后驗假設(shè)
學(xué)習(xí)器在候選假設(shè)集合H中尋找給定數(shù)據(jù)D時可能性最大的假設(shè)h斗幼,h被稱為極大后驗假設(shè)(MAP)
確定MAP的方法是用貝葉斯公式計算每個候選假設(shè)的后驗概率澎蛛,計算式如下:
h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h屬于集合H)
最后一步,去掉了P(D)蜕窿,因為它是不依賴于h的常量瓶竭。
5.極大似然假設(shè)
在某些情況下,可假定H中每個假設(shè)有相同的先驗概率渠羞,這樣式子可以進一步簡化,只需考慮P(D|h)來尋找極大可能假設(shè)智哀。
h_ml = argmax p(D|h) h屬于集合H P(D|h)常被稱為給定h時數(shù)據(jù)D的似然度次询,而使P(D|h)最大的假設(shè)被稱為極大似然假設(shè)。
6.舉例
一個醫(yī)療診斷問題瓷叫。有兩個可選的假設(shè):病人有癌癥屯吊、病人無癌癥
可用數(shù)據(jù)來自化驗結(jié)果:正+和負-
有先驗知識:在所有人口中,患病率是0.008
對確實有病的患者的化驗準(zhǔn)確率為98%摹菠,對確實無病的患者的化驗準(zhǔn)確率為97%
總結(jié)如下
P(cancer)=0.008, P(cancer)=0.992
P(+|cancer)=0.98, P(-|cancer)=0.02
P(+|cancer)=0.03, P(-|cancer)=0.97
問題:假定有一個新病人盒卸,化驗結(jié)果為正,是否應(yīng)將病人斷定為有癌癥次氨?求后驗概率P(cancer|+)和P(cancer|+)
因此極大后驗假設(shè)計算如下:
P(+|cancer)P(cancer)=0.008*0.98=0.0078
P(+|cancer)P(cancer)=0.992*0.03=0.0298
hMAP=cancer
確切的后驗概率可將上面的結(jié)果歸一化以使它們的和為1
P(canner|+)=0.0078/(0.0078+0.0298)=0.21
cancer|-)=0.79?P(
貝葉斯推理的結(jié)果很大程度上依賴于先驗概率蔽介,另外不是完全接受或拒絕假設(shè),只是在觀察到較多的數(shù)據(jù)后增大或減小了假設(shè)的可能性煮寡。
注意:當(dāng)訓(xùn)練數(shù)據(jù)的值是缺失時虹蓄,即先驗概率為0%,預(yù)測值不穩(wěn)定幸撕。一般會給每個數(shù)據(jù)加1薇组,使概率不會為0%。
附錄2.貝葉斯學(xué)派
1.貝葉斯學(xué)派的基本觀點
貝葉斯學(xué)派奠基性的工作是貝葉斯的論文坐儿,也許是他自己感到他的學(xué)說還有不完善的地方律胀,這一論文在他生前沒有發(fā)表宋光,而是在他死后由他的朋友發(fā)表的。著名的數(shù)學(xué)家拉普拉斯用貝葉斯提出的方法炭菌,導(dǎo)出了重要的“相繼律”罪佳,貝葉斯的方法和理論逐漸被人理解和重視起來。
盡管貝葉斯方法可以推導(dǎo)出一些有意義的問題娃兽,但在理論上和實際應(yīng)用中還是出現(xiàn)了各種各樣的問題菇民,因而在19世紀(jì)并未被大家普遍接受。20世紀(jì)初投储,意大利的菲納特第练,英國的杰弗萊都對貝葉斯學(xué)派的理論作出了新的貢獻。
第二次世界大戰(zhàn)后玛荞,瓦爾德提出了統(tǒng)計的決策理論娇掏,在這一理論中貝葉斯解占有重要的地位;信息論的發(fā)展也對貝葉斯學(xué)派作出了新的貢獻:更重要的是在一些實際應(yīng)用的領(lǐng)域中勋眯,貝葉斯方法取得了成功婴梧,貝葉斯學(xué)派成了一股不容忽視的力量。
貝葉斯學(xué)派的基本觀點是:任一個未知量都可以看作一個隨機變量客蹋,應(yīng)用一個概率分布去描述對的未知狀況塞蹭。這個概率分布是在抽樣前就有的關(guān)于的先驗信息的概率陳述。
這個概率分布被稱為先驗分布讶坯。有時還簡稱為先驗番电。因為任一未知量都有不確定性,而在表述不確定性程度時辆琅,概率和概率分布是最好的語言漱办。貝葉斯學(xué)派很重視先驗信息的收集、挖掘和加工婉烟,使它數(shù)量化娩井,形成先驗分市。
參加到統(tǒng)計推斷中來似袁,以提高統(tǒng)計推斷的質(zhì)量洞辣。忽視先驗信息的利用,有時是一種浪費叔营,有時還會導(dǎo)致不合理的結(jié)論屋彪。
2.貝葉斯統(tǒng)計學(xué)派與頻率統(tǒng)計學(xué)派之間的批評
概率的“信仰”。在數(shù)理統(tǒng)計學(xué)的發(fā)展過程中绒尊,曾經(jīng)有二個主要學(xué)派:頻率學(xué)派與貝葉斯學(xué)派畜挥。經(jīng)常對于一個問題而言,從頻率學(xué)派和貝葉斯學(xué)派的角度看起來是完全不一樣的婴谱,其最主要的區(qū)別就是對于一個問題中模型參數(shù)的“信仰”:
頻率學(xué)派相信概率是一個確定的值蟹但,討論概率的分布沒有意義躯泰。雖然沒有上帝視角,還不知道具體的概率值华糖,但相信概率就是確定的麦向,它就在那里。而數(shù)據(jù)是由這個確定的概率產(chǎn)生的客叉,因此數(shù)據(jù)是隨機的诵竭。
而貝葉斯學(xué)派認(rèn)為待估計值的概率是隨機的變量,而用來估計的數(shù)據(jù)反過來是確定的常數(shù)兼搏,討論觀測數(shù)據(jù)的概率分布才是沒有意義的卵慰。
貝葉斯學(xué)派對經(jīng)典學(xué)派的批評主要是下面兩點:頻率學(xué)派對一些統(tǒng)計問題的提法不妥,包括估計問題中的置信區(qū)間和假設(shè)檢驗問題頻率統(tǒng)計學(xué)派判斷方法好壞的標(biāo)準(zhǔn)不妥佛呻。貝葉斯學(xué)派贊成主觀概率但不等于說主張用主觀隨意的方式去選取先驗分布裳朋。
附錄3.貝葉斯身世之謎
《統(tǒng)計研究》2013年12期刊登了劉樂平、高磊吓著、盧志義的文章
《貝葉斯身世之謎——寫在貝葉斯定理發(fā)表250周年之際》
【摘要】:2013年12月23日,是理查德·普萊斯(Richard Price)在倫敦皇家學(xué)會會議上宣讀托馬斯·貝葉斯(Thomas Bayes)著名論文的250周年紀(jì)念日鲤嫡。世界各地舉行多種活動紀(jì)念這個對統(tǒng)計學(xué)具有重要意義的日子。本文針對貝葉斯的誕辰日問題,基于網(wǎng)絡(luò)資料的先驗信息,結(jié)合貝葉斯歷史研究學(xué)術(shù)文獻中的證據(jù),對貝葉斯的出生日進行貝葉斯統(tǒng)計推斷,然后對如今廣為流傳的貝葉斯畫像進行討論,以此紀(jì)念貝葉斯定理發(fā)現(xiàn)250周年绑莺。