人生中最重要的問題拦惋,在絕大多數(shù)情況下憎亚,真的就只是概率問題员寇。 --- 皮埃爾-西蒙·拉普拉斯(1749-1827)
? ? ? ? ? ? ? ? ? 幾道測試題
1.王二是一個普通大學(xué)畢業(yè)的本科生。那么請問他更可能是下面哪種職業(yè)第美?
A:張江程序員
B:陸家嘴金融男
2.有一天王二去相親遇到了張小花蝶锋,張小花長的像下面這個妹子。請問張小花的職業(yè)更可能是下面哪種什往?
A:模特
B: 職員
C: 胸器逼人的職員
3.和張小花相親之后扳缕,王二被迷得神魂顛倒,但小花對王二卻忽冷忽熱别威。情人節(jié)到了躯舔,小花給王二送了盒巧克力,請問小花喜歡王二的概率有多大省古?
4.時光荏苒粥庄,王二被小花甩了之后,王二喜歡鬼混豺妓,有一天忽覺身體不適惜互,懷疑自己是不是得了花柳病布讹。王二查資料發(fā)現(xiàn),HIV在健康男性中總體發(fā)病率為0.1%训堆。王二不放心炒事,去醫(yī)院檢查,結(jié)果呈HIV陽性蔫慧。醫(yī)生告訴他挠乳,咱醫(yī)院的設(shè)備還是很先進(jìn)的,準(zhǔn)確率高達(dá)95%姑躲;請問王二得艾滋病的概率是多少睡扬?
? ? ? ? 人人都需要一點概率知識
有人還需要一點貝葉斯概率知識,比如王二黍析。
首先說說什么是概率卖怜?
概率不是一個簡單的概念。邏輯學(xué)家和統(tǒng)計學(xué)家互相爭論阐枣,提出了多個關(guān)于概率的定義马靠,全都非常精確。然而對我們外行人來說蔼两,概率(在日常生活中和“可能性”是同義詞)是一個相對含糊的概念甩鳄,與不確定性,傾向性额划,貌似正確及出乎意料等詞緊密相關(guān)妙啃。
其實,概率有兩種俊戳。
1是客觀概率
我們初中揖赴,高中學(xué)的概率,是一個客觀的概念抑胎。比如燥滑,擲骰子出現(xiàn)點數(shù)1的概率是六分之一“⑻樱可以解釋為铭拧,丟很多次骰子,平均有六分之一的次數(shù)會出現(xiàn)點數(shù)1盆昙,可以用頻率去解釋羽历。每人計算出的概率也都是相同的。又比如狐蜕,問題4中辙培,王二患艾滋病的概率。
2是主觀概率
還有一種概率,沒法用客觀概率去解釋,比如問題3中瓶摆,張小花喜歡王二的概率。王小花是獨一無二的,沒法用多個王小花喜歡王二的頻率去解釋易桃。但可以這么解釋:你內(nèi)心描繪的類似“信念程度”這樣的概念。是一種主觀概率锌俱。
? ? ? ? ? 什么是貝葉斯推理晤郑?
什么是貝葉斯推理?
一句話概括就是贸宏,我們根據(jù)新的信息/證據(jù)/數(shù)據(jù)來更新看法/判斷/信念造寝。
試問誰人不是如此,人人都在用吭练,但多數(shù)人都是用而不自知诫龙。
我們天生就是貝葉斯動物。
托馬斯·貝葉斯(Thomas Bayes)是18世紀(jì)初蘇格蘭的一位神父鲫咽。他想證明上帝存在签赃,用了兩個步驟:第一步,如果上帝存在分尸,就會有如此這般的事情發(fā)生锦聊;第二步反過來,如果如此這般的事情發(fā)生箩绍,那么我們對上帝存在的信心會增加多少括丁?
貝葉斯推理本質(zhì)上是條件概率的變形,已知如果a則b伶选,反過來求解如果b則a的概率史飞。是不是有點暈了,別擔(dān)心仰税,聽我給你一一分解构资。
我們再看一遍貝葉斯推理的概括:我們根據(jù)新的信息/證據(jù)/數(shù)據(jù)來更新看法/判斷/信念。
這句話可以分成三部分:
舊的看法/判斷/信念
新的信息/證據(jù)/數(shù)據(jù)
新的看法/判斷/信念
這三部分可用數(shù)學(xué)語言概括如下
先驗概率(舊的看法/判斷/信念)
條件概率(新的信息/證據(jù)/數(shù)據(jù))
后驗概率(新的看法/判斷/信念)
完整的貝葉斯推理可以概括為如下幾個步驟
通過經(jīng)驗或者歷史數(shù)據(jù)設(shè)定“先驗概率”
設(shè)置發(fā)生某事件的“新信息“
通過觀察到的行為排除掉不可能的情況
將先驗概率更新為“后驗概率”
? ? ? ? ? ? ? ? ? 先驗概率
先驗概率陨簇,是獲得新信息之前吐绵,各個類別存在的概率。
回看問題1河绽,你認(rèn)為王二是程序員還是金融男己单?
你猜程序員是吧?
為啥鞍沂巍纹笼?
程序員的基數(shù)比金融男大多了啊。
現(xiàn)實是苟跪,10個里面廷痘,8個程序員2個金融男蔓涧。
這就是先驗概率,在我進(jìn)一步了解王二之前笋额,只能毛估著來元暴。
這個基于經(jīng)驗或者歷史數(shù)據(jù)推斷出發(fā)毛估估的概率就是先驗概率。
程序員的先驗概率是:8/10=0.8
金融男的先驗概率是:2/10=0.2
? ? ? ? ?
? ? ? ? ? ? ? ? 條件概率
條件概率是指兄猩,事件a在事件b已經(jīng)發(fā)生條件下的發(fā)生概率茉盏。
P(A) —事件a發(fā)生的概率
P(B)—事件b發(fā)生的概率
P(A|B) —在事件b發(fā)生的條件下事件a發(fā)生的概率
我們回看一下問題3,
“小花給王二送了巧克力”這個是新的已經(jīng)發(fā)生的信息枢冤,即事件b
”小花喜歡王二”就是事件a
我們要求解的問題就是鸠姨,
P(A|B)=P(小花喜歡王二 | 小花給王二送了巧克力 )
讀做,在小花給王二送了巧克力這一條件下掏导,小花喜歡王二的概率享怀。
先不急著求解,我們繼續(xù)趟咆。
? ? ? ? ? ? ? ? 后驗概率
通過新信息將先驗概率通過貝葉斯更新添瓷,就可以轉(zhuǎn)換為“后驗概率”
啥意思呢?
舉個例子
我們常說“吃一塹長一智”值纱,
舊智鳞贷,就相當(dāng)于先驗概率;
新智虐唠,就相當(dāng)于后驗概率搀愧;
吃的那一塹,就是新信息疆偿。
從“舊智”到“新智”就是貝葉斯更新咱筛。
再舉個例子,回到上面的問題4
王二患艾滋病的概率是多少杆故?
95%迅箩?
No!
? ? ? ? ? ?
? ? ? ? ? 貝葉斯定理的計算
現(xiàn)在我們用問題4处铛,來完整演算一遍貝葉斯概率的計算過程饲趋。
貝葉斯定理公式
當(dāng)然我們不需用公式去計算,太麻煩撤蟆,記不住奕塑,記住也會忘。
前幾天學(xué)到了一個熱別牛叉的方法家肯,叫圖解法龄砰,是人就能學(xué)會,不會不是中國人息楔。
我們回顧一下題目:
4.時光荏苒寝贡,王二被小花甩了之后扒披,王二喜歡鬼混值依,有一天忽覺身體不適圃泡,懷疑自己是不是得了花柳病。王二查資料發(fā)現(xiàn)愿险,HIV在健康男性中總體發(fā)病率為0.1%颇蜡。王二不放心,去醫(yī)院檢查辆亏,結(jié)果呈HIV陽性风秤。醫(yī)生告訴他,咱醫(yī)院的設(shè)備還是很先進(jìn)的扮叨,準(zhǔn)確率高達(dá)95%缤弦;請問王二得艾滋病的概率是多少?
1.先找“先驗概率”
“HIV在健康男性中總體發(fā)病率為0.1%”換句話說彻磁,在1000個人中有1個HIV患者碍沐,999個健康人
圖示如下:
該圖表示的是:在接受檢查之前,判斷是否患艾滋病的可能性衷蜓。王二所在的世界分成左側(cè)表示“罹患艾滋病”和右側(cè)“身體健康”的兩個“可能世界”累提,二王二一定處在兩個當(dāng)中的一個。但并不知道是在哪一個磁浇,僅僅是推測而已斋陪。通過流行病學(xué)數(shù)據(jù)王二知道,1000個人中就有1個有艾滋病置吓。所以无虚,王二在沒有去醫(yī)院檢查前,推算屬于左側(cè)的概率是0.1%衍锚,屬于右側(cè)是99.9%
2.以檢查準(zhǔn)確率為線索友题,設(shè)定“條件概率”
本例中,新信息指“王二的檢查結(jié)果呈陽性”和“檢查的準(zhǔn)確率”
先看第二個新信息构拳,從醫(yī)生的話中咆爽,我們可以得出如下信息:
醫(yī)生說的準(zhǔn)確率95%,包括兩層含義置森,
一是上面一行斗埂,本來是患者結(jié)果有5%沒檢查出來,屬于漏檢凫海;
二是下面那行呛凶,本來是健康人,結(jié)果有5%檢查為患者行贪,屬于誤檢漾稀;
所以醫(yī)院檢查的結(jié)果可以分為以下這么幾類:
1.健康檢出陽性
2.健康檢出陰性
3.患者檢出陽性
4.患者檢出陰性
如下圖所示:
在看第一個新信息:王二已經(jīng)被檢查出了陽性模闲。
也就是說,因為王二已經(jīng)觀察到了“陽性”這一結(jié)果崭捍,所有的“陰性”結(jié)果便可排除掉了尸折。陰性結(jié)果有些啥呢?兩種殷蛇。
一是实夹,“患者檢查出陰性”
二是,“健康檢查出陰性”
排出這兩種之后粒梦,用圖形表示如下:
獲得新信息后亮航,可能性受到限定。
3.計算后驗概率
由于“陽性”這一診斷結(jié)果匀们,可能世界被限定為2個缴淋,也就是王二所處的世界要么是“患者檢查出陽性”,要么是“健康檢查出陽性”泄朴,兩種可能性重抖。對檢查結(jié)果的觀察,使得可能性從4種變成2種叼旋。這樣概率相加之和(上圖中長方形的面積)無法為1 仇哆。因此,為了恢復(fù)標(biāo)準(zhǔn)化條件(概率相加之和為1)夫植,需在保持比例關(guān)系的條件下讹剔,使之“相加之和等于1”。
從上圖結(jié)果可以得知详民,在得知“陽性”這一檢查結(jié)果的情況下延欠,王二患艾滋病的概率為1.86%,不到2%沈跨,這便是后驗概率由捎。
從后驗概率看,王二的天并沒有塌下來饿凛,他可以繼續(xù)鬼混了狞玛。哈哈
我們再此總結(jié)下,貝葉斯推理的順序:
1.先驗概率
2.條件概率
3.獲新信息
4.后驗概率
在解決王二問題時涧窒,我們是知道先驗概率的心肪,是有客觀數(shù)據(jù)做參考的。
那么纠吴,像問題3這種硬鞍,信息比較少的情況下能否做貝葉斯推理呢?
答案是,可以的固该。
這也正是貝葉斯推理的牛逼之處锅减。
怎么做呢?
我們利用問題3伐坏,再鞏固一下這一推理流程怔匣。
? ? ?
? ? 信息不足下的貝葉斯推理
3.和張小花相親之后,王二被迷得神魂顛倒著淆,但小花對王二卻忽冷忽熱劫狠。情人節(jié)到了拴疤,小花給王二送了盒巧克力永部,請問小花喜歡王二的概率有多大?
1.找“先驗概率”
張小花是否喜歡王二呢呐矾?沒有大數(shù)據(jù)可查苔埋,他兩相親第一次見面。這種情況下蜒犯,一般可以采用“理由不充分”原理组橄,暫且把“喜歡”,“ 不喜歡”這兩種情況的概率視為相等罚随。也就是先驗概率分別為0.5玉工,0.5
2.找條件概率
王二在某調(diào)查網(wǎng)站發(fā)現(xiàn),情人節(jié)淘菩,女生給喜歡的人送出巧克力的概率是0.4遵班;女生給普通朋友送出巧克力的概率是0.2;
3.尋找新信息
王二在情人節(jié)潮改,收到了小花的巧克力狭郑。
4.得出后驗概率
從上圖看,張小花喜歡王二的后驗概率為2/3汇在,約為66%翰萨。
在收到巧克力前,張小花喜歡王二的概率為50%糕殉,通過送巧克力這一行為之后亩鬼,概率上升到了66%,這也符合我們的生活經(jīng)驗阿蝶。貝葉斯推理的便利之處在于雳锋,能夠?qū)⑵渫ㄟ^數(shù)值表達(dá)出來。
貝葉斯推理餓便利之處還在于赡磅,數(shù)據(jù)很少的情況下也可以進(jìn)行推測魄缚,數(shù)據(jù)越多,推測的結(jié)果越準(zhǔn)。
貝葉斯推理的牛叉之處還在于冶匹,對獲得的信息可以做出瞬時反應(yīng)习劫,自動升級推測,將先驗概率更新為后驗概率嚼隘,具備了學(xué)習(xí)功能诽里。
我們也是這學(xué)習(xí)的,從這個角度講飞蛹,貝葉斯推理人人都該會谤狡,人人都該用;人人都該會而常用卧檐,用而自知墓懂。
? ? ? ? ? ?
? ? ? ? 貝葉斯推理的本質(zhì)
貝葉斯推理的本質(zhì)是什么?
求解某事的條件概率霉囚。
問題3捕仔,求解的是,在小花給王二送了巧克力這一條件下盈罐,小花喜歡王二的概率榜跌。
P(A|B)=P(小花喜歡王二 | 小花給王二送了巧克力 )
問題4,求解的是盅粪,在王二檢查出HIV陽性的這一條件下钓葫,王二患艾滋病的概率。
P(A|B)=P(王二患艾滋病| 王二檢查出HIV陽性)
有興趣的你票顾,可以計算下下面幾道題的條件概率
1.某小孩生在上海础浮,那么他上私立小學(xué)的概率;
2.某小孩上了私立小學(xué)库物,那么他上著名私立初高中的概率
3.某小孩上了著名私立初高中霸旗,那么他考上清北的概率
4.某小孩上了清北,那么他成為人生贏家的概率戚揭。
《從0到1》的作者彼得?蒂爾說:如今的哈佛等名校錄取诱告,已經(jīng)成為一場超級智力測試。
比爾?蓋茨小時候也上各種補習(xí)班的民晒。
扎克伯格就讀的高中精居,菲利普斯埃克塞特學(xué)院是美國最頂尖的私立寄宿高中之一潜必,被《經(jīng)濟學(xué)人》列為"英美私立高中第一梯隊"靴姿。
該校 SAT 平均成績在 300 多所美國私立寄宿高中里經(jīng)常排名第一,每年近三分之一畢業(yè)生被常春藤聯(lián)盟等名校錄取磁滚。
清北有更優(yōu)的牛逼條件概率
著名私立高中有更優(yōu)的清北條件概率
生于大城市有更優(yōu)的私立初高中條件概率佛吓。
練習(xí)題:
一輛出租車在夜晚肇事后逃逸宵晚。
這座城市有兩家出租車公司,其中一家公司的出租車是綠色的维雇,另一家是藍(lán)色的淤刃。
你知道以下數(shù)據(jù):
·這座城市85%的出租車是綠色的,15%是藍(lán)色的吱型。
·一位目擊證人辨認(rèn)出那輛肇事出租車是藍(lán)色的逸贾。當(dāng)晚,警察在出事地點對證人的證詞進(jìn)行了測試津滞,得出的結(jié)論是:目擊者在當(dāng)時能夠正確辨認(rèn)出這兩種顏色的概率是80%铝侵,錯誤的概率是20%。
肇事出租車是藍(lán)色的概率是多少触徐?
ps:哦咪鲜,好像問題2沒用到。whatever锌介,放著吧嗜诀,下次繼續(xù)。