貝葉斯推理:大佬都用的概率思維

人生中最重要的問題拦惋,在絕大多數(shù)情況下憎亚,真的就只是概率問題员寇。 --- 皮埃爾-西蒙·拉普拉斯(1749-1827)


? ? ? ? ? ? ? ? ? 幾道測試題

1.王二是一個普通大學(xué)畢業(yè)的本科生。那么請問他更可能是下面哪種職業(yè)第美?

A:張江程序員

B:陸家嘴金融男


2.有一天王二去相親遇到了張小花蝶锋,張小花長的像下面這個妹子。請問張小花的職業(yè)更可能是下面哪種什往?

A:模特

B: 職員

C: 胸器逼人的職員


圖片發(fā)自簡書App

3.和張小花相親之后扳缕,王二被迷得神魂顛倒,但小花對王二卻忽冷忽熱别威。情人節(jié)到了躯舔,小花給王二送了盒巧克力,請問小花喜歡王二的概率有多大省古?

4.時光荏苒粥庄,王二被小花甩了之后,王二喜歡鬼混豺妓,有一天忽覺身體不適惜互,懷疑自己是不是得了花柳病布讹。王二查資料發(fā)現(xiàn),HIV在健康男性中總體發(fā)病率為0.1%训堆。王二不放心炒事,去醫(yī)院檢查,結(jié)果呈HIV陽性蔫慧。醫(yī)生告訴他挠乳,咱醫(yī)院的設(shè)備還是很先進(jìn)的,準(zhǔn)確率高達(dá)95%姑躲;請問王二得艾滋病的概率是多少睡扬?



? ? ? ? 人人都需要一點概率知識


有人還需要一點貝葉斯概率知識,比如王二黍析。

首先說說什么是概率卖怜?

概率不是一個簡單的概念。邏輯學(xué)家和統(tǒng)計學(xué)家互相爭論阐枣,提出了多個關(guān)于概率的定義马靠,全都非常精確。然而對我們外行人來說蔼两,概率(在日常生活中和“可能性”是同義詞)是一個相對含糊的概念甩鳄,與不確定性,傾向性额划,貌似正確及出乎意料等詞緊密相關(guān)妙啃。

其實,概率有兩種俊戳。

1是客觀概率

我們初中揖赴,高中學(xué)的概率,是一個客觀的概念抑胎。比如燥滑,擲骰子出現(xiàn)點數(shù)1的概率是六分之一“⑻樱可以解釋為铭拧,丟很多次骰子,平均有六分之一的次數(shù)會出現(xiàn)點數(shù)1盆昙,可以用頻率去解釋羽历。每人計算出的概率也都是相同的。又比如狐蜕,問題4中辙培,王二患艾滋病的概率。

2是主觀概率

還有一種概率,沒法用客觀概率去解釋,比如問題3中瓶摆,張小花喜歡王二的概率。王小花是獨一無二的,沒法用多個王小花喜歡王二的頻率去解釋易桃。但可以這么解釋:你內(nèi)心描繪的類似“信念程度”這樣的概念。是一種主觀概率锌俱。

? ? ? ? ? 什么是貝葉斯推理晤郑?

什么是貝葉斯推理?

一句話概括就是贸宏,我們根據(jù)新的信息/證據(jù)/數(shù)據(jù)來更新看法/判斷/信念造寝。

試問誰人不是如此,人人都在用吭练,但多數(shù)人都是用而不自知诫龙。

我們天生就是貝葉斯動物。

托馬斯·貝葉斯(Thomas Bayes)是18世紀(jì)初蘇格蘭的一位神父鲫咽。他想證明上帝存在签赃,用了兩個步驟:第一步,如果上帝存在分尸,就會有如此這般的事情發(fā)生锦聊;第二步反過來,如果如此這般的事情發(fā)生箩绍,那么我們對上帝存在的信心會增加多少括丁?

貝葉斯推理本質(zhì)上是條件概率的變形,已知如果a則b伶选,反過來求解如果b則a的概率史飞。是不是有點暈了,別擔(dān)心仰税,聽我給你一一分解构资。

我們再看一遍貝葉斯推理的概括:我們根據(jù)新的信息/證據(jù)/數(shù)據(jù)來更新看法/判斷/信念。

這句話可以分成三部分:

舊的看法/判斷/信念

新的信息/證據(jù)/數(shù)據(jù)

新的看法/判斷/信念


這三部分可用數(shù)學(xué)語言概括如下

先驗概率(舊的看法/判斷/信念)

條件概率(新的信息/證據(jù)/數(shù)據(jù))

后驗概率(新的看法/判斷/信念)


完整的貝葉斯推理可以概括為如下幾個步驟

通過經(jīng)驗或者歷史數(shù)據(jù)設(shè)定“先驗概率”

設(shè)置發(fā)生某事件的“新信息“

通過觀察到的行為排除掉不可能的情況

將先驗概率更新為“后驗概率”


? ? ? ? ? ? ? ? ? 先驗概率

先驗概率陨簇,是獲得新信息之前吐绵,各個類別存在的概率。

回看問題1河绽,你認(rèn)為王二是程序員還是金融男己单?

你猜程序員是吧?

為啥鞍沂巍纹笼?

程序員的基數(shù)比金融男大多了啊。

現(xiàn)實是苟跪,10個里面廷痘,8個程序員2個金融男蔓涧。

這就是先驗概率,在我進(jìn)一步了解王二之前笋额,只能毛估著來元暴。

這個基于經(jīng)驗或者歷史數(shù)據(jù)推斷出發(fā)毛估估的概率就是先驗概率。

程序員的先驗概率是:8/10=0.8

金融男的先驗概率是:2/10=0.2

? ? ? ? ?

? ? ? ? ? ? ? ? 條件概率

條件概率是指兄猩,事件a在事件b已經(jīng)發(fā)生條件下的發(fā)生概率茉盏。

P(A) —事件a發(fā)生的概率

P(B)—事件b發(fā)生的概率

P(A|B) —在事件b發(fā)生的條件下事件a發(fā)生的概率

我們回看一下問題3,

“小花給王二送了巧克力”這個是新的已經(jīng)發(fā)生的信息枢冤,即事件b

”小花喜歡王二”就是事件a

我們要求解的問題就是鸠姨,

P(A|B)=P(小花喜歡王二 | 小花給王二送了巧克力 )

讀做,在小花給王二送了巧克力這一條件下掏导,小花喜歡王二的概率享怀。

先不急著求解,我們繼續(xù)趟咆。



? ? ? ? ? ? ? ? 后驗概率

通過新信息將先驗概率通過貝葉斯更新添瓷,就可以轉(zhuǎn)換為“后驗概率”

啥意思呢?

舉個例子

我們常說“吃一塹長一智”值纱,

舊智鳞贷,就相當(dāng)于先驗概率;

新智虐唠,就相當(dāng)于后驗概率搀愧;

吃的那一塹,就是新信息疆偿。

從“舊智”到“新智”就是貝葉斯更新咱筛。

再舉個例子,回到上面的問題4

王二患艾滋病的概率是多少杆故?

95%迅箩?

No!

? ? ? ? ? ?


? ? ? ? ? 貝葉斯定理的計算

現(xiàn)在我們用問題4处铛,來完整演算一遍貝葉斯概率的計算過程饲趋。

貝葉斯定理公式


圖片發(fā)自簡書App

當(dāng)然我們不需用公式去計算,太麻煩撤蟆,記不住奕塑,記住也會忘。

前幾天學(xué)到了一個熱別牛叉的方法家肯,叫圖解法龄砰,是人就能學(xué)會,不會不是中國人息楔。

我們回顧一下題目:

4.時光荏苒寝贡,王二被小花甩了之后扒披,王二喜歡鬼混值依,有一天忽覺身體不適圃泡,懷疑自己是不是得了花柳病。王二查資料發(fā)現(xiàn)愿险,HIV在健康男性中總體發(fā)病率為0.1%颇蜡。王二不放心,去醫(yī)院檢查辆亏,結(jié)果呈HIV陽性风秤。醫(yī)生告訴他,咱醫(yī)院的設(shè)備還是很先進(jìn)的扮叨,準(zhǔn)確率高達(dá)95%缤弦;請問王二得艾滋病的概率是多少?

1.先找“先驗概率”

“HIV在健康男性中總體發(fā)病率為0.1%”換句話說彻磁,在1000個人中有1個HIV患者碍沐,999個健康人

圖示如下:


圖片發(fā)自簡書App

該圖表示的是:在接受檢查之前,判斷是否患艾滋病的可能性衷蜓。王二所在的世界分成左側(cè)表示“罹患艾滋病”和右側(cè)“身體健康”的兩個“可能世界”累提,二王二一定處在兩個當(dāng)中的一個。但并不知道是在哪一個磁浇,僅僅是推測而已斋陪。通過流行病學(xué)數(shù)據(jù)王二知道,1000個人中就有1個有艾滋病置吓。所以无虚,王二在沒有去醫(yī)院檢查前,推算屬于左側(cè)的概率是0.1%衍锚,屬于右側(cè)是99.9%


2.以檢查準(zhǔn)確率為線索友题,設(shè)定“條件概率”

本例中,新信息指“王二的檢查結(jié)果呈陽性”和“檢查的準(zhǔn)確率”

先看第二個新信息构拳,從醫(yī)生的話中咆爽,我們可以得出如下信息:


圖片發(fā)自簡書App

醫(yī)生說的準(zhǔn)確率95%,包括兩層含義置森,

一是上面一行斗埂,本來是患者結(jié)果有5%沒檢查出來,屬于漏檢凫海;

二是下面那行呛凶,本來是健康人,結(jié)果有5%檢查為患者行贪,屬于誤檢漾稀;

所以醫(yī)院檢查的結(jié)果可以分為以下這么幾類:

1.健康檢出陽性

2.健康檢出陰性

3.患者檢出陽性

4.患者檢出陰性

如下圖所示:


圖片發(fā)自簡書App


在看第一個新信息:王二已經(jīng)被檢查出了陽性模闲。

也就是說,因為王二已經(jīng)觀察到了“陽性”這一結(jié)果崭捍,所有的“陰性”結(jié)果便可排除掉了尸折。陰性結(jié)果有些啥呢?兩種殷蛇。

一是实夹,“患者檢查出陰性”

二是,“健康檢查出陰性”

排出這兩種之后粒梦,用圖形表示如下:


圖片發(fā)自簡書App

獲得新信息后亮航,可能性受到限定。


3.計算后驗概率

由于“陽性”這一診斷結(jié)果匀们,可能世界被限定為2個缴淋,也就是王二所處的世界要么是“患者檢查出陽性”,要么是“健康檢查出陽性”泄朴,兩種可能性重抖。對檢查結(jié)果的觀察,使得可能性從4種變成2種叼旋。這樣概率相加之和(上圖中長方形的面積)無法為1 仇哆。因此,為了恢復(fù)標(biāo)準(zhǔn)化條件(概率相加之和為1)夫植,需在保持比例關(guān)系的條件下讹剔,使之“相加之和等于1”。


圖片發(fā)自簡書App

從上圖結(jié)果可以得知详民,在得知“陽性”這一檢查結(jié)果的情況下延欠,王二患艾滋病的概率為1.86%,不到2%沈跨,這便是后驗概率由捎。


從后驗概率看,王二的天并沒有塌下來饿凛,他可以繼續(xù)鬼混了狞玛。哈哈

我們再此總結(jié)下,貝葉斯推理的順序:

1.先驗概率

2.條件概率

3.獲新信息

4.后驗概率

在解決王二問題時涧窒,我們是知道先驗概率的心肪,是有客觀數(shù)據(jù)做參考的。

那么纠吴,像問題3這種硬鞍,信息比較少的情況下能否做貝葉斯推理呢?

答案是,可以的固该。

這也正是貝葉斯推理的牛逼之處锅减。

怎么做呢?

我們利用問題3伐坏,再鞏固一下這一推理流程怔匣。

? ? ?

? ? 信息不足下的貝葉斯推理

3.和張小花相親之后,王二被迷得神魂顛倒著淆,但小花對王二卻忽冷忽熱劫狠。情人節(jié)到了拴疤,小花給王二送了盒巧克力永部,請問小花喜歡王二的概率有多大?

1.找“先驗概率”

張小花是否喜歡王二呢呐矾?沒有大數(shù)據(jù)可查苔埋,他兩相親第一次見面。這種情況下蜒犯,一般可以采用“理由不充分”原理组橄,暫且把“喜歡”,“ 不喜歡”這兩種情況的概率視為相等罚随。也就是先驗概率分別為0.5玉工,0.5

2.找條件概率

王二在某調(diào)查網(wǎng)站發(fā)現(xiàn),情人節(jié)淘菩,女生給喜歡的人送出巧克力的概率是0.4遵班;女生給普通朋友送出巧克力的概率是0.2;

3.尋找新信息

王二在情人節(jié)潮改,收到了小花的巧克力狭郑。

4.得出后驗概率


圖片發(fā)自簡書App

從上圖看,張小花喜歡王二的后驗概率為2/3汇在,約為66%翰萨。

在收到巧克力前,張小花喜歡王二的概率為50%糕殉,通過送巧克力這一行為之后亩鬼,概率上升到了66%,這也符合我們的生活經(jīng)驗阿蝶。貝葉斯推理的便利之處在于雳锋,能夠?qū)⑵渫ㄟ^數(shù)值表達(dá)出來。

貝葉斯推理餓便利之處還在于赡磅,數(shù)據(jù)很少的情況下也可以進(jìn)行推測魄缚,數(shù)據(jù)越多,推測的結(jié)果越準(zhǔn)。

貝葉斯推理的牛叉之處還在于冶匹,對獲得的信息可以做出瞬時反應(yīng)习劫,自動升級推測,將先驗概率更新為后驗概率嚼隘,具備了學(xué)習(xí)功能诽里。

我們也是這學(xué)習(xí)的,從這個角度講飞蛹,貝葉斯推理人人都該會谤狡,人人都該用;人人都該會而常用卧檐,用而自知墓懂。

? ? ? ? ? ?

? ? ? ? 貝葉斯推理的本質(zhì)

貝葉斯推理的本質(zhì)是什么?

求解某事的條件概率霉囚。

問題3捕仔,求解的是,在小花給王二送了巧克力這一條件下盈罐,小花喜歡王二的概率榜跌。

P(A|B)=P(小花喜歡王二 | 小花給王二送了巧克力 )

問題4,求解的是盅粪,在王二檢查出HIV陽性的這一條件下钓葫,王二患艾滋病的概率。

P(A|B)=P(王二患艾滋病| 王二檢查出HIV陽性)


有興趣的你票顾,可以計算下下面幾道題的條件概率

1.某小孩生在上海础浮,那么他上私立小學(xué)的概率;

2.某小孩上了私立小學(xué)库物,那么他上著名私立初高中的概率

3.某小孩上了著名私立初高中霸旗,那么他考上清北的概率

4.某小孩上了清北,那么他成為人生贏家的概率戚揭。

《從0到1》的作者彼得?蒂爾說:如今的哈佛等名校錄取诱告,已經(jīng)成為一場超級智力測試。

比爾?蓋茨小時候也上各種補習(xí)班的民晒。

扎克伯格就讀的高中精居,菲利普斯埃克塞特學(xué)院是美國最頂尖的私立寄宿高中之一潜必,被《經(jīng)濟學(xué)人》列為"英美私立高中第一梯隊"靴姿。

該校 SAT 平均成績在 300 多所美國私立寄宿高中里經(jīng)常排名第一,每年近三分之一畢業(yè)生被常春藤聯(lián)盟等名校錄取磁滚。

清北有更優(yōu)的牛逼條件概率
著名私立高中有更優(yōu)的清北條件概率
生于大城市有更優(yōu)的私立初高中條件概率佛吓。



練習(xí)題:

一輛出租車在夜晚肇事后逃逸宵晚。
這座城市有兩家出租車公司,其中一家公司的出租車是綠色的维雇,另一家是藍(lán)色的淤刃。
你知道以下數(shù)據(jù):
·這座城市85%的出租車是綠色的,15%是藍(lán)色的吱型。
·一位目擊證人辨認(rèn)出那輛肇事出租車是藍(lán)色的逸贾。當(dāng)晚,警察在出事地點對證人的證詞進(jìn)行了測試津滞,得出的結(jié)論是:目擊者在當(dāng)時能夠正確辨認(rèn)出這兩種顏色的概率是80%铝侵,錯誤的概率是20%。

肇事出租車是藍(lán)色的概率是多少触徐?

ps:哦咪鲜,好像問題2沒用到。whatever锌介,放著吧嗜诀,下次繼續(xù)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末孔祸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子发皿,更是在濱河造成了極大的恐慌崔慧,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件穴墅,死亡現(xiàn)場離奇詭異惶室,居然都是意外死亡,警方通過查閱死者的電腦和手機玄货,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門皇钞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人松捉,你說我怎么就攤上這事夹界。” “怎么了隘世?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵可柿,是天一觀的道長。 經(jīng)常有香客問我丙者,道長复斥,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任械媒,我火速辦了婚禮目锭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己痢虹,他們只是感情好键俱,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著世分,像睡著了一般编振。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上臭埋,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天踪央,我揣著相機與錄音,去河邊找鬼瓢阴。 笑死畅蹂,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的荣恐。 我是一名探鬼主播液斜,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼叠穆!你這毒婦竟也來了少漆?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤硼被,失蹤者是張志新(化名)和其女友劉穎示损,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嚷硫,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡检访,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了仔掸。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片脆贵。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖起暮,靈堂內(nèi)的尸體忽然破棺而出卖氨,到底是詐尸還是另有隱情,我是刑警寧澤鞋怀,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布双泪,位于F島的核電站,受9級特大地震影響密似,放射性物質(zhì)發(fā)生泄漏焙矛。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一残腌、第九天 我趴在偏房一處隱蔽的房頂上張望村斟。 院中可真熱鬧贫导,春花似錦、人聲如沸蟆盹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽逾滥。三九已至峰档,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間寨昙,已是汗流浹背讥巡。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留舔哪,地道東北人欢顷。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像捉蚤,于是被迫代替她去往敵國和親抬驴。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容