大數(shù)據(jù),機(jī)器學(xué)習(xí)聊倔,家庭糾紛晦毙,辛普森案,郵件過濾耙蔑,判別男女见妒,這些看起來不相關(guān)的領(lǐng)域之間有什么聯(lián)系?答案是纵潦,他們都會用到同一個數(shù)學(xué)公式---貝葉斯公式
1徐鹤、貝葉斯框架下的概率理論
概率是我們的一個主管概念垃环,表明我們對某件事情發(fā)生的相信程度,它解決的是來自外部的信息與我們大腦內(nèi)新年的交互關(guān)系返敬。
兩種對于概率的解讀區(qū)別了頻率流派和貝葉斯流派遂庄。
先驗(yàn)概率——新信息——貝葉斯定理——后驗(yàn)概率
2、家庭糾紛
例如:在你老公的包里發(fā)現(xiàn)口紅劲赠,出軌概率是多少涛目?
a/他在沒有任何概率情況下出軌概率是多少?如果他是個老實(shí)巴交的程序員或者風(fēng)流倜儻的CEO凛澎,那么顯然不該一視同仁霹肝。
b/如果你老公出軌了,那么他有口紅的概率是多少塑煎?如果沒出軌沫换,出現(xiàn)這個概率的情況是多少?會不會有沒出軌但出現(xiàn)口紅的情況最铁?是不他人陷害讯赏?
c/根據(jù)1和2求最終問題,
這里1是先驗(yàn)概率P(A)冷尉,2是條件概率P(B|A)漱挎,最終得到3后驗(yàn)概率P(A|B),這三種即是貝葉斯統(tǒng)計的三要素雀哨。
P(A|B)=P(AnB)/P(B)
你得到1磕谅,2就可以根據(jù)公式計算出根據(jù)口紅出現(xiàn)判斷出軌的概率。先驗(yàn)概率即在我們?nèi)〉米C據(jù)之前所定義的概率P(A)雾棺,這個值通常跟我們之前的嘗試膊夹,帶有一定的主觀色彩,像剛剛垢村,代表對男人的信心割疾。
一個有趣的現(xiàn)象是如果我們的先驗(yàn)概率審定為1或0(即肯定某事發(fā)生),那么無論我們?nèi)绾卧黾幼C據(jù)也依然得到同樣的條件概率此時P(A)=0或1嘉栓,P(A|B=0或1)這告訴我們的第一個經(jīng)驗(yàn)就是不要過早下論斷宏榕,下了論斷,你的預(yù)測也無法進(jìn)化了侵佃。如果你想讓你的認(rèn)知進(jìn)步麻昼,就要給各種假設(shè)留一點(diǎn)想象空間。
貝葉斯分析看辛普森案件
貝葉斯分析的思路對于由于證據(jù)的積累來推測一個事物發(fā)生的概率具有重大作用馋辈,它告訴我們抚芦,當(dāng)我們要預(yù)測一個事物,我們需要的是首先,根據(jù)已有的經(jīng)驗(yàn)和認(rèn)知推斷一個先驗(yàn)概率叉抡,然后在新證據(jù)不斷積累的情況下調(diào)整這個概率尔崔,整個通過積累證據(jù)來得到一個事件發(fā)生的概率,就稱為貝葉斯分析褥民。
貝葉斯分析可以瞬間理解一些常用的理論季春,如幸存者偏差,如消返,你發(fā)現(xiàn)一些沒讀過書的人很有錢载弄,事實(shí)上是你發(fā)現(xiàn)就已經(jīng)是幸存者了,而死了的人都沒見到撵颊;還有陰謀論宇攻,陰謀論的特點(diǎn)是條件很多很復(fù)雜,但條件一旦成立倡勇,結(jié)論幾乎成立逞刷,你一旦考慮了先驗(yàn),這些條件成立本身即很困難译隘,陰謀論不攻自破(紅圈和籃圈的面積亲桥,很少我們在開始就知道,這才是應(yīng)用中的難點(diǎn))固耘。
此處,貝葉斯分析的框架也在教我們?nèi)绾翁幚硖乩c一般常識的規(guī)律词身。
如果你太注重特例(即完全不看先驗(yàn)概率)很有可能會誤把噪聲看作信號厅目,而奮不顧身的跳下去。
如果恪守先驗(yàn)概率法严,就會成為無視變化而墨守成規(guī)的人损敷。其實(shí)只有貝葉斯流的人生存率會更高,因?yàn)樗麄儠匾曁乩钇。膊煌洉镜慕?jīng)驗(yàn)拗馒,根據(jù)貝葉斯公式小心調(diào)整信息,甚至?xí)鲃釉O(shè)計實(shí)驗(yàn)根據(jù)信號判斷假設(shè)溯街,這就是我們下一步要講的诱桂。
貝葉斯決策如何判定男女
貝葉斯決策主要包含四個部分:數(shù)據(jù)D,假設(shè)W呈昔,目標(biāo)O挥等,決策S。此處堤尾,數(shù)據(jù)即之前講到的證據(jù)肝劲,假設(shè)我們要檢驗(yàn)的是事實(shí),目標(biāo)是我們最終要取得優(yōu)化的量,決策是根據(jù)目標(biāo)得到的最后行為辞槐。與上一步貝葉斯分析增加的部分是目標(biāo)和決策掷漱。假設(shè)問題里如果是連續(xù)的往往以參數(shù)空間的形式表達(dá)。
然后榄檬,我們可以按如下步驟操作:
第一切威,理清因果鏈條,哪個是假設(shè)丙号,哪個是證據(jù)先朦。
第二,給出所有可能的假設(shè)犬缨,即假設(shè)空間喳魏。
第三,給出先驗(yàn)概率
第四怀薛,根據(jù)貝葉斯概率公式求解后驗(yàn)概率刺彩,得到假設(shè)空間的后驗(yàn)概率分布。
第五枝恋,根據(jù)后驗(yàn)概率求解條件期望创倔,得到條件期望最大值對應(yīng)的行為。
貝葉斯決策如果一旦變成自動化的計算機(jī)算法焚碌,它就是機(jī)器學(xué)習(xí)畦攘。我們就用貝葉斯決策全是一個最簡單的機(jī)器學(xué)習(xí)分類算法——樸素貝葉斯。
假設(shè)給你一個人的身高和體重資料十电,你不知道他的男女性別知押,你可以通過我上述給的貝葉斯決策機(jī)制解決這個問題。
首先鹃骂,我們的證據(jù)是身高和體重台盯,假設(shè)是男或女。先驗(yàn)概率是人口中的男女比例畏线,而我們需要掌握的是條件概率是男性和女性的升高和體重分布静盅,這應(yīng)該是很好站掌握的信息。
然后我們可以根據(jù)貝葉斯公式求解后驗(yàn)概率寝殴,而此處我們要做的決策是男女蒿叠,目標(biāo)是分類錯誤率最低,決策即性別分類杯矩。
此處我們用到的一個基本假設(shè)就是證據(jù)是相互獨(dú)立的栈虚,使我們能夠求更簡單的公式。(樸素貝葉斯史隆,核心在于假設(shè)證據(jù)相互獨(dú)立)
投硬幣的概率并不是50%
事實(shí)上魂务,貝葉斯很少只涉及A和B,而是內(nèi)部包含非常關(guān)鍵的隱變量(參數(shù)),涉及我們對所研究事物的一些基本假設(shè)粘姜,比如下面這個簡單的例子:
拋硬幣鬓照,10次中9次朝上,根據(jù)頻率派的觀點(diǎn)孤紧,得到第11次的概率不變?yōu)?.5豺裆,如果你回答了0.9,你經(jīng)常會被看成一個傻瓜号显,其實(shí)不然臭猜。那么問題來了,我設(shè)一個賭局押蚤,一次正面向上你可以收益100蔑歌,反面懲罰150,給予剛才的事實(shí)你要不要做這個局揽碘?