1.2上 概率論基礎(chǔ)
概率論是整個(gè)模式識(shí)別與機(jī)器學(xué)習(xí)的基礎(chǔ)讶隐,本節(jié)對(duì)應(yīng)PRML書1.2節(jié)的概率部分,以后不再單獨(dú)說明久又。
求和法則與乘法法則
假設(shè)有兩個(gè)離散隨機(jī)變量 和
巫延,
的取值范圍為
,
的取值范圍為
地消。我們考慮在
次實(shí)驗(yàn)中同時(shí)對(duì)
和
進(jìn)行采樣炉峰,設(shè)
表示
且
發(fā)生的次數(shù),
表示
發(fā)生的次數(shù)(不管
取值多少)犯建,
表示
發(fā)生的次數(shù)讲冠。
那么根據(jù)頻率學(xué)派的觀點(diǎn), 且
發(fā)生的概率适瓦,即二者的聯(lián)合概率(joint probability)定義為點(diǎn)
落在單元
的次數(shù)占總實(shí)驗(yàn)次數(shù)的比例:
這里我們默認(rèn)竿开。類似地,
的概率
由如下公式給出:
注意到 玻熙,由此我們可以得到概率論中的求和法則(sum rule):
如果我們只考慮 的樣例中
樣本所占的比例否彩,記為
,也被稱為給定
情況下
的條件概率嗦随,則該條件概率可以由落在單元
內(nèi)的點(diǎn)的個(gè)數(shù)與落在第
列的點(diǎn)的總數(shù)的比值給出:
在定義了條件概率之后列荔,我們回過頭來看聯(lián)合概率,可以發(fā)現(xiàn):
上述公式即為概率論中的乘法法則(product rule)枚尼。
為了表述方便贴浙,我們將的具體取值省略,將兩個(gè)法則寫為:
這兩個(gè)簡(jiǎn)單的規(guī)則組成了全書中使?的全部概率推導(dǎo)的基礎(chǔ)署恍。
貝葉斯公式
根據(jù)乘法法則以及聯(lián)合概率的對(duì)稱性()可得:
上式又可以改寫為
這個(gè)公式就是概率論中的貝葉斯公式(Bayes' theorem)崎溃,它在機(jī)器學(xué)習(xí)和模式識(shí)別中發(fā)揮著至關(guān)重要的作用。其中 稱為后驗(yàn)概率(posterior probability)盯质,
稱為似然函數(shù)(likelihood function)袁串,
稱為先驗(yàn)概率(prior probability),
稱為歸一化因子(normalize factor)。根據(jù)加法公式我們可以把分母用分子中的似然函數(shù)和先驗(yàn)概率來表示:
如果聯(lián)合概率可以分解為各自邊緣概率的乘積呼巷,即 囱修,則我們說
和
彼此獨(dú)立,并且有
王悍,也就是說給定
情況下
的分布與
的取值無關(guān)破镰。
概率密度
我們可以把概率的定義從離散的情況推廣到連續(xù)的情形,在這種背景下,我們引入概率密度函數(shù)(probability density)來描述連續(xù)隨機(jī)變量
的概率分布啤咽。
概率密度 當(dāng)
時(shí)晋辆,如果
落在區(qū)間
的概率等于
,即
則稱為
的概率密度函數(shù)
注意到當(dāng) 時(shí)宇整,
可以視為圖中陰影部分的面積:
那么 落在區(qū)間
內(nèi)的概率
就是
在區(qū)間
內(nèi)的面積瓶佳,我們可以用概率密度的積分來表示它:
此外,考慮到概率的性質(zhì)鳞青,概率密度也必須滿足:
利用密度函數(shù)在一個(gè)區(qū)間上的積分等于隨機(jī)變量落在這個(gè)區(qū)間上的概率這一性質(zhì)霸饲,我們可以定義累積密度函數(shù)(cdf):
表示
處于
之間的概率,且滿足
假設(shè)我們知道的概率密度為
臂拓,如果我們對(duì)
做一個(gè)非線性變換
厚脉,那么我們可以用如下公式計(jì)算
的概率密度
:
這個(gè)公式稱為變?cè)剑╟hange of a variable),證明過程如下:
首先將簡(jiǎn)記為
胶惰,將
簡(jiǎn)記為
傻工。因?yàn)楦怕拭芏仁欠植己瘮?shù)的導(dǎo)數(shù),根據(jù)定義我們有
同樣地孵滞,我們可以將加法公式中捆、乘法公式和貝葉斯公式推廣到連續(xù)隨機(jī)變量上:
期望和協(xié)方差
函數(shù) 在概率密度
下的加權(quán)平均稱為
的期望(expectation),當(dāng)
為離散隨機(jī)變量時(shí)期望定義為
當(dāng) 為連續(xù)隨機(jī)變量時(shí)期望定義為
給定 個(gè)從分布
抽樣得到的樣本
坊饶,我們可以用如下公式近似估計(jì)期望:
當(dāng) 時(shí)泄伪,上式的估計(jì)會(huì)變的精確。
有時(shí)我們希望計(jì)算多元函數(shù)關(guān)于某個(gè)變量的期望匿级,我們用下標(biāo)指定要求期望的變量:
條件期望(conditional expectation)定義為
函數(shù) 的方差定義為
經(jīng)過一番計(jì)算蟋滴,方差可以簡(jiǎn)化為
隨機(jī)變量 和
的協(xié)方差(covariance)定義為
隨機(jī)向量 和
的協(xié)方差(covariance)定義為
貝葉斯概率
本章?前為?,我們根據(jù)隨機(jī)重復(fù)事件的頻率來考察概率痘绎。我們把這個(gè)叫做經(jīng)典的(classical)或者頻率學(xué)家(frequentist)的關(guān)于概率的觀點(diǎn)津函,簡(jiǎn)稱頻率派。現(xiàn)在我們轉(zhuǎn)向更加通?的貝葉斯派(Bayesian)觀點(diǎn)孤页。這種觀點(diǎn)中球散,提供了不確定性的?個(gè)定量化描述。 考慮以下問題:
2050年南極冰川是否會(huì)全部融化散庶?
因?yàn)槲覀儫o法對(duì)其進(jìn)行觀測(cè)和實(shí)驗(yàn),這就導(dǎo)致了該事件的概率是未定義的凌净。貝葉斯統(tǒng)計(jì)學(xué)則為我們提供了一種完全不同的視角來看待這個(gè)問題悲龟。貝葉斯派認(rèn)為概率是一種不確定性的度量,是人對(duì)于某個(gè)不確定事件是否會(huì)發(fā)生的置信度冰寻。貝葉斯的主要思路是通過不斷收集證據(jù)來修正人對(duì)某件事的主觀認(rèn)識(shí)须教,比如我們可以通過觀察南極冰川融化的速度來量化其不確定性,從而決定是否要減少溫室氣體的排放。 在這樣的情況下轻腺,我們可能希望能夠定量地描述不確定性乐疆,并且根據(jù)少量新的證據(jù)對(duì)不確定性進(jìn)?精確的修改,對(duì)接下來將要采取的動(dòng)作進(jìn)?修改贬养,或者對(duì)最終的決策進(jìn)?修改挤土。這可以通過?種優(yōu)雅的通?的貝葉斯概率觀點(diǎn)來實(shí)現(xiàn)。
考慮上一節(jié)介紹的曲線擬合的例子误算,對(duì)于觀察到的變量 這?隨機(jī)值的概率仰美,頻率派的觀點(diǎn)似乎是很合理的。然?儿礼,我們想針對(duì)模型參數(shù)
的合適選擇進(jìn)?強(qiáng)調(diào)和定量化咖杂。我們將會(huì)看到,從貝葉斯的觀點(diǎn)來看蚊夫,我們能夠使?概率論來描述模型參數(shù)的不確定性诉字,或者模型本?的選擇。獲得觀測(cè)樣本前我們對(duì)于模型參數(shù)
的假設(shè)以先驗(yàn)分布
的形式表達(dá)知纷,采集到的觀測(cè)數(shù)據(jù)
通過似然函數(shù)
發(fā)揮作用壤圃,注意到它是關(guān)于
(已知)的分布,因此它是關(guān)于
的函數(shù)屈扎,反映了在不同的模型參數(shù)
下產(chǎn)生該組觀測(cè)值的可能性埃唯。通過似然函數(shù),我們將關(guān)于
的置信度轉(zhuǎn)變?yōu)榱?strong>后驗(yàn)概率分布
的形式鹰晨,它讓我們能夠通過后驗(yàn)概率
在獲得觀測(cè)數(shù)據(jù)
后估計(jì)
的不確定性(對(duì)于先驗(yàn)
的修正)墨叛。具體地,依據(jù)貝葉斯公式有:
注意到 只是個(gè)定值模蜡,起到歸一化作用漠趁,我們可以將其用先驗(yàn)和似然的乘積關(guān)于
的積分表示出來
如果忽略 ,我們可以將先驗(yàn)忍疾、似然闯传、后驗(yàn)之間的關(guān)系表達(dá)為如下的形式:
其中表示正比符號(hào),三個(gè)量都可以視為
的函數(shù)卤妒。
貝葉斯觀點(diǎn)的?個(gè)優(yōu)點(diǎn)是對(duì)先驗(yàn)概率的包含是很?然的事情甥绿。例如,假定投擲?枚普通的硬幣3次则披,每次都是正?朝上共缕。?個(gè)經(jīng)典的最?似然模型在估計(jì)硬幣正?朝上的概率時(shí),結(jié)果會(huì)是1士复,表示所有未來的投擲都會(huì)是正?朝上图谷!相反翩活,?個(gè)帶有任意的合理的先驗(yàn)的貝葉斯?法將不會(huì)得出這么極端的結(jié)論。
頻率派VS貝葉斯派
無論是頻率派還是貝葉斯派便贵,似然函數(shù)都起著重要的作用菠镇,然而對(duì)似然函數(shù)使用方式的不同是兩者最本質(zhì)的區(qū)別。以上一節(jié)介紹的曲線擬合為例承璃,頻率派認(rèn)為參數(shù) 是固定的利耍,我們通過最大化似然函數(shù)的思想利用觀測(cè)數(shù)據(jù)去反推這個(gè)參數(shù)值
。這對(duì)應(yīng)于選擇使觀察到的數(shù)據(jù)集出現(xiàn)概率最?的參數(shù)值绸硕。在機(jī)器學(xué)習(xí)的?獻(xiàn)中堂竟,似然函數(shù)的負(fù)對(duì)數(shù)被叫做誤差函數(shù)(error function)。由于負(fù)對(duì)數(shù)是單調(diào)遞減的函數(shù)玻佩,最?化似然函數(shù)等價(jià)于最?化誤差函數(shù)出嘹。
而貝葉斯派則認(rèn)為我們只有一個(gè)數(shù)據(jù)集 (即實(shí)際觀測(cè)到的數(shù)據(jù)集),模型參數(shù)
是隨機(jī)的咬崔,我們通過似然函數(shù)將先驗(yàn)修改為后驗(yàn)税稼。
針對(duì)貝葉斯?法的?種?泛的批評(píng)就是先驗(yàn)概率的選擇通常是為了計(jì)算的?便而不是為了反映出任何先驗(yàn)的知識(shí)。某些?甚?把貝葉斯觀點(diǎn)中結(jié)論對(duì)于先驗(yàn)選擇的依賴性的本質(zhì)看成困難的來源垮斯。 特殊情況下郎仆,如果把先驗(yàn)去掉或者先驗(yàn)是uniform distribution,則貝葉斯方法等價(jià)于頻率方法兜蠕。