模式識(shí)別與機(jī)器學(xué)習(xí)(二)——概率論基礎(chǔ)诚隙、頻率派與貝葉斯派

1.2上 概率論基礎(chǔ)

概率論是整個(gè)模式識(shí)別與機(jī)器學(xué)習(xí)的基礎(chǔ)讶隐,本節(jié)對(duì)應(yīng)PRML書1.2節(jié)的概率部分,以后不再單獨(dú)說明久又。

求和法則與乘法法則

假設(shè)有兩個(gè)離散隨機(jī)變量 XY 巫延,X 的取值范圍為 x_i,(i=1,2,...,M)Y 的取值范圍為 y_j,(j=1,2,...,L)地消。我們考慮在 N 次實(shí)驗(yàn)中同時(shí)對(duì) XY 進(jìn)行采樣炉峰,設(shè) n_{ij} 表示 X=x_iY=y_j 發(fā)生的次數(shù),c_i 表示 X=x_i 發(fā)生的次數(shù)(不管 Y 取值多少)犯建,r_j 表示 Y=y_j 發(fā)生的次數(shù)讲冠。

概率基礎(chǔ)

那么根據(jù)頻率學(xué)派的觀點(diǎn),X=x_iY=y_j 發(fā)生的概率适瓦,即二者的聯(lián)合概率(joint probability)定義為點(diǎn) (X,Y) 落在單元(i, j)的次數(shù)占總實(shí)驗(yàn)次數(shù)的比例:
p(X=x_i, Y=y_j)=\frac{n_{ij}}{N}
這里我們默認(rèn)N\to \infty竿开。類似地,X=x_i的概率p(X=x_i)由如下公式給出:
p(X=x_i)=\frac{c_i}{N}
注意到 c_i=\sum_{j=1}^L n_{ij}玻熙,由此我們可以得到概率論中的求和法則(sum rule)
p(X=x_i)=\frac{c_i}{N}=\sum_{j=1}^L \frac{n_{ij}}{N}=\sum_{j=1}^L p(X=x_i, Y=y_j)
如果我們只考慮 X=x_i 的樣例中 Y=y_j 樣本所占的比例否彩,記為 p(Y=y_j|X=x_i),也被稱為給定 X=x_i 情況下 Y=y_j 的條件概率嗦随,則該條件概率可以由落在單元 (i, j) 內(nèi)的點(diǎn)的個(gè)數(shù)與落在第 i 列的點(diǎn)的總數(shù)的比值給出:
p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}
在定義了條件概率之后列荔,我們回過頭來看聯(lián)合概率,可以發(fā)現(xiàn):
p(X=x_i, Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)
上述公式即為概率論中的乘法法則(product rule)枚尼。

為了表述方便贴浙,我們將X,Y的具體取值省略,將兩個(gè)法則寫為:

\begin{aligned}\textbf{sum rule}\quad\quad &p(X)=\sum\limits_{Y}p(X,Y)\\\textbf{product rule}\quad\quad &p(X, Y)=p(Y|X) p(X)\end{aligned}

這兩個(gè)簡(jiǎn)單的規(guī)則組成了全書中使?的全部概率推導(dǎo)的基礎(chǔ)署恍。

貝葉斯公式

根據(jù)乘法法則以及聯(lián)合概率的對(duì)稱性(p(X,Y)=p(Y,X))可得:
p(Y|X)p(X)=p(X|Y)p(Y)
上式又可以改寫為
p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}
這個(gè)公式就是概率論中的貝葉斯公式(Bayes' theorem)崎溃,它在機(jī)器學(xué)習(xí)和模式識(shí)別中發(fā)揮著至關(guān)重要的作用。其中 p(Y|X) 稱為后驗(yàn)概率(posterior probability)盯质,p(X|Y) 稱為似然函數(shù)(likelihood function)袁串,p(Y) 稱為先驗(yàn)概率(prior probability),p(X) 稱為歸一化因子(normalize factor)。根據(jù)加法公式我們可以把分母用分子中的似然函數(shù)和先驗(yàn)概率來表示:
p(X)=\sum_{Y}p(X|Y)p(Y)
如果聯(lián)合概率可以分解為各自邊緣概率的乘積呼巷,即 p(X, Y)=p(X)p(Y) 囱修,則我們說 XY 彼此獨(dú)立,并且有 p(Y|X)=p(Y)王悍,也就是說給定 X 情況下 Y 的分布與 X 的取值無關(guān)破镰。

概率密度

我們可以把概率的定義從離散的情況推廣到連續(xù)的情形,在這種背景下,我們引入概率密度函數(shù)(probability density)p(x)來描述連續(xù)隨機(jī)變量 X 的概率分布啤咽。

概率密度 當(dāng)\delta x\to 0時(shí)晋辆,如果X落在區(qū)間(x,x+\delta x)的概率等于p(x)\delta x,即
\lim_{\delta x\to 0} p\big(X\in(x,x+\delta x)\big)=p(x)\delta x
則稱p(x)X的概率密度函數(shù)

注意到當(dāng) \delta x\to 0時(shí)宇整,p(x)\delta x 可以視為圖中陰影部分的面積:

連續(xù)型

那么 X 落在區(qū)間 (a,b) 內(nèi)的概率 p(X\in(a,b)) 就是 p(x) 在區(qū)間 (a,b) 內(nèi)的面積瓶佳,我們可以用概率密度的積分來表示它:
p(X\in(a,b))=\int_a^b p(x)dx
此外,考慮到概率的性質(zhì)鳞青,概率密度也必須滿足:

p(x)\geq 0\\ \int_{-\infty}^{\infty} p(x)dx=1

利用密度函數(shù)在一個(gè)區(qū)間上的積分等于隨機(jī)變量落在這個(gè)區(qū)間上的概率這一性質(zhì)霸饲,我們可以定義累積密度函數(shù)(cdf)
P(z)=\int_{-\infty}^z p(x) dx

P(z)表示 X 處于(-\infty, z)之間的概率,且滿足P'(x)=p(x)

假設(shè)我們知道x的概率密度為 f_X(x)臂拓,如果我們對(duì) x 做一個(gè)非線性變換 y=g(x) 厚脉,那么我們可以用如下公式計(jì)算 y 的概率密度 f_Y(y)
f_Y(y)=f_X(g^{-1}(y))\bigg|\frac{d }{dy}g^{-1}(y)\bigg|

這個(gè)公式稱為變?cè)剑╟hange of a variable),證明過程如下:
首先將P(X\leq x)簡(jiǎn)記為 P_X(x) 胶惰,將 P(Y\leq y) 簡(jiǎn)記為 P_Y(y)傻工。因?yàn)楦怕拭芏仁欠植己瘮?shù)的導(dǎo)數(shù),根據(jù)定義我們有
\begin{aligned}f_Y(y)&=\fracdm6j81t{dy}P_Y(y)=\frac7lf2i3d{dy}P(g(X)\leq y)\\&=\fracqlcr18v{dx}P_X(g^{-1}(y))\bigg|\frac{dx}{dy}\bigg|\\&=f_X(g^{-1}(y))\bigg|\frac4cick3r{dy}g^{-1}(y)\bigg|\end{aligned}
同樣地孵滞,我們可以將加法公式中捆、乘法公式和貝葉斯公式推廣到連續(xù)隨機(jī)變量上:

\begin{aligned}\textbf{sum rule}\quad\quad &p(x)=\int p(x,y) dy\\\textbf{product rule}\quad\quad &p(x, y)=p(y|x) p(x)\\\textbf{Bayes' rule}\quad\quad &p(y|x)=\frac{p(x|y) p(y)}{\int_Y p(x|y) p(y) dy}\end{aligned}

期望和協(xié)方差

函數(shù) f(x) 在概率密度 p(x) 下的加權(quán)平均稱為 f(x)期望(expectation),當(dāng) X 為離散隨機(jī)變量時(shí)期望定義為
\mathbb{E}[f]=\sum_x p(x) f(x)

當(dāng) X 為連續(xù)隨機(jī)變量時(shí)期望定義為
\mathbb{E}[f]=\int p(x)f(x) dx
給定 N 個(gè)從分布 p(x) 抽樣得到的樣本 x_1, x_2, ...,x_N坊饶,我們可以用如下公式近似估計(jì)期望:
\frac{1}{N}\sum_{n=1}^N f(x_n)\approx \mathbb{E}[f]
當(dāng) N\to\infty 時(shí)泄伪,上式的估計(jì)會(huì)變的精確。
有時(shí)我們希望計(jì)算多元函數(shù)關(guān)于某個(gè)變量的期望匿级,我們用下標(biāo)指定要求期望的變量:
E_x[f(x,y)]=\int f(x,y)p(x)dx

條件期望(conditional expectation)定義為
E_x[f|y]=\int p(x|y)f(x)dx
函數(shù) f(x) 的方差定義為
var[f]=\mathbb{E}\big[(f(x)-\mathbb{E}[f(x)])^2\big]
經(jīng)過一番計(jì)算蟋滴,方差可以簡(jiǎn)化為
var[f]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2

隨機(jī)變量 xy協(xié)方差(covariance)定義為
cov[x,y]=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}=\mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y]

隨機(jī)向量 \mathbf{x}\mathbf{y}協(xié)方差(covariance)定義為
cov[\mathbf{x}, \mathbf{y}]=\mathbb{E}_{\mathbf{x},\mathbf{y}}[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\{\mathbf{y}^\top-\mathbb{E}[\mathbf{y}^\top]\}=\mathbb{E}_{\mathbf{x},\mathbf{y}}[\mathbf{x}\mathbf{y}^\top]-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{y}^\top]

貝葉斯概率

本章?前為?,我們根據(jù)隨機(jī)重復(fù)事件的頻率來考察概率痘绎。我們把這個(gè)叫做經(jīng)典的(classical)或者頻率學(xué)家(frequentist)的關(guān)于概率的觀點(diǎn)津函,簡(jiǎn)稱頻率派。現(xiàn)在我們轉(zhuǎn)向更加通?的貝葉斯派(Bayesian)觀點(diǎn)孤页。這種觀點(diǎn)中球散,提供了不確定性的?個(gè)定量化描述。 考慮以下問題:

2050年南極冰川是否會(huì)全部融化散庶?

因?yàn)槲覀儫o法對(duì)其進(jìn)行觀測(cè)和實(shí)驗(yàn),這就導(dǎo)致了該事件的概率是未定義的凌净。貝葉斯統(tǒng)計(jì)學(xué)則為我們提供了一種完全不同的視角來看待這個(gè)問題悲龟。貝葉斯派認(rèn)為概率是一種不確定性的度量,是人對(duì)于某個(gè)不確定事件是否會(huì)發(fā)生的置信度冰寻。貝葉斯的主要思路是通過不斷收集證據(jù)來修正人對(duì)某件事的主觀認(rèn)識(shí)须教,比如我們可以通過觀察南極冰川融化的速度來量化其不確定性,從而決定是否要減少溫室氣體的排放。 在這樣的情況下轻腺,我們可能希望能夠定量地描述不確定性乐疆,并且根據(jù)少量新的證據(jù)對(duì)不確定性進(jìn)?精確的修改,對(duì)接下來將要采取的動(dòng)作進(jìn)?修改贬养,或者對(duì)最終的決策進(jìn)?修改挤土。這可以通過?種優(yōu)雅的通?的貝葉斯概率觀點(diǎn)來實(shí)現(xiàn)。

考慮上一節(jié)介紹的曲線擬合的例子误算,對(duì)于觀察到的變量 t_n 這?隨機(jī)值的概率仰美,頻率派的觀點(diǎn)似乎是很合理的。然?儿礼,我們想針對(duì)模型參數(shù) w 的合適選擇進(jìn)?強(qiáng)調(diào)和定量化咖杂。我們將會(huì)看到,從貝葉斯的觀點(diǎn)來看蚊夫,我們能夠使?概率論來描述模型參數(shù)的不確定性诉字,或者模型本?的選擇。獲得觀測(cè)樣本前我們對(duì)于模型參數(shù) \mathbf{w} 的假設(shè)以先驗(yàn)分布 p(\mathbf{w}) 的形式表達(dá)知纷,采集到的觀測(cè)數(shù)據(jù) \mathcal{D}=\{(x_1,t_1),...,(x_N, t_N)\}通過似然函數(shù)p(\mathcal{D}|\mathbf{w}) 發(fā)揮作用壤圃,注意到它是關(guān)于 \mathcal{D}(已知)的分布,因此它是關(guān)于 \mathbf{w} 的函數(shù)屈扎,反映了在不同的模型參數(shù) \mathbf{w} 下產(chǎn)生該組觀測(cè)值的可能性埃唯。通過似然函數(shù),我們將關(guān)于 \mathbf{w} 的置信度轉(zhuǎn)變?yōu)榱?strong>后驗(yàn)概率分布 p(\mathbf{w}|\mathcal{D}) 的形式鹰晨,它讓我們能夠通過后驗(yàn)概率 p(\mathbf{w}|\mathcal{D}) 在獲得觀測(cè)數(shù)據(jù) \mathcal{D} 后估計(jì) \mathbf{w} 的不確定性(對(duì)于先驗(yàn) p(\mathbf{w}) 的修正)墨叛。具體地,依據(jù)貝葉斯公式有:
p(\mathbf{w}|\mathcal{D})=\frac{p(\mathcal{D}|\mathbf{w})p(\mathbf{w})}{p(\mathcal{D})}

注意到 p(\mathcal{D}) 只是個(gè)定值模蜡,起到歸一化作用漠趁,我們可以將其用先驗(yàn)和似然的乘積關(guān)于 \mathbf{w} 的積分表示出來
p(\mathcal{D})=\int p(\mathcal{D}|\mathbf{w})p(\mathbf{w})d\mathbf{w}
如果忽略 p(\mathcal{D}),我們可以將先驗(yàn)忍疾、似然闯传、后驗(yàn)之間的關(guān)系表達(dá)為如下的形式:
posterior \propto likelihood \times prior
其中\propto表示正比符號(hào),三個(gè)量都可以視為 \mathbf{w} 的函數(shù)卤妒。

貝葉斯觀點(diǎn)的?個(gè)優(yōu)點(diǎn)是對(duì)先驗(yàn)概率的包含是很?然的事情甥绿。例如,假定投擲?枚普通的硬幣3次则披,每次都是正?朝上共缕。?個(gè)經(jīng)典的最?似然模型在估計(jì)硬幣正?朝上的概率時(shí),結(jié)果會(huì)是1士复,表示所有未來的投擲都會(huì)是正?朝上图谷!相反翩活,?個(gè)帶有任意的合理的先驗(yàn)的貝葉斯?法將不會(huì)得出這么極端的結(jié)論。

頻率派VS貝葉斯派

無論是頻率派還是貝葉斯派便贵,似然函數(shù)都起著重要的作用菠镇,然而對(duì)似然函數(shù)使用方式的不同是兩者最本質(zhì)的區(qū)別。以上一節(jié)介紹的曲線擬合為例承璃,頻率派認(rèn)為參數(shù) \mathbf{w} 是固定的利耍,我們通過最大化似然函數(shù)的思想利用觀測(cè)數(shù)據(jù)去反推這個(gè)參數(shù)值 \mathbf{w}。這對(duì)應(yīng)于選擇使觀察到的數(shù)據(jù)集出現(xiàn)概率最?的參數(shù)值绸硕。在機(jī)器學(xué)習(xí)的?獻(xiàn)中堂竟,似然函數(shù)的負(fù)對(duì)數(shù)被叫做誤差函數(shù)(error function)。由于負(fù)對(duì)數(shù)是單調(diào)遞減的函數(shù)玻佩,最?化似然函數(shù)等價(jià)于最?化誤差函數(shù)出嘹。

而貝葉斯派則認(rèn)為我們只有一個(gè)數(shù)據(jù)集 \mathcal{D}(即實(shí)際觀測(cè)到的數(shù)據(jù)集),模型參數(shù) \mathbf{w} 是隨機(jī)的咬崔,我們通過似然函數(shù)將先驗(yàn)修改為后驗(yàn)税稼。

針對(duì)貝葉斯?法的?種?泛的批評(píng)就是先驗(yàn)概率的選擇通常是為了計(jì)算的?便而不是為了反映出任何先驗(yàn)的知識(shí)。某些?甚?把貝葉斯觀點(diǎn)中結(jié)論對(duì)于先驗(yàn)選擇的依賴性的本質(zhì)看成困難的來源垮斯。 特殊情況下郎仆,如果把先驗(yàn)去掉或者先驗(yàn)是uniform distribution,則貝葉斯方法等價(jià)于頻率方法兜蠕。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末扰肌,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子熊杨,更是在濱河造成了極大的恐慌曙旭,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,576評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件晶府,死亡現(xiàn)場(chǎng)離奇詭異桂躏,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)川陆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門剂习,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人较沪,你說我怎么就攤上這事鳞绕。” “怎么了尸曼?”我有些...
    開封第一講書人閱讀 168,017評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵猾昆,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我骡苞,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,626評(píng)論 1 296
  • 正文 為了忘掉前任解幽,我火速辦了婚禮贴见,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘躲株。我一直安慰自己片部,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,625評(píng)論 6 397
  • 文/花漫 我一把揭開白布霜定。 她就那樣靜靜地躺著档悠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪望浩。 梳的紋絲不亂的頭發(fā)上辖所,一...
    開封第一講書人閱讀 52,255評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音磨德,去河邊找鬼缘回。 笑死,一個(gè)胖子當(dāng)著我的面吹牛典挑,可吹牛的內(nèi)容都是我干的酥宴。 我是一名探鬼主播,決...
    沈念sama閱讀 40,825評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼您觉,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼拙寡!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起琳水,我...
    開封第一講書人閱讀 39,729評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤肆糕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后炫刷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體擎宝,經(jīng)...
    沈念sama閱讀 46,271評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,363評(píng)論 3 340
  • 正文 我和宋清朗相戀三年浑玛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了绍申。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,498評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡顾彰,死狀恐怖极阅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情涨享,我是刑警寧澤筋搏,帶...
    沈念sama閱讀 36,183評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站厕隧,受9級(jí)特大地震影響奔脐,放射性物質(zhì)發(fā)生泄漏俄周。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,867評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧绊汹,春花似錦遏弱、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,338評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至尺铣,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間争舞,已是汗流浹背凛忿。 一陣腳步聲響...
    開封第一講書人閱讀 33,458評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留兑障,地道東北人侄非。 一個(gè)月前我還...
    沈念sama閱讀 48,906評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像流译,于是被迫代替她去往敵國(guó)和親逞怨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,507評(píng)論 2 359