PRML Chapter 01 Introduction

PRML Chapter 01 Introduction


最近油管上的Siraj Raval小哥發(fā)起了一個(gè)“100 Days of ML Code Challenge”的活動(dòng),在Gayhub上也得到了眾多程序員的響應(yīng),因此,本系列將以PRML為Base涤躲,在100天內(nèi)返帕,由淺入深啄踊,從定義奋姿、公式推導(dǎo)到代碼實(shí)現(xiàn)等幾個(gè)方面以綜述的形式對ML進(jìn)行學(xué)習(xí)廊谓。
第一章PRML通過一些例子對機(jī)器學(xué)習(xí)與模式識別的一些重要基礎(chǔ)概念進(jìn)行了解釋闺骚,而其中主要包括概率論彩扔、決策論,以及信息論三方面的知識僻爽。

A. Probabillity theory


概率論的主要意義在于對不確定性的量化定義虫碉,這也可以看作是人類對于未知的觀察與定義。

a. Prior knowledge

要搞懂概率論在講什么胸梆,首先要知道隨機(jī)試驗(yàn)敦捧、樣本點(diǎn)、樣本空間的定義碰镜,

  • 隨機(jī)試驗(yàn):稱具有以下三個(gè)特點(diǎn)的試驗(yàn)為隨機(jī)試驗(yàn):
    • 明確性:試驗(yàn)的所有可能結(jié)果事前已知兢卵;
    • 隨機(jī)性:在每次試驗(yàn)之前,究竟哪一種結(jié)果會出現(xiàn)绪颖,事先無法確定秽荤;
    • 重復(fù)性:試驗(yàn)可以在相同條件下重復(fù)進(jìn)行。
  • 樣本點(diǎn):隨機(jī)試驗(yàn)E的每一個(gè)可能的結(jié)果稱為E的一個(gè)樣本點(diǎn)柠横。
  • 樣本空間:隨機(jī)試驗(yàn)E的所有樣本點(diǎn)的集合稱為E的樣本空間窃款。

以擲硬幣為例,在試驗(yàn)前牍氛,我們知道其結(jié)果有正面晨继、反面(明確性)掂林;每次試驗(yàn)前砚嘴,無法確定是正面還是反面(隨機(jī)性);顯然梅垄,試驗(yàn)可以在相同條件下重復(fù)進(jìn)行(重復(fù)性)唉擂。因此餐屎,我們可以稱擲硬幣為一個(gè)隨機(jī)試驗(yàn)。對于擲硬幣這一隨機(jī)試驗(yàn)楔敌,我們可以看到其具有兩個(gè)樣本點(diǎn)“正面”啤挎、“反面”驻谆,由此易知樣本空間為{“正面”卵凑,“反面”}庆聘。
通過以上的知識,很自然的勺卢,我們能夠得到概率的公理化定義伙判,即給每個(gè)樣本點(diǎn)賦予一個(gè)數(shù)值表示這個(gè)樣本點(diǎn)在每次試驗(yàn)中出現(xiàn)的幾率。更一般地黑忱,設(shè)隨機(jī)試驗(yàn)E的樣本空間為\Omega宴抚,對E的每一個(gè)隨機(jī)事件A賦予一個(gè)實(shí)數(shù),記為P(A)甫煞,如果集合函數(shù)P(·)滿足以下三個(gè)約束條件菇曲,則稱P(A)為事件A的概率。

\begin{cases} P(\Omega)=1 \\ foreach \ A,\ P(A) \geq 0 \\ P(\cup_{k=1}^{\infty} A_k)=\sum_{k=1}^{\infty}P(A_k),\ s.t. \forall i抚吠、j,\ P(A_i \cap A_j)=\phi \end{cases}

概率論中有兩個(gè)重要的概念是概率分布和概率密度常潮,前者是對整個(gè)樣本空間的分布進(jìn)行的函數(shù)式描述,而后者是對具體的樣本點(diǎn)的分布情況進(jìn)行的描述楷力。為了更方便的定義這兩個(gè)概念喊式,我們首先引入隨機(jī)變量的概念,

  • 隨機(jī)變量:設(shè)E為一個(gè)隨機(jī)試驗(yàn)萧朝,\Omega=\{\omega\}為其樣本空間岔留,若對每一個(gè)\omega \in \Omega,都有唯一的實(shí)數(shù)X=X(\omega)與之對應(yīng)检柬,則稱X=X(\omega)是定義在\Omega上的隨機(jī)變量献联。

對比概率的公理化定義與隨機(jī)變量的定義可以看出,其主要區(qū)別在于何址,概率的公理化為每一個(gè)樣本點(diǎn)定義了一個(gè)具體的數(shù)值酱固,而隨機(jī)變量將所有的數(shù)值抽象為一個(gè)變量。由此头朱,概率分布定義為运悲,

  • 概率分布函數(shù):設(shè)X=X(\omega)為一隨機(jī)變量,對任意實(shí)數(shù)x项钮,稱概率P\{X \leq x\}=P\{w:X(w) \leq x\}為隨機(jī)變量X=X(\omega)的分布函數(shù)班眯,記作F(x),即

F(x) = P(X \leq x),\ -\infty < x < +\infty \tag{1.1}

由上式易知烁巫,概率分布函數(shù)描述的是樣本空間中在X \leq x的區(qū)間署隘。對于概率密度函數(shù),考慮連續(xù)型隨機(jī)變量亚隙,從下式可以看出概率分布函數(shù)與概率密度函數(shù)的關(guān)系磁餐,其中f(t)為概率密度函數(shù)。

F(x \in (a,b)) = \int_{a}^bf(x)dx\\s.t. \begin{cases} f(x) \geq 0 \vdots\\ \int_{-\infty}^{+\infty}f(x)=1 \end{cases}\tag{1.2}

b. Rules of probabillity

PRML中也提到兩個(gè)重要的規(guī)則,加和規(guī)則(sum rule)和乘積規(guī)則(product rule)诊霹,這兩個(gè)規(guī)則在之后的模型推導(dǎo)中起到了重要作用羞延,對于兩個(gè)事件X,Y的情況,其定義如下脾还。

  • sum rulep(X)=\sum_Yp(X,Y)\tag{1.3}
  • product rulep(X,Y)=p(Y|X)p(X)\tag{1.4}

其中p(X,Y)稱為聯(lián)合概率伴箩,表示事件XY同時(shí)發(fā)生的概率;p(Y|X)稱為條件概率鄙漏,表示事件X發(fā)生的條件下事件Y發(fā)生的概率嗤谚;p(X)稱為邊緣分布,表示僅考慮事件X發(fā)生的概率怔蚌。

c. Expectations and covariances

  • 期望:函數(shù)f(x)在概率密度函數(shù)p(x)下均值被稱作期望巩步,可以理解為對函數(shù)f(x)的加權(quán)平均。離散型隨機(jī)變量和連續(xù)型隨機(jī)變量的期望形式如下桦踊,
    \begin{gather} E[f] = \sum_xp(x)f(x)\tag{1.5}\\ E[f] = \int p(x)f(x)dx\tag{1.6} \end{gather}

    特別地渗钉,多變量情況下我們經(jīng)常會考慮對于單個(gè)變量的期望值,其形式如下钞钙,顯然下式表示的期望是關(guān)于變量y的函數(shù)鳄橘,E_x[f(x,y)]=\int_x p(x,y)f(x,y)dx\tag{1.7}

  • 方差:用于衡量函數(shù)f(x)E[f(x)]偏離程度,其定義如下芒炼,
    var[f]=E[(f(x)-E[f(x)])^2]\tag{1.8}

    但是更常用的計(jì)算形式通過以下推導(dǎo)得到瘫怜,
    \begin{aligned} var[f] &= E[(f(x)-E[f(x)])^2]\\ &= E[f(x)^2-2f(x)E[f(x)]+E[f(x)]^2]\\ &= E[f(x)^2]-2E[f(x)]E[f(x)]+E[f(x)]^2\\ &= E[f(x)^2]-E[f(x)]^2 \end{aligned}\tag{1.9}

  • 協(xié)方差:對于兩個(gè)隨機(jī)變量,協(xié)方差度量其相互影響機(jī)制本刽,即度量是正相關(guān)的還是反相關(guān)的鲸湃。具體定義為cov[x,y] = E_{x,y}[\{x-E[x]\}\{y-E[y]\}],但更常用的計(jì)算公式通過如下推導(dǎo)得到子寓,
    \begin{aligned} cov[x,y] &= E_{x,y}[\{x-E[x]\}\{y-E[y]\}]\\ &= E_{x,y}[xy-xE[y]-yE[x]+E[x]E[y]]\\ &= E_{x,y}[xy]-2E[x]E[y]+E[x]E[y]\\ &= E_{x,y}[xy]-E[x]E[y] \end{aligned}\tag{1.10}

d. Bayesian probabilities

要理解貝葉斯學(xué)派的思想暗挑,我們首先通過加和規(guī)則和乘積規(guī)則得出貝葉斯定理,因?yàn)槁?lián)合概率顯然有p(X,Y)=p(Y,X)斜友,因此炸裆,
\begin{aligned} p(X,Y) &= p(Y|X)p(X)\\ &= p(X|Y)p(Y)= p(Y,X) \end{aligned}

通過上式可以得出貝葉斯定理為,
p(Y|X) = \frac{p(X|Y)p(Y)}{p(X)}\tag{1.11}
其中鲜屏,
p(X) = \sum_Yp(X|Y)p(Y)\tag{1.12}

考慮數(shù)據(jù)集D服從參數(shù)為\omega的某個(gè)分布烹看,我們現(xiàn)在需要推斷出參數(shù)\omega以實(shí)現(xiàn)對新數(shù)據(jù)的預(yù)測,通過貝葉斯定理可以得到洛史,
p(\omega|D) = \frac{p(D|\omega)p(\omega)}{p(D)}\tag{1.13}

從式(1.13)可以看出惯殊,貝葉斯定理通過參數(shù)\omega先驗(yàn)分布和似然函數(shù)p(D|\omega)來得到后驗(yàn)分布,即
posterior \propto likelihood \ \times \ prior\tag{1.14}

在機(jī)器學(xué)習(xí)與模式識別領(lǐng)域也殖,主要分為頻率學(xué)派和貝葉斯學(xué)派土思,通過式(1.13)和(1.14)可以直觀的反映其各自的主張,

  • 頻率學(xué)派:頻率學(xué)派關(guān)注的主要是數(shù)據(jù)集D中樣本X的分布,即樣本空間己儒。其認(rèn)為參數(shù)\omega是固定的但尚未確定的崎岂,因此其主要關(guān)注似然函數(shù)p(D|\omega),通過最大化似然函數(shù)求得參數(shù)\omega的點(diǎn)估計(jì)址愿。其主要思想是“maximize the probability of the data given the parameters”该镣,即通過尋找\omega的點(diǎn)估計(jì)冻璃,使得數(shù)據(jù)集出現(xiàn)的可能性達(dá)到最大响谓。
  • 貝葉斯學(xué)派:貝葉斯學(xué)派則更多的關(guān)注于參數(shù)\omega的分布,即參數(shù)空間省艳,其核心思想是認(rèn)為參數(shù)\omega服從某一分布娘纷,其主要關(guān)注似然函數(shù)與參數(shù)\omega的先驗(yàn)分布的乘積,所以有“maximize the probability of the parameters given the data”跋炕,即在給定數(shù)據(jù)集的情況赖晶,尋找參數(shù)的最優(yōu)分布。

B. Descition theory


在機(jī)器學(xué)習(xí)與模式識別中辐烂,決策論關(guān)注的主題是“對預(yù)測模型輸出的不同目標(biāo)值遏插,應(yīng)該采取何種操作”。例如纠修,當(dāng)我們的醫(yī)療模型對癌癥圖像進(jìn)行識別時(shí)胳嘲,給出了85%的概率時(shí),我們是判斷其患癌還是不患癌扣草,我們是相信這85%的概率還是相信那15%的概率了牛,顯然地,對于癌癥診斷辰妙,沒有患病預(yù)測為患病的代價(jià)明顯小于患病了預(yù)測為沒有患病的代價(jià)鹰祸,因此給前者增加一個(gè)小于后者的懲罰參數(shù)是一個(gè)不錯(cuò)的選擇,這種簡單的操作即為決策論討論的范圍密浑。解析來我們將逐步討論決策論的一些方法蛙婴。

a. Minimizing the misclassification rate

首當(dāng)其沖的策略為最小化誤分類率(minimizing the misclassification rate),定義如下尔破,
\begin{aligned} p(mistake) &= p(x \in R_1, C_2) + p(x \in R_2, C_1)\\ &= \int_{R_1}p(x,C_2)dx + \int_{R_2}p(x,C_1) \end{aligned}\tag{1.15}

很顯然敬锐,該方法的核心策略便是最小化分類的錯(cuò)誤率,亦相當(dāng)于最大化分類正確率呆瞻。

b. Minimizing the expected loss

在現(xiàn)實(shí)中的某些情況台夺,如果我們僅僅使用最小化誤分類率往往是不合理的。例如痴脾,我們上邊提到的癌癥預(yù)測颤介,因?yàn)閷τ跀?shù)據(jù)集D,患病的樣本數(shù)遠(yuǎn)遠(yuǎn)小于沒有患病的樣本數(shù),假設(shè)數(shù)據(jù)集中99%的樣本沒有患病滚朵,那么如果模型對所有的數(shù)據(jù)都預(yù)測為沒有患病冤灾,那么正確率即高達(dá)99%,這顯然是不合理的辕近,尤其是對漏診的患者而言韵吨,代價(jià)巨大。為了解決這一問題移宅,我們可以采取加權(quán)的方式归粉,即給每一種分類情況分配一個(gè)損失,仍然以癌癥預(yù)測為例漏峰,我們可以將患病而漏診的損失設(shè)置為1000糠悼,而沒有患病而誤診的損失設(shè)置為10,這樣浅乔,我們可以得到最小化期望損失(minimizing the expected loss)的函數(shù)倔喂,形式如下,
E[L] = \sum_k\sum_j\int_{R_j}L_{k,j}p(x,C_k)dx\tag{1.16}

其中L_{k,j}表示將類別為k的樣本分類為類別j的損失靖苇。

c. The reject option

拒絕選項(xiàng)(reject option)也是一種常用到的決策方法席噩,其主要方式是給模型設(shè)置一個(gè)閾值,當(dāng)我們的模型給出了高于這一閾值的預(yù)測精度贤壁,則認(rèn)為可以相信這一預(yù)測悼枢,而當(dāng)預(yù)測精度低于這一閾值時(shí)則可能需要其他輔助手段來進(jìn)行決策包括人類介入等操作。以癌癥預(yù)測為例芯砸,我們可以認(rèn)為模型給出的預(yù)測精度低于90%時(shí)萧芙,不再保留模型意見而需要醫(yī)生介入進(jìn)行判斷。

C. Information theory


信息論的一個(gè)主要議題即是對信息的量化〖偕ィ現(xiàn)實(shí)生活中双揪,我們經(jīng)常提及的一個(gè)詞是“信息量”,并且我們總是以“大”和“小”來對某一事件的信息量進(jìn)行衡量包帚。顯然地渔期,當(dāng)我們認(rèn)為一個(gè)事件信息量小時(shí),其實(shí)我們往往在說的是“這個(gè)事情我已經(jīng)知道了渴邦,都確定了”疯趟;而當(dāng)我們認(rèn)為一個(gè)事件信息量大時(shí),其實(shí)我們往往在說“這個(gè)事情我之前不知道啊谋梭,接下來會怎么發(fā)展不確定啊”信峻。正因?yàn)橐陨线@些現(xiàn)象,要量化信息且尊重常識與直覺瓮床,我們可以認(rèn)為低概率事件的信息量大于高概率事件盹舞,因此有以下關(guān)于信息的一些理論产镐。

a. Information

由于生活中關(guān)于信息的感覺,我們可以定義對于一個(gè)概率分布p(x)的信息為h(x)為踢步,
h(x) = -log_2p(x)\tag{1.17}

由于h(x)定義為概率分布p(x)的負(fù)對數(shù)形式癣亚,因此當(dāng)p(x)越小時(shí),信息越大获印;當(dāng)p(x)越大時(shí)述雾,信息越小。對于負(fù)對數(shù)的底數(shù)我們也可以采用e兼丰,這樣就變成了自然對數(shù)玻孟,在之后的討論中都使用自然對數(shù)。同時(shí)地粪,我們可以定義在整個(gè)概率分布p(x)上的均值信息為熵H[x]取募,
H[x] = -\sum_xp(x)ln\ p(x)\tag{1.18}

類似地琐谤,對于連續(xù)性隨機(jī)變量有蟆技,
H[x]=-\int p(x)ln\ p(x)dx\tag{1.19}

b. Relative entropy & mutual information

相關(guān)熵(Relative entropy)亦稱為KL散度被定義為如下形式,
\begin{aligned} KL(p||q) &= -\int p(x)ln\ q(x)dx-\left(-\int p(x)ln\ p(x)dx)\right)\\ &= -\int p(x)ln\left\{ \frac{q(x)}{p(x)} \right\} \end{aligned}\tag{1.20}

KL散度可以看作是兩分布p(x)q(x)之間的不相似程度斗忌,最大化KL散度等駕馭最大化似然函數(shù)质礼。同時(shí),由式(1.20)顯然可知织阳,KL[p||q] \neq KL[q||p]眶蕉;KL散度還有一個(gè)重要性質(zhì),即KL[p||q] \geq 0唧躲,且等號當(dāng)且僅當(dāng)p(x) = q(x)時(shí)成立造挽,要證明這一性質(zhì),需要引入Jensen不等式(1.21)弄痹,
f\left( \sum_{I=1}^M \lambda_ix_i \right) \leq \sum_{I=1}^M\lambda_if(x_i)\\ s.t. \lambda_i \geq 0\ and\ \sum_i \lambda_i=1 \tag{1.21}

由期望的定義和式(1.21)饭入,我們可以把Jensen不等式看作,
\begin{gather} f(E[x]) \leq E[f(x)]\tag{1.22}\\ f\left( \int xp(x)dx \right) \leq \int f(x)p(x)dx\tag{1.23} \end{gather}

因此肛真,對于KL散度谐丢,由式(1.21)和式(1.23)有如下推導(dǎo),
\begin{aligned} KL(p||q) &= -\int p(x)ln\left\{ \frac{q(x)}{p(x)}\right\}dx\\ &\geq ln\int p(x)\frac{q(x)}{p(x)}dx = ln\int q(x)dx = 0 \end{aligned}

因?yàn)楦怕史植嫉男再|(zhì)蚓让,\int q(x)dx=1乾忱,由此,KL[p||q] \geq 0得證历极。對于兩個(gè)變量x,y窄瘟,我們定義互信息為(mutual information)有如下形式,

\begin{aligned} I[x,y] &\equiv KL(p(x,y)||p(x)p(y))\\ &= \iint p(x,y)ln \left( \frac{p(x)p(y)}{p(x,y)}\right)dxdy \end{aligned}\tag{1.24}

由式(1.24)可知趟卸,互信息定義為p(x,y)與p(x)p(y)的KL散度蹄葱,由條件獨(dú)立性纲酗,如果p(x)p(y)=p(x,y),我們責(zé)成變量x,y相互獨(dú)立新蟆。又由于KL散度時(shí)衡量兩個(gè)分布的不相似性程度的觅赊,因此,可以看出琼稻,互信息衡量的是兩個(gè)變量相互獨(dú)立的程度吮螺。一般地,我們在計(jì)算互信息時(shí)帕翻,更多的使用如下定義鸠补,

I[x,y] = H[x]-H[x|y]=H[y]-H[y|x]\tag{1.25}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市嘀掸,隨后出現(xiàn)的幾起案子紫岩,更是在濱河造成了極大的恐慌,老刑警劉巖睬塌,帶你破解...
    沈念sama閱讀 222,807評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泉蝌,死亡現(xiàn)場離奇詭異,居然都是意外死亡揩晴,警方通過查閱死者的電腦和手機(jī)勋陪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來硫兰,“玉大人诅愚,你說我怎么就攤上這事〗儆常” “怎么了违孝?”我有些...
    開封第一講書人閱讀 169,589評論 0 363
  • 文/不壞的土叔 我叫張陵,是天一觀的道長泳赋。 經(jīng)常有香客問我雌桑,道長,這世上最難降的妖魔是什么摹蘑? 我笑而不...
    開封第一講書人閱讀 60,188評論 1 300
  • 正文 為了忘掉前任筹燕,我火速辦了婚禮,結(jié)果婚禮上衅鹿,老公的妹妹穿的比我還像新娘撒踪。我一直安慰自己,他們只是感情好大渤,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,185評論 6 398
  • 文/花漫 我一把揭開白布制妄。 她就那樣靜靜地躺著,像睡著了一般泵三。 火紅的嫁衣襯著肌膚如雪耕捞。 梳的紋絲不亂的頭發(fā)上衔掸,一...
    開封第一講書人閱讀 52,785評論 1 314
  • 那天,我揣著相機(jī)與錄音俺抽,去河邊找鬼敞映。 笑死,一個(gè)胖子當(dāng)著我的面吹牛磷斧,可吹牛的內(nèi)容都是我干的振愿。 我是一名探鬼主播,決...
    沈念sama閱讀 41,220評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼弛饭,長吁一口氣:“原來是場噩夢啊……” “哼冕末!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起侣颂,我...
    開封第一講書人閱讀 40,167評論 0 277
  • 序言:老撾萬榮一對情侶失蹤档桃,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后憔晒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體藻肄,經(jīng)...
    沈念sama閱讀 46,698評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,767評論 3 343
  • 正文 我和宋清朗相戀三年丛晌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了仅炊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片斗幼。...
    茶點(diǎn)故事閱讀 40,912評論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡澎蛛,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蜕窿,到底是詐尸還是另有隱情谋逻,我是刑警寧澤,帶...
    沈念sama閱讀 36,572評論 5 351
  • 正文 年R本政府宣布桐经,位于F島的核電站毁兆,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏阴挣。R本人自食惡果不足惜气堕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,254評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望畔咧。 院中可真熱鬧茎芭,春花似錦、人聲如沸誓沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,746評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拜隧。三九已至宿百,卻和暖如春趁仙,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背垦页。 一陣腳步聲響...
    開封第一講書人閱讀 33,859評論 1 274
  • 我被黑心中介騙來泰國打工雀费, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人痊焊。 一個(gè)月前我還...
    沈念sama閱讀 49,359評論 3 379
  • 正文 我出身青樓坐儿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親宋光。 傳聞我的和親對象是個(gè)殘疾皇子貌矿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,922評論 2 361

推薦閱讀更多精彩內(nèi)容