PRML Chapter 01 Introduction
最近油管上的Siraj Raval小哥發(fā)起了一個(gè)“100 Days of ML Code Challenge”的活動(dòng),在Gayhub上也得到了眾多程序員的響應(yīng),因此,本系列將以PRML為Base涤躲,在100天內(nèi)返帕,由淺入深啄踊,從定義奋姿、公式推導(dǎo)到代碼實(shí)現(xiàn)等幾個(gè)方面以綜述的形式對ML進(jìn)行學(xué)習(xí)廊谓。
第一章PRML通過一些例子對機(jī)器學(xué)習(xí)與模式識別的一些重要基礎(chǔ)概念進(jìn)行了解釋闺骚,而其中主要包括概率論彩扔、決策論,以及信息論三方面的知識僻爽。
A. Probabillity theory
概率論的主要意義在于對不確定性的量化定義虫碉,這也可以看作是人類對于未知的觀察與定義。
a. Prior knowledge
要搞懂概率論在講什么胸梆,首先要知道隨機(jī)試驗(yàn)敦捧、樣本點(diǎn)、樣本空間的定義碰镜,
-
隨機(jī)試驗(yàn):稱具有以下三個(gè)特點(diǎn)的試驗(yàn)為隨機(jī)試驗(yàn):
- 明確性:試驗(yàn)的所有可能結(jié)果事前已知兢卵;
- 隨機(jī)性:在每次試驗(yàn)之前,究竟哪一種結(jié)果會出現(xiàn)绪颖,事先無法確定秽荤;
- 重復(fù)性:試驗(yàn)可以在相同條件下重復(fù)進(jìn)行。
-
樣本點(diǎn):隨機(jī)試驗(yàn)
的每一個(gè)可能的結(jié)果稱為
的一個(gè)樣本點(diǎn)柠横。
-
樣本空間:隨機(jī)試驗(yàn)
的所有樣本點(diǎn)的集合稱為
的樣本空間窃款。
以擲硬幣為例,在試驗(yàn)前牍氛,我們知道其結(jié)果有正面晨继、反面(明確性)掂林;每次試驗(yàn)前砚嘴,無法確定是正面還是反面(隨機(jī)性);顯然梅垄,試驗(yàn)可以在相同條件下重復(fù)進(jìn)行(重復(fù)性)唉擂。因此餐屎,我們可以稱擲硬幣為一個(gè)隨機(jī)試驗(yàn)。對于擲硬幣這一隨機(jī)試驗(yàn)楔敌,我們可以看到其具有兩個(gè)樣本點(diǎn)“正面”啤挎、“反面”驻谆,由此易知樣本空間為{“正面”卵凑,“反面”}庆聘。
通過以上的知識,很自然的勺卢,我們能夠得到概率的公理化定義伙判,即給每個(gè)樣本點(diǎn)賦予一個(gè)數(shù)值表示這個(gè)樣本點(diǎn)在每次試驗(yàn)中出現(xiàn)的幾率。更一般地黑忱,設(shè)隨機(jī)試驗(yàn)的樣本空間為
宴抚,對
的每一個(gè)隨機(jī)事件
賦予一個(gè)實(shí)數(shù),記為
甫煞,如果集合函數(shù)
滿足以下三個(gè)約束條件菇曲,則稱
為事件
的概率。
概率論中有兩個(gè)重要的概念是概率分布和概率密度常潮,前者是對整個(gè)樣本空間的分布進(jìn)行的函數(shù)式描述,而后者是對具體的樣本點(diǎn)的分布情況進(jìn)行的描述楷力。為了更方便的定義這兩個(gè)概念喊式,我們首先引入隨機(jī)變量的概念,
-
隨機(jī)變量:設(shè)E為一個(gè)隨機(jī)試驗(yàn)萧朝,
為其樣本空間岔留,若對每一個(gè)
,都有唯一的實(shí)數(shù)
與之對應(yīng)检柬,則稱
是定義在
上的隨機(jī)變量献联。
對比概率的公理化定義與隨機(jī)變量的定義可以看出,其主要區(qū)別在于何址,概率的公理化為每一個(gè)樣本點(diǎn)定義了一個(gè)具體的數(shù)值酱固,而隨機(jī)變量將所有的數(shù)值抽象為一個(gè)變量。由此头朱,概率分布定義為运悲,
-
概率分布函數(shù):設(shè)
為一隨機(jī)變量,對任意實(shí)數(shù)
项钮,稱概率
為隨機(jī)變量
的分布函數(shù)班眯,記作
,即
由上式易知烁巫,概率分布函數(shù)描述的是樣本空間中在的區(qū)間署隘。對于概率密度函數(shù),考慮連續(xù)型隨機(jī)變量亚隙,從下式可以看出概率分布函數(shù)與概率密度函數(shù)的關(guān)系磁餐,其中
為概率密度函數(shù)。
b. Rules of probabillity
PRML中也提到兩個(gè)重要的規(guī)則,加和規(guī)則(sum rule)和乘積規(guī)則(product rule)诊霹,這兩個(gè)規(guī)則在之后的模型推導(dǎo)中起到了重要作用羞延,對于兩個(gè)事件的情況,其定義如下脾还。
-
sum rule:
-
product rule:
其中稱為聯(lián)合概率伴箩,表示事件
和
同時(shí)發(fā)生的概率;
稱為條件概率鄙漏,表示事件
發(fā)生的條件下事件
發(fā)生的概率嗤谚;
稱為邊緣分布,表示僅考慮事件
發(fā)生的概率怔蚌。
c. Expectations and covariances
-
期望:函數(shù)
在概率密度函數(shù)
下均值被稱作期望巩步,可以理解為對函數(shù)
的加權(quán)平均。離散型隨機(jī)變量和連續(xù)型隨機(jī)變量的期望形式如下桦踊,
特別地渗钉,多變量情況下我們經(jīng)常會考慮對于單個(gè)變量的期望值,其形式如下钞钙,顯然下式表示的期望是關(guān)于變量
的函數(shù)鳄橘,
-
方差:用于衡量函數(shù)
與
偏離程度,其定義如下芒炼,
但是更常用的計(jì)算形式通過以下推導(dǎo)得到瘫怜,
協(xié)方差:對于兩個(gè)隨機(jī)變量,協(xié)方差度量其相互影響機(jī)制本刽,即度量是正相關(guān)的還是反相關(guān)的鲸湃。具體定義為
,但更常用的計(jì)算公式通過如下推導(dǎo)得到子寓,
d. Bayesian probabilities
要理解貝葉斯學(xué)派的思想暗挑,我們首先通過加和規(guī)則和乘積規(guī)則得出貝葉斯定理,因?yàn)槁?lián)合概率顯然有斜友,因此炸裆,
通過上式可以得出貝葉斯定理為,
其中鲜屏,
考慮數(shù)據(jù)集服從參數(shù)為
的某個(gè)分布烹看,我們現(xiàn)在需要推斷出參數(shù)
以實(shí)現(xiàn)對新數(shù)據(jù)的預(yù)測,通過貝葉斯定理可以得到洛史,
從式(1.13)可以看出惯殊,貝葉斯定理通過參數(shù)先驗(yàn)分布和似然函數(shù)
來得到后驗(yàn)分布,即
在機(jī)器學(xué)習(xí)與模式識別領(lǐng)域也殖,主要分為頻率學(xué)派和貝葉斯學(xué)派土思,通過式(1.13)和(1.14)可以直觀的反映其各自的主張,
- 頻率學(xué)派:頻率學(xué)派關(guān)注的主要是數(shù)據(jù)集
中樣本X的分布,即樣本空間己儒。其認(rèn)為參數(shù)
是固定的但尚未確定的崎岂,因此其主要關(guān)注似然函數(shù)
,通過最大化似然函數(shù)求得參數(shù)
的點(diǎn)估計(jì)址愿。其主要思想是“maximize the probability of the data given the parameters”该镣,即通過尋找
的點(diǎn)估計(jì)冻璃,使得數(shù)據(jù)集出現(xiàn)的可能性達(dá)到最大响谓。
- 貝葉斯學(xué)派:貝葉斯學(xué)派則更多的關(guān)注于參數(shù)
的分布,即參數(shù)空間省艳,其核心思想是認(rèn)為參數(shù)
服從某一分布娘纷,其主要關(guān)注似然函數(shù)與參數(shù)
的先驗(yàn)分布的乘積,所以有“maximize the probability of the parameters given the data”跋炕,即在給定數(shù)據(jù)集的情況赖晶,尋找參數(shù)的最優(yōu)分布。
B. Descition theory
在機(jī)器學(xué)習(xí)與模式識別中辐烂,決策論關(guān)注的主題是“對預(yù)測模型輸出的不同目標(biāo)值遏插,應(yīng)該采取何種操作”。例如纠修,當(dāng)我們的醫(yī)療模型對癌癥圖像進(jìn)行識別時(shí)胳嘲,給出了85%的概率時(shí),我們是判斷其患癌還是不患癌扣草,我們是相信這85%的概率還是相信那15%的概率了牛,顯然地,對于癌癥診斷辰妙,沒有患病預(yù)測為患病的代價(jià)明顯小于患病了預(yù)測為沒有患病的代價(jià)鹰祸,因此給前者增加一個(gè)小于后者的懲罰參數(shù)是一個(gè)不錯(cuò)的選擇,這種簡單的操作即為決策論討論的范圍密浑。解析來我們將逐步討論決策論的一些方法蛙婴。
a. Minimizing the misclassification rate
首當(dāng)其沖的策略為最小化誤分類率(minimizing the misclassification rate),定義如下尔破,
很顯然敬锐,該方法的核心策略便是最小化分類的錯(cuò)誤率,亦相當(dāng)于最大化分類正確率呆瞻。
b. Minimizing the expected loss
在現(xiàn)實(shí)中的某些情況台夺,如果我們僅僅使用最小化誤分類率往往是不合理的。例如痴脾,我們上邊提到的癌癥預(yù)測颤介,因?yàn)閷τ跀?shù)據(jù)集,患病的樣本數(shù)遠(yuǎn)遠(yuǎn)小于沒有患病的樣本數(shù),假設(shè)數(shù)據(jù)集中99%的樣本沒有患病滚朵,那么如果模型對所有的數(shù)據(jù)都預(yù)測為沒有患病冤灾,那么正確率即高達(dá)99%,這顯然是不合理的辕近,尤其是對漏診的患者而言韵吨,代價(jià)巨大。為了解決這一問題移宅,我們可以采取加權(quán)的方式归粉,即給每一種分類情況分配一個(gè)損失,仍然以癌癥預(yù)測為例漏峰,我們可以將患病而漏診的損失設(shè)置為1000糠悼,而沒有患病而誤診的損失設(shè)置為10,這樣浅乔,我們可以得到最小化期望損失(minimizing the expected loss)的函數(shù)倔喂,形式如下,
其中表示將類別為k的樣本分類為類別j的損失靖苇。
c. The reject option
拒絕選項(xiàng)(reject option)也是一種常用到的決策方法席噩,其主要方式是給模型設(shè)置一個(gè)閾值,當(dāng)我們的模型給出了高于這一閾值的預(yù)測精度贤壁,則認(rèn)為可以相信這一預(yù)測悼枢,而當(dāng)預(yù)測精度低于這一閾值時(shí)則可能需要其他輔助手段來進(jìn)行決策包括人類介入等操作。以癌癥預(yù)測為例芯砸,我們可以認(rèn)為模型給出的預(yù)測精度低于90%時(shí)萧芙,不再保留模型意見而需要醫(yī)生介入進(jìn)行判斷。
C. Information theory
信息論的一個(gè)主要議題即是對信息的量化〖偕ィ現(xiàn)實(shí)生活中双揪,我們經(jīng)常提及的一個(gè)詞是“信息量”,并且我們總是以“大”和“小”來對某一事件的信息量進(jìn)行衡量包帚。顯然地渔期,當(dāng)我們認(rèn)為一個(gè)事件信息量小時(shí),其實(shí)我們往往在說的是“這個(gè)事情我已經(jīng)知道了渴邦,都確定了”疯趟;而當(dāng)我們認(rèn)為一個(gè)事件信息量大時(shí),其實(shí)我們往往在說“這個(gè)事情我之前不知道啊谋梭,接下來會怎么發(fā)展不確定啊”信峻。正因?yàn)橐陨线@些現(xiàn)象,要量化信息且尊重常識與直覺瓮床,我們可以認(rèn)為低概率事件的信息量大于高概率事件盹舞,因此有以下關(guān)于信息的一些理論产镐。
a. Information
由于生活中關(guān)于信息的感覺,我們可以定義對于一個(gè)概率分布的信息為
為踢步,
由于定義為概率分布
的負(fù)對數(shù)形式癣亚,因此當(dāng)
越小時(shí),信息越大获印;當(dāng)
越大時(shí)述雾,信息越小。對于負(fù)對數(shù)的底數(shù)我們也可以采用
兼丰,這樣就變成了自然對數(shù)玻孟,在之后的討論中都使用自然對數(shù)。同時(shí)地粪,我們可以定義在整個(gè)概率分布
上的均值信息為熵
取募,
類似地琐谤,對于連續(xù)性隨機(jī)變量有蟆技,
b. Relative entropy & mutual information
相關(guān)熵(Relative entropy)亦稱為KL散度被定義為如下形式,
KL散度可以看作是兩分布和
之間的不相似程度斗忌,最大化KL散度等駕馭最大化似然函數(shù)质礼。同時(shí),由式(1.20)顯然可知织阳,
眶蕉;KL散度還有一個(gè)重要性質(zhì),即
唧躲,且等號當(dāng)且僅當(dāng)
時(shí)成立造挽,要證明這一性質(zhì),需要引入Jensen不等式(1.21)弄痹,
由期望的定義和式(1.21)饭入,我們可以把Jensen不等式看作,
因此肛真,對于KL散度谐丢,由式(1.21)和式(1.23)有如下推導(dǎo),
因?yàn)楦怕史植嫉男再|(zhì)蚓让,乾忱,由此,
得證历极。對于兩個(gè)變量
窄瘟,我們定義互信息為(mutual information)有如下形式,
由式(1.24)可知趟卸,互信息定義為p(x,y)與p(x)p(y)的KL散度蹄葱,由條件獨(dú)立性纲酗,如果,我們責(zé)成變量
相互獨(dú)立新蟆。又由于KL散度時(shí)衡量兩個(gè)分布的不相似性程度的觅赊,因此,可以看出琼稻,互信息衡量的是兩個(gè)變量相互獨(dú)立的程度吮螺。一般地,我們在計(jì)算互信息時(shí)帕翻,更多的使用如下定義鸠补,