PRML第一章讀書小結(jié)
????第一章用例子出發(fā)歧匈,較為簡單的引入了概率論携悯、模型像棘、決策双泪、損失话告、信息論的問題挂捅,作為機器學(xué)習(xí)從業(yè)者涂佃,讀PRML除了鞏固已有基礎(chǔ)愿卒,還受到了很多新的啟發(fā)政钟,下面將我收到的啟發(fā)總結(jié)如下路克。
1. 多項式曲線擬合問題
多項式擬合問題作為全書的第一個引例,通過此說明了很多關(guān)鍵的概念养交。
給定一個訓(xùn)練集精算,訓(xùn)練集由的N次觀測組成,記作
碎连,對應(yīng)了相應(yīng)的觀測值
灰羽,記作
。它們擁有了一個內(nèi)在的規(guī)律鱼辙,這個規(guī)律是我們想要學(xué)習(xí)的廉嚼,但是同時獨立的觀察會被隨機噪聲所干擾。我們的目標(biāo)是利用這個訓(xùn)練集預(yù)測輸入變量的新值倒戏,我們需要隱式地發(fā)現(xiàn)內(nèi)在的函數(shù)
怠噪,由于有限的觀察和噪聲的,發(fā)現(xiàn)這一函數(shù)(
)很難杜跷。
概率論提供了一個框架傍念,用精確的數(shù)學(xué)形式描述這種不確定性矫夷。決策論讓我們能夠根據(jù)合適的標(biāo)準(zhǔn),利用這種概率的表示捂寿,進行最優(yōu)的預(yù)測口四。
我們經(jīng)常用多項式函數(shù)進行曲線擬合,即秦陋,系數(shù)的值
通過擬合訓(xùn)練數(shù)據(jù)的方式確定蔓彩,M作為多項式的階數(shù)是模型對比(model comparison)、模型選擇(model selection)的重要問題的一個特例驳概。擬合時赤嚼,我們通過最小化誤差函數(shù)(error function)的方法實現(xiàn),一個簡單的最小化誤差函數(shù)如下:
我們發(fā)現(xiàn)過小的M擬合效果非常差顺又,而高階的M完美擬合了數(shù)據(jù)更卒,但是曲線劇烈震蕩,就表達函數(shù)來說表現(xiàn)很差稚照,這便是過擬合蹂空。
我們的目標(biāo)是通過對新數(shù)據(jù)的預(yù)測實現(xiàn)良好的泛化性,于是我們考慮一個額外的訓(xùn)練集果录,生成方式和之前的訓(xùn)練集完全相同上枕,但是包含的噪聲不同,對于每個M的選擇弱恒,我們可以利用誤差函數(shù)辨萍,或者均方根誤差(RMS)衡量:
N保證了以相同的基礎(chǔ)對比不同大小的數(shù)據(jù)集,平方根保證了與目標(biāo)變量
使用相同的規(guī)模和單位進行度量返弹。
我們發(fā)現(xiàn)M的值適中時锈玉,均方根誤差較小。M特別大的時候义起,測試誤差很大(即過擬合)拉背。進一步思考這個問題,我們發(fā)現(xiàn)默终,對于一個給定的模型復(fù)雜度(M給定)去团,數(shù)據(jù)集規(guī)模增加,過擬合問題變得不那么嚴(yán)重穷蛹,或者說,數(shù)據(jù)集規(guī)模越大昼汗,我們能用來擬合數(shù)據(jù)的模型就越復(fù)雜(靈活)肴熏。一個粗略的啟發(fā)是:數(shù)據(jù)點的數(shù)量不應(yīng)該小于模型的可調(diào)節(jié)參數(shù)的若干倍。我們根據(jù)待解決問題的復(fù)雜性來選擇模型的復(fù)雜性顷窒,過擬合現(xiàn)象是極大似然的一個通用屬性蛙吏,而通過貝葉斯方法源哩,過擬合問題可以被避免。
目前鸦做,我們使用正則化(regularization)技術(shù)控制過擬合励烦, 即增加一個懲罰項,使得系數(shù)不會達到一個很大的值泼诱,如下例是加入平方懲罰項的誤差函數(shù):
正則化后的進行多項式擬合效果就能達到一個理想的值坛掠。
之后,作者在重新考察曲線擬合問題時治筒,提到了最大化似然函數(shù)和最小化平方和誤差函數(shù)屉栓,而最大化后驗概率等價于最小化正則化的誤差函數(shù)。
2. 概率論
文章首先通過簡單的例子說明了概率論的基本思想耸袜,然后表示了概率論的兩條基本規(guī)則:
加和規(guī)則sum rule:
乘積規(guī)則product rule:
這兩個規(guī)則是機器學(xué)習(xí)全部概率推導(dǎo)的基礎(chǔ)友多。
根據(jù)乘積規(guī)則,我們得到貝葉斯定理:
其中堤框,稱為先驗概率(
)域滥,即根據(jù)先驗知識得出的關(guān)于變量
的分布,
稱為似然函數(shù)(
)蜈抓,
為變量
的概率启绰,
稱之為條件概率(給定變量
的情況下
的概率,
资昧,后驗概率)酬土。
在連續(xù)空間中,一個實值變量的概率落在區(qū)間
的概率由
給出(
)格带,那么
稱為
的概率密度(probability density)撤缴,
在區(qū)間
的概率由下式給出:
概率密度是處處大于0且歸一化的叽唱。
離散變量的期望值(expectation)的定義為:
連續(xù)變量的期望值:
方差(variance)的定義:
它度量了在均值
附近變化性的大小屈呕。
協(xié)方差(covariance)的定義:
它表示在多大程度上和
會共同變化,如果獨立棺亭,協(xié)方差為0.
2.1 概率論之貝葉斯學(xué)派和頻率學(xué)派
????頻率學(xué)派試圖從自然的角度出發(fā)虎眨,試圖直接為事件建模,即事件A在獨立重復(fù)實驗中發(fā)生的頻率趨于極限P镶摘,那么這個極限就是事件的概率嗽桩。
????貝葉斯學(xué)派并不試圖刻畫事件本身,而是從觀察者角度凄敢。貝葉斯學(xué)派并不認(rèn)為事件本身是隨機的碌冶,而是從觀察者知識不完備這一出發(fā)點開始,構(gòu)造一套貝葉斯概率論的框架下可以對不確定知識作出推斷的方法涝缝。即不認(rèn)為事件本身具有某種客觀的隨機性扑庞,而只是觀察者不知道事件的結(jié)果譬重。
????頻率學(xué)派廣泛使用極大似然進行估計,使得似然函數(shù)達到最大罐氨。貝葉斯學(xué)派廣泛使用先驗概率臀规。
????補充:根據(jù)知乎某大佬所言:頻率學(xué)派和貝葉斯學(xué)派最大差別是產(chǎn)生在對參數(shù)空間的認(rèn)知上。頻率學(xué)派并不關(guān)心參數(shù)空間的所有細節(jié)栅隐,而相信數(shù)據(jù)都是在某個參數(shù)值下產(chǎn)生的塔嬉,所以頻率學(xué)派從“那個值最有可能是真實值”出發(fā)的。有了極大似然和置信區(qū)間约啊。貝葉斯學(xué)派關(guān)心參數(shù)空間的每一個值邑遏,我們又沒有上帝視角,怎么可能知道哪個值是真的恰矩,參數(shù)空間的每個值都有可能是真實模型使用的值记盒,只是概率不同。
參考:https://www.zhihu.com/question/20587681
2.2 高斯分布
????高斯分布算是模式識別里面的重點難點外傅,在第一章里面簡要介紹了其一些簡單性質(zhì)纪吮,總結(jié)如下:
一元高斯分布:
高斯分布滿足恒大于0:
高斯分布是歸一化的:
高斯分布的期望:
二階矩:
方差:
分布的最大值被稱為眾數(shù),高斯分布的眾數(shù)與均值恰好相等萎胰。
假定一個觀測數(shù)據(jù)集是獨立從高斯分布中抽饶朊恕(independent and identically distributed, i.i.d.)技竟,分布均值和方差
未知冰肴。數(shù)據(jù)集的概率:
當(dāng)我們把它看做參數(shù)的函數(shù)的時候,這就是高斯分布的似然函數(shù)榔组。之后我們利用極大似然法尋找似然函數(shù)取得最大值的參數(shù)值熙尉。同時書中提到了:給定數(shù)據(jù)集下最大化概率的參數(shù)和給定參數(shù)的情況下最大化數(shù)據(jù)集出現(xiàn)的概率是相關(guān)的。
高斯分布的最大似然解:搓扯,
高斯分布的極大似然估計對均值的估計是無偏的检痰,對方差的估計是有偏的(低估)。
3.模型選擇
在曲線擬合中锨推,存在一個最優(yōu)的多項式階數(shù)铅歼。實際情況中,我們可能存在多個控制模型復(fù)雜度的參數(shù)换可,同時存在過擬合現(xiàn)象椎椰,所以我們需要一個驗證集。而數(shù)據(jù)有限沾鳄,所以需要交叉驗證俭识,S-1組進行訓(xùn)練,1組進行評估洞渔,運行S次套媚。但是存在一個問題就是訓(xùn)練本身很耗時。
4. 維數(shù)災(zāi)難
隨著維數(shù)的變高磁椒,我們需要指數(shù)級的訓(xùn)練數(shù)據(jù)堤瘤。對于高維數(shù)據(jù),高斯分布的概率質(zhì)量集中在薄球殼上浆熔。這對我們的模型產(chǎn)生了極大地困難本辐。
5. 決策論
- 最小化錯誤分類率。把每個點分在后驗概率最大的類別中医增,那么我們分類錯誤的概率就會最小慎皱。
- 最小化期望損失。損失函數(shù)(代價函數(shù))最小叶骨。
- 拒絕選項茫多。對于低于閾值的概率,拒絕作出識別忽刽,拒絕決策帶來的損失可以放在損失矩陣中天揖。
6.信息論
隨機變量的熵:
熵是傳輸一個隨機變量狀態(tài)值所需的比特位的下界。
相對熵:
相對熵也被稱之為KL散度跪帝,不對稱今膊。當(dāng)且僅當(dāng)時,等號成立伞剑。
最小化KL散度等價于最大化似然函數(shù)(p為真實分布斑唬,q為給定分布)。
互信息:
黎泣,當(dāng)且僅當(dāng)
獨立時等號成立恕刘。我們可以把互信息看成由于知道
值而造成的
的不確定性的減少。
7. 一些小的知識點:
- 嚴(yán)格凸函數(shù):每條弦位于函數(shù)圖像上方聘裁,即二階導(dǎo)數(shù)為正
- 變分法
- 高維空間中雪营,球的大部分體積都聚集在表面附近。
- 具體化一個連續(xù)變量需要大量比特位衡便。
本文由飛劍客原創(chuàng)献起,如需轉(zhuǎn)載,請聯(lián)系私信聯(lián)系知乎:@AndyChanCD