PRML第一章讀書小結(jié)

????第一章用例子出發(fā)歧匈，較為簡單的引入了概率論携悯、模型像棘、決策双泪、損失话告、信息論的問題挂捅，作為機器學(xué)習(xí)從業(yè)者涂佃，讀PRML除了鞏固已有基礎(chǔ)愿卒，還受到了很多新的啟發(fā)政钟，下面將我收到的啟發(fā)總結(jié)如下路克。

1. 多項式曲線擬合問題

多項式擬合問題作為全書的第一個引例，通過此說明了很多關(guān)鍵的概念养交。

給定一個訓(xùn)練集精算，訓(xùn)練集由 $x$ 的N次觀測組成，記作 $\mathbf{x} \equiv\left(x_{1}, \cdots, x_{N}\right)^{T}$ 碎连，對應(yīng)了相應(yīng)的觀測值 $t$ 灰羽，記作 $\mathbf{t} \equiv\left(t_{1}, \cdots, t_{N}\right)^{T}$ 。它們擁有了一個內(nèi)在的規(guī)律鱼辙，這個規(guī)律是我們想要學(xué)習(xí)的廉嚼，但是同時獨立的觀察會被隨機噪聲所干擾。我們的目標(biāo)是利用這個訓(xùn)練集預(yù)測輸入變量的新值倒戏，我們需要隱式地發(fā)現(xiàn)內(nèi)在的函數(shù) $sin(2\pi x)$ 怠噪，由于有限的觀察和噪聲的，發(fā)現(xiàn)這一函數(shù)（ $sin(2\pi x)$ ）很難杜跷。

概率論提供了一個框架傍念，用精確的數(shù)學(xué)形式描述這種不確定性矫夷。決策論讓我們能夠根據(jù)合適的標(biāo)準(zhǔn)，利用這種概率的表示捂寿，進行最優(yōu)的預(yù)測口四。

我們經(jīng)常用多項式函數(shù)進行曲線擬合，即 $y(x, \boldsymbol{w})=w_{0}+w_{1} x+w_{2} x^{2}+\ldots+w_{M} x^{M}=\sum_{j=0}^{M} w_{j} x^{j}$ 秦陋，系數(shù)的值 $w$ 通過擬合訓(xùn)練數(shù)據(jù)的方式確定蔓彩，M作為多項式的階數(shù)是模型對比(model comparison)、模型選擇(model selection)的重要問題的一個特例驳概。擬合時赤嚼，我們通過最小化誤差函數(shù)（error function）的方法實現(xiàn)，一個簡單的最小化誤差函數(shù)如下：
$E(\boldsymbol{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \boldsymbol{w}\right)-t_{n}\right\}^{2}$

我們發(fā)現(xiàn)過小的M擬合效果非常差顺又，而高階的M完美擬合了數(shù)據(jù)更卒，但是曲線劇烈震蕩，就表達函數(shù) $sin(2\pi x)$ 來說表現(xiàn)很差稚照，這便是過擬合蹂空。

我們的目標(biāo)是通過對新數(shù)據(jù)的預(yù)測實現(xiàn)良好的泛化性，于是我們考慮一個額外的訓(xùn)練集果录，生成方式和之前的訓(xùn)練集完全相同上枕，但是包含的噪聲不同，對于每個M的選擇弱恒，我們可以利用誤差函數(shù)辨萍，或者均方根誤差（RMS）衡量：
$E_{R M S}=\sqrt{2 E\left(\boldsymbol{w}^{*}\right) / N}$
N保證了以相同的基礎(chǔ)對比不同大小的數(shù)據(jù)集，平方根保證了 $E_{RMS}$ 與目標(biāo)變量 $t$ 使用相同的規(guī)模和單位進行度量返弹。

我們發(fā)現(xiàn)M的值適中時锈玉，均方根誤差較小。M特別大的時候义起，測試誤差很大（即過擬合）拉背。進一步思考這個問題，我們發(fā)現(xiàn)默终，對于一個給定的模型復(fù)雜度（M給定）去团，數(shù)據(jù)集規(guī)模增加，過擬合問題變得不那么嚴(yán)重穷蛹，或者說，數(shù)據(jù)集規(guī)模越大昼汗，我們能用來擬合數(shù)據(jù)的模型就越復(fù)雜（靈活）肴熏。一個粗略的啟發(fā)是：數(shù)據(jù)點的數(shù)量不應(yīng)該小于模型的可調(diào)節(jié)參數(shù)的若干倍。我們根據(jù)待解決問題的復(fù)雜性來選擇模型的復(fù)雜性顷窒，過擬合現(xiàn)象是極大似然的一個通用屬性蛙吏，而通過貝葉斯方法源哩，過擬合問題可以被避免。

目前鸦做，我們使用正則化（regularization)技術(shù)控制過擬合励烦，即增加一個懲罰項，使得系數(shù)不會達到一個很大的值泼诱，如下例是加入平方懲罰項的誤差函數(shù)：
$\tilde{E}(\boldsymbol{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \boldsymbol{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\boldsymbol{w}\|^{2}$
正則化后的進行多項式擬合效果就能達到一個理想的值坛掠。

之后，作者在重新考察曲線擬合問題時治筒，提到了最大化似然函數(shù)和最小化平方和誤差函數(shù)屉栓，而最大化后驗概率等價于最小化正則化的誤差函數(shù)。

2. 概率論

文章首先通過簡單的例子說明了概率論的基本思想耸袜，然后表示了概率論的兩條基本規(guī)則：

加和規(guī)則sum rule： $p(X)=\sum_{Y} p(X, Y)$
乘積規(guī)則product rule： $p(X, Y)=p(Y | X) p(X)$

這兩個規(guī)則是機器學(xué)習(xí)全部概率推導(dǎo)的基礎(chǔ)友多。

根據(jù)乘積規(guī)則，我們得到貝葉斯定理：
$p(Y | X)=\frac{p(X | Y) p(Y)}{p(X)}=\frac{p(X | Y) p(Y)}{\sum_{Y} p(X | Y) p(Y)}$
其中堤框， $p(Y)$ 稱為先驗概率( $prior$ )域滥，即根據(jù)先驗知識得出的關(guān)于變量 $Y$ 的分布， $p(X|Y)$ 稱為似然函數(shù)（ $likelihood$ ）蜈抓， $p(X)$ 為變量 $X$ 的概率启绰， $p(Y|X)$ 稱之為條件概率（給定變量 $X$ 的情況下 $Y$ 的概率， $posterior$ 资昧，后驗概率）酬土。

在連續(xù)空間中，一個實值變量 $x$ 的概率落在區(qū)間 $(x,x+\delta x)$ 的概率由 $p(x)\delta x$ 給出（ $\delta x →0$ ）格带，那么 $p(x)$ 稱為 $x$ 的概率密度（probability density）撤缴， $x$ 在區(qū)間 $(a,b)$ 的概率由下式給出：
$p(x \in(a, b))=\int_{a}^ p(x) \mathrmw5lm5om x$
概率密度是處處大于0且歸一化的叽唱。

離散變量的期望值（expectation）的定義為：
$\mathbb{E}[f]=\sum_{x} p(x) f(x)$
連續(xù)變量的期望值：
$\mathbb{E}[f]=\int p(x) f(x) \mathrmvo0cf5d x$
方差（variance）的定義：
$\operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]$

$=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2}$

它度量了 $f(x)$ 在均值 $\mathbb{E}[f(x)]$ 附近變化性的大小屈呕。

協(xié)方差（covariance）的定義：
$\operatorname{cov}[x, y]=\mathbb{E}_{x, y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}]$

$=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y]$

它表示在多大程度上 $x$ 和 $y$ 會共同變化，如果獨立棺亭，協(xié)方差為0.

2.1 概率論之貝葉斯學(xué)派和頻率學(xué)派

????頻率學(xué)派試圖從自然的角度出發(fā)虎眨，試圖直接為事件建模，即事件A在獨立重復(fù)實驗中發(fā)生的頻率趨于極限P镶摘，那么這個極限就是事件的概率嗽桩。

????貝葉斯學(xué)派并不試圖刻畫事件本身，而是從觀察者角度凄敢。貝葉斯學(xué)派并不認(rèn)為事件本身是隨機的碌冶，而是從觀察者知識不完備這一出發(fā)點開始，構(gòu)造一套貝葉斯概率論的框架下可以對不確定知識作出推斷的方法涝缝。即不認(rèn)為事件本身具有某種客觀的隨機性扑庞，而只是觀察者不知道事件的結(jié)果譬重。

????頻率學(xué)派廣泛使用極大似然進行估計，使得似然函數(shù) $p(\mathcal{D} | \boldsymbol{w})$ 達到最大罐氨。貝葉斯學(xué)派廣泛使用先驗概率臀规。

????補充：根據(jù)知乎某大佬所言:頻率學(xué)派和貝葉斯學(xué)派最大差別是產(chǎn)生在對參數(shù)空間的認(rèn)知上。頻率學(xué)派并不關(guān)心參數(shù)空間的所有細節(jié)栅隐，而相信數(shù)據(jù)都是在某個參數(shù)值下產(chǎn)生的塔嬉，所以頻率學(xué)派從“那個值最有可能是真實值”出發(fā)的。有了極大似然和置信區(qū)間约啊。貝葉斯學(xué)派關(guān)心參數(shù)空間的每一個值邑遏，我們又沒有上帝視角，怎么可能知道哪個值是真的恰矩，參數(shù)空間的每個值都有可能是真實模型使用的值记盒，只是概率不同。

參考：https://www.zhihu.com/question/20587681

2.2 高斯分布

????高斯分布算是模式識別里面的重點難點外傅，在第一章里面簡要介紹了其一些簡單性質(zhì)纪吮，總結(jié)如下：

一元高斯分布：
$\mathcal{N}\left(x | \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{1}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}$

高斯分布滿足恒大于0：
$\mathcal{N}\left(x | \mu, \sigma^{2}\right)>0$
高斯分布是歸一化的：
$\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) \mathrme2bcvnp x=1$

高斯分布的期望：
$\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) x \mathrmotxb2ml x=\mu$
二階矩：
$\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) x^{2} \mathrmmnnvzgf x=\mu^{2}+\sigma^{2}$
方差：
$\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2}$
分布的最大值被稱為眾數(shù)，高斯分布的眾數(shù)與均值恰好相等萎胰。

假定一個觀測數(shù)據(jù)集是獨立從高斯分布中抽饶朊恕（independent and identically distributed， i.i.d.）技竟，分布均值 $\mu$ 和方差 $\sigma^2$ 未知冰肴。數(shù)據(jù)集的概率：
$p\left(\mathbf{x} | \mu, \sigma^{2}\right)=\prod_{n=1}^{N} \mathcal{N}\left(x_{n} | \mu, \sigma^{2}\right)$
當(dāng)我們把它看做參數(shù)的函數(shù)的時候，這就是高斯分布的似然函數(shù)榔组。之后我們利用極大似然法尋找似然函數(shù)取得最大值的參數(shù)值熙尉。同時書中提到了：給定數(shù)據(jù)集下最大化概率的參數(shù)和給定參數(shù)的情況下最大化數(shù)據(jù)集出現(xiàn)的概率是相關(guān)的。

高斯分布的最大似然解： $\mu_{M L}=\frac{1}{N} \sum_{n=1}^{N} x_{n}$ 搓扯， $\sigma_{M L}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{M L}\right)^{2}$

高斯分布的極大似然估計對均值的估計是無偏的检痰，對方差的估計是有偏的（低估）。

3.模型選擇

在曲線擬合中锨推，存在一個最優(yōu)的多項式階數(shù)铅歼。實際情況中，我們可能存在多個控制模型復(fù)雜度的參數(shù)换可，同時存在過擬合現(xiàn)象椎椰，所以我們需要一個驗證集。而數(shù)據(jù)有限沾鳄，所以需要交叉驗證俭识，S-1組進行訓(xùn)練，1組進行評估洞渔，運行S次套媚。但是存在一個問題就是訓(xùn)練本身很耗時。

4. 維數(shù)災(zāi)難

隨著維數(shù)的變高磁椒，我們需要指數(shù)級的訓(xùn)練數(shù)據(jù)堤瘤。對于高維數(shù)據(jù)，高斯分布的概率質(zhì)量集中在薄球殼上浆熔。這對我們的模型產(chǎn)生了極大地困難本辐。

5. 決策論

最小化錯誤分類率。把每個點分在后驗概率最大的類別中医增，那么我們分類錯誤的概率就會最小慎皱。
最小化期望損失。損失函數(shù)（代價函數(shù)）最小叶骨。
拒絕選項茫多。對于低于閾值的概率，拒絕作出識別忽刽，拒絕決策帶來的損失可以放在損失矩陣中天揖。

6.信息論

隨機變量的熵： $H[x]=-\sum_{x} p(x) \log _{2} p(x)$

熵是傳輸一個隨機變量狀態(tài)值所需的比特位的下界。

相對熵： $\mathrm{KL}(p \| q)=-\int p(\boldsymbol{x}) \ln \left\{\frac{q(\boldsymbol{x})}{p(\boldsymbol{x})}\right\} \mathrmimycvcu \boldsymbol{x}$

相對熵也被稱之為KL散度跪帝，不對稱今膊。當(dāng)且僅當(dāng) $p=q$ 時，等號成立伞剑。

最小化KL散度等價于最大化似然函數(shù)（p為真實分布斑唬，q為給定分布）。

互信息：
$\begin{aligned}I[\boldsymbol{x}, \boldsymbol{y}] & \equiv \mathrm{KL}(p(\boldsymbol{x}, \boldsymbol{y}) \| p(\boldsymbol{x}) p(\boldsymbol{y})) \\&=-\iint p(\boldsymbol{x}, \boldsymbol{y}) \ln \left(\frac{p(\boldsymbol{x}) p(\boldsymbol{y})}{p(\boldsymbol{x}, \boldsymbol{y})}\right) \mathrmemuvgc2 \boldsymbol{x} \mathrmg2amqih \boldsymbol{y}\end{aligned}$
$I[\boldsymbol{x}, \boldsymbol{y}] \geq 0$ 黎泣，當(dāng)且僅當(dāng) $x$$y$ 獨立時等號成立恕刘。我們可以把互信息看成由于知道 $y$ 值而造成的 $x$ 的不確定性的減少。

7. 一些小的知識點：

嚴(yán)格凸函數(shù)：每條弦位于函數(shù)圖像上方聘裁，即二階導(dǎo)數(shù)為正
變分法
高維空間中雪营，球的大部分體積都聚集在表面附近。
具體化一個連續(xù)變量需要大量比特位衡便。

本文由飛劍客原創(chuàng)献起，如需轉(zhuǎn)載，請聯(lián)系私信聯(lián)系知乎：@AndyChanCD

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末镣陕，一起剝皮案震驚了整個濱河市谴餐，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌呆抑，老刑警劉巖岂嗓，帶你破解...
沈念sama閱讀 221,695評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異鹊碍，居然都是意外死亡厌殉，警方通過查閱死者的電腦和手機食绿，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,569評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來公罕，“玉大人器紧，你說我怎么就攤上這事÷ゾ欤” “怎么了铲汪？”我有些...
開封第一講書人閱讀 168,130評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長罐柳。經(jīng)常有香客問我掌腰，道長，這世上最難降的妖魔是什么张吉？我笑而不...
開封第一講書人閱讀 59,648評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任齿梁，我火速辦了婚禮，結(jié)果婚禮上芦拿，老公的妹妹穿的比我還像新娘士飒。我一直安慰自己，他們只是感情好蔗崎，可當(dāng)我...
茶點故事閱讀 68,655評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布酵幕。她就那樣靜靜地躺著，像睡著了一般缓苛。火紅的嫁衣襯著肌膚如雪芳撒。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,268評論 1贊 309
城市分裂傳說
那天未桥，我揣著相機與錄音笔刹，去河邊找鬼。笑死冬耿，一個胖子當(dāng)著我的面吹牛舌菜，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播亦镶，決...
沈念sama閱讀 40,835評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼日月，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了缤骨？” 一聲冷哼從身側(cè)響起爱咬，我...
開封第一講書人閱讀 39,740評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎绊起，沒想到半個月后精拟，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,286評論 1贊 318
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,375評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年蜂绎，在試婚紗的時候發(fā)現(xiàn)自己被綠了栅表。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,505評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡荡碾，死狀恐怖谨读，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情坛吁，我是刑警寧澤，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布铐尚，位于F島的核電站拨脉，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏宣增。R本人自食惡果不足惜玫膀，卻給世界環(huán)境...
茶點故事閱讀 41,873評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望爹脾。院中可真熱鬧帖旨，春花似錦、人聲如沸灵妨。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,357評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽泌霍。三九已至货抄，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間朱转，已是汗流浹背蟹地。一陣腳步聲響...
開封第一講書人閱讀 33,466評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留藤为，地道東北人怪与。一個月前我還...
沈念sama閱讀 48,921評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像缅疟，于是被迫代替她去往敵國和親分别。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,515評論 2贊 359

PRML第一章讀書小結(jié)

PRML第一章讀書小結(jié)

1. 多項式曲線擬合問題

2. 概率論

2.1 概率論之貝葉斯學(xué)派和頻率學(xué)派

2.2 高斯分布

3.模型選擇

4. 維數(shù)災(zāi)難

5. 決策論

6.信息論

7. 一些小的知識點：

推薦閱讀更多精彩內(nèi)容