花書《深度學(xué)習(xí)》《Deep Learning》學(xué)習(xí)筆記chapter 5 (1)

5.1 學(xué)習(xí)算法

5.1.1 任務(wù),T

常見機(jī)器學(xué)習(xí)任務(wù)列舉:分類半醉,輸入缺失分類疚俱,回歸,轉(zhuǎn)錄缩多,機(jī)器翻譯呆奕,結(jié)構(gòu)化輸出,異常檢測(cè)衬吆,合成和采樣梁钾,缺失值填補(bǔ),去噪咆槽,密度估計(jì)或概率分布律函數(shù)估計(jì)

5.1.2 性能度量陈轿,P

**

5.1.3 經(jīng)驗(yàn)圈纺,E

機(jī)器學(xué)習(xí)算法分為:無監(jiān)督 (unsupervised) 和監(jiān)督 (supervised)

5.1.4 實(shí)例:線性回歸

任務(wù)T-->線性函數(shù):\overset { \wedge}{ y } =w^Tx
度量P-->均方誤差 (mean squared error)
MSE = \frac{1}{m}\sum_i{(\overset { \wedge}{ y }-y)_i^2 )}=\frac{1}{m}||\overset { \wedge}{ y }-y||_2^2
argminMSE:
\nabla _{ w }MSE_{ train }=0\\ \Rightarrow \nabla _{ w }\frac { 1 }{ m } ||\overset { \wedge }{ y } -y||=0\\ \Rightarrow \nabla _{ w }\frac { 1 }{ m } ||Xw-y||=0\\ \Rightarrow \nabla _{ w }(Xw-y)^{ T }(Xw-y)=0\\ \Rightarrow 2X^{ T }(Xw-y)=0\\ \Rightarrow w=(X^{ T }X)^{ -1 }X^{ T }y

5.2 容量秦忿,過擬合和欠擬合

模型的容量(capacity)是指其擬合各種函數(shù)的能力麦射。容量低的模型可能很難擬合訓(xùn)練集。容量高的模型可能會(huì)過擬合灯谣,因?yàn)橛涀×瞬贿m用于測(cè)試集的訓(xùn)練集性質(zhì)潜秋。


容量和誤差之間的典型關(guān)系。訓(xùn)練誤差和測(cè)試誤差表現(xiàn)得非常不同胎许。在圖的左端峻呛,訓(xùn)練誤 差和泛化誤差都非常高。這是欠擬合期 (underfitting regime)辜窑。當(dāng)我們?cè)黾尤萘繒r(shí)钩述,訓(xùn)練誤差減小, 但是訓(xùn)練誤差和泛化誤差之間的間距卻不斷擴(kuò)大穆碎。最終牙勘,這個(gè)間距的大小超過了訓(xùn)練誤差的下降, 我們進(jìn)入到了過擬合期 (overfitting regime)所禀,其中容量過大方面,超過了最佳容量 (optimal capacity)。

提高機(jī)器學(xué)習(xí)模型泛化色徘。奧卡姆剃刀 (Occam’s razor)恭金。該原則指出,在同樣能夠解釋已知觀測(cè)現(xiàn)象的假設(shè)中褂策,應(yīng)該挑選 ‘‘最簡單’’ 的那一個(gè)横腿。

5.2.1 沒有免費(fèi)午餐定理

機(jī)器學(xué)習(xí)的沒有免費(fèi)午餐定理 (no free lunch theorem)表明,在所有可能的數(shù)據(jù)生成分布上平均斤寂,每一個(gè)分類算法在未事先觀測(cè)的點(diǎn)上都有相同的錯(cuò)誤率蔑水。換言之,在某種意義上扬蕊,沒有一個(gè)機(jī)器學(xué)習(xí)算法總是比其他的要好搀别。什么樣的學(xué)習(xí)算法在我們關(guān)注的數(shù)據(jù)生成分布上效果最好。

5.2.2 正則化

訓(xùn)練集大小對(duì)訓(xùn)練誤差尾抑,測(cè)試誤差以及最佳容量的影響歇父。通過給一個(gè) 5 階多項(xiàng)式添加適當(dāng) 大小的噪聲贰镣,我們構(gòu)造了一個(gè)合成的回歸問題筷畦,生成單個(gè)測(cè)試集接箫,然后生成一些不同尺寸的訓(xùn)練 集演痒。為了描述%95 置信區(qū)間的誤差條金闽,對(duì)于每一個(gè)尺寸簸州,我們生成了 40 個(gè)不同的訓(xùn)練集鹏秋。(上) 兩個(gè)不同的模型上訓(xùn)練集和測(cè)試集的MSE究履,一個(gè)二次模型,另一個(gè)模型的階數(shù)通過最小化測(cè)試誤 差來選擇驹饺。兩個(gè)模型都是用閉式解來擬合钳枕。對(duì)于二次模型來說,當(dāng)訓(xùn)練集增加時(shí)訓(xùn)練誤差也隨之 增大赏壹。這是由于越大的數(shù)據(jù)集越難以擬合鱼炒。同時(shí),測(cè)試誤差隨之減小蝌借,因?yàn)殛P(guān)于訓(xùn)練數(shù)據(jù)的不正確 的假設(shè)越來越少昔瞧。二次模型的容量并不足以解決這個(gè)問題,所以它的測(cè)試誤差趨近于一個(gè)較高的 值菩佑。最佳容量點(diǎn)處的測(cè)試誤差趨近于貝葉斯誤差自晰。訓(xùn)練誤差可以低于貝葉斯誤差,因?yàn)橛?xùn)練算法有 能力記住訓(xùn)練集中特定的樣本稍坯。當(dāng)訓(xùn)練集趨向于無窮大時(shí)缀磕,任何固定容量的模型(在這里指的是 二次模型)的訓(xùn)練誤差都至少增至貝葉斯誤差。(下)當(dāng)訓(xùn)練集大小增大時(shí)劣光,最佳容量(在這里是 用最優(yōu)多項(xiàng)式回歸器的階數(shù)衡量的)也會(huì)隨之增大袜蚕。最佳容量在達(dá)到足夠捕捉模型復(fù)雜度之后就 不再增長了。

上圖是舉例了通過增加或減少學(xué)習(xí)算法可選假設(shè)空間(上圖通過增加或減少多項(xiàng)式的次數(shù))的函數(shù)來增加或減少模型的容量绢涡。除此之外牲剃,算法也取決于這些函數(shù)的具體形式。例如針對(duì)線性回歸雄可,可以加入權(quán)重衰減 (weight decay)來修改線性回歸的訓(xùn)練標(biāo)準(zhǔn)凿傅。帶權(quán)重衰減的線性回歸最小化,訓(xùn)練集上的均方誤差和正則項(xiàng)的和 J(w)数苫,偏好于平方 L2 范數(shù)較小的權(quán)重聪舒。
J(w)=MSE_{ train }+\lambda w^{ T }w

\lambda
控制偏好小范數(shù)權(quán)重的程度。越大的 λ 偏好范數(shù)越小的權(quán)重虐急。

如第一張圖所示箱残,我們使用高階多項(xiàng)式回歸模型來擬合圖中訓(xùn)練樣本。真實(shí)函數(shù)是二次的止吁,但是在這里我 們只使用 9 階多項(xiàng)式被辑。我們通過改變權(quán)重衰減的量來避免高階模型的過擬合問題。(左)當(dāng) λ 非 常大時(shí)敬惦,我們可以強(qiáng)迫模型學(xué)習(xí)到了一個(gè)沒有斜率的函數(shù)盼理。由于它只能表示一個(gè)常數(shù)函數(shù),所以會(huì)導(dǎo)致欠擬合俄删。(中)取一個(gè)適當(dāng)?shù)?λ 時(shí)宏怔,學(xué)習(xí)算法能夠用一個(gè)正常的形狀來恢復(fù)曲率奏路。即使模 型能夠用更復(fù)雜的形狀來來表示函數(shù),權(quán)重衰減鼓勵(lì)用一個(gè)帶有更小參數(shù)的更簡單的模型來描述 它臊诊。(右)當(dāng)權(quán)重衰減趨近于 0(即鸽粉,使用Moore-Penrose 偽逆來解這個(gè)帶有最小正則化的欠定問 題)時(shí),這個(gè) 9 階多項(xiàng)式會(huì)導(dǎo)致嚴(yán)重的過擬合妨猩,這和我們?cè)趫D中看到的一樣潜叛。

5.3 超參數(shù)和驗(yàn)證集

如5.2中所示的多項(xiàng)式回歸實(shí)例中秽褒,有一個(gè)超參數(shù):多項(xiàng)式的次數(shù)壶硅,作為容量超參數(shù)∠澹控制權(quán)重衰減程度的 λ 是另一個(gè)超參數(shù)庐椒。

5.3.1 交叉驗(yàn)證

k-折交叉驗(yàn)證算法

5.4 估計(jì),偏差和方差

5.4.1 點(diǎn)估計(jì)

點(diǎn)估計(jì) (point estimator):參數(shù) θ 的點(diǎn)估計(jì)為 \overset{?}{ θ }

函數(shù)估計(jì):模型估計(jì)去近似 f

5.4.2 偏差

定義:bia(\overset { \wedge } { \theta }_{ m })=E(\overset { \wedge } { \theta }_{ m })-\theta蚂踊,無偏 (unbiased):E(\overset { \wedge } { \theta }_{ m })=\theta

伯努利分布:P(x^{(i)};\theta)=\theta^{x^{(i)}}(1-\theta)^{(1-x^{(i)})},\overset { \wedge } { \theta }_{ m }=\frac{1}{m}\sum_{i=1}^{m}x^{(i)}是參數(shù)\theta的無偏估計(jì)

高斯分布:p(x^{(i)})=N(x^{(i)};\mu,\sigma ^2),即p(x^{ (i) })=\frac { 1 }{ \sqrt { 2\pi \sigma ^{ 2 } } } exp(-\frac { 1 }{ 2 } \frac { (x^{ (i) }-\mu )^{ 2 } }{ \sigma ^{ 2 } } )

樣本均值\overset { \wedge }{ \mu }_ { m }=\frac { 1 }{ m } \sum _{ i=1 }^{ m } x^{ (i) }是高斯均值參數(shù)\mu的無偏估計(jì)量

樣本方差\overset { \wedge }{ \sigma } _{ { m } }^{ 2 }=\frac { 1 }{ m } \sum _{ i=1 }^{ m } (x^{ (i) }-\overset{\wedge}{\mu }_m)^2是參數(shù)\sigma ^2的有偏估計(jì)约谈,即bias(\overset { \wedge }{ \sigma } _{ { m } }^{ 2 })=E[\overset { \wedge }{ \sigma } _{ { m } }^{ 2 }]-\sigma ^2=\frac{m-1}{m}\sigma ^2-\sigma ^2 = -\frac{\sigma ^2}{m},從此式可以得到\sigma ^2無偏樣本方差 (unbiased sample variance)估計(jì):\frac{m}{m-1}E[\overset { \wedge }{ \sigma } _{ { m } }^{ 2 }]=\frac{1}{m-1}\sum _{ i=1 }^{ m } (x^{ (i) }-\overset{\wedge}{\mu }_m)^2

Tips:有兩個(gè)估計(jì)量:一個(gè)是有偏的犁钟,另一個(gè)是無偏的棱诱。盡管無偏估計(jì)顯然是可
取的,但它并不總是 ‘‘最好’’ 的估計(jì)涝动。我們將看到迈勋,經(jīng)常會(huì)使用其他具有重要性質(zhì)的有偏估計(jì)。

5.4.4 權(quán)衡偏值和方差以最小化均方誤差

均方誤差 (mean squared error,MSE):

MSE\\=E[(\overset { \wedge }{ \theta } _{ m }-\theta )^{ 2 }]\\=Bias(\overset { \wedge }{ \theta } _{ m })^2+Var(\overset { \wedge }{ \theta } _{ m })

偏差和方差的關(guān)系和機(jī)器學(xué)習(xí)容量醋粟,欠擬合和過擬合的概念緊密相聯(lián)靡菇。用MSE度量泛化誤差(偏差和方差對(duì)于泛化誤差都是有意義的)時(shí),增加容量會(huì)增加方差米愿,降低偏差厦凤。
當(dāng)容量增大(x 軸)時(shí),偏差(用點(diǎn)表示)隨之減小育苟,而方差(虛線)隨之增大较鼓,使得泛 化誤差(加粗曲線)產(chǎn)生了另一種 U 形。如果我們沿著軸改變?nèi)萘课グ兀瑫?huì)發(fā)現(xiàn)最佳容量笨腥,當(dāng)容量小 于最佳容量會(huì)呈現(xiàn)欠擬合,大于時(shí)導(dǎo)致過擬合勇垛。

5.4.5 一致性

一致性保證了估計(jì)量的偏差會(huì)隨數(shù)據(jù)樣本數(shù)目的增多而減少脖母。

5.5 最大似然估計(jì)

一組含有m個(gè)樣本的數(shù)據(jù)集X= \left\{ x^{(1)},...x^{(m)}\right\},獨(dú)立地由真正但未知的數(shù)據(jù)生成分布p_{data}(x)生成。讓p_{model}(x; θ) 是一族由 θ 確定在相同空間上的概率分布闲孤。換言之谆级,p_{model}(x; θ)將任意輸入x映射到實(shí)數(shù)去估計(jì)真實(shí)概率 p_{data}(x)烤礁。

θ 的最大后驗(yàn)估計(jì)被定義為:

\theta_{ML}\\=\underset{\theta}{argmax} p_{model}(X;\theta)\\=\underset{\theta}{argmax}\prod _{ i=1 }^{m }{ p_{model}(x^{(i)};\theta) }

\theta_{ML}\\\\=\underset{\theta}{argmax}\sum _{ i=1 }^{m }{ logp_{model}(x^{(i)};\theta) }

比較經(jīng)驗(yàn)分布和模型分布之間的差異,可以通過KL散度度量肥照,定義:

D_{ KL }(\overset { \wedge }{ p_{ data } } ||{ p_{ model } })\\=E_{ X\sim \overset { \wedge }{ p_{ data } } }[log\overset { \wedge }{ p_{ data } } (x)-log{ p_{ model } } (x)]

左邊一項(xiàng)僅涉及到數(shù)據(jù)生成過程脚仔,和模型無關(guān)。表明最小化KL散度和最大化后驗(yàn)概率是一樣的舆绎。

最小化 KL 散度其實(shí)就是在最小化分布之間的交叉熵鲤脏。許多作者使用術(shù)語 ‘‘交
叉熵’’ 特定表示伯努利或 softmax 分布的負(fù)對(duì)數(shù)似然,但那是用詞不當(dāng)?shù)穆蓝洹H魏我粋€(gè)由負(fù)對(duì)數(shù)似然組成的損失都是定義在訓(xùn)練集上的經(jīng)驗(yàn)分布和定義在模型上的概率分布之間的交叉熵猎醇。例如,均方誤差是經(jīng)驗(yàn)分布和高斯模型之間的交叉熵努溃。

5.5.1 條件對(duì)數(shù)似然和均方誤差

最大似然估計(jì)很容易擴(kuò)展到估計(jì)條件概率 P (y | x; θ)硫嘶,給定 x 預(yù)測(cè) y。

如果 X 表示所有的輸入梧税,Y 表示我們觀測(cè)到的目標(biāo)沦疾,那么條件最大似然估計(jì)是,

\theta_{ML}=\underset{\theta}{argmax}P{(Y|X;\theta)}

實(shí)例:線性回歸作為最大似然

假設(shè)p(y | x) = N (y; \overset{\wedge}{y}(x;w),\sigma^2),樣本獨(dú)立同分布,條件對(duì)數(shù)似然如下:

\sum _{ i=1 }^{ m } logp(y^{ (i) }|x^{ (i) };\sigma)\\ =-mlog\sigma-\frac{m}{2}log(2\pi)-\sum_{i=1}^{m}\frac{||\overset{\wedge}{y}^{(i)}-y^{(i)}||^2}{2\sigma^2}

5.5.2 最大似然的性質(zhì)

在合適的條件下第队,最大似然估計(jì)具有一致性(參考第5.4.5節(jié))哮塞,意味著訓(xùn)練樣本數(shù)目趨向于無限大時(shí),參數(shù)的最大似然估計(jì)收斂到參數(shù)的真實(shí)值凳谦。這些條件是:

  • 真實(shí)分布p_{data} 必須在模型族 p_{model}(·; θ) 中忆畅。否則,沒有估計(jì)可以表示p_{data}晾蜘。
  • 真實(shí)分布p_{data}必須剛好對(duì)應(yīng)一個(gè)\theta值邻眷。否則,最大似然學(xué)習(xí)恢復(fù)出真實(shí)分布
    p_{data}后剔交,也不能決定數(shù)據(jù)生成過程使用哪個(gè)\theta肆饶。

5.6 貝葉斯統(tǒng)計(jì)

貝葉斯統(tǒng)計(jì) (Bayesian statistics):貝葉斯用概率反映知識(shí)狀態(tài)的確定性程度。數(shù)據(jù)集能夠直接觀測(cè)到岖常,因此不是隨機(jī)的驯镊。另一方面,真實(shí)參數(shù)θ是未知或不確定的竭鞍。因此可以表示成隨機(jī)變量板惑。
通俗的理解,就是貝葉斯統(tǒng)計(jì)會(huì)考慮參數(shù)的所有分布偎快,而不是W的一個(gè)最優(yōu)化的值冯乘。最常使用的還是對(duì)參數(shù)的單點(diǎn)估計(jì)。
實(shí)例:貝葉斯線性回歸
書中的推導(dǎo)一開始看起來不是很友好晒夹,以下幾個(gè)鏈接可供參考裆馒,:
https://blog.csdn.net/daunxx/article/details/51725086
https://www.zhihu.com/question/22007264
https://zhuanlan.zhihu.com/p/21598595
https://www.jiqizhixin.com/articles/2018-04-25-3
http://blog.sciencenet.cn/blog-3189881-1140129.html
https://cloud.tencent.com/developer/article/1097341
https://www.cnblogs.com/leezx/p/8721645.html

對(duì)比下最大似然估計(jì)姊氓,最大后驗(yàn)估計(jì)貝葉斯統(tǒng)計(jì)

  • 最大似然估計(jì)和最大后驗(yàn)估計(jì)都是屬于點(diǎn)估計(jì)喷好,但最大后驗(yàn)估計(jì)會(huì)假設(shè)參數(shù)服從某一分布翔横。假設(shè)參數(shù)服從高斯分布,就相當(dāng)于我們對(duì)目標(biāo)函數(shù)加上L2范數(shù)梗搅;假設(shè)參數(shù)服從拉普拉斯分布禾唁,則是加上L1范數(shù)。
  • 貝葉斯統(tǒng)計(jì)則會(huì)考慮參數(shù)的整個(gè)分布无切。從理論上看荡短,貝葉斯統(tǒng)計(jì)相比于最大后驗(yàn)估計(jì)更準(zhǔn)確,但缺點(diǎn)在于貝葉斯統(tǒng)計(jì)計(jì)算更加復(fù)雜订雾。實(shí)際上肢预,數(shù)據(jù)量越大矛洞,參數(shù)的先驗(yàn)影響就會(huì)變小洼哎,模型的不確定性程度會(huì)降低。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末沼本,一起剝皮案震驚了整個(gè)濱河市噩峦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌抽兆,老刑警劉巖识补,帶你破解...
    沈念sama閱讀 221,198評(píng)論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異辫红,居然都是意外死亡凭涂,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門贴妻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來切油,“玉大人,你說我怎么就攤上這事名惩∨旌” “怎么了?”我有些...
    開封第一講書人閱讀 167,643評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵娩鹉,是天一觀的道長攻谁。 經(jīng)常有香客問我,道長弯予,這世上最難降的妖魔是什么戚宦? 我笑而不...
    開封第一講書人閱讀 59,495評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮锈嫩,結(jié)果婚禮上受楼,老公的妹妹穿的比我還像新娘困檩。我一直安慰自己,他們只是感情好那槽,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評(píng)論 6 397
  • 文/花漫 我一把揭開白布悼沿。 她就那樣靜靜地躺著,像睡著了一般骚灸。 火紅的嫁衣襯著肌膚如雪糟趾。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,156評(píng)論 1 308
  • 那天甚牲,我揣著相機(jī)與錄音义郑,去河邊找鬼。 笑死丈钙,一個(gè)胖子當(dāng)著我的面吹牛非驮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播雏赦,決...
    沈念sama閱讀 40,743評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼劫笙,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了星岗?” 一聲冷哼從身側(cè)響起填大,我...
    開封第一講書人閱讀 39,659評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎俏橘,沒想到半個(gè)月后允华,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,200評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡寥掐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評(píng)論 3 340
  • 正文 我和宋清朗相戀三年靴寂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片召耘。...
    茶點(diǎn)故事閱讀 40,424評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡百炬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出怎茫,到底是詐尸還是另有隱情收壕,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評(píng)論 5 349
  • 正文 年R本政府宣布轨蛤,位于F島的核電站蜜宪,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏祥山。R本人自食惡果不足惜圃验,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望缝呕。 院中可真熱鬧澳窑,春花似錦斧散、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至麻裁,卻和暖如春箍镜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背煎源。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評(píng)論 1 271
  • 我被黑心中介騙來泰國打工色迂, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人手销。 一個(gè)月前我還...
    沈念sama閱讀 48,798評(píng)論 3 376
  • 正文 我出身青樓歇僧,卻偏偏與公主長得像,于是被迫代替她去往敵國和親锋拖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子诈悍,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容