5.1 學(xué)習(xí)算法
5.1.1 任務(wù),T
常見機(jī)器學(xué)習(xí)任務(wù)列舉:分類半醉,輸入缺失分類疚俱,回歸,轉(zhuǎn)錄缩多,機(jī)器翻譯呆奕,結(jié)構(gòu)化輸出,異常檢測(cè)衬吆,合成和采樣梁钾,缺失值填補(bǔ),去噪咆槽,密度估計(jì)或概率分布律函數(shù)估計(jì)
5.1.2 性能度量陈轿,P
**
5.1.3 經(jīng)驗(yàn)圈纺,E
機(jī)器學(xué)習(xí)算法分為:無監(jiān)督 (unsupervised) 和監(jiān)督 (supervised)
5.1.4 實(shí)例:線性回歸
任務(wù)T-->線性函數(shù):
度量P-->均方誤差 (mean squared error)
MSE =
argminMSE:
5.2 容量秦忿,過擬合和欠擬合
模型的容量(capacity)是指其擬合各種函數(shù)的能力麦射。容量低的模型可能很難擬合訓(xùn)練集。容量高的模型可能會(huì)過擬合灯谣,因?yàn)橛涀×瞬贿m用于測(cè)試集的訓(xùn)練集性質(zhì)潜秋。
提高機(jī)器學(xué)習(xí)模型泛化色徘。奧卡姆剃刀 (Occam’s razor)恭金。該原則指出,在同樣能夠解釋已知觀測(cè)現(xiàn)象的假設(shè)中褂策,應(yīng)該挑選 ‘‘最簡單’’ 的那一個(gè)横腿。
5.2.1 沒有免費(fèi)午餐定理
機(jī)器學(xué)習(xí)的沒有免費(fèi)午餐定理 (no free lunch theorem)表明,在所有可能的數(shù)據(jù)生成分布上平均斤寂,每一個(gè)分類算法在未事先觀測(cè)的點(diǎn)上都有相同的錯(cuò)誤率蔑水。換言之,在某種意義上扬蕊,沒有一個(gè)機(jī)器學(xué)習(xí)算法總是比其他的要好搀别。什么樣的學(xué)習(xí)算法在我們關(guān)注的數(shù)據(jù)生成分布上效果最好。
5.2.2 正則化
上圖是舉例了通過增加或減少學(xué)習(xí)算法可選假設(shè)空間(上圖通過增加或減少多項(xiàng)式的次數(shù))的函數(shù)來增加或減少模型的容量绢涡。除此之外牲剃,算法也取決于這些函數(shù)的具體形式。例如針對(duì)線性回歸雄可,可以加入權(quán)重衰減 (weight decay)來修改線性回歸的訓(xùn)練標(biāo)準(zhǔn)凿傅。帶權(quán)重衰減的線性回歸最小化,訓(xùn)練集上的均方誤差和正則項(xiàng)的和 J(w)数苫,偏好于平方 L2 范數(shù)較小的權(quán)重聪舒。
如第一張圖所示箱残,我們使用高階多項(xiàng)式回歸模型來擬合圖中訓(xùn)練樣本。真實(shí)函數(shù)是二次的止吁,但是在這里我 們只使用 9 階多項(xiàng)式被辑。我們通過改變權(quán)重衰減的量來避免高階模型的過擬合問題。(左)當(dāng) λ 非 常大時(shí)敬惦,我們可以強(qiáng)迫模型學(xué)習(xí)到了一個(gè)沒有斜率的函數(shù)盼理。由于它只能表示一個(gè)常數(shù)函數(shù),所以會(huì)導(dǎo)致欠擬合俄删。(中)取一個(gè)適當(dāng)?shù)?λ 時(shí)宏怔,學(xué)習(xí)算法能夠用一個(gè)正常的形狀來恢復(fù)曲率奏路。即使模 型能夠用更復(fù)雜的形狀來來表示函數(shù),權(quán)重衰減鼓勵(lì)用一個(gè)帶有更小參數(shù)的更簡單的模型來描述 它臊诊。(右)當(dāng)權(quán)重衰減趨近于 0(即鸽粉,使用Moore-Penrose 偽逆來解這個(gè)帶有最小正則化的欠定問 題)時(shí),這個(gè) 9 階多項(xiàng)式會(huì)導(dǎo)致嚴(yán)重的過擬合妨猩,這和我們?cè)趫D中看到的一樣潜叛。
5.3 超參數(shù)和驗(yàn)證集
如5.2中所示的多項(xiàng)式回歸實(shí)例中秽褒,有一個(gè)超參數(shù):多項(xiàng)式的次數(shù)壶硅,作為容量超參數(shù)∠澹控制權(quán)重衰減程度的 λ 是另一個(gè)超參數(shù)庐椒。
5.3.1 交叉驗(yàn)證
k-折交叉驗(yàn)證算法
5.4 估計(jì),偏差和方差
5.4.1 點(diǎn)估計(jì)
點(diǎn)估計(jì) (point estimator):參數(shù) 的點(diǎn)估計(jì)為
函數(shù)估計(jì):模型估計(jì)去近似 f
5.4.2 偏差
定義:蚂踊,無偏 (unbiased):
伯努利分布:,
是參數(shù)
的無偏估計(jì)
高斯分布:,即
樣本均值是高斯均值參數(shù)
的無偏估計(jì)量
樣本方差是參數(shù)
的有偏估計(jì)约谈,即
,從此式可以得到
的無偏樣本方差 (unbiased sample variance)估計(jì):
Tips:有兩個(gè)估計(jì)量:一個(gè)是有偏的犁钟,另一個(gè)是無偏的棱诱。盡管無偏估計(jì)顯然是可
取的,但它并不總是 ‘‘最好’’ 的估計(jì)涝动。我們將看到迈勋,經(jīng)常會(huì)使用其他具有重要性質(zhì)的有偏估計(jì)。
5.4.4 權(quán)衡偏值和方差以最小化均方誤差
均方誤差 (mean squared error,MSE):
5.4.5 一致性
一致性保證了估計(jì)量的偏差會(huì)隨數(shù)據(jù)樣本數(shù)目的增多而減少脖母。
5.5 最大似然估計(jì)
一組含有m個(gè)樣本的數(shù)據(jù)集,獨(dú)立地由真正但未知的數(shù)據(jù)生成分布
生成。讓
是一族由 θ 確定在相同空間上的概率分布闲孤。換言之谆级,
將任意輸入x映射到實(shí)數(shù)去估計(jì)真實(shí)概率
烤礁。
θ 的最大后驗(yàn)估計(jì)被定義為:
比較經(jīng)驗(yàn)分布和模型分布之間的差異,可以通過KL散度度量肥照,定義:
左邊一項(xiàng)僅涉及到數(shù)據(jù)生成過程脚仔,和模型無關(guān)。表明最小化KL散度和最大化后驗(yàn)概率是一樣的舆绎。
最小化 KL 散度其實(shí)就是在最小化分布之間的交叉熵鲤脏。許多作者使用術(shù)語 ‘‘交
叉熵’’ 特定表示伯努利或 softmax 分布的負(fù)對(duì)數(shù)似然,但那是用詞不當(dāng)?shù)穆蓝洹H魏我粋€(gè)由負(fù)對(duì)數(shù)似然組成的損失都是定義在訓(xùn)練集上的經(jīng)驗(yàn)分布和定義在模型上的概率分布之間的交叉熵猎醇。例如,均方誤差是經(jīng)驗(yàn)分布和高斯模型之間的交叉熵努溃。
5.5.1 條件對(duì)數(shù)似然和均方誤差
最大似然估計(jì)很容易擴(kuò)展到估計(jì)條件概率 P (y | x; θ)硫嘶,給定 x 預(yù)測(cè) y。
如果 X 表示所有的輸入梧税,Y 表示我們觀測(cè)到的目標(biāo)沦疾,那么條件最大似然估計(jì)是,
實(shí)例:線性回歸作為最大似然
假設(shè),樣本獨(dú)立同分布,條件對(duì)數(shù)似然如下:
5.5.2 最大似然的性質(zhì)
在合適的條件下第队,最大似然估計(jì)具有一致性(參考第5.4.5節(jié))哮塞,意味著訓(xùn)練樣本數(shù)目趨向于無限大時(shí),參數(shù)的最大似然估計(jì)收斂到參數(shù)的真實(shí)值凳谦。這些條件是:
- 真實(shí)分布
必須在模型族
中忆畅。否則,沒有估計(jì)可以表示
晾蜘。
- 真實(shí)分布
必須剛好對(duì)應(yīng)一個(gè)
值邻眷。否則,最大似然學(xué)習(xí)恢復(fù)出真實(shí)分布
后剔交,也不能決定數(shù)據(jù)生成過程使用哪個(gè)
肆饶。
5.6 貝葉斯統(tǒng)計(jì)
貝葉斯統(tǒng)計(jì) (Bayesian statistics):貝葉斯用概率反映知識(shí)狀態(tài)的確定性程度。數(shù)據(jù)集能夠直接觀測(cè)到岖常,因此不是隨機(jī)的驯镊。另一方面,真實(shí)參數(shù)θ是未知或不確定的竭鞍。因此可以表示成隨機(jī)變量板惑。
通俗的理解,就是貝葉斯統(tǒng)計(jì)會(huì)考慮參數(shù)的所有分布偎快,而不是W的一個(gè)最優(yōu)化的值冯乘。最常使用的還是對(duì)參數(shù)的單點(diǎn)估計(jì)。
實(shí)例:貝葉斯線性回歸
書中的推導(dǎo)一開始看起來不是很友好晒夹,以下幾個(gè)鏈接可供參考裆馒,:
https://blog.csdn.net/daunxx/article/details/51725086
https://www.zhihu.com/question/22007264
https://zhuanlan.zhihu.com/p/21598595
https://www.jiqizhixin.com/articles/2018-04-25-3
http://blog.sciencenet.cn/blog-3189881-1140129.html
https://cloud.tencent.com/developer/article/1097341
https://www.cnblogs.com/leezx/p/8721645.html
對(duì)比下最大似然估計(jì)姊氓,最大后驗(yàn)估計(jì),貝葉斯統(tǒng)計(jì):
- 最大似然估計(jì)和最大后驗(yàn)估計(jì)都是屬于點(diǎn)估計(jì)喷好,但最大后驗(yàn)估計(jì)會(huì)假設(shè)參數(shù)服從某一分布翔横。假設(shè)參數(shù)服從高斯分布,就相當(dāng)于我們對(duì)目標(biāo)函數(shù)加上L2范數(shù)梗搅;假設(shè)參數(shù)服從拉普拉斯分布禾唁,則是加上L1范數(shù)。
- 貝葉斯統(tǒng)計(jì)則會(huì)考慮參數(shù)的整個(gè)分布无切。從理論上看荡短,貝葉斯統(tǒng)計(jì)相比于最大后驗(yàn)估計(jì)更準(zhǔn)確,但缺點(diǎn)在于貝葉斯統(tǒng)計(jì)計(jì)算更加復(fù)雜订雾。實(shí)際上肢预,數(shù)據(jù)量越大矛洞,參數(shù)的先驗(yàn)影響就會(huì)變小洼哎,模型的不確定性程度會(huì)降低。