一、經(jīng)驗誤差與過擬合
誤差率
分類錯誤的樣本數(shù)占樣本總數(shù)的比率寄摆。精度
分類正確的樣本數(shù)占總數(shù)的比率鸿竖。誤差
學習器的實際預測輸出與樣本的真實輸出之間的差異凄吏。訓練誤差(經(jīng)驗誤差)
學習器在訓練集上的誤差。現(xiàn)狀
很多情況下带污,可以學的一個經(jīng)驗誤差很小僵控、在訓練集上表現(xiàn)很好的學習器;甚至對訓練樣本的分類可以達到100%的準確鱼冀。挑戰(zhàn)
這樣的學習器在多數(shù)情況下并不好报破。實際期望
- 目標:讓學習器在新樣本上表現(xiàn)很好;
- 方法:從訓練樣本中盡可能學出適用于所有潛在樣本的 “普遍規(guī)律” 千绪;
- 挑戰(zhàn):
- 過擬合:把訓練樣本學得 “太好”充易,可能把訓練樣本本身的特性,當做所有潛在樣本都會具有的一般性質(zhì)荸型;導致性能下降盹靴;
- 欠擬合:對訓練樣本的一般性質(zhì)尚未學好。
- 原因分析
- 過擬合:學習能力過于強大瑞妇,把訓練樣本所包含的特性都學到了稿静;
- 欠擬合:學習能力低下;
- 解決辦法:
- 欠擬合(簡單):在決策樹學習中踪宠,擴展分支自赔;在神經(jīng)網(wǎng)絡(luò)學習中,增加訓練輪數(shù)柳琢;
- 過擬合(復雜):是機器學習面臨的關(guān)鍵障礙绍妨,各類學校西算法都有針對過擬合的措施润脸,只能緩解,無法徹底避免他去;
理解:機器學習面臨的問題毙驯,通常是NP難的,甚至更難灾测;而有效的學習算法必然是在多項式時間內(nèi)運行完成爆价,若可徹底避免過擬合,則通過經(jīng)驗誤差最小化就能獲得最優(yōu)解媳搪。這與 “P=NP” 矛盾铭段;只要相信 “P != NP”,那么過擬合不可避免秦爆;
- 挑戰(zhàn)
- 挑戰(zhàn):對于同一個任務(wù)序愚,有多種學習算法可供選擇,同一個學習算法設(shè)置不同參數(shù)等限,也會得到不同的模型爸吮;
- 存在的問題:選擇哪一個學習算法?選擇哪一種參數(shù)配置望门?
- 理想解決辦法
- 對候選模型的泛化誤差進行評估形娇;
- 選擇繁華誤差最小的那個模型。
- 現(xiàn)實挑戰(zhàn):
- 無法直接獲得泛化誤差筹误;(潛在樣本未知)
- 訓練誤差不適合作為標準桐早;(過擬合并不好)
二、評估方法
1. 現(xiàn)實中如何選擇學習算法和參數(shù)配置纫事?
可通過實驗測試來對學習器的泛化誤差進行評估勘畔,進而做出選擇。
2. 測試集
- 作用:測試學習器對新樣本的判別能力丽惶,然后炫七,以測試集上的 “測試誤差” 作為泛化誤差的近似;
- 獲得:通常假設(shè)測試樣本是從樣本真實分布中獨立同分布采樣獲得钾唬。
- 注意:測試集應(yīng)該盡量與樣本集互斥万哪,也就是,樣本盡量不在訓練集中出現(xiàn)抡秆,未在訓練過程中使用過奕巍。
3. 原因
學校的學習鍛煉的是學生 “舉一反三” 的能力,不應(yīng)該出之前學過的題目儒士。
4. 獲得測試集和訓練集
- 方法:對數(shù)據(jù)集進行適當?shù)奶幚淼闹梗瑥闹挟a(chǎn)生訓練集和測試集。
5. 獲取方法1:留出法
1)留出法
直接將數(shù)據(jù)劃分為兩個互斥的集合着撩,其中一個作為訓練集诅福,另一個作為測試集匾委。
用訓練集訓練出模型后,用測試集評估誤差氓润。
2)需要的性質(zhì)
- 訓練集和測試集的劃分盡可能保持數(shù)據(jù)分布的一致性赂乐;
- 避免因數(shù)據(jù)劃分過程引入額外的偏差,而對最終結(jié)果產(chǎn)生影響咖气;
3)使用方法
采用隨機劃分的方法挨措,重復進行實驗評估后,取平均值作為留出法的訓練結(jié)果崩溪。
4)比例問題
若訓練集太大浅役,則訓練處的模型接近了數(shù)據(jù)集的模型;若訓練集太小伶唯,那么担租,評估結(jié)果可能不夠精確。需要在二者之間做一個均衡抵怎;
- 均衡:一般訓練集和測試集的比例:(2/3 - 4/5);
6. 交叉驗證法
1)原理
- 將數(shù)據(jù)集 D 劃分為k個大小相似的互斥子集岭参,每個子集盡量保持數(shù)據(jù)分布的一致性反惕;
- 從中選取 k-1 個子集作為訓練集,剩下一個子集作為測試集演侯;
- 從而可以獲得 k 個訓練集/測試集的組合姿染;
- 最終獲得k個測試結(jié)果的均值。
2)子集的劃分
- 挑戰(zhàn):數(shù)據(jù)集 D 劃分為k個子集秒际,存在多種劃分方式悬赏;需要減少因樣本劃分不同而引入的差異。
- 解決:隨機使用不同的劃分重復 p 次娄徊,最終獲得的結(jié)果是 p 次k折交叉驗證結(jié)果的均值闽颇。
3)特殊案例:留一法
樣本有m個,劃分子集數(shù) k=m寄锐,也就是說兵多,只保留一個樣本不訓練。
- 優(yōu)勢:一般認為它評估的結(jié)果比較準確
- 缺陷:樣本大時橄仆,需要訓練的模型太多剩膘。
7. 分析
- 留出法:實際評估的模型使用的訓練集比數(shù)據(jù)集小,引入了因樣本規(guī)模不同而導致的偏差盆顾;
- 留一法:計算復雜度高怠褐;
動機:需要 ① 減少訓練樣本規(guī)模不同的影響;② 高效的進行實驗估計您宪;
8. 自助法
1)步驟
- 首先奈懒,從初始數(shù)據(jù)集 D 中隨機挑選一個樣本拷貝放入D'奠涌。
- 重復上述過程,m次筐赔,D' 中也包含 m 個元素铣猩;
- D' 作為訓練數(shù)據(jù),D\D' 作為測試數(shù)據(jù)茴丰。
2)性能
- D' 包含不重復的元素大約占 2/3达皿,D\D' 大約占1/3;
- 別稱:包外估計贿肩;
3)特點
- 長處:在數(shù)據(jù)集較小峦椰,難以有效劃分訓練集/測試集的情況下很有用;
-分析:自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)及的分布汰规,引入了額外的估計偏差汤功; - 短處:在數(shù)據(jù)量充足的情況下,留出法和交叉驗證法更加常用溜哮;