Theory of Generalization
樣本外誤差測量了訓(xùn)練集D上學(xué)習(xí)的模型在unseen data上的泛化能力.
是基于整個輸入空間X上的表現(xiàn)來測量的.如果使用樣本集來計算模型的
,這些樣本點必須是"unseen",沒有在訓(xùn)練集中出現(xiàn)過.
對應(yīng)的,樣本內(nèi)誤差是基于訓(xùn)練集中的樣本點,它評估模型在訓(xùn)練集上的表現(xiàn).
Generalization error泛化誤差. 泛化是學(xué)習(xí)中的一個關(guān)鍵問題.Generalization is a key issue in learning.泛化誤差可以定義為和
兩者之間的差異.Hoeffding不等式提供了一個泛化誤差概率邊界的描述.
for any
.
同時可以知道,的概率為
,也就是說
,選定一個tolerance
,所以
,
,最終,
.
這個不等式提供了一個泛化邊界.
,同時也保證對于所有的
來說,
.對于最終的假設(shè)函數(shù)g既想讓它在unseen data上表現(xiàn)良好,又想它是在所有假設(shè)集中做的最好的(H中不存在其他假設(shè)函數(shù).使得
比
要好.).
這個邊界確保不能做的更好了,因為選擇的其他假設(shè)h對應(yīng)
都比g要大,因此對應(yīng)的
也要比g要大,樣本外表現(xiàn)相對變差.
誤差邊界依賴于假設(shè)空間H的大小M.如果H是無限集合,那么這個邊界就沒有意義了(邊界趨向于無限大).不幸的是,實際情況下大多數(shù)學(xué)習(xí)模型都是無限集合.
為了在無限集合H上繼續(xù)討論模型的泛化能力,我們需要對上面的式子做一些變形,想用有限的數(shù)量去代替M,這樣邊界就有意義了.
之前右邊界M對應(yīng):
[圖片上傳失敗...(image-d114c1-1544952000340)]
確保最終選擇的函數(shù)g:,因為g是H中的一個假設(shè).將
代表事件"
",因此,對應(yīng)不等式變?yōu)?
[圖片上傳失敗...(image-61202c-1544952000340)]
但是如果各個事件之間相互重疊,那么右邊界就變得比實際上大得多.比如有3個假設(shè),不同事件的面積代表對應(yīng)的事件發(fā)生的概率,三個事件的聯(lián)合邊界比3個事件對應(yīng)面積小得多,盡管面積和的邊界是正確的.由此推導(dǎo),假設(shè)空間中如果有假設(shè)函數(shù)相差不多,就會造成大量的重疊,導(dǎo)致右邊界比實際值大得多(放得太多!).我們需要想辦法將對應(yīng)的假設(shè)劃分開來(歸類,分成不同的類別),從而將無限的假設(shè)集變成有限的假設(shè)集.
[圖片上傳失敗...(image-8599d6-1544952000340)]
Effective Number of Hypotheses假設(shè)空間的有效數(shù)量
介紹一個概念growth function增長函數(shù)--定義假設(shè)空間的有效數(shù)量.我們用growth function來代替上面不等式中的M,growth function是一個組合量,能度量假設(shè)空間H中假設(shè)函數(shù)之間的差異,也就是圖中不同假設(shè)之間的重疊面積的大小.
對于一個2分類的目標(biāo)函數(shù),每個將輸入空間X映射到{-1,1}上.growth function的定義是基于假設(shè)空間H中不同假設(shè)函數(shù)的數(shù)目,而且是基于有限的樣本點,而不是整個輸入空間X.
一個假設(shè)函數(shù)應(yīng)用到有限樣本集上
,可以得到一個二分類的N元組
.N元組將N個樣本集分為兩類:正類,負(fù)類,這個N元組叫做dichotomy(二分)---對數(shù)據(jù)點一次結(jié)果劃分.每個
在N個數(shù)據(jù)點上都會產(chǎn)生一個dichotomy,但是不同的假設(shè)函數(shù)產(chǎn)生的dichotomy可能完全相同.
定義一 ,在N個數(shù)據(jù)點上,假設(shè)空間H產(chǎn)生的dichotomies定義為:
.
H(x_1,x_2,...,x_N)空間是假設(shè)空間H中每個假設(shè)函數(shù)對N個數(shù)據(jù)點劃分產(chǎn)生的dichotomy的集合空間.一個大的H(x_1,x_2,...,x_N)意味著假設(shè)空間更加多種多樣--在N個數(shù)據(jù)點上產(chǎn)生的dichotomy更多.growth function基于dichotomies的數(shù)目.
定義二 假設(shè)空間H上的growth function定義為:
其中|\cdot|表示集合中元素的數(shù)目.表示在任意N個數(shù)據(jù)點假設(shè)空間H可以生成的不同dichotomies的最大數(shù)目.為了比較
,我們需要考慮輸入空間X中N個數(shù)據(jù)點的所有可能,然后選擇能產(chǎn)生最多dichotomies的數(shù)據(jù)點集.和M類似,
是假設(shè)空間H中假設(shè)函數(shù)數(shù)目的一種度量,不同之處在于每個假設(shè)是在N個輸入點上進(jìn)行衡量,而不是整個輸入空間X.對于任意假設(shè)空間H,因為
,
最大值為:
.
如果H能夠生成N個數(shù)據(jù)點上所有的可能的類別分布,也就是說,稱假設(shè)空間H能shatter(打碎)N個數(shù)據(jù)點[能覆蓋N個數(shù)據(jù)所有可能的分類集合].
[圖片上傳失敗...(image-b7c812-1544952000340)]
圖中可以看到,是N個數(shù)據(jù)點產(chǎn)生不同dichotomies的最大值,(a)圖中3點共線時有種情況使用感知機(jī)模型不能劃分,但是(b)圖中3個點可能產(chǎn)生的dichotomies都可以實現(xiàn),所以
,(c)圖中的dichotomy不同通過感知機(jī)生成,所以
,而不是16.同時可以知道隨著假設(shè)空間H變得復(fù)雜,
也逐漸增大--這符合我們的期望.
計算每個假設(shè)空間上的增長函數(shù)并不實際,而且也沒有必要,因為我們使用增長函數(shù)
來代替不等式中的M,我們可以計算增長函數(shù)
的上界,而不是計算增長函數(shù)
的確定值,使用增長函數(shù)的上界用在不等式中也成立.
定義三 對于假設(shè)空間H,如果k個點組成的輸入集不能被假設(shè)空間shatter(打碎),那么k定義為假設(shè)空間H的break point.
如果k是break point,那么. 通常情況下,計算假設(shè)空間H的break point比計算假設(shè)空間的增長函數(shù)要容易得多.
[圖片上傳失敗...(image-6cd212-1544952000340)]
如果數(shù)據(jù)點超過k,假設(shè)空間更不可能對其shatter,break point更像是對輸入情況的一種界限.
我們使用break point k來導(dǎo)出對任意N的增長函數(shù)的一個邊界.比如2維感知機(jī)不能把4個點shatter,這個知識對于當(dāng)輸入點是5或更多時,對感知機(jī)能產(chǎn)生的dichotomies能有一個限制.接下來,討論
的邊界是什么.
Bounding the Growth Function增長函數(shù)的邊界
關(guān)于增長函數(shù)而言,如果在某個點被打破,那么
對于任意值N可以通過這個break point用一個簡單的多項式確定邊界.如果不存在break point,對于所有N而言,
總是成立的.如果用
來代替不等式中的M傅事,那么
泛化誤差邊界無論訓(xùn)練樣本N取多大都不可能趨于零(
);但是如果
可以用一個多項式來代替,那么當(dāng)訓(xùn)練樣本數(shù)
,泛化誤差將會趨于零,這意味著在充足樣本集下,模型的泛化結(jié)果可以非常好.
定理 如果存在k,使得成立,那么,
[圖片上傳失敗...(image-3f1597-1544952000340)]
對于所有的N都成立.RHS是一個N的k-1階多項式.如果增長函數(shù)存在break point k,那么就可以使用N的多項式來確定增長函數(shù)的上界,因此可以來替換增長函數(shù).
上面定理的含義是指如果假設(shè)空間H存在一個break point,我們就可以確保模型的泛化效果,存在一個多項式邊界.
The VC Dimension VC維
上面的定理可以使用break point對整個增長函數(shù)growth function確定邊界.break point越小,邊界越好(越小).
VC維 假設(shè)空間H的VC維,簡寫為
,是指能被H打散的最大的示例集(數(shù)據(jù)集)的大小N,N滿足
.如果對于所有的N,等式
都成立,那么
.
如果是假設(shè)空間H的VC維,那么break point
.因為根據(jù)VC維定義,VC維是假設(shè)空間H能打碎的最大樣本集,所以k就是H的break point,而且不可能存在更小的break point了,因為H可以打碎
個樣本點,對于更小的樣本點更不在話下.
因為的break point k滿足
,所以定理可以改寫為:
[圖片上傳失敗...(image-2ace23-1544952000340)]
所以,VC維是增長函數(shù)的多項式階數(shù).這個多項式邊界可以進(jìn)行簡化.可以用歸納法證明:
.
這樣,增長函數(shù)growth function可以用VC維來進(jìn)行約束,接下來就是分析使用增長函數(shù)對M進(jìn)行替換后,泛化邊界的如何變化.使用
替換M后,
[圖片上傳失敗...(image-2202fc-1544952000340)]
已知增長函數(shù)可以被一個N的多項式約束,除非假設(shè)空間為VC維無窮大
.增長函數(shù)取對數(shù)后,呈對數(shù)級增長,然后被
減小,因此,如果訓(xùn)練樣本N足夠大,那么
會接近于
.(證明了無窮大時,可學(xué)性的第一個問題).
只有當(dāng)VC維趨于無窮大時,假設(shè)才會失效.對于任意有限的VC維來說,誤差收斂到0的速度取決于VC維的大小,因為VC維是多項式的階數(shù).VC維越小,收斂到0的速度越快.
但是僅僅用來代替泛化邊界中M是不夠的,還需要進(jìn)一步調(diào)整.不過VC維在其中還扮演了非常重要的角色.可以將假設(shè)空間中假設(shè)分為兩類:good models & bad models.'Good models'指VC維有限,且樣本集N足夠大的模型,這種模型可以保證
,樣本集的表現(xiàn)可以泛化到樣本集之外;'bad models'指VC維無窮大,對于bad models無論樣本集N取多大,我們不能基于VC維對
和
進(jìn)行泛化比較.
可以將VC維看做模型的"有用參數(shù)量",模型參數(shù)越多,假設(shè)空間假設(shè)函數(shù)越多,這反應(yīng)了增長函數(shù)的大小.比如說
的感知機(jī)模型,VC維是d+1.對于其他模型而言,有用參數(shù)可能不太明顯.VC維能衡量有用參數(shù)或自由度,這些量可以保證模型數(shù)目的多樣性.但多樣性也不是越多越好,比如
而且
的模型,這種情況下不能對模型進(jìn)行泛化.
The VC Generalization Bound VC泛化邊界
如果將增長函數(shù)growth function作為假設(shè)空間有效假設(shè)的一種度量量,那么使用代替不等式中M后,可以得到:
[圖片上傳失敗...(image-828b45-1544952000340)]
但這個不等式證明并不是最終的形式.需要修改泛化邊界才能成立.使用下面定理,可以到處正確的邊界,叫做VC維泛化邊界.對于任意二分類目標(biāo)函數(shù)f,任意假設(shè)空間H,任意學(xué)習(xí)算法A,任意的輸入概率分布P都成立:
定理:VC泛化邊界 對于任意tolerance ,
成立的概率是.
如果和上面的不等式進(jìn)行比較,可以發(fā)現(xiàn)下面不等是的邊界更大(move the bound in the weaker direction).只要VC維是有限的,誤差就會收斂于0(盡管速度變慢),因為和一樣,
也是N的
階多項式.這意味著如果有足夠的數(shù)據(jù),無限假設(shè)空間H中有限VC的每個假設(shè)函數(shù)的
能很好的泛化到
上.其中的關(guān)鍵在于使用定義假設(shè)空間有效假設(shè)的有限增長函數(shù)來替代假設(shè)空間的真正數(shù)目,從而確定邊界.
VC維泛化邊界是機(jī)器學(xué)習(xí)理論中非常重要的一個數(shù)據(jù)結(jié)果.它證明了無限假設(shè)空間的可學(xué)性問題.
The data set D is the source of randomization in the original Hoeffding Inequality.
[圖片上傳失敗...(image-5e3e46-1544952000340)]
Interpreting the Generalization Bound 泛化邊界解釋
上面不等式是一個通用結(jié)果,可以應(yīng)用到所有的假設(shè)集,所有的學(xué)習(xí)算法,輸入空間,概率分布以及二分類目標(biāo)函數(shù)上.同時也可以擴(kuò)展到其他類型的目標(biāo)函數(shù)上.因為不等式結(jié)果的通用性,因此對于有的模型來說邊界可能過于松loose,原因在于這個相同的邊界要覆蓋到多種類型模型上.
VC維可以用作一種評估模型泛化能力的一個指標(biāo),但是相對意義上的,并不具有絕對意義.在實際問題中會采用不同的邊界.
Sample Complexity樣本復(fù)雜度
樣本復(fù)雜度是指模型達(dá)到一定的泛化能力時所需要的訓(xùn)練樣本數(shù)目N.模型的泛化表現(xiàn)可以用兩個參數(shù)衡量:和
.誤差容忍度
表示容忍的泛化誤差量,置信度參數(shù)
表示大于容忍泛化誤差邊界的概率.隨著
和
變小,訓(xùn)練樣本數(shù)N的變化速度表示了為達(dá)到一定泛化能力所需要的訓(xùn)練樣本數(shù).
對于給定的模型,可以用VC邊界來建立樣本復(fù)雜度.對于固定的,假定泛化誤差邊界最多是
.從不等式中可以知道,泛化誤差限制在
,為了確保不等式
成立.為了保證泛化誤差最大是
,那么訓(xùn)練集樣本大小N:
但是這個樣本復(fù)雜度N的邊界不太明顯,因為N出現(xiàn)在不等式的兩端.如果用基于VC維的多項式代替,可以得到:
但這個不等式同樣也是不確定的.我們可以用簡單的迭代方法計算N的數(shù)值(對N初始化一個值,然后反復(fù)計算不等式,直到N收斂).
Penalty for Model Complexity 模型復(fù)雜度懲罰
樣本復(fù)雜度是在泛化誤差邊界和置信度
確定的情況下對訓(xùn)練樣本N的一個估計.但是在大多數(shù)實際情況中,都是給定一個固定大小的訓(xùn)練樣本集D,因此N大小是確定的.在這種情況下,對于給定N,模型在unseen data上表現(xiàn)如何是我們所關(guān)注的問題.
如果用基于VC維的多項式代替,可以得到out-of-sample誤差的另一種邊界表示:
可以將的邊界看做兩部分,第一部分是
,第二部分是隨著假設(shè)空間H的VC維而變化的量
,所以:
其中,
可以將看做是對模型復(fù)雜度的一種懲罰.當(dāng)使用更加復(fù)雜的假設(shè)空間H時(VC維增加),右邊不等式邊界增加,因此樣本外數(shù)據(jù)上的
表現(xiàn)會惡化.如果用相同的訓(xùn)練樣本去擬合一個相對簡單模型時,
變現(xiàn)會更好(右邊界變小).從模型復(fù)雜度懲罰的等式來看,如果用更高的置信度(更小的
),那么模型會變差;如果用更多樣本N,模型會變好.
如果用更復(fù)雜的假設(shè)空間H(更好的VC維),那么會變大,但用數(shù)據(jù)去擬合模型時,由于有更多的假設(shè)可以選擇,
會變小.因此存在一個權(quán)衡(tradeoff):更復(fù)雜的模型可以讓樣本集模型
表現(xiàn)變好,但是
會增加(懲罰度變大,因此
變差,泛化效果不好).最佳的模型是兩個量的組合值(
)能最小.
[圖片上傳失敗...(image-95f429-1544952000340)]
The Test Set 測試集
泛化邊界是基于的對
的一個寬泛估計.這個估計對于訓(xùn)練過程來說是一個指導(dǎo),但如果目標(biāo)是得到一個關(guān)于
的精準(zhǔn)預(yù)測,這個邊界作用不大.
一種可選方法是使用test set測試集對進(jìn)行估計,測試集中的數(shù)據(jù)并不應(yīng)用在訓(xùn)練過程中.最終的假設(shè)函數(shù)g是在測試集上進(jìn)行評估,評估結(jié)果作為
的一個估計.
把測試集上的測試結(jié)果稱作.當(dāng)我們用
作為
的一個估計時,事實上假定
泛化效果很好,接近于
.但是,
和
類似只是一個對樣本結(jié)果估計.我們?nèi)绾未_保
泛化效果如何呢?
泛化效果相關(guān)的假設(shè)的有效數(shù)目是1.因為考慮到測試集,只存在一個假設(shè),就是訓(xùn)練過程中產(chǎn)生的最終假設(shè)函數(shù)g.選擇的測試集不同并不影響最終的假設(shè)函數(shù),但如果選擇不同的訓(xùn)練集,最終的假設(shè)函數(shù)會跟著改變.同時Hoeffding不等式可以應(yīng)用在
的一個假設(shè)上,產(chǎn)生的邊界比VC維邊界更加緊密.測試集越大,
對
的估計越準(zhǔn)確.
使用測試集有一定的代價.測試集并不影響學(xué)習(xí)過程的輸出,學(xué)習(xí)過程僅和訓(xùn)練集相關(guān).測試集告訴我們學(xué)習(xí)過程產(chǎn)生的模型表現(xiàn)如何.因此,如果我們將一部分?jǐn)?shù)據(jù)分成測試集,那么用于訓(xùn)練的數(shù)據(jù)就會減少.因為訓(xùn)練數(shù)據(jù)是用來在假設(shè)空間中選擇一個假設(shè),因此訓(xùn)練數(shù)據(jù)對于選擇最終的假設(shè)函數(shù)至關(guān)重要.There is a tradeoff to setting aside test examples.訓(xùn)練集和測試集如何劃分,比例如何需要仔細(xì)權(quán)衡.
在一些文獻(xiàn)中,看做是
的同義詞.
Other Target Types 其他目標(biāo)類型
盡管VC維分析是基于二分類目標(biāo)函數(shù)的,但是也可以擴(kuò)展到實值函數(shù)或其他類型函數(shù)上.介紹一種新的方法偏差-方差分析.
為了符合實值函數(shù),需要調(diào)整和
的定義.在實值函數(shù)中,需要測量h(x)和f(x)之間的距離,而不是判斷兩個值是否相等.
最常用的誤差測量方法是平方誤差.可以定義樣本內(nèi)和樣本外的誤差.樣本外誤差是基于整個輸入空間X的,
樣本內(nèi)誤差是基于整個訓(xùn)練集誤差量的平均值:
使用樣本誤差均值去評估誤差的期望值.
Approximation-Generalization tradeoff
VC維分析需要選擇在訓(xùn)練數(shù)據(jù)上接近目標(biāo)函數(shù)f和在unseen data上泛化良好這兩個變現(xiàn)之間取得平衡的假設(shè).當(dāng)在假設(shè)空間H中選擇假設(shè)函數(shù)時,需要在兩個矛盾的目標(biāo)之間進(jìn)行權(quán)衡:在假設(shè)空間中選擇可以接近f的假設(shè),同時保證訓(xùn)練數(shù)據(jù)上學(xué)的模型能泛化到整個輸入空間上.VC維泛化邊界就是一種兩者之間權(quán)衡方法.如果H太過于簡單,選擇的假設(shè)可能不能接近f,樣本內(nèi)誤差很大;如果H太過于復(fù)雜,泛化效果變差,因為模型復(fù)雜度太大.存在另外一種方法:近似泛化tradeoff.這種方法適合平方誤差測量,而不是VC分析中使用的二分誤差.這種方法提供了一個新的角度:VC維分析中使用加上懲罰項
來對
進(jìn)行近似;這里將
分成兩部分誤差項.
Bias and Variance偏差和方差
樣本外誤差偏差-方差分解是基于平方誤差測量方法的.Out-of-sample誤差:
其中,表示關(guān)于x的期望值.在最終假設(shè)g上添加顯性的對數(shù)據(jù)集D的依賴關(guān)系.上面等式中樣本外誤差的計算依賴于從選擇數(shù)據(jù)集D中訓(xùn)練出來的最終假設(shè)g,也就是說是依賴于選擇的訓(xùn)練數(shù)據(jù)集的.我們可以在所有可能的訓(xùn)練集上求期望值,移除對選擇的特定數(shù)據(jù)集D的依賴,從而獨立于數(shù)據(jù)集:
其中,是一個平均函數(shù),也可以表示為
.可以理解為生成若干個數(shù)據(jù)集
然后在每個數(shù)據(jù)集上進(jìn)行訓(xùn)練學(xué)習(xí),生成最終的假設(shè)
.而任意數(shù)據(jù)x在最終的平均假設(shè)上的結(jié)果為
.本質(zhì)上,可以將g(x)看做是一個隨機(jī)變量,在隨機(jī)數(shù)據(jù)集上的隨機(jī)產(chǎn)生的;
是特定值x在隨機(jī)變量上的期望值,
是一個函數(shù),取平均值.同時函數(shù)
有一點違反常識:
不在假設(shè)空間中,但是在假設(shè)空間中函數(shù)的平均值.
可以使用對out-of-sample誤差進(jìn)行改寫:
[圖片上傳失敗...(image-4d8aee-1544952000340)]
其中,是對于D來說是一個常量;
測量從數(shù)據(jù)集D中學(xué)到的平均函數(shù)與目標(biāo)函數(shù)f之間的差距,可以把這個量稱為bias偏差:
表示學(xué)習(xí)模型偏離目標(biāo)函數(shù)的距離(偏差).因為是從不限數(shù)目多個數(shù)據(jù)集中學(xué)習(xí)的,因此它在估計目標(biāo)函數(shù)時僅僅受限于模型自身.
是隨機(jī)變量
的方差:
評估依賴于數(shù)據(jù)集的最終假設(shè)的變化情況(方差).最后,out-of-sample誤差的偏差-方差分解為:
因為,. 這里的推導(dǎo)都基于數(shù)據(jù)是無噪音的假設(shè).如果是帶噪音的數(shù)據(jù),在最終的偏差-方差分解中需要加上噪音項.
[圖片上傳失敗...(image-a23a25-1544952000340)]
可以將方差看做學(xué)習(xí)模型的不穩(wěn)定性(也就是方差的意義).
在偏差方差分析中學(xué)習(xí)算法有很大的影響(在VC維分析中卻無關(guān)緊要).
- VC維分析只基于假設(shè)空間H,獨立于學(xué)習(xí)算法A;在偏差-方差分析中,學(xué)習(xí)算法A和假設(shè)空間H同樣重要.相同的假設(shè)空間,不同的學(xué)習(xí)算法會產(chǎn)生不同的
.
- 盡管偏差-方差分析是基于平方誤差測量方法的,但是學(xué)習(xí)算法并不一定是基于最小化平方誤差.可以使用任何基于D的標(biāo)準(zhǔn)產(chǎn)生最終假設(shè)
.但一旦產(chǎn)生
之后,必須基于平方誤差計算偏差和方差.
不幸的是,實際情況下偏差和方差并不能計算出來,因為它們是依賴于目標(biāo)函數(shù)和輸入概率分布,而這兩項都是未知的.但是偏差-方差分析在開發(fā)模型時是一種非常重要的概念性工具.當(dāng)考慮偏差和方差時,需要考慮兩個目標(biāo):在不顯著增加偏差的基礎(chǔ)上嘗試降低方差;在不顯著增加方差的基礎(chǔ)上嘗試降低偏差.
The Learning Curve學(xué)習(xí)曲線
學(xué)習(xí)曲線概括了當(dāng)訓(xùn)練集樣本數(shù)N變化時,樣本內(nèi)誤差和樣本外誤差的變化情況.在大小為N的數(shù)據(jù)集D上學(xué)習(xí)之后,可以得到依賴于D的樣本誤差和樣本外誤差.就像之前在偏差-方差中介紹的一樣,對大小為N的所有可能數(shù)據(jù)集D求期望之后,和
是關(guān)于N的函數(shù).比如一個簡單模型和復(fù)雜模型的學(xué)習(xí)曲線如下:
[圖片上傳失敗...(image-cc986-1544952000340)]
可以看出,對于簡單模型來說,收斂速度更快,但是最終表現(xiàn)比復(fù)雜模型要差.對于兩個模型來說,樣本外誤差都隨著N的增大而減小;樣本內(nèi)誤差隨著N增加而增大. 用VC維分析和偏差-方差分析,結(jié)果如何呢?
[圖片上傳失敗...(image-ea00c3-1544952000340)]
在VC維分析中,是
和泛化邊界模型復(fù)雜度懲罰
之和.在偏差-方差分析中,
被分解為偏差和方差之和.
隨著樣本點增多,泛化誤差和方差都減小.學(xué)習(xí)曲線可表明了關(guān)于的一個重要特性.隨著N的增加,為了逼近f,
接近于學(xué)習(xí)模型的最小誤差.當(dāng)N很小時,
與"應(yīng)該的最小誤差"很遠(yuǎn),主要是因為對小數(shù)據(jù)來說,學(xué)習(xí)難度更小.