基本概念
通常我們會使用過擬合和欠擬合來形容一個模型的能力欠佳侠草,欠擬合就是由于模型的復(fù)雜度低等原因?qū)е履P蜎]有很好的采集數(shù)據(jù)集的特征,導(dǎo)致模型的訓(xùn)練誤差(亦稱為經(jīng)驗誤差)過大罩旋;而過擬合則是由于模型預(yù)設(shè)的復(fù)雜度太高等原因?qū)е履P筒杉搅艘恍﹥H適用于訓(xùn)練樣本本身的特征(個性,噪聲)眶诈,從而導(dǎo)致泛化能力欠佳涨醋。直白的講,欠擬合就是模型對訓(xùn)練集本身的數(shù)據(jù)學(xué)習(xí)地不到位逝撬,而過擬合則是模型對訓(xùn)練樣本進(jìn)行了過度解讀浴骂,增大了模型的局限性。
欠擬合和過擬合是對誤差定性的評判宪潮,而誤差的定量評判溯警,便是偏差和方差。
偏差
偏差狡相,指的是訓(xùn)練集的訓(xùn)練出的所有模型輸出的均值和真實模型輸出之間的偏差梯轻。簡單地講,偏差是因為我們對真實模型作出了錯誤的假設(shè)導(dǎo)致的尽棕,比如真實模型是一條拋物線喳挑,而我們的假設(shè)是一條直線。
- 總結(jié):偏差度量了學(xué)習(xí)算法的期望預(yù)測與真實結(jié)果的偏離程度, 即刻畫了學(xué)習(xí)算法本身的擬合能力滔悉。
方差
所有訓(xùn)練模型的輸出的方差伊诵。簡單地講,方差描述了訓(xùn)練模型所學(xué)習(xí)到的訓(xùn)練集內(nèi)的個體差異回官。
- 總結(jié):方差度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化, 即刻畫了數(shù)據(jù)擾動所造成的影響曹宴。
可以通過下圖直觀地理解偏差及方差變動對模型誤差的影響。
可以看到歉提,偏差越大笛坦,點集整體越脫離靶心;而方差越大唯袄,點集整體越離散弯屈。
泛化誤差
泛化誤差:模型在新樣本集(測試集)上的平均誤差。
其中噪聲描述了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界恋拷,即刻畫了學(xué)習(xí)問題本身的難度资厉。
一般來說,隨著模型復(fù)雜度的增加蔬顾,方差會逐漸增大宴偿,偏差會逐漸減小。這是因為復(fù)雜度越高诀豁,模型對該特定樣本個體特征的表現(xiàn)能力越強窄刘,因此偏差會減小,但代價是增加了該模型的局限性和對樣本變動的敏感性舷胜。
- 此時可能會有人思考一個問題娩践,既然偏差和方差互相傷害,是不是不存在十全十美的上帝模型?
我活了二十多年翻伺,對審美有一定的研究材泄,根據(jù)我以往的經(jīng)驗,越是不可描述吨岭,人們往往越是期待越想挑戰(zhàn)拉宗。
十全十美的上帝模型有很多,但它們背后的數(shù)據(jù)集都是沒有實際價值的辣辫,水清則無魚旦事,一味追求完美往往會得到虛無,而數(shù)據(jù)的價值源于內(nèi)在的關(guān)系和矛盾急灭,這正是數(shù)據(jù)挖掘的意義和魅力所在姐浮。
那什么是審美?
審葬馋,就是你看到她单料。美,就是你看不透点楼。
VC維
- 增長函數(shù)扫尖,打散和對分
給定假設(shè)空間,中每個假設(shè)都能對中示例賦予標(biāo)記掠廓,標(biāo)記結(jié)果可表示為
隨著的增大换怖,中所有假設(shè)對中的示例所能賦予標(biāo)記的可能結(jié)果數(shù)也會增大。
定理12.6 對所有
增長函數(shù)表示假設(shè)空間H對m個示例所能賦予標(biāo)記的最大可能結(jié)果數(shù)蟀瞧。
比如說現(xiàn)在數(shù)據(jù)集有兩個數(shù)據(jù)點沉颂,考慮一種二分類的情況,可以將其分類成A或者B悦污,則可能的值有:AA铸屉、AB、BA和BB切端,所以這里增長函數(shù)的值為4彻坛。
增長函數(shù)值越大則假設(shè)空間H的表示能力越強,復(fù)雜度也越高踏枣,學(xué)習(xí)任務(wù)的適應(yīng)能力越強昌屉。不過盡管H中可以有無窮多的假設(shè)h,但是增長函數(shù)卻不是無窮大的:對于m個示例的數(shù)據(jù)集茵瀑,最多只能有個標(biāo)記結(jié)果间驮,而且很多情況下也達(dá)不到的情況。