偏差-方差分解的內(nèi)容其實在看西瓜書的時候已經(jīng)學(xué)習(xí)過,但印象并不深刻(可能和西瓜書上的符號比較繁瑣有關(guān)吧)魄梯,此次重溫,脈絡(luò)清晰了不少沽讹。
為避免過擬合,我們經(jīng)常會在模型的擬合能力和復(fù)雜度之間進行權(quán)衡武鲁。擬合能力強的模型一般復(fù)雜度會比較高爽雄,易導(dǎo)致過擬合。相反沐鼠,如果限制模型的復(fù)雜度挚瘟,降低其擬合能力,又可能會導(dǎo)致欠擬合饲梭。因此乘盖,如何在模型能力和復(fù)雜度之間取得一個較好的平衡對一個機器學(xué)習(xí)算法來講十分重要。偏差-方差分解(Bias-Variance Decomposition)為我們提供一個很好的分析和指導(dǎo)工具憔涉。
假設(shè)樣本的真實分布為订框,并采用平方損失函數(shù),模型
的期望錯誤為:
那么最優(yōu)的模型為:
其中為樣本的真實條件分布兜叨,
為使用平方損失作為優(yōu)化目標(biāo)的最優(yōu)模型穿扳,其損失為:
損失通常是由于樣本分布以及噪聲引起的,無法通過優(yōu)化模型來減少浪腐。
期望誤差可以分解為:
其中第一項是當(dāng)前模型和最優(yōu)模型之間的差距匿级,是機器學(xué)習(xí)算法可以優(yōu)化的真實目標(biāo)。
在實際訓(xùn)練一個模型時摹察,訓(xùn)練集
是從真實分布
上獨立同分布地采樣出來的有限樣本集合奶躯。不同的訓(xùn)練集會得到不同的模型。令
表示在訓(xùn)練集
學(xué)習(xí)到的模型特漩,一個機器學(xué)習(xí)算法(包括模型以及優(yōu)化算法)的能力可以用不同訓(xùn)練集上的模型的平均性能來評價吧雹。
對于單個樣本,不同訓(xùn)練集
得到模型
和最優(yōu)模型
的上的期望誤差為:
其中第一項為偏差(Bias)涂身,是指一個模型的在不同訓(xùn)練集上的平均性能和最優(yōu)模型的差異雄卷。偏差可以用來衡量一個模型的擬合能力;第二項是方差(Variance)蛤售,是指一個模型在不同訓(xùn)練集上的差異丁鹉,可以用來衡量一個模型是否容易過擬合。
綜上悴能,期望誤差可以分解為:
下圖給出給出了機器學(xué)習(xí)算法的偏差和方差的四種不同組合情況:
圖(a)給出了一種理想情況揣钦,方差和偏差都比較小。
圖(b)為高偏差低方差的情況漠酿,表示模型的泛化能力很好冯凹,但擬合能力不足。
圖(c)為低偏差高方差的情況炒嘲,表示模型的擬合能力很好宇姚,但泛化能力比較差匈庭。當(dāng)訓(xùn)練數(shù)據(jù)比較少時會導(dǎo)致過擬合。
圖(d)為高偏差高方差的情況浑劳,是一種最差的情況阱持。