作者:JSong蛇损,時間:2017.10.21
廣義的偏差(bias)描述的是預(yù)測值和真實值之間的差異幕与,方差(variance)描述距的是預(yù)測值作為隨機變量的離散程度豹绪〖厶剩《Understanding the Bias-Variance Tradeoff》當中有一副圖形象地向我們展示了偏差和方差的關(guān)系:
1、Bias-variance 分解
我們知道算法在不同訓(xùn)練集上學(xué)到的結(jié)果很可能不同瞒津,即便這些訓(xùn)練集來自于同一分布蝉衣。對測試樣本 $x$ ,令 $y_D$ 為 $x$ 在數(shù)據(jù)集中的標記,$y$ 為 $x$ 的真實標記巷蚪, $f(x;D)$ 為訓(xùn)練集 $D$ 上學(xué)的模型 $f$ 在 $x$ 上的預(yù)測輸出病毡。
在回歸任務(wù)中,學(xué)習(xí)算法的期望輸出為:
使用樣本數(shù)相同的不同訓(xùn)練集產(chǎn)生的方差為:
噪聲為
期望輸出與真實標記的差別稱為偏差(bias)屁柏,即
為便于討論啦膜,假定噪聲期望為零,即 $\mathbb{E}{D}[y{D}-y]=0$. 通過簡單的多項式展開合并淌喻,對算法的期望泛化誤差進行分解:
于是
也就是說僧家,泛化誤差可分解為偏差、方差與噪聲之和似嗤。
偏差和方差是有沖突的啸臀,下面是一個示意圖。在訓(xùn)練不足(模型復(fù)雜度低)時烁落,偏差主導(dǎo)了泛化誤差率乘粒;隨著訓(xùn)練程度的加深,方差逐漸主導(dǎo)了泛化誤差率伤塌。
2灯萍、k-近鄰算法
在k近鄰算法中,我們可以嚴格的給出偏差-方差分解
隨著 k 的增大每聪,偏差增大旦棉,方差減小齿风。
3、集成學(xué)習(xí)
在bagging和boosting框架中绑洛,通過計算基模型的期望和方差救斑,我們可以得到模型整體的期望和方差。為了簡化模型真屯,我們假設(shè)基模型的權(quán)重脸候、方差及兩兩間的相關(guān)系數(shù)相等。由于bagging和boosting的基模型都是線性組成的绑蔫,那么有:
3.1 bagging的偏差和方差
對于bagging來說运沦,每個基模型的權(quán)重等于1/m且期望近似相等(子訓(xùn)練集都是從原訓(xùn)練集中進行子抽樣),故我們可以進一步化簡得到:
根據(jù)上式我們可以看到配深,整體模型的期望近似于基模型的期望携添,這也就意味著整體模型的偏差和基模型的偏差近似。同時篓叶,整體模型的方差小于等于基模型的方差(當相關(guān)性為1時取等號)烈掠,隨著基模型數(shù)(m)的增多,整體模型的方差減少缸托,從而防止過擬合的能力增強向叉,模型的準確度得到提高。但是嗦董,模型的準確度一定會無限逼近于1嗎?并不一定瘦黑,當基模型數(shù)增加到一定程度時京革,方差公式第二項的改變對整體方差的作用很小,防止過擬合的能力達到極限幸斥,這便是準確度的極限了匹摇。另外,在此我們還知道了為什么bagging中的基模型一定要為強模型甲葬,否則就會導(dǎo)致整體模型的偏差度低廊勃,即準確度低。
Random Forest是典型的基于bagging框架的模型经窖,其在bagging的基礎(chǔ)上坡垫,進一步降低了模型的方差。Random Fores中基模型是樹模型画侣,在樹的內(nèi)部節(jié)點分裂過程中冰悠,不再是將所有特征,而是隨機抽樣一部分特征納入分裂的候選項配乱。這樣一來溉卓,基模型之間的相關(guān)性降低皮迟,從而在方差公式中,第一項顯著減少桑寨,第二項稍微增加伏尼,整體方差仍是減少。
3.2 boosting 的偏差和方差
對于boosting來說尉尾,基模型的訓(xùn)練集抽樣是強相關(guān)的爆阶,那么模型的相關(guān)系數(shù)近似等于1,故我們也可以針對boosting化簡公式為:
通過觀察整體方差的表達式代赁,我們?nèi)菀装l(fā)現(xiàn)扰她,若基模型不是弱模型,其方差相對較大芭碍,這將導(dǎo)致整體模型的方差很大徒役,即無法達到防止過擬合的效果。因此窖壕,boosting框架中的基模型必須為弱模型忧勿。
因為基模型為弱模型,導(dǎo)致了每個基模型的準確度都不是很高(因為其在訓(xùn)練集上的準確度不高)瞻讽。隨著基模型數(shù)的增多鸳吸,整體模型的期望值增加,更接近真實值速勇,因此晌砾,整體模型的準確度提高。但是準確度一定會無限逼近于1嗎烦磁?仍然并不一定养匈,因為訓(xùn)練過程中準確度的提高的主要功臣是整體模型在訓(xùn)練集上的準確度提高,而隨著訓(xùn)練的進行都伪,整體模型的方差變大呕乎,導(dǎo)致防止過擬合的能力變?nèi)酰罱K導(dǎo)致了準確度反而有所下降陨晶。
基于boosting框架的Gradient Tree Boosting模型中基模型也為樹模型猬仁,同Random Forrest,我們也可以對特征進行隨機抽樣來使基模型間的相關(guān)性降低先誉,從而達到減少方差的效果湿刽。