variance and bias
一、概念定義
偏差(bias):偏差衡量了模型的預(yù)測值與實際值之間的偏離關(guān)系率触。通常在深度學(xué)習(xí)中盗蟆,我們每一次訓(xùn)練迭代出來的新模型,都會拿訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測,偏差就反應(yīng)在預(yù)測值與實際值匹配度上蜕劝,比如通常在keras運行中看到的準(zhǔn)確度為96%檀头,則說明是低偏差轰异;反之,如果準(zhǔn)確度只有70%暑始,則說明是高偏差搭独。
方差(variance):方差描述的是訓(xùn)練數(shù)據(jù)在不同迭代階段的訓(xùn)練模型中,預(yù)測值的變化波動情況(或稱之為離散情況)廊镜。從數(shù)學(xué)角度看牙肝,可以理解為每個預(yù)測值與預(yù)測均值差的平方和的再求平均數(shù)。通常在深度學(xué)習(xí)訓(xùn)練中嗤朴,初始階段模型復(fù)雜度不高配椭,為低方差;隨著訓(xùn)練量加大雹姊,模型逐步擬合訓(xùn)練數(shù)據(jù)股缸,復(fù)雜度開始變高,此時方差會逐漸變高吱雏。
二敦姻、數(shù)學(xué)定義
我們從簡單的回歸模型來入手,對于訓(xùn)練數(shù)據(jù)集S = {(xi?, yi)}歧杏,令yi?= f(xi) +?ε镰惦,假設(shè)為實際方程,其中ε是滿足正態(tài)分布均值為0犬绒,標(biāo)準(zhǔn)差為σ的值旺入。
我們再假設(shè)預(yù)測方程為h(x) = wx + b,這時我們希望總誤差Err(x) =?∑i[yi?- h(xi)]2?能達(dá)到最小值懂更。給定某集合樣本(x, y)眨业,我們可以展開誤差公式,以生成用方差沮协、偏差和噪音組合的方式龄捡。
在此之前,我們來引入一個輔助公式慷暂,令z為滿足正態(tài)分布的隨機值集合聘殖,再令z?= E(z),即z?為z的平均值行瑞。
則E [(z -?z)2] = E [z2?-2zz?+?z2]
= E [z2] - 2E [z]z?+?z2?注:E[z] =?z奸腺,因為z是一個均值,其誤差即是自己
=?E [z2] - 2zz+z2
=??E [z2] -z2
可以得到一個輔助公式:?E [z2] =?E [(z -z)2] +z2?血久,最后讓我們來開展誤差公式:
E?[y?- h(x)]2= E [y2?- 2yh(x) + h(x)2]?
= E [y2] - 2E[y] E[h(x)] + E[h(x)2]
= E [(y -?y)2] +?y2?- 2E[y]h(x)?+ E [(h(x) -?h(x))2] +?h(x)2 ? ? ? ?
=?E [(y - (fx))2] + f(x)2- 2f(x)h(x)+ E [(h(x) -h(x))2] +h(x)2 ?
=E [(h(x) -h(x))2]?+?(h(x)?- f(x))2?+?E[(y - (fx))2]?
= variance + bias2?+ noise
注:y= E[y] = E[f(x) + ?ε] = E[f(x)] + E[ε] = E[f(x)] = f(x)突照,ε均值已經(jīng)被假定為0,對于具體的x氧吐,其E[f(x)] = f(x)
由此可見讹蘑,誤差 = 方差 + 偏差2?+ 噪音 組成末盔,一般來說,隨著模型復(fù)雜度的增加座慰,方差會逐漸增大陨舱,偏差會逐漸減小,見下圖: