偏差與方差

統(tǒng)計(jì)領(lǐng)域?yàn)槲覀兲峁┝撕芏喙ぞ邅韺?shí)現(xiàn)機(jī)器學(xué)習(xí)目標(biāo),不僅可以解決訓(xùn)練集上的任務(wù),還可以泛化腮考。點(diǎn)估計(jì)試圖為一些感興趣的量提供單個”最優(yōu)”預(yù)測。 一般地玄捕,感興趣的量可以是單個參數(shù)踩蔚,或是某些參數(shù)模型中的一個向量參數(shù),例如線性回歸中的權(quán)重枚粘,但是也有可能是整個函數(shù)馅闽。
為了區(qū)分參數(shù)估計(jì)和真實(shí)值,我們習(xí)慣將參數(shù) \theta 的點(diǎn)估計(jì)表示為 \hat{\theta}馍迄。
{x^{(1)},\dots,x^{(m)}}m 個獨(dú)立同分布(i.i.d.)的數(shù)據(jù)點(diǎn)福也。 點(diǎn)估計(jì)或統(tǒng)計(jì)量是這些數(shù)據(jù)的任意函數(shù):

\hat{\theta}_m=g(x^{(1)},\ldots,x^{(m)}).

這個定義不要求 g 返回一個接近真實(shí) \theta 的值,或者 g 的值域恰好是\theta的允許取值范圍柬姚。 點(diǎn)估計(jì)的定義非常寬泛拟杉,給了估計(jì)量的設(shè)計(jì)者極大的靈活性。 雖然幾乎所有的函數(shù)都可以稱為估計(jì)量量承,但是一個良好的估計(jì)量的輸出會接近生成訓(xùn)練數(shù)據(jù)的真實(shí)參數(shù)\theta

現(xiàn)在穴店,我們采取頻率派在統(tǒng)計(jì)上的觀點(diǎn)撕捍。 換言之,我們假設(shè)真實(shí)參數(shù) \theta 是固定但未知的泣洞,而點(diǎn)估計(jì) \hat{\theta} 是數(shù)據(jù)的函數(shù)忧风。 由于數(shù)據(jù)是隨機(jī)過程采樣出來的,數(shù)據(jù)的任何函數(shù)都是隨機(jī)的球凰。 因此 \hat{\theta} 是一個隨機(jī)變量狮腿。

點(diǎn)估計(jì)也可以指輸入和目標(biāo)變量之間關(guān)系的估計(jì)腿宰。 我們將這種類型的點(diǎn)估計(jì)稱為函數(shù)估計(jì)。有時我們會關(guān)注函數(shù)估計(jì)(或函數(shù)近似)缘厢。 這時我們試圖從輸入向量 x 預(yù)測變量 y吃度。 我們假設(shè)有一個函數(shù) f(x) 表示 yx 之間的近似關(guān)系。 例如贴硫,我們可能假設(shè) y = f(x) + \epsilon椿每,其中 \epsilony 中未能從 x 預(yù)測的一部分。 在函數(shù)估計(jì)中英遭,我們感興趣的是用模型估計(jì)去近似 f间护,或者估計(jì) \hat{f}。 函數(shù)估計(jì)和點(diǎn)估計(jì)參數(shù) \theta 是一樣的挖诸;函數(shù)估計(jì) \hat{f} 是函數(shù)空間中的一個點(diǎn)估計(jì)汁尺。

估計(jì)的偏差被定義為:

\text{bias}(\hat{\theta}_m) = \mathbb{E}(\hat{\theta}_m) - \theta

其中期望作用在所有數(shù)據(jù)(看作是從隨機(jī)變量采樣得到的)上,\theta 是用于定義數(shù)據(jù)生成分布的 \theta 的真實(shí)值多律。

我們有時會考慮估計(jì)量的另一個性質(zhì)是它作為數(shù)據(jù)樣本的函數(shù)均函,期望的變化程度是多少。 正如我們可以計(jì)算估計(jì)量的期望來決定它的偏差菱涤,我們也可以計(jì)算它的方差苞也。 估計(jì)量的方差就是一個方差

\text{Var}(\hat{\theta})

其中隨機(jī)變量是訓(xùn)練集。 另外粘秆,方差的平方根被稱為標(biāo)準(zhǔn)差如迟,記作 \text{SE}(\hat{\theta})。我們可以使用均方誤差權(quán)衡偏差和方差:

\text{MSE} = \mathbb{E}[(\hat{\theta}_m - \theta)^2] = \text{bias}(\hat{\theta}_m)^2 + \text{Var}(\hat{\theta}_m)

1.1 偏差和方差的區(qū)別與權(quán)衡

偏差和方差度量著估計(jì)量的兩個不同誤差來源攻走。 偏差度量著偏離真實(shí)函數(shù)或參數(shù)的誤差期望殷勘。 而方差度量著數(shù)據(jù)上任意特定采樣可能導(dǎo)致的估計(jì)期望的偏差。

  • 偏差昔搂,對象是單個模型玲销,期望輸出與真實(shí)標(biāo)記的差別(可以解釋為描述了模型對本訓(xùn)練集的擬合程度)
  • 方差,對象是多個模型(這里更好的解釋是換同樣規(guī)模的訓(xùn)練集摘符,模型的擬合程度怎么樣贤斜;也可以說方差是刻畫數(shù)據(jù)擾動對模型的影響,描述的是訓(xùn)練結(jié)果的分散程度)

我們把模型擬合函數(shù)的能力稱為模型的容量逛裤。

bais_var

從上圖可以知道:隨著容量的增大偏差隨之減少瘩绒,而方差隨之增大,使得泛化誤差呈現(xiàn) U 形带族。因而锁荔,降低偏差或者方差需要針對不同的場景來設(shè)計(jì),下面我們以線性回歸為例來說明蝙砌,我們使用了如下的代價函數(shù)來評估預(yù)測誤差:

J(\theta) = \frac{1}{2m} [\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum\limits_{i=1}^m\theta_j^2]

改進(jìn)策略 使用場景
采集更多的樣本 高方差
降低特征維度 高方差
采集更多的特征 高偏差
進(jìn)行高次多項(xiàng)式回歸(增加模型復(fù)雜度) 高偏差
降低正則化項(xiàng)系數(shù) \lambda 高方差
增大正則化項(xiàng)系數(shù) \lambda 高偏差

1.2 從方差-偏差角度分析 bagging 和 boosting

  • bagging 是并行的(即分別訓(xùn)練幾個不同的模型阳堕,然后讓所有模型表決測試樣例的輸出)跋理,每個基學(xué)習(xí)器可以單獨(dú)訓(xùn)練√褡埽基學(xué)習(xí)器獨(dú)立性很強(qiáng)前普,所以說 bagging 關(guān)注的是降低方差。
  • boosting 是串行的越驻,后一個學(xué)習(xí)器要在前一個學(xué)習(xí)器訓(xùn)練好之后才能訓(xùn)練汁政,即學(xué)習(xí)器之間獨(dú)立性沒那么強(qiáng),且 boosting 關(guān)注偏差 (每一步我們都會在上一輪的基礎(chǔ)上更加的擬合原數(shù)據(jù)缀旁,所以可以保證偏差记劈,所以對于每個基分類器來說,問題就是如何選擇方差更小的分類器并巍,即更簡單的弱分類器)目木。于是 boosting 對樣本集會擬合的更好,所以說boosting 關(guān)注的是降低偏差懊渡。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載刽射,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。
  • 序言:七十年代末剃执,一起剝皮案震驚了整個濱河市誓禁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌肾档,老刑警劉巖摹恰,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異怒见,居然都是意外死亡俗慈,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進(jìn)店門遣耍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來闺阱,“玉大人,你說我怎么就攤上這事舵变『ɡ#” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵棋傍,是天一觀的道長救拉。 經(jīng)常有香客問我,道長瘫拣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任告喊,我火速辦了婚禮麸拄,結(jié)果婚禮上派昧,老公的妹妹穿的比我還像新娘。我一直安慰自己拢切,他們只是感情好蒂萎,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著淮椰,像睡著了一般五慈。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上主穗,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天泻拦,我揣著相機(jī)與錄音,去河邊找鬼忽媒。 笑死争拐,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的晦雨。 我是一名探鬼主播架曹,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼闹瞧!你這毒婦竟也來了绑雄?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤奥邮,失蹤者是張志新(化名)和其女友劉穎万牺,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體漠烧,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡杏愤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了已脓。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片珊楼。...
    茶點(diǎn)故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖度液,靈堂內(nèi)的尸體忽然破棺而出厕宗,到底是詐尸還是另有隱情,我是刑警寧澤堕担,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布已慢,位于F島的核電站,受9級特大地震影響霹购,放射性物質(zhì)發(fā)生泄漏佑惠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望膜楷。 院中可真熱鬧旭咽,春花似錦、人聲如沸赌厅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽特愿。三九已至仲墨,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間揍障,已是汗流浹背目养。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留亚兄,地道東北人混稽。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像审胚,于是被迫代替她去往敵國和親匈勋。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 一膳叨、什么是偏差和方差 在監(jiān)督學(xué)習(xí)中洽洁,模型的泛化誤差可分解為偏差、方差與噪聲之和菲嘴。 偏差與方差分別是用于衡量一個模型...
    Ivan_Lan閱讀 1,046評論 0 0
  • 機(jī)器學(xué)習(xí)就是利用訓(xùn)練數(shù)據(jù)去訓(xùn)練一個模型(model)饿自,使得這個模型盡可能逼近真實(shí),用來衡量模型好壞的依據(jù)是模型的誤...
    AIAndData閱讀 3,752評論 0 4
  • 下午和好朋友M聊天的時候龄坪,她說起一個非常有意思的故事昭雌。 那天M和男友一起去逛街的時候(男友趁假期特意跑來看她),在...
    曾琦閱讀 691評論 0 0
  • 元宵節(jié)健田,可能是中國古代的狂歡節(jié)烛卧,強(qiáng)調(diào)的是全民的參與性。大名府的聞達(dá)給大名府的最高長官梁中書提出的元宵節(jié)活動方案中...
    湖邊人老劉閱讀 1,289評論 0 0
  • 人生如戲妓局,戲劇人生总放, 我們都在人生舞臺上扮演著不同的角色,我們也是舞臺之下的觀眾好爬。我們在生活中扮演著喜劇或者悲劇的...
    Y于兮X閱讀 182評論 0 1