偏差-方差分解

偏差-方差分解的內(nèi)容其實在看西瓜書的時候已經(jīng)學(xué)習(xí)過,但印象并不深刻(可能和西瓜書上的符號比較繁瑣有關(guān)吧)魄梯,此次重溫,脈絡(luò)清晰了不少沽讹。

為避免過擬合,我們經(jīng)常會在模型的擬合能力和復(fù)雜度之間進行權(quán)衡武鲁。擬合能力強的模型一般復(fù)雜度會比較高爽雄,易導(dǎo)致過擬合。相反沐鼠,如果限制模型的復(fù)雜度挚瘟,降低其擬合能力,又可能會導(dǎo)致欠擬合饲梭。因此乘盖,如何在模型能力和復(fù)雜度之間取得一個較好的平衡對一個機器學(xué)習(xí)算法來講十分重要。偏差-方差分解(Bias-Variance Decomposition)為我們提供一個很好的分析和指導(dǎo)工具憔涉。

假設(shè)樣本的真實分布為p_r(x, y)订框,并采用平方損失函數(shù),模型f(x)的期望錯誤為:

\mathcal{R}(f)=\mathbb{E}_{(\mathbf{x}, y) \sim p_{r}(\mathbf{x}, y)}\left[(y-f(\mathbf{x}))^{2}\right]

那么最優(yōu)的模型為:

f^{*}(\mathbf{x})=\mathbb{E}_{y \sim p_{r}(y | \mathbf{x})}[y]

其中p_r(y|x)為樣本的真實條件分布兜叨,f^?(x)為使用平方損失作為優(yōu)化目標(biāo)的最優(yōu)模型穿扳,其損失為:

\varepsilon=\mathbb{E}_{(\mathbf{x}, y) \sim p_{r}(\mathbf{x}, y)}\left[\left(y-f^{*}(\mathbf{x})\right)^{2}\right]

損失ε通常是由于樣本分布以及噪聲引起的,無法通過優(yōu)化模型來減少浪腐。

期望誤差可以分解為:

\begin{aligned} \mathcal{R}(f) &=\mathbb{E}_{(\mathbf{x}, y) \sim p_{r}(\mathbf{x}, y)}\left[\left(y-f^{*}(\mathbf{x})+f^{*}(\mathbf{x})-f(\mathbf{x})\right)^{2}\right] \\ &=\mathbb{E}_{\mathbf{x} \sim p_{r}(\mathbf{x})}\left[\left(f(\mathbf{x})-f^{*}(\mathbf{x})\right)^{2}\right]+\varepsilon \end{aligned}

其中第一項是當(dāng)前模型和最優(yōu)模型之間的差距匿级,是機器學(xué)習(xí)算法可以優(yōu)化的真實目標(biāo)。

在實際訓(xùn)練一個模型f(x)時摹察,訓(xùn)練集D是從真實分布p_r(x, y)上獨立同分布地采樣出來的有限樣本集合奶躯。不同的訓(xùn)練集會得到不同的模型。令f_D(x)表示在訓(xùn)練集D學(xué)習(xí)到的模型特漩,一個機器學(xué)習(xí)算法(包括模型以及優(yōu)化算法)的能力可以用不同訓(xùn)練集上的模型的平均性能來評價吧雹。

對于單個樣本x,不同訓(xùn)練集D得到模型f_D(x)和最優(yōu)模型f^?(x)的上的期望誤差為:

\begin{aligned} \mathbb{E}_{\mathcal{D}} &\left[\left(f_{\mathcal{D}}(\mathrm{x})-f^{*}(\mathrm{x})\right)^{2}\right] \\ &=\mathbb{E}_{\mathcal{D}}\left[\left(f_{\mathcal{D}}(\mathrm{x})-\mathbb{E}_{\mathcal{D}}\left[f_{\mathcal{D}}(\mathrm{x})\right]+\mathbb{E}_{\mathcal{D}}\left[f_{\mathcal{D}}(\mathrm{x})\right]-f^{*}(\mathrm{x})^{2}\right]\right.\\ &=\left(\mathbb{E}_{\mathcal{D}}\left[f_{\mathcal{D}}(\mathrm{x})\right]-f^{*}(\mathrm{x})\right)^{2}+\mathbb{E}_{\mathcal{D}}\left[\left(f_{\mathcal{D}}(\mathrm{x})-\mathbb{E}_{\mathcal{D}}\left[f_{\mathcal{D}}(\mathrm{x})\right]\right)^{2}\right] \end{aligned}

其中第一項為偏差(Bias)涂身,是指一個模型的在不同訓(xùn)練集上的平均性能和最優(yōu)模型的差異雄卷。偏差可以用來衡量一個模型的擬合能力;第二項是方差(Variance)蛤售,是指一個模型在不同訓(xùn)練集上的差異丁鹉,可以用來衡量一個模型是否容易過擬合。

綜上悴能,期望誤差可以分解為:

\mathcal{R}(f)=(\text { bias })^{2}+\text { variance }+\varepsilon

下圖給出給出了機器學(xué)習(xí)算法的偏差和方差的四種不同組合情況:

  • 圖(a)給出了一種理想情況揣钦,方差和偏差都比較小。

  • 圖(b)為高偏差低方差的情況漠酿,表示模型的泛化能力很好冯凹,但擬合能力不足。

  • 圖(c)為低偏差高方差的情況炒嘲,表示模型的擬合能力很好宇姚,但泛化能力比較差匈庭。當(dāng)訓(xùn)練數(shù)據(jù)比較少時會導(dǎo)致過擬合。

  • 圖(d)為高偏差高方差的情況浑劳,是一種最差的情況阱持。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市呀洲,隨后出現(xiàn)的幾起案子紊选,更是在濱河造成了極大的恐慌,老刑警劉巖道逗,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件兵罢,死亡現(xiàn)場離奇詭異,居然都是意外死亡滓窍,警方通過查閱死者的電腦和手機卖词,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吏夯,“玉大人此蜈,你說我怎么就攤上這事≡肷” “怎么了裆赵?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長跺嗽。 經(jīng)常有香客問我战授,道長,這世上最難降的妖魔是什么桨嫁? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任植兰,我火速辦了婚禮,結(jié)果婚禮上璃吧,老公的妹妹穿的比我還像新娘楣导。我一直安慰自己,他們只是感情好畜挨,可當(dāng)我...
    茶點故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布筒繁。 她就那樣靜靜地躺著,像睡著了一般巴元。 火紅的嫁衣襯著肌膚如雪毡咏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天务冕,我揣著相機與錄音血当,去河邊找鬼幻赚。 笑死禀忆,一個胖子當(dāng)著我的面吹牛臊旭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播箩退,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼离熏,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了戴涝?” 一聲冷哼從身側(cè)響起滋戳,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎啥刻,沒想到半個月后奸鸯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡可帽,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年娄涩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片映跟。...
    茶點故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡蓄拣,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出努隙,到底是詐尸還是另有隱情球恤,我是刑警寧澤,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布荸镊,位于F島的核電站咽斧,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏贷洲。R本人自食惡果不足惜收厨,卻給世界環(huán)境...
    茶點故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望优构。 院中可真熱鬧诵叁,春花似錦、人聲如沸钦椭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽彪腔。三九已至侥锦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間德挣,已是汗流浹背恭垦。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人番挺。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓唠帝,卻偏偏與公主長得像,于是被迫代替她去往敵國和親玄柏。 傳聞我的和親對象是個殘疾皇子襟衰,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內(nèi)容