對偏差隐孽、方差的理解及總結(jié)

基本概念

通常我們會使用過擬合和欠擬合來形容一個模型的能力欠佳侠草,欠擬合就是由于模型的復(fù)雜度低等原因?qū)е履P蜎]有很好的采集數(shù)據(jù)集的特征,導(dǎo)致模型的訓(xùn)練誤差(亦稱為經(jīng)驗誤差)過大罩旋;而過擬合則是由于模型預(yù)設(shè)的復(fù)雜度太高等原因?qū)е履P筒杉搅艘恍﹥H適用于訓(xùn)練樣本本身的特征(個性,噪聲)眶诈,從而導(dǎo)致泛化能力欠佳涨醋。直白的講,欠擬合就是模型對訓(xùn)練集本身的數(shù)據(jù)學(xué)習(xí)地不到位逝撬,而過擬合則是模型對訓(xùn)練樣本進(jìn)行了過度解讀浴骂,增大了模型的局限性。
欠擬合和過擬合是對誤差定性的評判宪潮,而誤差的定量評判溯警,便是偏差和方差。

偏差

偏差狡相,指的是訓(xùn)練集的訓(xùn)練出的所有模型輸出的均值和真實模型輸出之間的偏差梯轻。簡單地講,偏差是因為我們對真實模型作出了錯誤的假設(shè)導(dǎo)致的尽棕,比如真實模型是一條拋物線喳挑,而我們的假設(shè)是一條直線。

  • 總結(jié):偏差度量了學(xué)習(xí)算法的期望預(yù)測與真實結(jié)果的偏離程度, 即刻畫了學(xué)習(xí)算法本身的擬合能力滔悉。

方差

所有訓(xùn)練模型的輸出的方差伊诵。簡單地講,方差描述了訓(xùn)練模型所學(xué)習(xí)到的訓(xùn)練集內(nèi)的個體差異回官。

  • 總結(jié):方差度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化, 即刻畫了數(shù)據(jù)擾動所造成的影響曹宴。

可以通過下圖直觀地理解偏差及方差變動對模型誤差的影響。


可以看到歉提,偏差越大笛坦,點集整體越脫離靶心;而方差越大唯袄,點集整體越離散弯屈。

泛化誤差

泛化誤差:模型在新樣本集(測試集)上的平均誤差。
其中噪聲描述了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界恋拷,即刻畫了學(xué)習(xí)問題本身的難度资厉。
泛化誤差=偏差^2+方差+噪聲


一般來說,隨著模型復(fù)雜度的增加蔬顾,方差會逐漸增大宴偿,偏差會逐漸減小。這是因為復(fù)雜度越高诀豁,模型對該特定樣本個體特征的表現(xiàn)能力越強窄刘,因此偏差會減小,但代價是增加了該模型的局限性和對樣本變動的敏感性舷胜。

  • 此時可能會有人思考一個問題娩践,既然偏差和方差互相傷害,是不是不存在十全十美的上帝模型?
    我活了二十多年翻伺,對審美有一定的研究材泄,根據(jù)我以往的經(jīng)驗,越是不可描述吨岭,人們往往越是期待越想挑戰(zhàn)拉宗。
    十全十美的上帝模型有很多,但它們背后的數(shù)據(jù)集都是沒有實際價值的辣辫,水清則無魚旦事,一味追求完美往往會得到虛無,而數(shù)據(jù)的價值源于內(nèi)在的關(guān)系和矛盾急灭,這正是數(shù)據(jù)挖掘的意義和魅力所在姐浮。
    那什么是審美?
    審葬馋,就是你看到她单料。美,就是你看不透点楼。

VC維

  • 增長函數(shù)扫尖,打散和對分
    給定假設(shè)空間HH中每個假設(shè)h都能對D中示例賦予標(biāo)記掠廓,標(biāo)記結(jié)果可表示為

h|_D={(h(x_1),(h(x_2),...,(h(x_m))}
隨著m的增大换怖,H中所有假設(shè)對D中的示例所能賦予標(biāo)記的可能結(jié)果數(shù)也會增大。
定理12.6 對所有

增長函數(shù)表示假設(shè)空間H對m個示例所能賦予標(biāo)記的最大可能結(jié)果數(shù)蟀瞧。
比如說現(xiàn)在數(shù)據(jù)集有兩個數(shù)據(jù)點沉颂,考慮一種二分類的情況,可以將其分類成A或者B悦污,則可能的值有:AA铸屉、AB、BA和BB切端,所以這里增長函數(shù)的值為4彻坛。
增長函數(shù)值越大則假設(shè)空間H的表示能力越強,復(fù)雜度也越高踏枣,學(xué)習(xí)任務(wù)的適應(yīng)能力越強昌屉。不過盡管H中可以有無窮多的假設(shè)h,但是增長函數(shù)卻不是無窮大的:對于m個示例的數(shù)據(jù)集茵瀑,最多只能有2^m個標(biāo)記結(jié)果间驮,而且很多情況下也達(dá)不到2^m的情況。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末马昨,一起剝皮案震驚了整個濱河市竞帽,隨后出現(xiàn)的幾起案子扛施,更是在濱河造成了極大的恐慌,老刑警劉巖屹篓,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件煮嫌,死亡現(xiàn)場離奇詭異,居然都是意外死亡抱虐,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進(jìn)店門饥脑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來恳邀,“玉大人,你說我怎么就攤上這事灶轰∫シ校” “怎么了?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵笋颤,是天一觀的道長乳附。 經(jīng)常有香客問我,道長伴澄,這世上最難降的妖魔是什么赋除? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮非凌,結(jié)果婚禮上举农,老公的妹妹穿的比我還像新娘。我一直安慰自己敞嗡,他們只是感情好颁糟,可當(dāng)我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著喉悴,像睡著了一般棱貌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上箕肃,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天婚脱,我揣著相機與錄音,去河邊找鬼勺像。 笑死起惕,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的咏删。 我是一名探鬼主播惹想,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼督函!你這毒婦竟也來了嘀粱?” 一聲冷哼從身側(cè)響起激挪,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎锋叨,沒想到半個月后垄分,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡娃磺,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年薄湿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片偷卧。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡豺瘤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出听诸,到底是詐尸還是另有隱情坐求,我是刑警寧澤,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布晌梨,位于F島的核電站桥嗤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏仔蝌。R本人自食惡果不足惜泛领,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望敛惊。 院中可真熱鬧师逸,春花似錦、人聲如沸豆混。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽皿伺。三九已至员辩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鸵鸥,已是汗流浹背奠滑。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留妒穴,地道東北人宋税。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像讼油,于是被迫代替她去往敵國和親杰赛。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容