過擬合與欠擬合及方差偏差

在模型的評估與調(diào)整的過程中,經(jīng)常會遇到過擬合與欠擬合的情況比被,如何有效的識別過擬合和欠擬合現(xiàn)象胯究,并了解其中原因稍计,有效的對模型進行調(diào)整。

什么是過擬合和欠擬合裕循?

知乎上看到一個機靈的回答臣嚣,"你太天真了":underfitting ";你想太多了":overfitting剥哑,人的學(xué)習(xí)和機器學(xué)習(xí)是如此相似茧球。過擬合就是模型對訓(xùn)練數(shù)據(jù)擬合呈現(xiàn)過當(dāng)?shù)那闆r,反映到評估指標(biāo)上星持,就是訓(xùn)練集上表現(xiàn)好抢埋,但在測試集和新數(shù)據(jù)上表現(xiàn)差,總結(jié)來說就是模型泛化能力差督暂,欠擬合是指模型在訓(xùn)練和預(yù)測時表現(xiàn)都不好揪垄,過擬合與欠擬合也可以用 Bias 與 Variance 的角度來解釋,欠擬合會導(dǎo)致高 Bias 逻翁,過擬合會導(dǎo)致高 Variance饥努,所以模型需要在 Bias 與 Variance 之間做出一個權(quán)衡。下圖表示了模型過擬合和欠擬合情況八回。

過擬合和欠擬合
什么是方差和偏差
方差和偏差

如上圖所示酷愧,我們理想的模型應(yīng)該是低方差,低偏差的缠诅,但實際上方差和偏差是兩個矛盾體溶浴,不可兼得,如下圖所示管引,模型復(fù)雜度和方差偏差聯(lián)系士败。


模型復(fù)雜度和方差偏差聯(lián)系
  • 方差 Variance

高方差:描述就是模型針對不同樣本預(yù)測的結(jié)果會產(chǎn)生劇烈變化,用打靶的例子來描述褥伴,這個人手不穩(wěn)谅将,經(jīng)常抖動,導(dǎo)致彈著點分布比較散重慢。

  • 偏差 Bias

高偏差:描述就是模型預(yù)測時預(yù)測的結(jié)果期望和真實結(jié)果相差比較大饥臂,用打靶的例子來說,這個人眼睛不太好似踱,每次都瞄不太準(zhǔn)隅熙,導(dǎo)致彈著點偏離靶心志衣。

過擬合和欠擬合原因是啥?
  • 訓(xùn)練數(shù)據(jù)一般都是現(xiàn)實練數(shù)據(jù)的子集猛们。并且樣本中存在噪聲數(shù)據(jù)念脯,由于采樣錯誤,導(dǎo)致樣本的數(shù)據(jù)不能正確的反應(yīng)現(xiàn)實場景和業(yè)務(wù)弯淘。
  • 模型太復(fù)雜绿店,過度的學(xué)習(xí)到了樣本里的噪聲數(shù)據(jù),并不能很好表達(dá)真實輸入輸出之間的關(guān)系庐橙。
怎么判斷模型過擬合欠擬合假勿?
  • 過擬合:如果模型在訓(xùn)練集上效果很好,但是在測試集和新數(shù)據(jù)上效果很差就是過擬合态鳖。
  • 欠擬合:如果在訓(xùn)練集和測試集新數(shù)據(jù)上效果都不好转培,就是欠擬合。
怎么減少模型過擬合浆竭?
(1)減少欠擬合方法:

1浸须、增加新特征,可以考慮加入進特征組合邦泄、高次特征删窒,來增大假設(shè)空間;
2、嘗試非線性模型顺囊,比如核SVM 肌索、決策樹、DNN等模型;
3特碳、如果有正則項可以較小正則項參數(shù) \lambda;
4诚亚、Boosting ,Boosting 往往會有較小的 Bias,比如 Gradient Boosting 等.

(2)解決過擬合的方法:

1午乓、交叉檢驗站宗,通過交叉檢驗得到較優(yōu)的模型參數(shù);
2、特征選擇硅瞧,減少特征數(shù)或使用較少的特征組合份乒,對于按區(qū)間離散化的特征恕汇,增大劃分的區(qū)間;
3腕唧、正則化,常用的有 L1瘾英、L2 正則枣接。而且 L1正則還可以自動進行特征選擇;
4、如果有正則項則可以考慮增大正則項參數(shù) lambda;
5缺谴、增加訓(xùn)練數(shù)據(jù)可以有限的避免過擬合;
6但惶、Bagging ,將多個弱學(xué)習(xí)器Bagging 一下效果會好很多,比如隨機森林等.
7、降低模型復(fù)雜度:在數(shù)據(jù)較少時膀曾,降低模型復(fù)雜度是比較有效的方法县爬,適當(dāng)?shù)慕档湍P蛷?fù)雜度可以降低模型對噪聲的擬合度。神經(jīng)網(wǎng)絡(luò)中可以減少網(wǎng)絡(luò)層數(shù)添谊,減少神經(jīng)元個數(shù)财喳,dropout;決策樹可以控制樹的深度斩狱,剪枝等耳高。

(3)DNN中常見的方法:

1、早停策略所踊。本質(zhì)上是交叉驗證策略泌枪,選擇合適的訓(xùn)練次數(shù),避免訓(xùn)練的網(wǎng)絡(luò)過度擬合訓(xùn)練數(shù)據(jù)秕岛。
2碌燕、集成學(xué)習(xí)策略。而DNN可以用Bagging的思路來正則化继薛。首先我們要對原始的m個訓(xùn)練樣本進行有放回隨機采樣陆蟆,構(gòu)建N組m個樣本的數(shù)據(jù)集,然后分別用這N組數(shù)據(jù)集去訓(xùn)練我們的DNN惋增。即采用我們的前向傳播算法和反向傳播算法得到N個DNN模型的W,b參數(shù)組合叠殷,最后對N個DNN模型的輸出用加權(quán)平均法或者投票法決定最終輸出。不過用集成學(xué)習(xí)Bagging的方法有一個問題诈皿,就是我們的DNN模型本來就比較復(fù)雜林束,參數(shù)很多。現(xiàn)在又變成了N個DNN模型稽亏,這樣參數(shù)又增加了N倍壶冒,從而導(dǎo)致訓(xùn)練這樣的網(wǎng)絡(luò)要花更加多的時間和空間。因此一般N的個數(shù)不能太多截歉,比如5-10個就可以了胖腾。
3、DropOut策略瘪松。所謂的Dropout指的是在用前向傳播算法和反向傳播算法訓(xùn)練DNN模型時咸作,一批數(shù)據(jù)迭代時,隨機的從全連接DNN網(wǎng)絡(luò)中去掉一部分隱藏層的神經(jīng)元宵睦〖欠# 在對訓(xùn)練集中的一批數(shù)據(jù)進行訓(xùn)練時,我們隨機去掉一部分隱藏層的神經(jīng)元壳嚎,并用去掉隱藏層的神經(jīng)元的網(wǎng)絡(luò)來擬合我們的一批訓(xùn)練數(shù)據(jù)桐智。使用基于dropout的正則化比基于bagging的正則化簡單末早,這顯而易見,當(dāng)然天下沒有免費的午餐说庭,由于dropout會將原始數(shù)據(jù)分批迭代然磷,因此原始數(shù)據(jù)集最好較大,否則模型可能會欠擬合刊驴。

為什么能降低過擬合样屠?
  • (1) Bagging:

Bagging對樣本重采樣,對每一重采樣得到的子樣本集訓(xùn)練一個模型缺脉,最后取平均痪欲。由于子樣本集的相似性以及使用的是同種模型,因此各模型有近似相等的bias和variance(事實上攻礼,各模型的分布也近似相同业踢,但不獨立)。

  • (2)Regularization:

常用的有L1,L2正則化礁扮,正則化就是在目標(biāo)函數(shù)里面添加參數(shù)懲罰項知举,用來控制模型的復(fù)雜度,正則化項可以降低模型的權(quán)重值太伊,L1會產(chǎn)生稀疏解雇锡,L2會產(chǎn)生縮放效應(yīng)整體壓縮權(quán)重值,從而控制模型復(fù)雜度僚焦,根據(jù)奧卡姆剃刀原理锰提,擬合效果差不多情況下,模型復(fù)雜度越低越好芳悲。

  • (3)Dropout:


    dropout圖

dropout在訓(xùn)練時會隨機隱藏一些神經(jīng)元立肘,導(dǎo)致訓(xùn)練過程中不會每次都更新(預(yù)測時不會發(fā)生dropout),最終的結(jié)果是每個神經(jīng)元的權(quán)重w都不會更新的太大名扛,起到了類似L2正則化的作用來降低過擬合風(fēng)險谅年。

  • (4)Ealy Stopping

Early stopping便是一種迭代次數(shù)截斷的方法來防止過擬合的方法,即在模型對訓(xùn)練數(shù)據(jù)集迭代收斂之前停止迭代來防止過擬合肮韧。
Early stopping方法的具體做法是融蹂,在每一個Epoch結(jié)束時(一個Epoch集為對所有的訓(xùn)練數(shù)據(jù)的一輪遍歷)計算validation data的accuracy,當(dāng)accuracy不再提高時弄企,就停止訓(xùn)練超燃。這種做法很符合直觀感受,因為accurary都不再提高了桩蓉,在繼續(xù)訓(xùn)練也是無益的淋纲,只會提高訓(xùn)練的時間。那么該做法的一個重點便是怎樣才認(rèn)為validation accurary不再提高了呢院究?并不是說validation accuracy一降下來便認(rèn)為不再提高了洽瞬,因為可能經(jīng)過這個Epoch后,accuracy降低了业汰,但是隨后的Epoch又讓accuracy又上去了伙窃,所以不能根據(jù)一兩次的連續(xù)降低就判斷不再提高。一般的做法是样漆,在訓(xùn)練的過程中为障,記錄到目前為止最好的validation accuracy,當(dāng)連續(xù)10次Epoch(或者更多次)沒達(dá)到最佳accuracy時放祟,則可以認(rèn)為accuracy不再提高了鳍怨。

本文是作為個人學(xué)習(xí)總結(jié),參考了很多大神的博客及文章資料跪妥,非喜勿噴鞋喇,如有錯誤,懇請指正眉撵。

參考文章:

知乎--機器學(xué)習(xí)中用來防止過擬合的方法有哪些侦香?
知乎--機器學(xué)習(xí)防止欠擬合、過擬合方法
用簡單易懂的語言描述「過擬合 overfitting」

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末纽疟,一起剝皮案震驚了整個濱河市罐韩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌污朽,老刑警劉巖散吵,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異蟆肆,居然都是意外死亡错蝴,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進店門颓芭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來顷锰,“玉大人,你說我怎么就攤上這事亡问」僮希” “怎么了?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵州藕,是天一觀的道長束世。 經(jīng)常有香客問我,道長床玻,這世上最難降的妖魔是什么毁涉? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮锈死,結(jié)果婚禮上贫堰,老公的妹妹穿的比我還像新娘穆壕。我一直安慰自己,他們只是感情好其屏,可當(dāng)我...
    茶點故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布喇勋。 她就那樣靜靜地躺著,像睡著了一般偎行。 火紅的嫁衣襯著肌膚如雪川背。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天蛤袒,我揣著相機與錄音熄云,去河邊找鬼。 笑死妙真,一個胖子當(dāng)著我的面吹牛缴允,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播隐孽,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼癌椿,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了菱阵?” 一聲冷哼從身側(cè)響起踢俄,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎晴及,沒想到半個月后都办,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡虑稼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年琳钉,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛛倦。...
    茶點故事閱讀 39,722評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡歌懒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出溯壶,到底是詐尸還是另有隱情及皂,我是刑警寧澤,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布且改,位于F島的核電站验烧,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏又跛。R本人自食惡果不足惜碍拆,卻給世界環(huán)境...
    茶點故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧感混,春花似錦端幼、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽济丘。三九已至谱秽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間摹迷,已是汗流浹背疟赊。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留峡碉,地道東北人近哟。 一個月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像鲫寄,于是被迫代替她去往敵國和親吉执。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,614評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 心路旅途閱讀 91評論 0 0
  • “沒有表白的開始地来,沒有分手的結(jié)束” 或許這兩句話恰恰可以概括出你戳玫、我的“善始善終”
    是誰占了我的李子木昵稱閱讀 281評論 0 0
  • 恐龍生活在什么年代?恐龍家族有多少成員未斑?它們是怎樣繁衍生息的咕宿?恐龍為什么會滅絕?下面將從恐龍生活和年代蜡秽,恐龍的家族...
    游游媽咪閱讀 336評論 0 0