過擬合欠擬合及其解決方案

訓(xùn)練誤差和泛化誤差

訓(xùn)練誤差(training error)指模型在訓(xùn)練數(shù)據(jù)集上表現(xiàn)出的誤差川梅,泛化誤差(generalization error)指模型在任意一個測試數(shù)據(jù)樣本上表現(xiàn)出的誤差的期望新博,并常常通過測試數(shù)據(jù)集上的誤差來近似帖鸦。

機(jī)器學(xué)習(xí)模型應(yīng)關(guān)注降低泛化誤差焚志。

模型選擇

驗(yàn)證數(shù)據(jù)集

從嚴(yán)格意義上講非区,測試集只能在所有超參數(shù)和模型參數(shù)選定后使用一次剔宪。不可以使用測試數(shù)據(jù)選擇模型,如調(diào)參熏瞄。由于無法從訓(xùn)練誤差估計(jì)泛化誤差,因此也不應(yīng)只依賴訓(xùn)練數(shù)據(jù)選擇模型谬以。鑒于此强饮,我們可以預(yù)留一部分在訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集以外的數(shù)據(jù)來進(jìn)行模型選擇。這部分?jǐn)?shù)據(jù)被稱為驗(yàn)證數(shù)據(jù)集为黎,簡稱驗(yàn)證集(validation set)邮丰。例如,我們可以從給定的訓(xùn)練集中隨機(jī)選取一小部分作為驗(yàn)證集铭乾,而將剩余部分作為真正的訓(xùn)練集剪廉。

K折交叉驗(yàn)證

由于驗(yàn)證數(shù)據(jù)集不參與模型訓(xùn)練,當(dāng)訓(xùn)練數(shù)據(jù)不夠用時炕檩,預(yù)留大量的驗(yàn)證數(shù)據(jù)顯得太奢侈斗蒋。一種改善的方法是K折交叉驗(yàn)證(K-fold cross-validation)捌斧。在K折交叉驗(yàn)證中,我們把原始訓(xùn)練數(shù)據(jù)集分割成K個不重合的子數(shù)據(jù)集泉沾,然后我們做K次模型訓(xùn)練和驗(yàn)證捞蚂。每一次,我們使用一個子數(shù)據(jù)集驗(yàn)證模型跷究,并使用其他K-1個子數(shù)據(jù)集來訓(xùn)練模型姓迅。在這K次訓(xùn)練和驗(yàn)證中,每次用來驗(yàn)證模型的子數(shù)據(jù)集都不同俊马。最后丁存,我們對這K次訓(xùn)練誤差和驗(yàn)證誤差分別求平均。

過擬合和欠擬合

模型訓(xùn)練中經(jīng)常出現(xiàn)的兩類典型問題:

一類是模型無法得到較低的訓(xùn)練誤差柴我,我們將這一現(xiàn)象稱作欠擬合(underfitting)解寝;

另一類是模型的訓(xùn)練誤差遠(yuǎn)小于它在測試數(shù)據(jù)集上的誤差,我們稱該現(xiàn)象為過擬合(overfitting)屯换。

模型復(fù)雜度

為了解釋模型復(fù)雜度编丘,我們以多項(xiàng)式函數(shù)擬合為例。給定一個由標(biāo)量數(shù)據(jù)特征x和對應(yīng)的標(biāo)量標(biāo)簽y組成的訓(xùn)練數(shù)據(jù)集彤悔,多項(xiàng)式函數(shù)擬合的目標(biāo)是找一個K階多項(xiàng)式函數(shù):


來近似?y嘉抓。在上式中,wk是模型的權(quán)重參數(shù)晕窑,b是偏差參數(shù)抑片。與線性回歸相同,多項(xiàng)式函數(shù)擬合也使用平方損失函數(shù)杨赤。特別地敞斋,一階多項(xiàng)式函數(shù)擬合又叫線性函數(shù)擬合。

給定訓(xùn)練數(shù)據(jù)集疾牲,模型復(fù)雜度和誤差之間的關(guān)系:



訓(xùn)練數(shù)據(jù)集大小

影響欠擬合和過擬合的另一個重要因素是訓(xùn)練數(shù)據(jù)集的大小植捎。一般來說,如果訓(xùn)練數(shù)據(jù)集中樣本數(shù)過少阳柔,特別是比模型參數(shù)數(shù)量(按元素計(jì))更少時焰枢,過擬合更容易發(fā)生。此外舌剂,泛化誤差不會隨訓(xùn)練數(shù)據(jù)集里樣本數(shù)量增加而增大济锄。因此,在計(jì)算資源允許的范圍之內(nèi)霍转,我們通常希望訓(xùn)練數(shù)據(jù)集大一些荐绝,特別是在模型復(fù)雜度較高時,例如層數(shù)較多的深度學(xué)習(xí)模型避消。

學(xué)習(xí)鏈接:過擬合欠擬合及其解決方案

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末低滩,一起剝皮案震驚了整個濱河市召夹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌委造,老刑警劉巖戳鹅,帶你破解...
    沈念sama閱讀 211,496評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異昏兆,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)妇穴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,187評論 3 385
  • 文/潘曉璐 我一進(jìn)店門爬虱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人腾它,你說我怎么就攤上這事跑筝。” “怎么了瞒滴?”我有些...
    開封第一講書人閱讀 157,091評論 0 348
  • 文/不壞的土叔 我叫張陵曲梗,是天一觀的道長。 經(jīng)常有香客問我妓忍,道長虏两,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,458評論 1 283
  • 正文 為了忘掉前任世剖,我火速辦了婚禮定罢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘旁瘫。我一直安慰自己祖凫,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,542評論 6 385
  • 文/花漫 我一把揭開白布酬凳。 她就那樣靜靜地躺著惠况,像睡著了一般。 火紅的嫁衣襯著肌膚如雪宁仔。 梳的紋絲不亂的頭發(fā)上稠屠,一...
    開封第一講書人閱讀 49,802評論 1 290
  • 那天,我揣著相機(jī)與錄音台诗,去河邊找鬼完箩。 笑死,一個胖子當(dāng)著我的面吹牛拉队,可吹牛的內(nèi)容都是我干的弊知。 我是一名探鬼主播,決...
    沈念sama閱讀 38,945評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼粱快,長吁一口氣:“原來是場噩夢啊……” “哼秩彤!你這毒婦竟也來了叔扼?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,709評論 0 266
  • 序言:老撾萬榮一對情侶失蹤漫雷,失蹤者是張志新(化名)和其女友劉穎瓜富,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體降盹,經(jīng)...
    沈念sama閱讀 44,158評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡与柑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,502評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蓄坏。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片价捧。...
    茶點(diǎn)故事閱讀 38,637評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖涡戳,靈堂內(nèi)的尸體忽然破棺而出结蟋,到底是詐尸還是另有隱情,我是刑警寧澤渔彰,帶...
    沈念sama閱讀 34,300評論 4 329
  • 正文 年R本政府宣布嵌屎,位于F島的核電站,受9級特大地震影響恍涂,放射性物質(zhì)發(fā)生泄漏宝惰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,911評論 3 313
  • 文/蒙蒙 一乳丰、第九天 我趴在偏房一處隱蔽的房頂上張望掌测。 院中可真熱鬧,春花似錦产园、人聲如沸汞斧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,744評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽粘勒。三九已至,卻和暖如春屎即,著一層夾襖步出監(jiān)牢的瞬間庙睡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,982評論 1 266
  • 我被黑心中介騙來泰國打工技俐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乘陪,地道東北人。 一個月前我還...
    沈念sama閱讀 46,344評論 2 360
  • 正文 我出身青樓雕擂,卻偏偏與公主長得像啡邑,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子井赌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,500評論 2 348