過(guò)擬合、欠擬合及其解決方案
- 過(guò)擬合融撞、欠擬合的概念
- 權(quán)重衰減
- 丟棄法
模型選擇盼铁、過(guò)擬合和欠擬合
訓(xùn)練誤差和泛化誤差
在解釋上述現(xiàn)象之前,我們需要區(qū)分訓(xùn)練誤差(training error)和泛化誤差(generalization error)尝偎。通俗來(lái)講饶火,前者指模型在訓(xùn)練數(shù)據(jù)集上表現(xiàn)出的誤差,后者指模型在任意一個(gè)測(cè)試數(shù)據(jù)樣本上表現(xiàn)出的誤差的期望致扯,并常常通過(guò)測(cè)試數(shù)據(jù)集上的誤差來(lái)近似肤寝。計(jì)算訓(xùn)練誤差和泛化誤差可以使用之前介紹過(guò)的損失函數(shù),例如線(xiàn)性回歸用到的平方損失函數(shù)和softmax回歸用到的交叉熵?fù)p失函數(shù)抖僵。
機(jī)器學(xué)習(xí)模型應(yīng)關(guān)注降低泛化誤差鲤看。
模型選擇
驗(yàn)證數(shù)據(jù)集
從嚴(yán)格意義上講,測(cè)試集只能在所有超參數(shù)和模型參數(shù)選定后使用一次耍群。不可以使用測(cè)試數(shù)據(jù)選擇模型义桂,如調(diào)參。由于無(wú)法從訓(xùn)練誤差估計(jì)泛化誤差蹈垢,因此也不應(yīng)只依賴(lài)訓(xùn)練數(shù)據(jù)選擇模型慷吊。鑒于此,我們可以預(yù)留一部分在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集以外的數(shù)據(jù)來(lái)進(jìn)行模型選擇曹抬。這部分?jǐn)?shù)據(jù)被稱(chēng)為驗(yàn)證數(shù)據(jù)集溉瓶,簡(jiǎn)稱(chēng)驗(yàn)證集(validation set)。例如,我們可以從給定的訓(xùn)練集中隨機(jī)選取一小部分作為驗(yàn)證集堰酿,而將剩余部分作為真正的訓(xùn)練集疾宏。
K折交叉驗(yàn)證
由于驗(yàn)證數(shù)據(jù)集不參與模型訓(xùn)練,當(dāng)訓(xùn)練數(shù)據(jù)不夠用時(shí)触创,預(yù)留大量的驗(yàn)證數(shù)據(jù)顯得太奢侈灾锯。一種改善的方法是K折交叉驗(yàn)證(K-fold cross-validation)。在K折交叉驗(yàn)證中嗅榕,我們把原始訓(xùn)練數(shù)據(jù)集分割成K個(gè)不重合的子數(shù)據(jù)集顺饮,然后我們做K次模型訓(xùn)練和驗(yàn)證。每一次凌那,我們使用一個(gè)子數(shù)據(jù)集驗(yàn)證模型兼雄,并使用其他K-1個(gè)子數(shù)據(jù)集來(lái)訓(xùn)練模型。在這K次訓(xùn)練和驗(yàn)證中帽蝶,每次用來(lái)驗(yàn)證模型的子數(shù)據(jù)集都不同赦肋。最后,我們對(duì)這K次訓(xùn)練誤差和驗(yàn)證誤差分別求平均励稳。
過(guò)擬合和欠擬合
接下來(lái)佃乘,我們將探究模型訓(xùn)練中經(jīng)常出現(xiàn)的兩類(lèi)典型問(wèn)題:
- 一類(lèi)是模型無(wú)法得到較低的訓(xùn)練誤差,我們將這一現(xiàn)象稱(chēng)作欠擬合(underfitting)驹尼;
- 另一類(lèi)是模型的訓(xùn)練誤差遠(yuǎn)小于它在測(cè)試數(shù)據(jù)集上的誤差趣避,我們稱(chēng)該現(xiàn)象為過(guò)擬合(overfitting)。
在實(shí)踐中新翎,我們要盡可能同時(shí)應(yīng)對(duì)欠擬合和過(guò)擬合程帕。雖然有很多因素可能導(dǎo)致這兩種擬合問(wèn)題,在這里我們重點(diǎn)討論兩個(gè)因素:模型復(fù)雜度和訓(xùn)練數(shù)據(jù)集大小地啰。
模型復(fù)雜度
為了解釋模型復(fù)雜度愁拭,我們以多項(xiàng)式函數(shù)擬合為例。給定一個(gè)由標(biāo)量數(shù)據(jù)特征和對(duì)應(yīng)的標(biāo)量標(biāo)簽
組成的訓(xùn)練數(shù)據(jù)集亏吝,多項(xiàng)式函數(shù)擬合的目標(biāo)是找一個(gè)
階多項(xiàng)式函數(shù)
來(lái)近似 岭埠。在上式中,
是模型的權(quán)重參數(shù)蔚鸥,
是偏差參數(shù)惜论。與線(xiàn)性回歸相同,多項(xiàng)式函數(shù)擬合也使用平方損失函數(shù)株茶。特別地来涨,一階多項(xiàng)式函數(shù)擬合又叫線(xiàn)性函數(shù)擬合图焰。
給定訓(xùn)練數(shù)據(jù)集启盛,模型復(fù)雜度和誤差之間的關(guān)系:
訓(xùn)練數(shù)據(jù)集大小
影響欠擬合和過(guò)擬合的另一個(gè)重要因素是訓(xùn)練數(shù)據(jù)集的大小。一般來(lái)說(shuō),如果訓(xùn)練數(shù)據(jù)集中樣本數(shù)過(guò)少僵闯,特別是比模型參數(shù)數(shù)量(按元素計(jì))更少時(shí)卧抗,過(guò)擬合更容易發(fā)生。此外鳖粟,泛化誤差不會(huì)隨訓(xùn)練數(shù)據(jù)集里樣本數(shù)量增加而增大社裆。因此,在計(jì)算資源允許的范圍之內(nèi)向图,我們通常希望訓(xùn)練數(shù)據(jù)集大一些泳秀,特別是在模型復(fù)雜度較高時(shí),例如層數(shù)較多的深度學(xué)習(xí)模型榄攀。