過擬合驼仪、欠擬合及其解決方案
過擬合掸犬、欠擬合的概念
權(quán)重衰減
丟棄法
模型選擇、過擬合和欠擬合
訓(xùn)練誤差和泛化誤差
在解釋上述現(xiàn)象之前绪爸,我們需要區(qū)分訓(xùn)練誤差(training error)和泛化誤差(generalization error)湾碎。通俗來講,前者指模型在訓(xùn)練數(shù)據(jù)集上表現(xiàn)出的誤差奠货,后者指模型在任意一個(gè)測(cè)試數(shù)據(jù)樣本上表現(xiàn)出的誤差的期望介褥,并常常通過測(cè)試數(shù)據(jù)集上的誤差來近似。計(jì)算訓(xùn)練誤差和泛化誤差可以使用之前介紹過的損失函數(shù)递惋,例如線性回歸用到的平方損失函數(shù)和softmax回歸用到的交叉熵?fù)p失函數(shù)柔滔。
機(jī)器學(xué)習(xí)模型應(yīng)關(guān)注降低泛化誤差。
模型選擇
驗(yàn)證數(shù)據(jù)集
從嚴(yán)格意義上講萍虽,測(cè)試集只能在所有超參數(shù)和模型參數(shù)選定后使用一次睛廊。不可以使用測(cè)試數(shù)據(jù)選擇模型,如調(diào)參杉编。由于無法從訓(xùn)練誤差估計(jì)泛化誤差超全,因此也不應(yīng)只依賴訓(xùn)練數(shù)據(jù)選擇模型咆霜。鑒于此,我們可以預(yù)留一部分在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集以外的數(shù)據(jù)來進(jìn)行模型選擇嘶朱。這部分?jǐn)?shù)據(jù)被稱為驗(yàn)證數(shù)據(jù)集蛾坯,簡(jiǎn)稱驗(yàn)證集(validation set)。例如疏遏,我們可以從給定的訓(xùn)練集中隨機(jī)選取一小部分作為驗(yàn)證集偿衰,而將剩余部分作為真正的訓(xùn)練集。
K折交叉驗(yàn)證
由于驗(yàn)證數(shù)據(jù)集不參與模型訓(xùn)練改览,當(dāng)訓(xùn)練數(shù)據(jù)不夠用時(shí)下翎,預(yù)留大量的驗(yàn)證數(shù)據(jù)顯得太奢侈。一種改善的方法是K折交叉驗(yàn)證(K-fold cross-validation)宝当。在K折交叉驗(yàn)證中视事,我們把原始訓(xùn)練數(shù)據(jù)集分割成K個(gè)不重合的子數(shù)據(jù)集,然后我們做K次模型訓(xùn)練和驗(yàn)證庆揩。每一次俐东,我們使用一個(gè)子數(shù)據(jù)集驗(yàn)證模型,并使用其他K-1個(gè)子數(shù)據(jù)集來訓(xùn)練模型订晌。在這K次訓(xùn)練和驗(yàn)證中虏辫,每次用來驗(yàn)證模型的子數(shù)據(jù)集都不同。最后锈拨,我們對(duì)這K次訓(xùn)練誤差和驗(yàn)證誤差分別求平均砌庄。