過(guò)擬合和欠擬合。
欠擬合:模型學(xué)習(xí)能力不夠酪碘。解決方法:決策樹擴(kuò)展分支朋譬、神經(jīng)網(wǎng)絡(luò)增加訓(xùn)練輪數(shù)。
過(guò)擬合:模型學(xué)習(xí)過(guò)了兴垦,學(xué)到了噪聲徙赢。過(guò)擬合無(wú)法避免,只能緩解探越。解決方法:EarlyStopping狡赐、L1、L2正則化钦幔。誤差
模型在訓(xùn)練集上的誤差叫做訓(xùn)練誤差/經(jīng)驗(yàn)誤差枕屉。
模型在新樣本上的誤差叫做泛化誤差,一般使用測(cè)試集誤差近似泛化誤差鲤氢。數(shù)據(jù)集分類
訓(xùn)練集:模型學(xué)習(xí)的數(shù)據(jù)搀擂。
驗(yàn)證集:模型選擇和調(diào)參數(shù)據(jù)西潘。
測(cè)試集:模型實(shí)際使用時(shí)遇到的數(shù)據(jù)集。數(shù)據(jù)集劃分
一哨颂、留出法喷市。直接將數(shù)據(jù)集劃分為互斥的兩部分,訓(xùn)練集和測(cè)試集咆蒿。為了保持二者分布的一致性东抹,可以考慮使用分層采樣,保持正負(fù)樣本比例一致沃测。
二缭黔、交叉驗(yàn)證法。將數(shù)據(jù)集劃分為k個(gè)互斥的子集進(jìn)行k次訓(xùn)練蒂破,每次選擇一個(gè)子集作為測(cè)試集其余作為訓(xùn)練集馏谨,最后將k次結(jié)果平均。
三附迷、自助法惧互。從D中采樣獲得D’。每次采取有放回采樣一個(gè)樣本喇伯,樣本始終不被采的概率約為0.368喊儡,采到的樣本作為訓(xùn)練集,其余測(cè)試集稻据。該方法只適合樣本量非常小的情況艾猜。-
回歸和分類評(píng)估指標(biāo)。
回歸問(wèn)題:均方根誤差RMSE捻悯、平均絕對(duì)誤差MAE匆赃。
image.png
分類問(wèn)題:準(zhǔn)確率、召回率(查全率)今缚、精確率(查準(zhǔn)率)算柳、F1、AUC姓言。
-
混淆矩陣
混淆矩陣是分類指標(biāo)中的AUC和召回率瞬项、精確率都會(huì)涉及到的知識(shí)點(diǎn)。
image.png
準(zhǔn)確率 Accuracy = (TP + TN) / (TP + FP + FN + TN)
F1 = 2 * Recall * Precision / (Recall + Precision)何荚,F(xiàn)1是召回率和精確率的調(diào)和平均滥壕。
-
ROC曲線
image.png
TPR 所有實(shí)際為正例的樣本中,預(yù)測(cè)為正例的比例兽泣。
FPR 所有實(shí)際為負(fù)例的樣本中绎橘,預(yù)測(cè)為負(fù)例的比例。
ROC和AUC是評(píng)價(jià)分類器好壞的方法。通過(guò)給定分類器不同的閾值(0.1称鳞,0.2...1)涮较,來(lái)求出所有的 (FPR, TPR)對(duì),然后在橫坐標(biāo)是FPR冈止,縱坐標(biāo)是TPR的二維象限上繪制狂票,得到的曲線下面積即AUC,范圍[0.5, 1]熙暴。