1. 經(jīng)驗(yàn)誤差與過擬合
? ? ? 通常我們把分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例稱為”錯(cuò)誤率“ (error rate)潘靖,即如果在m個(gè)樣本中有a個(gè)樣本分類錯(cuò)誤穿剖,則錯(cuò)誤率E=a/m;相應(yīng)的卦溢,1-a/m稱為“精度”(accuracy).更一般的糊余,我們把在學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異稱為“誤差”(error), 學(xué)習(xí)器在訓(xùn)練器上的誤差稱為“訓(xùn)練誤差”(training error)或“經(jīng)驗(yàn)誤差“(empirical error),在新樣本上的誤差稱為“泛化誤差”(generalization error).
? ? ?我們能做的就是將經(jīng)驗(yàn)誤差最小化,在很多情況下单寂,我們可以學(xué)習(xí)得到一個(gè)經(jīng)驗(yàn)誤差贬芥、在訓(xùn)練集上表現(xiàn)很好的分類器,即分類的精度為100%宣决,但是這樣的分類器在多數(shù)情況下都不好蘸劈。學(xué)習(xí)器將訓(xùn)練樣本學(xué)習(xí)的太好了,這樣會(huì)導(dǎo)致泛化能力下降尊沸,這種現(xiàn)象在機(jī)器學(xué)習(xí)中稱“過擬合”(overfitting).
2.評(píng)估方法
? ?一威沫、留出法 ? 留出法(hand-out)直接將數(shù)據(jù)集D劃分成兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集S洼专,另外一個(gè)作為測(cè)試集T棒掠。在S上訓(xùn)練出模型后,用T來評(píng)估其測(cè)試誤差屁商,作為對(duì)泛化誤差的估計(jì)烟很。以二分類為例,假設(shè)D包含1000個(gè)樣本蜡镶,將其劃分為S包含700個(gè)樣本溯职,T包含300個(gè)樣本,用S進(jìn)行訓(xùn)練后帽哑,如果模型在T上90個(gè)樣本分類錯(cuò)誤,那么錯(cuò)誤率為30%叹俏,相應(yīng)的妻枕,精度為70%.
?二、交叉驗(yàn)證法 ? “交叉驗(yàn)證法”(cross validation)先將數(shù)據(jù)集D劃分為k個(gè)大小相似的互斥子集,即D=D1∪D2∪...∪Dk屡谐, Di∩Dj =? (i≠j).每個(gè)子集Di都盡可能保持?jǐn)?shù)據(jù)分布的一致性(即從D中分層采樣取得)述么。每次用k-1個(gè)子集作為訓(xùn)練集,余下的那個(gè)子集作為測(cè)試集愕掏;這樣可以獲得k組訓(xùn)練集/測(cè)試集度秘,最終返回的是這k個(gè)測(cè)試結(jié)果的均值。交叉驗(yàn)證法評(píng)估的結(jié)果很大程度上取決于k的取值饵撑,為了強(qiáng)調(diào)這一點(diǎn)剑梳,通常把交叉驗(yàn)證稱“k折交叉驗(yàn)證”。k最常取的值是10.