為什么使用交叉驗證摊崭?
在許多實際應(yīng)用中數(shù)據(jù)是不充足的讼油。交叉驗證的基本思想:重復(fù)的使用數(shù)據(jù)。把給定的數(shù)據(jù)進(jìn)行切分呢簸,將切分的數(shù)據(jù)組合為訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)矮台。
交叉驗證常用的方法
-
簡單交叉驗證
我們可以把整個數(shù)據(jù)集分成兩部分,一部分用于訓(xùn)練根时,一部分用于驗證瘦赫,這也就是我們經(jīng)常提到的訓(xùn)練集(training set)和測試集(test set)。
該方法只用了部分?jǐn)?shù)據(jù)進(jìn)行模型的訓(xùn)練
我們都知道蛤迎,當(dāng)用于模型訓(xùn)練的數(shù)據(jù)量越大時确虱,訓(xùn)練出來的模型通常效果會越好。所以訓(xùn)練集和測試集的劃分意味著我們無法充分利用我們手頭已有的數(shù)據(jù)替裆,所以得到的模型效果也會受到一定的影響校辩。
2.交叉驗證
隨機地將已經(jīng)給的數(shù)據(jù)切分為s個互不相交大小相同的子集;然后利用S-1個子集的數(shù)據(jù)訓(xùn)練模型扎唾,利用余下的子集測試模型;將這一過程對可能的S種選擇重復(fù)進(jìn)行南缓。