數(shù)據(jù)樣本劃分
- 留出法(hold-out)直接將數(shù)據(jù)集化為兩個(gè)互斥集合辑莫,通常測試集占五分之一至三分之一。
- 交叉驗(yàn)證法(cross validation)將數(shù)據(jù)集化為K個(gè)大小相似的互斥子集各吨,每次使用k-1個(gè)自己做訓(xùn)練,余下那個(gè)做測試,共進(jìn)行k次横浑,通常k值取10,或5徙融、20等。該法也叫做K折交叉驗(yàn)證欺冀。留一法為K折交叉驗(yàn)證的特例,數(shù)據(jù)集有M個(gè)樣本則K取M隐轩,該法訓(xùn)練集樣本為M-1個(gè),故大多數(shù)情況下效果較好职车,但計(jì)算量過大。
3.自助法(bootstrapping)提鸟,若數(shù)據(jù)集有m個(gè)樣本仅淑,可對數(shù)據(jù)集進(jìn)行m次有放回采樣,得到新數(shù)據(jù)集為訓(xùn)練集涯竟,顯然該訓(xùn)練集中會出現(xiàn)重復(fù)原數(shù)據(jù)集樣本,且原數(shù)據(jù)集部分樣本不會被采樣到庐船。始終未被采樣到的數(shù)據(jù)集作為測試集,取m→∞筐钟,(1-1/m)^m為1/e約為0.368,即原數(shù)據(jù)集中有接近三分之一的樣本未被采樣篓冲,可作為測試集。