Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.
訓(xùn)練集是用來(lái)學(xué)習(xí)的樣本集酪耳,通過(guò)匹配一些參數(shù)來(lái)建立一個(gè)分類器
Validation set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.
驗(yàn)證集是用來(lái)調(diào)整分類器的參數(shù)的樣本集,比如在神經(jīng)網(wǎng)絡(luò)中選擇隱藏單元數(shù)刹缝。驗(yàn)證集還用來(lái)確定網(wǎng)絡(luò)結(jié)構(gòu)或者控制模型復(fù)雜程度的參數(shù)碗暗。作用是當(dāng)通過(guò)訓(xùn)練集訓(xùn)練出多個(gè)模型后,為了能找出效果最佳的模型梢夯,使用各個(gè)模型對(duì)驗(yàn)證集數(shù)據(jù)進(jìn)行預(yù)測(cè)言疗,并記錄模型準(zhǔn)確率。選出效果最佳的模型所對(duì)應(yīng)的參數(shù)厨疙,即用來(lái)調(diào)整模型參數(shù)。如svn中的參數(shù)c和核函數(shù)等疑务。
Test set: A set of examples used only to assess the performance [generalization] of a fully specified classifier.
測(cè)試集純粹是為了測(cè)試已經(jīng)訓(xùn)練好的模型的分類能力的樣本集沾凄。
一般驗(yàn)證集在交叉驗(yàn)證里應(yīng)用的比較多:利用交叉驗(yàn)證方法選擇模型思路是:使用訓(xùn)練集(trainset)數(shù)據(jù)所有候選模型進(jìn)行參數(shù)估計(jì),使用驗(yàn)證集(validationset)為檢驗(yàn)樣本知允,然后計(jì)算預(yù)測(cè)均方誤差撒蟀,比較各個(gè)模型的預(yù)測(cè)均方誤差,選擇預(yù)測(cè)均方誤差最小的擬合模型為選擇模型温鸽。