通常至会,在訓(xùn)練有監(jiān)督的機(jī)器學(xué)習(xí)模型的時(shí)候离咐,會(huì)將數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集合測試集奉件,劃分比例一般為0.6:0.2:0.2宵蛀。對原始數(shù)據(jù)進(jìn)行三個(gè)集合的劃分,是為了能夠選出效果(可以理解為準(zhǔn)確率)最好的县貌、泛化能力最佳的模型术陶。
訓(xùn)練集(Training set)
作用是用來擬合模型,通過設(shè)置分類器的參數(shù)窃这,訓(xùn)練分類模型瞳别。后續(xù)結(jié)合驗(yàn)證集作用時(shí),會(huì)選出同一參數(shù)的不同取值杭攻,擬合出多個(gè)分類器祟敛。
驗(yàn)證集(Cross Validation set)
作用是當(dāng)通過訓(xùn)練集訓(xùn)練出多個(gè)模型后,為了能找出效果最佳的模型兆解,使用各個(gè)模型對驗(yàn)證集數(shù)據(jù)進(jìn)行預(yù)測馆铁,并記錄模型準(zhǔn)確率。選出效果最佳的模型所對應(yīng)的參數(shù)锅睛,即用來調(diào)整模型參數(shù)埠巨。如svm中的參數(shù)c和核函數(shù)等。
測試集(Test set)
通過訓(xùn)練集和驗(yàn)證集得出最優(yōu)模型后现拒,使用測試集進(jìn)行模型預(yù)測辣垒。用來衡量該最優(yōu)模型的性能和分類能力。即可以把測試集當(dāng)做從來不存在的數(shù)據(jù)集印蔬,當(dāng)已經(jīng)確定模型參數(shù)后勋桶,使用測試集進(jìn)行模型性能評價(jià)。
對原始數(shù)據(jù)進(jìn)行三個(gè)數(shù)據(jù)集的劃分,也是為了防止模型過擬合例驹。當(dāng)使用了所有的原始數(shù)據(jù)去訓(xùn)練模型捐韩,得到的結(jié)果很可能是該模型最大程度地?cái)M合了原始數(shù)據(jù),亦即該模型是為了擬合所有原始數(shù)據(jù)而存在鹃锈。當(dāng)新的樣本出現(xiàn)荤胁,再使用該模型進(jìn)行預(yù)測,效果可能還不如只使用一部分?jǐn)?shù)據(jù)訓(xùn)練的模型屎债。
————————————————
版權(quán)聲明:本文為CSDN博主「Neleuska」的原創(chuàng)文章仅政,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明扔茅。
原文鏈接:https://blog.csdn.net/Neleuska/article/details/73193096