技術(shù)交流QQ群:1027579432丈攒,歡迎你的加入已旧!
1.劃分測(cè)試集目的
- 為了了解一個(gè)模型對(duì)新樣本的泛化能力嫂便,唯一的辦法是:讓已經(jīng)訓(xùn)練好的模型真正的處理新的樣本念赶。
- 解決方法: 將原始數(shù)據(jù)劃分成兩個(gè)部分:訓(xùn)練集 測(cè)試集拗盒〔澜撸可以使用訓(xùn)練集來(lái)訓(xùn)練模型,然后用測(cè)試集來(lái)測(cè)試模型陡蝇。通過(guò)測(cè)試集來(lái)評(píng)估模型痊臭,可以了解模型的泛化誤差。
- 如果訓(xùn)練誤差很低登夫,但是泛化誤差很高广匙,說(shuō)明模型對(duì)于訓(xùn)練數(shù)據(jù)已經(jīng)過(guò)擬合了。
- 一般將原始數(shù)據(jù)集劃分為70%的訓(xùn)練集恼策,30%的測(cè)試集合鸦致。
2.劃分驗(yàn)證集目的
- 現(xiàn)在有兩個(gè)模型(例如:線性模型和多項(xiàng)式模型)都可以解決同一個(gè)實(shí)際問(wèn)題,你正在由于猶豫不決。如何作出判斷:訓(xùn)練出兩個(gè)模型蹋凝,然后對(duì)比它們對(duì)測(cè)試數(shù)據(jù)的泛化能力鲁纠。假設(shè)線性模型的泛化能力更強(qiáng),但為了避免模型過(guò)擬合鳍寂,有必須設(shè)置正則化超參數(shù)改含。如何選擇出最佳的正則化超參數(shù)的值呢?做法之一是使用100個(gè)不同的超參數(shù)值來(lái)訓(xùn)練100個(gè)不同的模型迄汛,假設(shè)已經(jīng)找出最佳的超參數(shù)值捍壤,它生成的模型的泛化誤差最小。使用此模型運(yùn)行在實(shí)際生產(chǎn)環(huán)境中鞍爱,并沒(méi)有達(dá)到預(yù)期的精度鹃觉。這是由于在你對(duì)測(cè)試集的泛化誤差進(jìn)行了多次測(cè)量來(lái)調(diào)整模型和超參數(shù)時(shí),擬合出的模型只對(duì)測(cè)試集是最佳參數(shù)睹逃,對(duì)新的數(shù)據(jù)不太有可能有好的表現(xiàn)盗扇。
- 解決方法:單獨(dú)從原始數(shù)據(jù)中劃分出一個(gè)保留的集合即驗(yàn)證集。在訓(xùn)練集上沉填,使用不同的超參數(shù)訓(xùn)練多個(gè)模型疗隶,然后通過(guò)驗(yàn)證集,選擇出最好的那個(gè)模型和對(duì)應(yīng)的超參數(shù)翼闹。最后再運(yùn)行一遍測(cè)試集斑鼻,得到泛化誤差的估計(jì)值。
- 實(shí)際中猎荠,為了避免浪費(fèi)太多的訓(xùn)練數(shù)據(jù)坚弱,采用交叉驗(yàn)證。將訓(xùn)練集劃分為若干個(gè)互補(bǔ)的子集关摇,然后每個(gè)模型都通過(guò)這些子集的不同組合來(lái)進(jìn)行訓(xùn)練荒叶,之后用剩余的子集來(lái)進(jìn)行驗(yàn)證。一旦模型和超參數(shù)都確定输虱,最終的模型會(huì)帶著這些超參數(shù)對(duì)整個(gè)訓(xùn)練集進(jìn)行一次訓(xùn)練停撞,最后用測(cè)試集來(lái)測(cè)量泛化誤差。
- 一般劃分規(guī)則: 60%訓(xùn)練集數(shù)據(jù)悼瓮,20%驗(yàn)證集數(shù)據(jù), 20%測(cè)試集數(shù)據(jù)
3.K折交叉驗(yàn)證
- 將可用數(shù)據(jù)劃分為K個(gè)分區(qū)(K通常為4或5),實(shí)例化K個(gè)相同的模型戈毒,將每個(gè)模型在K-1個(gè)分區(qū)上訓(xùn)練,并在剩下的一個(gè)分區(qū)上進(jìn)行評(píng)估横堡,模型的驗(yàn)證分?jǐn)?shù)等于K個(gè)驗(yàn)證分?jǐn)?shù)的平均值埋市。
4.訓(xùn)練集 驗(yàn)證集 測(cè)試集使用
- 在訓(xùn)練集上訓(xùn)練模型,在驗(yàn)證集上評(píng)估模型命贴,一旦找到最佳參數(shù)道宅,就在測(cè)試集上最后測(cè)試一次食听。
5.多分類(lèi)與多標(biāo)簽分類(lèi)區(qū)別
- 多分類(lèi):每個(gè)樣本都應(yīng)被劃分到兩個(gè)以上的類(lèi)別上,例如MNIST手寫(xiě)數(shù)字體分類(lèi)
- 多標(biāo)簽分類(lèi):每個(gè)輸入樣本可以被分配到多個(gè)標(biāo)簽污茵。例如一幅圖像中既有貓又有狗樱报,那么應(yīng)該同時(shí)標(biāo)注“貓”和“狗”的標(biāo)簽,每幅圖片的標(biāo)簽的個(gè)數(shù)通常是可變的泞当。