一文看懂 AI 訓(xùn)練集赔硫、驗(yàn)證集盐肃、測(cè)試集(附:分割方法+交叉驗(yàn)證)

一文看懂 AI 數(shù)據(jù)集:訓(xùn)練集砸王、驗(yàn)證集、測(cè)試集

數(shù)據(jù)在人工智能技術(shù)里是非常重要的谦铃!本篇文章將詳細(xì)給大家介紹3種數(shù)據(jù)集:訓(xùn)練集驹闰、驗(yàn)證集、測(cè)試集师妙。

同時(shí)還會(huì)介紹如何更合理的講數(shù)據(jù)劃分為3種數(shù)據(jù)集屹培。最后給大家介紹一種充分利用有限數(shù)據(jù)的方式:交叉驗(yàn)證法。

先用一個(gè)不恰當(dāng)?shù)谋扔鱽?lái)說(shuō)明3種數(shù)據(jù)集之間的關(guān)系:

  • 訓(xùn)練集相當(dāng)于上課學(xué)知識(shí)
  • 驗(yàn)證集相當(dāng)于課后的的練習(xí)題蓄诽,用來(lái)糾正和強(qiáng)化學(xué)到的知識(shí)
  • 測(cè)試集相當(dāng)于期末考試媒吗,用來(lái)最終評(píng)估學(xué)習(xí)效果
3種數(shù)據(jù)集之間的關(guān)系

什么是訓(xùn)練集蝴猪?

訓(xùn)練集(Training Dataset)是用來(lái)訓(xùn)練模型使用的。

在《一文看懂機(jī)器學(xué)習(xí)》里我們介紹了機(jī)器學(xué)習(xí)的7個(gè)步驟嚎莉,訓(xùn)練集(Training Dataset)主要在訓(xùn)練階段使用沛豌。

訓(xùn)練集使用階段

什么是驗(yàn)證集赃额?

當(dāng)我們的模型訓(xùn)練好之后跳芳,我們并不知道他的表現(xiàn)如何竹勉。這個(gè)時(shí)候就可以使用驗(yàn)證集(Validation Dataset)來(lái)看看模型在新數(shù)據(jù)(驗(yàn)證集和測(cè)試集是不同的數(shù)據(jù))上的表現(xiàn)如何。同時(shí)通過(guò)調(diào)整超參數(shù)吓歇,讓模型處于最好的狀態(tài)票腰。

驗(yàn)證集使用階段

驗(yàn)證集有2個(gè)主要的作用:

  1. 評(píng)估模型效果杏慰,為了調(diào)整超參數(shù)而服務(wù)
  2. 調(diào)整超參數(shù),使得模型在驗(yàn)證集上的效果最好

說(shuō)明:

  1. 驗(yàn)證集不像訓(xùn)練集和測(cè)試集轰胁,它是非必需的完域。如果不需要調(diào)整超參數(shù),就可以不使用驗(yàn)證集凹耙,直接用測(cè)試集來(lái)評(píng)估效果肠仪。
  2. 驗(yàn)證集評(píng)估出來(lái)的效果并非模型的最終效果,主要是用來(lái)調(diào)整超參數(shù)的意述,模型最終效果以測(cè)試集的評(píng)估結(jié)果為準(zhǔn)吮蛹。

什么是測(cè)試集?

當(dāng)我們調(diào)好超參數(shù)后术荤,就要開(kāi)始「最終考試」了每篷。我們通過(guò)測(cè)試集(Test Dataset)來(lái)做最終的評(píng)估端圈。

測(cè)試集使用階段

通過(guò)測(cè)試集的評(píng)估舱权,我們會(huì)得到一些最終的評(píng)估指標(biāo)仑嗅,例如:準(zhǔn)確率、精確率啊楚、召回率浑彰、F1等拯辙。

擴(kuò)展閱讀:《分類模型評(píng)估指標(biāo)——準(zhǔn)確率涯保、精準(zhǔn)率、召回率夕春、F1及志、ROC曲線、AUC曲線

如何合理的劃分?jǐn)?shù)據(jù)集率寡?

如何合理的劃分?jǐn)?shù)據(jù)集

下面的數(shù)據(jù)集劃分方式主要針對(duì)「留出法」的驗(yàn)證方式倚搬,除此之外還有其他的交叉驗(yàn)證法每界,詳情見(jiàn)下文——交叉驗(yàn)證法。

數(shù)據(jù)劃分的方法并沒(méi)有明確的規(guī)定眨层,不過(guò)可以參考3個(gè)原則:

  1. 對(duì)于小規(guī)模樣本集(幾萬(wàn)量級(jí))谐岁,常用的分配比例是 60% 訓(xùn)練集榛臼、20% 驗(yàn)證集窜司、20% 測(cè)試集。
  2. 對(duì)于大規(guī)模樣本集(百萬(wàn)級(jí)以上)金刁,只要驗(yàn)證集和測(cè)試集的數(shù)量足夠即可议薪,例如有 100w 條數(shù)據(jù)斯议,那么留 1w 驗(yàn)證集,1w 測(cè)試集即可哼御。1000w 的數(shù)據(jù)恋昼,同樣留 1w 驗(yàn)證集和 1w 測(cè)試集。
  3. 超參數(shù)越少挟炬,或者超參數(shù)很容易調(diào)整嗦哆,那么可以減少驗(yàn)證集的比例,更多的分配給訓(xùn)練集泊脐。

交叉驗(yàn)證法

為什么要用交叉驗(yàn)證法烁峭?

假如我們教小朋友學(xué)加法:1個(gè)蘋果+1個(gè)蘋果=2個(gè)蘋果

當(dāng)我們?cè)贉y(cè)試的時(shí)候,會(huì)問(wèn):1個(gè)香蕉+1個(gè)香蕉=幾個(gè)香蕉缩挑?

如果小朋友知道「2個(gè)香蕉」鬓梅,并且換成其他東西也沒(méi)有問(wèn)題绽快,那么我們認(rèn)為小朋友學(xué)習(xí)會(huì)了「1+1=2」這個(gè)知識(shí)點(diǎn)。

如果小朋友只知道「1個(gè)蘋果+1個(gè)蘋果=2個(gè)蘋果」晦攒,但是換成其他東西就不會(huì)了,那么我們就不能說(shuō)小朋友學(xué)會(huì)了「1+1=2」這個(gè)知識(shí)點(diǎn)。

評(píng)估模型是否學(xué)會(huì)了「某項(xiàng)技能」時(shí)乖仇,也需要用新的數(shù)據(jù)來(lái)評(píng)估询兴,而不是用訓(xùn)練集里的數(shù)據(jù)來(lái)評(píng)估。這種「訓(xùn)練集」和「測(cè)試集」完全不同的驗(yàn)證方法就是交叉驗(yàn)證法警儒。

3 種主流的交叉驗(yàn)證法

3 種主流的交叉驗(yàn)證法

留出法(Holdout cross validation)

上文提到的冷蚂,按照固定比例將數(shù)據(jù)集靜態(tài)的劃分為訓(xùn)練集汛闸、驗(yàn)證集艺骂、測(cè)試集钳恕。的方式就是留出法。

留一法(Leave one out cross validation)

每次的測(cè)試集都只有一個(gè)樣本忧额,要進(jìn)行 m 次訓(xùn)練和預(yù)測(cè)睦番。
這個(gè)方法用于訓(xùn)練的數(shù)據(jù)只比整體數(shù)據(jù)集少了一個(gè)樣本,因此最接近原始樣本的分布巩检。但是訓(xùn)練復(fù)雜度增加了示启,因?yàn)槟P偷臄?shù)量與原始數(shù)據(jù)樣本數(shù)量相同。
一般在數(shù)據(jù)缺乏時(shí)使用迟螺。

k 折交叉驗(yàn)證(k-fold cross validation)

靜態(tài)的「留出法」對(duì)數(shù)據(jù)的劃分方式比較敏感,有可能不同的劃分方式得到了不同的模型劳跃≌愕妫「k 折交叉驗(yàn)證」是一種動(dòng)態(tài)驗(yàn)證的方式夹姥,這種方式可以降低數(shù)據(jù)劃分帶來(lái)的影響。具體步驟如下:

  1. 將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集辙售,將測(cè)試集放在一邊
  2. 將訓(xùn)練集分為 k 份
  3. 每次使用 k 份中的 1 份作為驗(yàn)證集旦部,其他全部作為訓(xùn)練集。
  4. 通過(guò) k 次訓(xùn)練后容燕,我們得到了 k 個(gè)不同的模型婚度。
  5. 評(píng)估 k 個(gè)模型的效果,從中挑選效果最好的超參數(shù)
  6. 使用最優(yōu)的超參數(shù)醋虏,然后將 k 份數(shù)據(jù)全部作為訓(xùn)練集重新訓(xùn)練模型哮翘,得到最終模型饭寺。
k 折交叉驗(yàn)證

k 一般取 10
數(shù)據(jù)量小的時(shí)候,k 可以設(shè)大一點(diǎn)柑肴,這樣訓(xùn)練集占整體比例就比較大旬薯,不過(guò)同時(shí)訓(xùn)練的模型個(gè)數(shù)也增多。
數(shù)據(jù)量大的時(shí)候硕舆,k 可以設(shè)小一點(diǎn)抚官。
本文首發(fā)自 產(chǎn)品經(jīng)理的 AI 學(xué)習(xí)庫(kù) easyai.tech

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末凌节,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子倍奢,更是在濱河造成了極大的恐慌,老刑警劉巖痪宰,帶你破解...
    沈念sama閱讀 221,273評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件衣撬,死亡現(xiàn)場(chǎng)離奇詭異扮饶,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)靠粪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)元潘,“玉大人君仆,你說(shuō)我怎么就攤上這事≡勘樱” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 167,709評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵咖摹,是天一觀的道長(zhǎng)评姨。 經(jīng)常有香客問(wèn)我,道長(zhǎng)萤晴,這世上最難降的妖魔是什么吐句? 我笑而不...
    開(kāi)封第一講書人閱讀 59,520評(píng)論 1 296
  • 正文 為了忘掉前任胁后,我火速辦了婚禮,結(jié)果婚禮上嗦枢,老公的妹妹穿的比我還像新娘攀芯。我一直安慰自己,他們只是感情好文虏,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,515評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著氧秘,像睡著了一般紧武。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上敏储,一...
    開(kāi)封第一講書人閱讀 52,158評(píng)論 1 308
  • 那天阻星,我揣著相機(jī)與錄音,去河邊找鬼已添。 笑死妥箕,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的更舞。 我是一名探鬼主播畦幢,決...
    沈念sama閱讀 40,755評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼缆蝉!你這毒婦竟也來(lái)了宇葱?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,660評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤刊头,失蹤者是張志新(化名)和其女友劉穎黍瞧,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體原杂,經(jīng)...
    沈念sama閱讀 46,203評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡印颤,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,287評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了穿肄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片年局。...
    茶點(diǎn)故事閱讀 40,427評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖咸产,靈堂內(nèi)的尸體忽然破棺而出矢否,到底是詐尸還是另有隱情,我是刑警寧澤脑溢,帶...
    沈念sama閱讀 36,122評(píng)論 5 349
  • 正文 年R本政府宣布僵朗,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏衣迷。R本人自食惡果不足惜畏鼓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,801評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望壶谒。 院中可真熱鬧云矫,春花似錦、人聲如沸汗菜。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,272評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)陨界。三九已至巡揍,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間菌瘪,已是汗流浹背腮敌。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,393評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留俏扩,地道東北人糜工。 一個(gè)月前我還...
    沈念sama閱讀 48,808評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像录淡,于是被迫代替她去往敵國(guó)和親捌木。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,440評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容