這節(jié)課主要解決兩個(gè)問題
- 驗(yàn)證集的大小如何設(shè)定?
- 訓(xùn)練集中有些類別數(shù)據(jù)量太小怎么辦阳啥?
驗(yàn)證集的大小如何設(shè)定?
這里有個(gè)簡(jiǎn)單的方法來驗(yàn)證财喳。
首先來理解以下察迟,驗(yàn)證集的定義是需要一個(gè)數(shù)據(jù)集來驗(yàn)證我們的模型精確性,如果驗(yàn)證集太小耳高,不夠做到符合正態(tài)隨機(jī)分布扎瓶,那我們的驗(yàn)證集結(jié)果就不能用來驗(yàn)證模型的精確性。舉個(gè)例子泌枪,如果你的驗(yàn)證集數(shù)據(jù)量太小概荷,每一個(gè)值都能影響最終的模型預(yù)測(cè)的均值及標(biāo)準(zhǔn)差,那么這個(gè)驗(yàn)證集都不可靠碌燕。
具體的驗(yàn)證方法:
- 我們對(duì)模型選取一個(gè)驗(yàn)證集误证;
- 對(duì)模型進(jìn)行 5 次完全相同的訓(xùn)練(hyperparameter相同),由于 boostrapping 的原因修壕,這里的系數(shù)會(huì)細(xì)微不同愈捅;
- 5 個(gè)模型分別對(duì)驗(yàn)證集輸出;
- 比較 5 個(gè)模型輸出的標(biāo)準(zhǔn)差慈鸠,如果標(biāo)準(zhǔn)差很大蓝谨,則代表你的驗(yàn)證集小了,容易產(chǎn)生偏差青团。
訓(xùn)練集本身有一個(gè)樣本類別過小譬巫,學(xué)習(xí)效果不好怎么辦?
在做訓(xùn)練集分類問題的時(shí)候督笆,我們有時(shí)候會(huì)遇到某個(gè)類別的數(shù)量過少芦昔,導(dǎo)致學(xué)習(xí)不充分,畢竟數(shù)據(jù)量不夠是會(huì)造成模型學(xué)習(xí)偏差的胖腾。
處理這個(gè)問題的辦法也很簡(jiǎn)單烟零,在訓(xùn)練集中復(fù)制較少的這個(gè)類別的數(shù)據(jù)多次,盡管聽上去沒有什么理論支持的樣子咸作,但是在實(shí)際操作時(shí)锨阿,這種方法是真實(shí)有效的。在許多 kaggle 競(jìng)賽上都得到了證實(shí)记罚。機(jī)器學(xué)習(xí)的很多理論其實(shí)聽上去很高大上的名字墅诡,但是真實(shí)的意義就是非常簡(jiǎn)單,大家都能理解的意思。但是你需要多實(shí)踐和融會(huì)貫通才能真正理解末早。
模型的目的烟馅,永遠(yuǎn)是解決問題。