評估機器學(xué)習(xí)模型

機器學(xué)習(xí)的目的是得到泛化(generalize)的模型,因此,解決過擬合很重要恢共。

訓(xùn)練集、驗證集脂信、測試集

將數(shù)據(jù)分為三個集合:訓(xùn)練集癣蟋、驗證集狰闪、測試集。在訓(xùn)練集上訓(xùn)練模型幔欧,驗證集上評估模型,一旦找到最佳參數(shù)礁蔗,在測試集上最后測試模型雁社。

為什么不劃分為兩個集合,僅有訓(xùn)練集和測試集霉撵?

因為開發(fā)模型時需要調(diào)節(jié)模型配置,通過模型在驗證集上的性能來調(diào)節(jié)超參數(shù)(hyperparameter)徒坡,這樣就導(dǎo)致驗證集的信息泄露(informationo leak)到模型中,很快導(dǎo)致模型在驗證集上過擬合呵曹。而我們最需要的是模型在全新數(shù)據(jù)上的性能何暮。
如果數(shù)據(jù)較少,有三種經(jīng)典的評估方法:

  • 簡單的留出驗證海洼;
  • K折驗證;
  • 帶有打亂數(shù)據(jù)的重復(fù)K折驗證坏逢。

簡單的留出驗證

簡單的留出驗證數(shù)據(jù)劃分.PNG
# 留出驗證
num_validation_samples = 10000

np.random.shuffle(data) # 打亂數(shù)據(jù)

validation_data = data[:num_validation_samples] # 定義驗證集
data = data[num_validation_samples:]

training_data = data[:] # 定義訓(xùn)練集

model = get_model()
model.train(training_data) # 在訓(xùn)練數(shù)據(jù)上訓(xùn)練模型
validation_score = model.evaluate(validation_data) # 在驗證數(shù)據(jù)上評估模型

# 現(xiàn)在你可以調(diào)節(jié)模型是整、重新訓(xùn)練、評估浮入,然后再次調(diào)節(jié)......

model = get_model()
model.train(np.concatenate([training_data,
                            validation_data])) #一旦調(diào)節(jié)好超參數(shù),
# 通常在所有非測試數(shù)據(jù)是哪個從頭開始訓(xùn)練最終模型
test_score = model.evaluate(test_data)

缺點:如果數(shù)據(jù)較少事秀,無法在統(tǒng)計學(xué)上代表數(shù)據(jù)野舶。表現(xiàn)為不同的隨機打亂宰衙,最終得到的模型性能差別很大。
解決方法:
1一屋、K折驗證;
2陆淀、重復(fù)的 K 折驗證。
np.random.shuffle(x)
https://blog.csdn.net/brucewong0516/article/details/79012233

#現(xiàn)場修改序列轧苫,改變自身內(nèi)容疫蔓。(類似洗牌,打亂順序)
In [30]: arr = np.arange(10)
In [31]: np.random.shuffle(arr)
In [32]: arr
Out[32]: array([5, 2, 7, 0, 6, 3, 4, 1, 8, 9])
#對多維數(shù)組進(jìn)行打亂排列時衅胀,默認(rèn)是對第一個維度也就是列維度進(jìn)行隨機打亂
In [37]: arr = np.arange(12).reshape(3,4)
In [38]: arr
Out[38]:
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
#將多維數(shù)組打亂
In [39]: np.random.shuffle(arr)
In [40]: arr
Out[40]:
array([[ 4,  5,  6,  7],
       [ 0,  1,  2,  3],
       [ 8,  9, 10, 11]])
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末滚躯,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子掸掏,更是在濱河造成了極大的恐慌,老刑警劉巖丧凤,帶你破解...
    沈念sama閱讀 221,331評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件愿待,死亡現(xiàn)場離奇詭異浩螺,居然都是意外死亡仍侥,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,372評論 3 398
  • 文/潘曉璐 我一進(jìn)店門厨幻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人况脆,你說我怎么就攤上這事批糟。” “怎么了徽鼎?”我有些...
    開封第一講書人閱讀 167,755評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長悄但。 經(jīng)常有香客問我石抡,道長檐嚣,這世上最難降的妖魔是什么啰扛? 我笑而不...
    開封第一講書人閱讀 59,528評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮鞍帝,結(jié)果婚禮上煞茫,老公的妹妹穿的比我還像新娘帕涌。我一直安慰自己续徽,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,526評論 6 397
  • 文/花漫 我一把揭開白布辟躏。 她就那樣靜靜地躺著土全,像睡著了一般捎琐。 火紅的嫁衣襯著肌膚如雪裹匙。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,166評論 1 308
  • 那天籽御,我揣著相機與錄音,去河邊找鬼技掏。 笑死,一個胖子當(dāng)著我的面吹牛哑梳,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播鸠真,決...
    沈念sama閱讀 40,768評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼吠卷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了祭隔?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,664評論 0 276
  • 序言:老撾萬榮一對情侶失蹤茴她,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后丈牢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瞄沙,經(jīng)...
    沈念sama閱讀 46,205評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,290評論 3 340
  • 正文 我和宋清朗相戀三年申尼,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片师幕。...
    茶點故事閱讀 40,435評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡诬滩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出疼鸟,到底是詐尸還是另有隱情,我是刑警寧澤空镜,帶...
    沈念sama閱讀 36,126評論 5 349
  • 正文 年R本政府宣布捌朴,位于F島的核電站张抄,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏欣鳖。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,804評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望矾缓。 院中可真熱鬧,春花似錦嗜闻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,276評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽檐束。三九已至束倍,卻和暖如春被丧,著一層夾襖步出監(jiān)牢的瞬間绪妹,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工邮旷, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人办陷。 一個月前我還...
    沈念sama閱讀 48,818評論 3 376
  • 正文 我出身青樓狡孔,卻偏偏與公主長得像懂诗,于是被迫代替她去往敵國和親苗膝。 傳聞我的和親對象是個殘疾皇子植旧,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,442評論 2 359