機(jī)器學(xué)習(xí)中的Train/Dev/Test集合數(shù)量設(shè)定

Train/Dev/Test集合設(shè)定

現(xiàn)在,我們就來聊聊在機(jī)器學(xué)習(xí)中訓(xùn)練/開發(fā)/測(cè)試集合大小的設(shè)定字逗。


Train/Dev/Test

TrainDevTest

在機(jī)器學(xué)習(xí)的早期,由于數(shù)據(jù)量較少:

我們將Train/Dev/Test的比例設(shè)定為60/20/20

或者? Train/Test-->70/30

現(xiàn)如今宅广,我們可以獲得大量的數(shù)據(jù)集葫掉, 數(shù)據(jù)量會(huì)超過百萬(1,000,000)。因此乘碑,我們也就只需要選取少量的Test集合挖息,即可校驗(yàn)算法的可靠性。

因此兽肤,我們經(jīng)常將訓(xùn)練集設(shè)定為:Train/Dev/Test的--->98/1/1

當(dāng)前套腹,機(jī)器學(xué)習(xí)主要用到Train/Test訓(xùn)練集。



機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域

現(xiàn)如今ML(Machine Learing)機(jī)器學(xué)習(xí)已經(jīng)在很多方面有了顯著地突破资铡,尤其再Deep Learning領(lǐng)域电禀,突破更是一日千里。

例如:NLP(自然語言處理)笤休,Computer Vision(機(jī)器視覺)尖飞,語言翻譯(Translation),結(jié)構(gòu)化數(shù)據(jù)處理(Structure Data)。

結(jié)構(gòu)化數(shù)據(jù)處理(Structure Data):Ads(互聯(lián)網(wǎng)廣告)政基,Search(搜索引擎)贞铣,Computer Security(計(jì)算機(jī)安全),Logistical(物流)等領(lǐng)域有著很好的應(yīng)用沮明。

我們有理由相信在不久的將來辕坝,機(jī)器學(xué)習(xí)將會(huì)應(yīng)用到更為廣闊的領(lǐng)域。



想法-編碼-驗(yàn)證階段

各位童鞋在學(xué)習(xí)ML(Machine Learning)時(shí)荐健,都會(huì)經(jīng)歷這幾個(gè)步驟:

Idea: 創(chuàng)意和想法酱畅;對(duì)一個(gè)項(xiàng)目(事情)的想法和解決該方法的思路。

Code: 編碼江场;通過ML纺酸,進(jìn)行編碼。

Experiment: 實(shí)驗(yàn)址否;通過實(shí)驗(yàn)時(shí)驗(yàn)證你的想法和思路餐蔬。


Idea-Code-Experiment

Idea,Code,Experiment是一個(gè)循環(huán)的過程。開始于Idea在张,然后通過Code實(shí)現(xiàn)用含,在通過Experiment進(jìn)行驗(yàn)證。之后再次優(yōu)化你的想法帮匾,優(yōu)化代碼啄骇,再實(shí)驗(yàn)驗(yàn)證,一次一次的迭代瘟斜,最終實(shí)現(xiàn)對(duì)問題的解決缸夹。



名詞解釋:

Dataset: 數(shù)據(jù)集。就是我們需要給算法提供的訓(xùn)練數(shù)據(jù)螺句,常見的數(shù)據(jù)集包括:Training Dataset(訓(xùn)練集)虽惭,Testing Dataset(測(cè)試集),Dev Dataset(開發(fā)集)蛇尚。

algorithm:算法芽唇。很簡(jiǎn)單,就是我們常說的機(jī)器學(xué)習(xí)中的算法取劫。常見的有CNN匆笤,RNN,DNN等谱邪。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末炮捧,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子惦银,更是在濱河造成了極大的恐慌咆课,老刑警劉巖末誓,帶你破解...
    沈念sama閱讀 218,204評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異书蚪,居然都是意外死亡喇澡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門善炫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來撩幽,“玉大人库继,你說我怎么就攤上這事箩艺。” “怎么了宪萄?”我有些...
    開封第一講書人閱讀 164,548評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵艺谆,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我拜英,道長(zhǎng)静汤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,657評(píng)論 1 293
  • 正文 為了忘掉前任居凶,我火速辦了婚禮虫给,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘侠碧。我一直安慰自己抹估,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評(píng)論 6 392
  • 文/花漫 我一把揭開白布弄兜。 她就那樣靜靜地躺著药蜻,像睡著了一般。 火紅的嫁衣襯著肌膚如雪替饿。 梳的紋絲不亂的頭發(fā)上语泽,一...
    開封第一講書人閱讀 51,554評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音视卢,去河邊找鬼踱卵。 笑死,一個(gè)胖子當(dāng)著我的面吹牛据过,可吹牛的內(nèi)容都是我干的惋砂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蝶俱,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼班利!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起榨呆,我...
    開封第一講書人閱讀 39,216評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤罗标,失蹤者是張志新(化名)和其女友劉穎庸队,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體闯割,經(jīng)...
    沈念sama閱讀 45,661評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡彻消,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了宙拉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宾尚。...
    茶點(diǎn)故事閱讀 39,977評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖谢澈,靈堂內(nèi)的尸體忽然破棺而出煌贴,到底是詐尸還是另有隱情,我是刑警寧澤锥忿,帶...
    沈念sama閱讀 35,697評(píng)論 5 347
  • 正文 年R本政府宣布牛郑,位于F島的核電站,受9級(jí)特大地震影響敬鬓,放射性物質(zhì)發(fā)生泄漏淹朋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評(píng)論 3 330
  • 文/蒙蒙 一钉答、第九天 我趴在偏房一處隱蔽的房頂上張望础芍。 院中可真熱鬧,春花似錦数尿、人聲如沸仑性。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽虏缸。三九已至,卻和暖如春嫩实,著一層夾襖步出監(jiān)牢的瞬間刽辙,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評(píng)論 1 270
  • 我被黑心中介騙來泰國打工甲献, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留宰缤,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,138評(píng)論 3 370
  • 正文 我出身青樓晃洒,卻偏偏與公主長(zhǎng)得像慨灭,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子球及,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容