Train/Dev/Test集合設(shè)定
現(xiàn)在,我們就來聊聊在機(jī)器學(xué)習(xí)中訓(xùn)練/開發(fā)/測(cè)試集合大小的設(shè)定字逗。
TrainDevTest
在機(jī)器學(xué)習(xí)的早期,由于數(shù)據(jù)量較少:
我們將Train/Dev/Test的比例設(shè)定為60/20/20
或者? Train/Test-->70/30
現(xiàn)如今宅广,我們可以獲得大量的數(shù)據(jù)集葫掉, 數(shù)據(jù)量會(huì)超過百萬(1,000,000)。因此乘碑,我們也就只需要選取少量的Test集合挖息,即可校驗(yàn)算法的可靠性。
因此兽肤,我們經(jīng)常將訓(xùn)練集設(shè)定為:Train/Dev/Test的--->98/1/1
當(dāng)前套腹,機(jī)器學(xué)習(xí)主要用到Train/Test訓(xùn)練集。
機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域
現(xiàn)如今ML(Machine Learing)機(jī)器學(xué)習(xí)已經(jīng)在很多方面有了顯著地突破资铡,尤其再Deep Learning領(lǐng)域电禀,突破更是一日千里。
例如:NLP(自然語言處理)笤休,Computer Vision(機(jī)器視覺)尖飞,語言翻譯(Translation),結(jié)構(gòu)化數(shù)據(jù)處理(Structure Data)。
結(jié)構(gòu)化數(shù)據(jù)處理(Structure Data):Ads(互聯(lián)網(wǎng)廣告)政基,Search(搜索引擎)贞铣,Computer Security(計(jì)算機(jī)安全),Logistical(物流)等領(lǐng)域有著很好的應(yīng)用沮明。
我們有理由相信在不久的將來辕坝,機(jī)器學(xué)習(xí)將會(huì)應(yīng)用到更為廣闊的領(lǐng)域。
想法-編碼-驗(yàn)證階段
各位童鞋在學(xué)習(xí)ML(Machine Learning)時(shí)荐健,都會(huì)經(jīng)歷這幾個(gè)步驟:
Idea: 創(chuàng)意和想法酱畅;對(duì)一個(gè)項(xiàng)目(事情)的想法和解決該方法的思路。
Code: 編碼江场;通過ML纺酸,進(jìn)行編碼。
Experiment: 實(shí)驗(yàn)址否;通過實(shí)驗(yàn)時(shí)驗(yàn)證你的想法和思路餐蔬。
Idea,Code,Experiment是一個(gè)循環(huán)的過程。開始于Idea在张,然后通過Code實(shí)現(xiàn)用含,在通過Experiment進(jìn)行驗(yàn)證。之后再次優(yōu)化你的想法帮匾,優(yōu)化代碼啄骇,再實(shí)驗(yàn)驗(yàn)證,一次一次的迭代瘟斜,最終實(shí)現(xiàn)對(duì)問題的解決缸夹。
名詞解釋:
Dataset: 數(shù)據(jù)集。就是我們需要給算法提供的訓(xùn)練數(shù)據(jù)螺句,常見的數(shù)據(jù)集包括:Training Dataset(訓(xùn)練集)虽惭,Testing Dataset(測(cè)試集),Dev Dataset(開發(fā)集)蛇尚。
algorithm:算法芽唇。很簡(jiǎn)單,就是我們常說的機(jī)器學(xué)習(xí)中的算法取劫。常見的有CNN匆笤,RNN,DNN等谱邪。