第四章:Overfitting and Model tunning

對于不同的算法携御,會有一些獨有的參數(shù)需要調(diào)優(yōu)斑鼻,例如k-nearest neighbor中k值的選擇就需要進行一定的考量页滚。由于有時候這些參數(shù)會決定計算的復(fù)雜性,所以選擇這些參數(shù)就變的尤為重要稳吮。

選擇參數(shù)的方式有很多,其中的百試不爽的一種是井濒,建立一組候選值灶似,基于這些值進行預(yù)測,然后比較結(jié)果瑞你,選擇最優(yōu)結(jié)果的那個參數(shù)喻奥。

Data splitting 數(shù)據(jù)分組

模型建立的步驟主要有

1.預(yù)處理自變量 2.評估模型參數(shù) 3.選擇自變量4.評估模型效果 5.微調(diào)預(yù)測規(guī)則

數(shù)據(jù)分組的方法有隨機抽樣,差異性抽樣等

Resampling techniques

通常重新采樣評估模型效果的方式很類似捏悬,選擇樣本的一個子集來擬合模型撞蚕,然后用剩余的數(shù)據(jù)來驗證模型的效果。

k-Fold Cross-Validation

樣本隨機被分為k個大小相等的子集过牙。第一步,將第一個子集作為測試集甥厦,其他數(shù)據(jù)作為訓(xùn)練集,計算模型的性能寇钉。第二步刀疙,用第二子集作為測試機,用剩余數(shù)據(jù)作為訓(xùn)練集得到模型扫倡,依次執(zhí)行k次直到每個子集做過測試集谦秧,將測試性能的結(jié)果進行平均。隨著k值的增加其預(yù)測錯誤會降低撵溃。缺點是計算的次數(shù)較多疚鲤。通常會選擇5或者10。

k=3 k-fold cv例子

Leave-one-out cross-validation(LOOCV)

將n個數(shù)據(jù)中n-1數(shù)據(jù)作為訓(xùn)練集缘挑,剩余1個數(shù)據(jù)作為測試集集歇,循環(huán)n次

Repeated Training/Test Splits (Monte Carlo cv)

將數(shù)據(jù)隨機分為訓(xùn)練集和測試集,重復(fù)多次语淘,重復(fù)的次數(shù)通常在25次左右诲宇,如果想得到更好的結(jié)果际歼,需要重復(fù)(50-200)次

The BootStrap

有放回的從原有數(shù)據(jù)集中選取訓(xùn)練集,訓(xùn)練集和原數(shù)據(jù)大小一樣姑蓝,沒被選到的數(shù)據(jù)集作為測試集鹅心。平均來看63.2%的被選中至少一次,類似于當(dāng)k約等于2時的k-fold cross-validation纺荧,bias情況隨著訓(xùn)練集擴大而降低巴帮。

bootstrap圖例 數(shù)據(jù)量n=12

數(shù)據(jù)量較小,推薦repeated 10-fold cross-validation

----------------------------------------------------------

在R的使用中sample可以用來對數(shù)據(jù)進行簡單地隨機分組虐秋,caret包中的createDataPartition可以對數(shù)據(jù)進行分層隨機分組榕茧。例子

>trainingRows<-createDataPartition(classes,p=.80,list=FALSE)

Resampling中可以繼續(xù)使用createDataPartition,增加times參數(shù)創(chuàng)建多重分組

>set.seed(1)

>repeatedSplits<-createDataPartition(trainClasses,p=.80,times=3)

同時客给,caret包中的createResamples(for bootstrapping)用押,createFolds(for k-fold cross-validation)和createMultiFolds(for repeated CV),舉例創(chuàng)建10-fold cross-validation

>set.seed(1)

>cvSplits<- creatFolds(trainClasses,k=10,returnTrain=TRUE)

caret包中的train能夠構(gòu)建不同的重采樣方法靶剑,性能評測和算法評估等蜻拨,也可以用于并行計算。舉例桩引,優(yōu)化SVM模型

>set.seed(1056)

>svmFit<-train(Class~., data=GermanCreditTrain, method="svmRadial",

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? preProc=c("center","scale"),

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?tuneLength=10

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? trControl=trainControl(method="repeatedcv",repeats=5) ?)?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末缎讼,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子坑匠,更是在濱河造成了極大的恐慌血崭,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,470評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件厘灼,死亡現(xiàn)場離奇詭異夹纫,居然都是意外死亡,警方通過查閱死者的電腦和手機设凹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評論 3 392
  • 文/潘曉璐 我一進店門舰讹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人闪朱,你說我怎么就攤上這事月匣。” “怎么了奋姿?”我有些...
    開封第一講書人閱讀 162,577評論 0 353
  • 文/不壞的土叔 我叫張陵锄开,是天一觀的道長。 經(jīng)常有香客問我胀蛮,道長院刁,這世上最難降的妖魔是什么糯钙? 我笑而不...
    開封第一講書人閱讀 58,176評論 1 292
  • 正文 為了忘掉前任粪狼,我火速辦了婚禮退腥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘再榄。我一直安慰自己狡刘,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,189評論 6 388
  • 文/花漫 我一把揭開白布困鸥。 她就那樣靜靜地躺著嗅蔬,像睡著了一般。 火紅的嫁衣襯著肌膚如雪疾就。 梳的紋絲不亂的頭發(fā)上澜术,一...
    開封第一講書人閱讀 51,155評論 1 299
  • 那天,我揣著相機與錄音猬腰,去河邊找鬼鸟废。 笑死,一個胖子當(dāng)著我的面吹牛姑荷,可吹牛的內(nèi)容都是我干的盒延。 我是一名探鬼主播,決...
    沈念sama閱讀 40,041評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鼠冕,長吁一口氣:“原來是場噩夢啊……” “哼添寺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起懈费,我...
    開封第一講書人閱讀 38,903評論 0 274
  • 序言:老撾萬榮一對情侶失蹤计露,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后憎乙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體薄坏,經(jīng)...
    沈念sama閱讀 45,319評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,539評論 2 332
  • 正文 我和宋清朗相戀三年寨闹,在試婚紗的時候發(fā)現(xiàn)自己被綠了胶坠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,703評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡繁堡,死狀恐怖沈善,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情椭蹄,我是刑警寧澤闻牡,帶...
    沈念sama閱讀 35,417評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站绳矩,受9級特大地震影響罩润,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜翼馆,卻給世界環(huán)境...
    茶點故事閱讀 41,013評論 3 325
  • 文/蒙蒙 一割以、第九天 我趴在偏房一處隱蔽的房頂上張望金度。 院中可真熱鬧,春花似錦严沥、人聲如沸猜极。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽跟伏。三九已至,卻和暖如春翩瓜,著一層夾襖步出監(jiān)牢的瞬間受扳,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評論 1 269
  • 我被黑心中介騙來泰國打工兔跌, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留辞色,地道東北人。 一個月前我還...
    沈念sama閱讀 47,711評論 2 368
  • 正文 我出身青樓浮定,卻偏偏與公主長得像相满,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子桦卒,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,601評論 2 353

推薦閱讀更多精彩內(nèi)容