模型指標(biāo)
MSE:均方誤差德撬,值越小越好
RMSE:均方根誤差,值越小越好
MAE:平均絕對(duì)誤差躲胳,值越小越好
R平方:【0蜓洪,1】越接近1越好
ev:【0,1】越接近1越好
標(biāo)準(zhǔn)化
公式:(x-mean)/std
交叉驗(yàn)證
偏差——方差的折中
k較小時(shí)坯苹,偏差較低隆檀,方差較高,測(cè)試集小
k較高時(shí)粹湃,偏差較高恐仑,方差較低,測(cè)試集大
交叉驗(yàn)證的輔助功能:參數(shù)調(diào)節(jié)为鳄,模型選擇裳仆,特征選擇
實(shí)驗(yàn)處理方式
1.集中處理方式:將數(shù)據(jù)分為2部分,訓(xùn)練集與測(cè)試集
2.交叉驗(yàn)證:利用交叉驗(yàn)證的結(jié)果作為參數(shù)選擇的標(biāo)準(zhǔn)孤钦,同時(shí)也作為模型擇優(yōu)的標(biāo)準(zhǔn)
3.分兩步:將數(shù)據(jù)集劃分為兩部分歧斟,一部分為訓(xùn)練集,一部分為測(cè)試集司训,用訓(xùn)練集做交叉驗(yàn)證選擇最優(yōu)參數(shù)构捡,用測(cè)試集來(lái)選擇最優(yōu)模型,同時(shí)壳猜,也由測(cè)試集來(lái)生成預(yù)測(cè)誤差
歸一化
特征值域跨度大勾徽,調(diào)整量綱
1.等高線的圖(聯(lián)想),加快梯度下降時(shí)收斂的速度
2.提高精度统扳,因有些模型需要計(jì)算距離喘帚,如果值域跨度相差大,那距離計(jì)算就主要取決于值域大的(可否讓相關(guān)性大的特征縮放小一點(diǎn)咒钟,原則上不能吹由,后面特征工程中會(huì)講到,可以對(duì)某些重要的特征再進(jìn)行組合)