思維導(dǎo)圖如下:
機(jī)器學(xué)習(xí)解決問(wèn)題的通用流程
問(wèn)題建模-特種工程-模型選擇-模型融合。
問(wèn)題建模應(yīng)包含三方面的內(nèi)容:評(píng)估指標(biāo)脆淹、樣本選擇常空、交叉驗(yàn)證。
評(píng)估指標(biāo)
評(píng)估指標(biāo)很多盖溺,我們應(yīng)該選擇一個(gè)跟業(yè)務(wù)指標(biāo)波動(dòng)一致的評(píng)估指標(biāo)漓糙,這樣通過(guò)觀察評(píng)估指標(biāo)就能判斷模型效果,可以大大提高模型迭代效率咐柜。
通常兼蜈,線下使用的是機(jī)器學(xué)習(xí)評(píng)估指標(biāo)攘残,線上使用的是業(yè)務(wù)指標(biāo)。為此为狸,在一個(gè)新的問(wèn)題的開(kāi)始階段歼郭,都會(huì)進(jìn)行多輪模型迭代,來(lái)探索與線上業(yè)務(wù)指標(biāo)一致的線下指標(biāo)辐棒,盡可能使線下指標(biāo)的變化趨勢(shì)跟線上指標(biāo)一致病曾。
評(píng)估指標(biāo)根據(jù)任務(wù)類型分類,可分為分類指標(biāo)漾根、回歸指標(biāo)泰涂、聚類指標(biāo)和排序指標(biāo)等。
分類指標(biāo)
精確率辐怕、召回率
F1值
準(zhǔn)確率與錯(cuò)誤率
ROC曲線與AUC
對(duì)數(shù)損失logloss
回歸指標(biāo)
平均絕對(duì)誤差MAE
平均絕對(duì)百分誤差MAPE
均方根誤差RMSE
均方根對(duì)數(shù)誤差RMSLE
RMSLE對(duì)預(yù)測(cè)值偏小的樣本懲罰比對(duì)預(yù)測(cè)值偏大的樣本懲罰更大逼蒙。
排序指標(biāo)
平均準(zhǔn)確率均值MAP
書(shū)中這里的公式是有問(wèn)題的,我認(rèn)為分母應(yīng)該是正確樣本的數(shù)量寄疏。
歸一化貼現(xiàn)累計(jì)收益NDCG
樣本選擇
樣本選擇是數(shù)據(jù)預(yù)處理中一個(gè)非常重要的環(huán)節(jié)是牢,主要從海量數(shù)據(jù)中識(shí)別和選擇相關(guān)性高的數(shù)據(jù)作為模型輸入。最理想的樣本選擇結(jié)果是陕截,選擇了最少量的訓(xùn)練集S驳棱,而模型的效果不會(huì)變差。樣本選擇的好處主要有:減小模型的運(yùn)算時(shí)間农曲、去除相關(guān)性低的數(shù)據(jù)社搅、去除噪聲數(shù)據(jù)。
樣本選擇有很多方法:數(shù)據(jù)去噪乳规、采樣形葬、原型選擇、訓(xùn)練集選擇暮的。
交叉驗(yàn)證
在離線環(huán)節(jié)荷并,需要對(duì)模型進(jìn)行評(píng)估,根據(jù)評(píng)估指標(biāo)選出最佳模型青扔。交叉驗(yàn)證是很好的方法源织。
交叉驗(yàn)證的主要方法有留出法、K折交叉驗(yàn)證和自助法Bootstrapping微猖。