最近在做天池的一個(gè)數(shù)據(jù)挖掘類的比賽等太,天池新人實(shí)戰(zhàn)賽o2o優(yōu)惠券使用預(yù)測(cè)
在網(wǎng)上找到的比較詳細(xì)的教程(答案)原在,O2O優(yōu)惠券使用預(yù)測(cè)(基于XGBoost)
有個(gè)數(shù)據(jù)實(shí)驗(yàn)指導(dǎo)書(shū),這本書(shū)的教學(xué)非常詳細(xì)鹿寨,開(kāi)個(gè)文章做點(diǎn)筆記以及記錄自己的學(xué)習(xí)過(guò)程颂郎。
020優(yōu)惠券使用預(yù)測(cè)——實(shí)驗(yàn)指導(dǎo)書(shū)
基礎(chǔ)知識(shí)
1.評(píng)估指標(biāo)介紹
? ? 對(duì)于二分類的問(wèn)題谒获,可以根據(jù)真實(shí)類別和預(yù)測(cè)類別的組合劃分為True Positive,F(xiàn)alse Positive业簿,True Negative瘤礁,F(xiàn)alse Negative。TP+FP+TN+FN=總樣例數(shù)梅尤。
? ? 這四個(gè)組合是根據(jù)字面意思來(lái)理解的9袼肌!True Positive說(shuō)明是真正的positive克饶,說(shuō)明真實(shí)值為1酝蜒,預(yù)測(cè)值也為1;同理矾湃,True Negative說(shuō)明是真正的Negative亡脑,真實(shí)值為0,預(yù)測(cè)值也為0邀跃;自然霉咨,F(xiàn)alse Positive,就是假的Positive拍屑,真實(shí)值為0卻預(yù)測(cè)成了1途戒;False Negative,假的Negative僵驰,真實(shí)值為1喷斋,卻失誤預(yù)測(cè)成了0唁毒。
? ? 通常我們針對(duì)不同的場(chǎng)景需要不同的評(píng)價(jià)指標(biāo)去評(píng)價(jià)我們模型的好壞星爪。
1.1 F1-score
? ? 精準(zhǔn)率/查準(zhǔn)率 P (Precision)?
? ???(預(yù)測(cè)為正例的樣本中浆西,預(yù)測(cè)出真的是正樣本的概率)
? ? 查全率/召回率 R (Recall)
? ???(真正的正例樣本中,有多少真的正樣本被預(yù)測(cè)出來(lái))
? ? F1-score
? ??
2.1 AUC(Area Under Curve)
? ? AUC是另一種評(píng)價(jià)二分類算法的指標(biāo)顽腾,AUC指的是ROC曲線下的面積近零。
? ? 所以,什么是ROC曲線抄肖?
? ? ROC曲線上的每一個(gè)點(diǎn)對(duì)應(yīng)一個(gè)閾值(Threhold)久信。一般的二分類的實(shí)現(xiàn)方法就是選擇一個(gè)閾值,將大于這個(gè)閾值的樣本認(rèn)為是正例漓摩,小于這個(gè)閾值的樣本認(rèn)為是反例裙士。例如,當(dāng)分類器的分類評(píng)分Score大于閾值0.6時(shí)幌甘,則認(rèn)為該分類器將樣本分成了正例潮售。當(dāng)閾值為0.5時(shí),則為隨即分類锅风。
????將每個(gè)Score作為閾值,就得到了下面的折線圖鞍泉。橫坐標(biāo)為FPR(假正例率)皱埠,縱坐標(biāo)為TPR(真正例率)。TPR越高咖驮,則分類器分類效果越好边器,效果最好的點(diǎn)是(0,1)這個(gè)點(diǎn)。說(shuō)明所有點(diǎn)都分類正確托修,沒(méi)有誤分類的點(diǎn)忘巧。
? ???(預(yù)測(cè)正例正確的樣本占所有真正的正例的比例)
? ???(誤測(cè)成正確的樣本占所有真正的負(fù)例的比例)
? ? 舉個(gè)例子!I尽际长!設(shè)樣本4的Score為閾值,則樣本1兴泥,樣本2工育,樣本3和樣本4因?yàn)镾core大于等于0.6,所以這四個(gè)樣本都會(huì)被分成正例(樣本4也算)搓彻。但是如绸!實(shí)際上只有樣本1和樣本2嘱朽,樣本4是正例,所以TPR=3/10怔接。TPR越高說(shuō)明預(yù)測(cè)正確的概率越大搪泳,所以TPR越高越好。
? ? 當(dāng)樣本足夠多的時(shí)候蜕提,折線就會(huì)近似為圓滑的曲線森书,如下圖
? ? ? ? 在ROC去線上方的分類器A肯定比分類器B要好。而AUC又表示的是ROC曲線下方的面積谎势,所以AUC越大凛膏,說(shuō)明二分類時(shí)的閾值越高,即所有分類器分類效果都很好脏榆,TPR越大猖毫。(如果閾值很低,即曲線遠(yuǎn)離左上方的點(diǎn)须喂,則會(huì)增大FPR的值吁断,即會(huì)把真實(shí)的負(fù)例誤分類成正例)
一、問(wèn)題分析
? ? ? 題目背景:
二坞生、數(shù)據(jù)預(yù)處理
三仔役、特征工程
四、模型訓(xùn)練
五是己、模型驗(yàn)證
六又兵、輸出結(jié)果
二分類問(wèn)題常見(jiàn)的評(píng)價(jià)指標(biāo)l