天池新人實(shí)戰(zhàn)賽o2o優(yōu)惠券使用預(yù)測(cè)

最近在做天池的一個(gè)數(shù)據(jù)挖掘類的比賽等太,天池新人實(shí)戰(zhàn)賽o2o優(yōu)惠券使用預(yù)測(cè)

在網(wǎng)上找到的比較詳細(xì)的教程(答案)原在,O2O優(yōu)惠券使用預(yù)測(cè)(基于XGBoost)

有個(gè)數(shù)據(jù)實(shí)驗(yàn)指導(dǎo)書(shū),這本書(shū)的教學(xué)非常詳細(xì)鹿寨,開(kāi)個(gè)文章做點(diǎn)筆記以及記錄自己的學(xué)習(xí)過(guò)程颂郎。

020優(yōu)惠券使用預(yù)測(cè)——實(shí)驗(yàn)指導(dǎo)書(shū)



圖源來(lái)自Datawhale內(nèi)測(cè)實(shí)驗(yàn)文檔

基礎(chǔ)知識(shí)

1.評(píng)估指標(biāo)介紹

? ? 對(duì)于二分類的問(wèn)題谒获,可以根據(jù)真實(shí)類別和預(yù)測(cè)類別的組合劃分為True Positive,F(xiàn)alse Positive业簿,True Negative瘤礁,F(xiàn)alse Negative。TP+FP+TN+FN=總樣例數(shù)梅尤。

? ? 這四個(gè)組合是根據(jù)字面意思來(lái)理解的9袼肌!True Positive說(shuō)明是真正的positive克饶,說(shuō)明真實(shí)值為1酝蜒,預(yù)測(cè)值也為1;同理矾湃,True Negative說(shuō)明是真正的Negative亡脑,真實(shí)值為0,預(yù)測(cè)值也為0邀跃;自然霉咨,F(xiàn)alse Positive,就是假的Positive拍屑,真實(shí)值為0卻預(yù)測(cè)成了1途戒;False Negative,假的Negative僵驰,真實(shí)值為1喷斋,卻失誤預(yù)測(cè)成了0唁毒。

? ? 通常我們針對(duì)不同的場(chǎng)景需要不同的評(píng)價(jià)指標(biāo)去評(píng)價(jià)我們模型的好壞星爪。

1.1 F1-score

? ? 精準(zhǔn)率/查準(zhǔn)率 P (Precision)?

? ??P = \frac{TP}{TP+FP
}?(預(yù)測(cè)為正例的樣本中浆西,預(yù)測(cè)出真的是正樣本的概率)

? ? 查全率/召回率 R (Recall)

? ??R = \frac{TP}{TP+FN
}?(真正的正例樣本中,有多少真的正樣本被預(yù)測(cè)出來(lái))

? ? F1-score

? ??F1 = \frac{2PR}{P+R}

2.1 AUC(Area Under Curve)

? ? AUC是另一種評(píng)價(jià)二分類算法的指標(biāo)顽腾,AUC指的是ROC曲線下的面積近零。

? ? 所以,什么是ROC曲線抄肖?

? ? ROC曲線上的每一個(gè)點(diǎn)對(duì)應(yīng)一個(gè)閾值(Threhold)久信。一般的二分類的實(shí)現(xiàn)方法就是選擇一個(gè)閾值,將大于這個(gè)閾值的樣本認(rèn)為是正例漓摩,小于這個(gè)閾值的樣本認(rèn)為是反例裙士。例如,當(dāng)分類器的分類評(píng)分Score大于閾值0.6時(shí)幌甘,則認(rèn)為該分類器將樣本分成了正例潮售。當(dāng)閾值為0.5時(shí),則為隨即分類锅风。

????將每個(gè)Score作為閾值,就得到了下面的折線圖鞍泉。橫坐標(biāo)為FPR(假正例率)皱埠,縱坐標(biāo)為TPR(真正例率)。TPR越高咖驮,則分類器分類效果越好边器,效果最好的點(diǎn)是(0,1)這個(gè)點(diǎn)。說(shuō)明所有點(diǎn)都分類正確托修,沒(méi)有誤分類的點(diǎn)忘巧。

? ??TPR=\frac{TP}{TP+FN
}?(預(yù)測(cè)正例正確的樣本占所有真正的正例的比例)

? ??FPR=\frac{FP}{TN+FP}?(誤測(cè)成正確的樣本占所有真正的負(fù)例的比例)


一次實(shí)驗(yàn),p為正例睦刃,n為負(fù)例砚嘴,score為分類器分類結(jié)果的評(píng)分

? ? 舉個(gè)例子!I尽际长!設(shè)樣本4的Score為閾值,則樣本1兴泥,樣本2工育,樣本3和樣本4因?yàn)镾core大于等于0.6,所以這四個(gè)樣本都會(huì)被分成正例(樣本4也算)搓彻。但是如绸!實(shí)際上只有樣本1和樣本2嘱朽,樣本4是正例,所以TPR=3/10怔接。TPR越高說(shuō)明預(yù)測(cè)正確的概率越大搪泳,所以TPR越高越好。

? ? 當(dāng)樣本足夠多的時(shí)候蜕提,折線就會(huì)近似為圓滑的曲線森书,如下圖


? ? ? ? 在ROC去線上方的分類器A肯定比分類器B要好。而AUC又表示的是ROC曲線下方的面積谎势,所以AUC越大凛膏,說(shuō)明二分類時(shí)的閾值越高,即所有分類器分類效果都很好脏榆,TPR越大猖毫。(如果閾值很低,即曲線遠(yuǎn)離左上方的點(diǎn)须喂,則會(huì)增大FPR的值吁断,即會(huì)把真實(shí)的負(fù)例誤分類成正例)


一、問(wèn)題分析

? ? ? 題目背景:

二坞生、數(shù)據(jù)預(yù)處理

三仔役、特征工程

四、模型訓(xùn)練

五是己、模型驗(yàn)證

六又兵、輸出結(jié)果

二分類問(wèn)題常見(jiàn)的評(píng)價(jià)指標(biāo)l

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市卒废,隨后出現(xiàn)的幾起案子沛厨,更是在濱河造成了極大的恐慌,老刑警劉巖摔认,帶你破解...
    沈念sama閱讀 218,546評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件逆皮,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡参袱,警方通過(guò)查閱死者的電腦和手機(jī)电谣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蓖柔,“玉大人辰企,你說(shuō)我怎么就攤上這事】雒” “怎么了牢贸?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,911評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)镐捧。 經(jīng)常有香客問(wèn)我潜索,道長(zhǎng)臭增,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,737評(píng)論 1 294
  • 正文 為了忘掉前任竹习,我火速辦了婚禮誊抛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘整陌。我一直安慰自己拗窃,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布泌辫。 她就那樣靜靜地躺著随夸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪震放。 梳的紋絲不亂的頭發(fā)上宾毒,一...
    開(kāi)封第一講書(shū)人閱讀 51,598評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音殿遂,去河邊找鬼诈铛。 笑死,一個(gè)胖子當(dāng)著我的面吹牛墨礁,可吹牛的內(nèi)容都是我干的幢竹。 我是一名探鬼主播,決...
    沈念sama閱讀 40,338評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼恩静,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼妨退!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起蜕企,我...
    開(kāi)封第一講書(shū)人閱讀 39,249評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎冠句,沒(méi)想到半個(gè)月后轻掩,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,696評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡懦底,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評(píng)論 3 336
  • 正文 我和宋清朗相戀三年唇牧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片聚唐。...
    茶點(diǎn)故事閱讀 40,013評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡丐重,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出杆查,到底是詐尸還是另有隱情扮惦,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評(píng)論 5 346
  • 正文 年R本政府宣布亲桦,位于F島的核電站崖蜜,受9級(jí)特大地震影響浊仆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜豫领,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評(píng)論 3 330
  • 文/蒙蒙 一抡柿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧等恐,春花似錦洲劣、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,929評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至购笆,卻和暖如春粗悯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背同欠。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,048評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工样傍, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人铺遂。 一個(gè)月前我還...
    沈念sama閱讀 48,203評(píng)論 3 370
  • 正文 我出身青樓衫哥,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親襟锐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子撤逢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容