項目背景
本賽題提供用戶在2016年1月1日至2016年6月30日之間真實線上線下消費(fèi)行為摘符,預(yù)測用戶在2016年7月領(lǐng)取優(yōu)惠券后15天以內(nèi)的使用情況僵刮。
評價方式
本賽題目標(biāo)是預(yù)測投放的優(yōu)惠券是否核銷。針對此任務(wù)及一些相關(guān)背景知識址芯,使用優(yōu)惠券核銷預(yù)測的平均AUC(ROC曲線下面積)作為評價標(biāo)準(zhǔn)喳坠。 即對每個優(yōu)惠券coupon_id單獨(dú)計算核銷預(yù)測的AUC值杈曲,再對所有優(yōu)惠券的AUC值求平均作為最終的評價標(biāo)準(zhǔn)。
查看數(shù)據(jù)
首先導(dǎo)入數(shù)據(jù)非驮,上圖是用戶2016.1.1-2016.6.30的信息交汤,接下來理解下每個字段的意思
User_id:用戶id
Merchant_id:商戶id
Coupon_id:優(yōu)惠券id
Distance_rate:優(yōu)惠情況
Distance:用戶離店的距離
Date_received:獲得優(yōu)惠券的日期
Date:使用優(yōu)惠券的日期
項目思路
優(yōu)惠券特征處理
定義函數(shù)將優(yōu)惠券折扣信息進(jìn)行特征提取,滿,減芙扎,折扣
2.查看用戶購買使用優(yōu)惠券的情況
發(fā)現(xiàn)有優(yōu)惠卷購買的人數(shù)只占一小部分星岗,可視化一下購買使用優(yōu)惠卷的情況,發(fā)現(xiàn)使用率最低的為2,4月份戒洼,3月份最高
日期的特征的提取俏橘,提取是否為工作日和星期,這里需要用到one-hot編碼圈浇,依舊定義函數(shù)來處理
添加label寥掐,用戶在拿到優(yōu)惠券后,15天內(nèi)如使用為1磷蜀,未使用則為0召耘,依舊定義函數(shù)處理
這邊可以說是顧客和商戶的profile建立,通過客戶和商戶以前的買賣情況褐隆,提取各自或者交叉的特征污它。選擇哪個時間段的數(shù)據(jù)進(jìn)行特征提取是可以探索的,這里使用20160101到20160515之間的數(shù)據(jù)提取特征庶弃,20160516-20160615的數(shù)據(jù)作為訓(xùn)練集衫贬。
用戶特征的處理
商戶特征的處理
用戶的特征
每個用戶拿到的優(yōu)惠券數(shù)量
每個用戶購買含優(yōu)惠券和無優(yōu)惠券購買
用優(yōu)惠券消費(fèi)
距離商戶的距離
使用優(yōu)惠券購買與優(yōu)惠券的數(shù)量的比值
使用優(yōu)惠券數(shù)量與后,購買數(shù)量的比值
商戶特征
來自商戶的優(yōu)惠卷數(shù)量
用戶來商戶的消費(fèi)次數(shù)
距離用戶的距離
用戶來商戶的消費(fèi)次數(shù) 用優(yōu)惠券
使用優(yōu)惠券購買與優(yōu)惠券的數(shù)量的比值
使用優(yōu)惠券數(shù)量與后虫埂,購買數(shù)量的比值
定義函數(shù)來處理以上特征
模型的選擇祥山,這是個二分類問題,用的是邏輯回歸和GDBT
最后的結(jié)果邏輯回歸好些掉伏,結(jié)果也不理想缝呕,有許多可以改進(jìn)的地方
總結(jié)
特征選取可以更多,不夠全面斧散,如15天內(nèi)多次用優(yōu)惠券消費(fèi)的供常,使用概率會更高
可以劃分更多的訓(xùn)練數(shù)據(jù)
模型的參數(shù)可以優(yōu)化
嘗試使用更多的模型
線上的數(shù)據(jù)可以用上,這次沒有提取線上特征
學(xué)習(xí)資料點(diǎn)擊這里