問題介紹
構(gòu)建預(yù)測(cè)模型"預(yù)估用戶的購(gòu)買意向"吐绵,即給定廣告點(diǎn)擊相關(guān)的用戶(user)慧妄、廣告商品(ad)、檢索詞(query)展父、上下文內(nèi)容(context)返劲、商店(shop)等信息的條件下,預(yù)測(cè)廣告產(chǎn)生購(gòu)買行為的概率(pCVR)栖茉,形式化定義為:pCVR=P(conversion=1 | query, user, ad, context, shop)篮绿。
(1)日常的轉(zhuǎn)化率預(yù)估
(2)特殊日期的轉(zhuǎn)化率預(yù)估
評(píng)估指標(biāo)
用logloss評(píng)估模型效果(越小越好)
其中表示測(cè)試集樣本數(shù)量,
表示測(cè)試集中第
個(gè)樣本的真實(shí)標(biāo)簽吕漂,
表示第
個(gè)樣本的預(yù)估轉(zhuǎn)化率亲配。logloss更關(guān)注和觀察數(shù)據(jù)的吻合程度,AUC更關(guān)注rank order惶凝。
數(shù)據(jù)
5類數(shù)據(jù)(用戶信息吼虎、廣告商品信息、基礎(chǔ)數(shù)據(jù)梨睁、上下文信息和店鋪信息)鲸睛。基礎(chǔ)數(shù)據(jù)表提供了搜索廣告最基本的信息坡贺,以及“是否交易”的標(biāo)記官辈。廣告商品信息、用戶信息遍坟、上下文信息和店鋪信息等4類數(shù)據(jù)拳亿,提供了對(duì)轉(zhuǎn)化率預(yù)估可能有幫助的輔助信息。如果一條樣本的某個(gè)字段為“-1”愿伴,表示這個(gè)樣本的對(duì)應(yīng)字段缺乏數(shù)據(jù)肺魁。
基礎(chǔ)數(shù)據(jù)
instance_id:樣本編號(hào),Long
is_trade:是否交易的標(biāo)記位隔节,Int類型鹅经;取值是0或者1寂呛,其中1 表示這條樣本最終產(chǎn)生交易,0 表示沒有交易
item_id:廣告商品編號(hào)瘾晃,Long類型
user_id:用戶的編號(hào)贷痪,Long類型
context_id:上下文信息的編號(hào),Long類型
shop_id:店鋪的編號(hào)蹦误,Long類型
廣告商品信息
item_id:廣告商品編號(hào)劫拢,Long類型
item_category_list:廣告商品的類目列表,String類型强胰;從根類目(最粗略的一級(jí)類目)向葉子類目(最精細(xì)的類目)依次排列舱沧,數(shù)據(jù)拼接格式為"category_0;category_1;category_2",其中 category_1 是 category_0 的子類目偶洋,category_2 是 category_1 的子類目
item_property_list:廣告商品的屬性列表熟吏,String類型;數(shù)據(jù)拼接格式為 "property_0;property_1;property_2"玄窝,各個(gè)屬性沒有從屬關(guān)系
item_brand_id:廣告商品的品牌編號(hào)分俯,Long類型
item_city_id:廣告商品的城市編號(hào),Long類型
item_price_level:廣告商品的價(jià)格等級(jí)哆料,Int類型;取值從0開始吗铐,數(shù)值越大表示價(jià)格越高
item_sales_level:廣告商品的銷量等級(jí)东亦,Int類型;取值從0開始唬渗,數(shù)值越大表示銷量越大
item_collected_level:廣告商品被收藏次數(shù)的等級(jí)典阵,Int類型;取值從0開始镊逝,數(shù)值越大表示被收藏次數(shù)越大
item_pv_level:廣告商品被展示次數(shù)的等級(jí)壮啊,Int類型;取值從0開始撑蒜,數(shù)值越大表示被展示次數(shù)越大
用戶信息
user_id:用戶的編號(hào)歹啼,Long類型
user_gender_id:用戶的預(yù)測(cè)性別編號(hào),Int類型座菠;0表示女性用戶狸眼,1表示男性用戶,2表示家庭用戶
user_age_level:用戶的預(yù)測(cè)年齡等級(jí)浴滴,Int類型拓萌;數(shù)值越大表示年齡越大
user_occupation_id:用戶的預(yù)測(cè)職業(yè)編號(hào),Int類型
user_star_level:用戶的星級(jí)編號(hào)升略,Int類型微王;數(shù)值越大表示用戶的星級(jí)越高
上下文信息
context_id:上下文信息的編號(hào)屡限,Long類型
context_timestamp:廣告商品的展示時(shí)間,Long類型炕倘;取值是以秒為單位的Unix時(shí)間戳钧大,以1天為單位對(duì)時(shí)間戳進(jìn)行了偏移
context_page_id:廣告商品的展示頁(yè)面編號(hào),Int類型激才;取值從1開始拓型,依次增加;在一次搜索的展示結(jié)果中第一屏的編號(hào)為1瘸恼,第二屏的編號(hào)為2
predict_category_property:根據(jù)查詢?cè)~預(yù)測(cè)的類目屬性列表劣挫,String類型;數(shù)據(jù)拼接格式為 “category_A:property_A_1,property_A_2,property_A_3;category_B:-1;category_C:property_C_1,property_C_2” 东帅,其中 category_A压固、category_B、category_C 是預(yù)測(cè)的三個(gè)類目靠闭;property_B 取值為-1帐我,表示預(yù)測(cè)的第二個(gè)類目 category_B 沒有對(duì)應(yīng)的預(yù)測(cè)屬性
店鋪信息
shop_id:店鋪的編號(hào),Long類型
shop_review_num_level:店鋪的評(píng)價(jià)數(shù)量等級(jí)愧膀,Int類型拦键;取值從0開始,數(shù)值越大表示評(píng)價(jià)數(shù)量越多
shop_review_positive_rate:店鋪的好評(píng)率檩淋,Double類型芬为;取值在0到1之間,數(shù)值越大表示好評(píng)率越高
shop_star_level:店鋪的星級(jí)編號(hào)蟀悦,Int類型媚朦;取值從0開始,數(shù)值越大表示店鋪的星級(jí)越高
shop_score_service:店鋪的服務(wù)態(tài)度評(píng)分日戈,Double類型询张;取值在0到1之間,數(shù)值越大表示評(píng)分越高
shop_score_delivery:店鋪的物流服務(wù)評(píng)分浙炼,Double類型份氧;取值在0到1之間,數(shù)值越大表示評(píng)分越高
shop_score_description:店鋪的描述相符評(píng)分弯屈,Double類型半火;取值在0到1之間,數(shù)值越大表示評(píng)分越高
特征工程
(1)基礎(chǔ)特征:基礎(chǔ)數(shù)據(jù)季俩、廣告商品信息钮糖、用戶信息、上下文信息、店鋪信息店归。轉(zhuǎn)化時(shí)間戳特征阎抒。
(2)統(tǒng)計(jì)類特征:主要用到三種度量方式:count,unique,mean,分別從全局、天消痛、小時(shí)三種時(shí)間粒度來構(gòu)造且叁。
(3)時(shí)間差特征:從用戶點(diǎn)擊商品的時(shí)間差來反映用戶購(gòu)買商品的可能性,”短時(shí)間內(nèi)點(diǎn)擊“相同商品購(gòu)買的可能性會(huì)比較大秩伞。用戶點(diǎn)擊商品無(wú)非三個(gè)位置:首次點(diǎn)擊逞带、中間點(diǎn)擊、末次點(diǎn)擊纱新,往往最后一次瀏覽購(gòu)買可能性最大展氓。
(4)分段特征:對(duì)小時(shí)、score脸爱、rate進(jìn)行構(gòu)造遇汞,這類離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性,刻畫出用戶習(xí)慣操作和偏好簿废。
(5)概率特征:主要構(gòu)造了轉(zhuǎn)化率特征和比例特征空入。轉(zhuǎn)化率特征主要統(tǒng)計(jì)的是歷史轉(zhuǎn)化率,一是刻畫轉(zhuǎn)化率的變化情況族檬,二是反應(yīng)某個(gè)特征大概轉(zhuǎn)化情況歪赢,特征我們進(jìn)行了單特征和多特征組合構(gòu)造轉(zhuǎn)化率特征。比例特征用來刻畫某類用戶的偏好单料。
(6)其他特征:重復(fù)出現(xiàn)次數(shù)分段(存在很多用戶在同一時(shí)間下進(jìn)行多次點(diǎn)擊轨淌,統(tǒng)計(jì)其出現(xiàn)次數(shù)(same_time_expo_cnt)。用戶對(duì)相同商品點(diǎn)擊次數(shù)對(duì)于次數(shù)大于2的進(jìn)行標(biāo)記(user_large2))看尼、predict_category_property(用戶搜索某商品時(shí)顯示預(yù)測(cè)的類別屬性影響著用戶點(diǎn)擊情況,構(gòu)造了預(yù)測(cè)類別屬性與用戶點(diǎn)擊商品類別屬性的交集個(gè)數(shù)與相似度)
模型訓(xùn)練
上述構(gòu)造特征的過程能夠上到數(shù)百個(gè)特征盟步,但是又不可能對(duì)所有特征進(jìn)行訓(xùn)練藏斩,因?yàn)槔锩婵赡馨芏嗳哂嗵卣鳌J褂脀arpper的方式來進(jìn)行特征選擇却盘。將前向搜索狰域、后向搜索、隨機(jī)搜索進(jìn)行組合篩選出最終特征黄橘。
參考文獻(xiàn)
https://tianchi.aliyun.com/competition/entrance/231647/introduction
https://zhuanlan.zhihu.com/p/36858386
https://tianchi.aliyun.com/course/video?liveId=5531
https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution