IJCAI-18 阿里媽媽搜索廣告轉(zhuǎn)化預(yù)測(cè)學(xué)習(xí)筆記

問題介紹

構(gòu)建預(yù)測(cè)模型"預(yù)估用戶的購(gòu)買意向"吐绵,即給定廣告點(diǎn)擊相關(guān)的用戶(user)慧妄、廣告商品(ad)、檢索詞(query)展父、上下文內(nèi)容(context)返劲、商店(shop)等信息的條件下,預(yù)測(cè)廣告產(chǎn)生購(gòu)買行為的概率(pCVR)栖茉,形式化定義為:pCVR=P(conversion=1 | query, user, ad, context, shop)篮绿。
(1)日常的轉(zhuǎn)化率預(yù)估
(2)特殊日期的轉(zhuǎn)化率預(yù)估

評(píng)估指標(biāo)

用logloss評(píng)估模型效果(越小越好)
logloss=-\frac{1}{N}\sum\limits_{i=1}^N (y_i log(p_i)+(1-y_i) log(1-p_i))
其中N表示測(cè)試集樣本數(shù)量,y_i表示測(cè)試集中第i個(gè)樣本的真實(shí)標(biāo)簽吕漂,p_i表示第i個(gè)樣本的預(yù)估轉(zhuǎn)化率亲配。logloss更關(guān)注和觀察數(shù)據(jù)的吻合程度,AUC更關(guān)注rank order惶凝。

數(shù)據(jù)

5類數(shù)據(jù)(用戶信息吼虎、廣告商品信息、基礎(chǔ)數(shù)據(jù)梨睁、上下文信息和店鋪信息)鲸睛。基礎(chǔ)數(shù)據(jù)表提供了搜索廣告最基本的信息坡贺,以及“是否交易”的標(biāo)記官辈。廣告商品信息、用戶信息遍坟、上下文信息和店鋪信息等4類數(shù)據(jù)拳亿,提供了對(duì)轉(zhuǎn)化率預(yù)估可能有幫助的輔助信息。如果一條樣本的某個(gè)字段為“-1”愿伴,表示這個(gè)樣本的對(duì)應(yīng)字段缺乏數(shù)據(jù)肺魁。

基礎(chǔ)數(shù)據(jù)
instance_id:樣本編號(hào),Long
is_trade:是否交易的標(biāo)記位隔节,Int類型鹅经;取值是0或者1寂呛,其中1 表示這條樣本最終產(chǎn)生交易,0 表示沒有交易
item_id:廣告商品編號(hào)瘾晃,Long類型
user_id:用戶的編號(hào)贷痪,Long類型
context_id:上下文信息的編號(hào),Long類型
shop_id:店鋪的編號(hào)蹦误,Long類型

廣告商品信息
item_id:廣告商品編號(hào)劫拢,Long類型
item_category_list:廣告商品的類目列表,String類型强胰;從根類目(最粗略的一級(jí)類目)向葉子類目(最精細(xì)的類目)依次排列舱沧,數(shù)據(jù)拼接格式為"category_0;category_1;category_2",其中 category_1 是 category_0 的子類目偶洋,category_2 是 category_1 的子類目
item_property_list:廣告商品的屬性列表熟吏,String類型;數(shù)據(jù)拼接格式為 "property_0;property_1;property_2"玄窝,各個(gè)屬性沒有從屬關(guān)系
item_brand_id:廣告商品的品牌編號(hào)分俯,Long類型
item_city_id:廣告商品的城市編號(hào),Long類型
item_price_level:廣告商品的價(jià)格等級(jí)哆料,Int類型;取值從0開始吗铐,數(shù)值越大表示價(jià)格越高
item_sales_level:廣告商品的銷量等級(jí)东亦,Int類型;取值從0開始唬渗,數(shù)值越大表示銷量越大
item_collected_level:廣告商品被收藏次數(shù)的等級(jí)典阵,Int類型;取值從0開始镊逝,數(shù)值越大表示被收藏次數(shù)越大
item_pv_level:廣告商品被展示次數(shù)的等級(jí)壮啊,Int類型;取值從0開始撑蒜,數(shù)值越大表示被展示次數(shù)越大

用戶信息
user_id:用戶的編號(hào)歹啼,Long類型
user_gender_id:用戶的預(yù)測(cè)性別編號(hào),Int類型座菠;0表示女性用戶狸眼,1表示男性用戶,2表示家庭用戶
user_age_level:用戶的預(yù)測(cè)年齡等級(jí)浴滴,Int類型拓萌;數(shù)值越大表示年齡越大
user_occupation_id:用戶的預(yù)測(cè)職業(yè)編號(hào),Int類型
user_star_level:用戶的星級(jí)編號(hào)升略,Int類型微王;數(shù)值越大表示用戶的星級(jí)越高

上下文信息
context_id:上下文信息的編號(hào)屡限,Long類型
context_timestamp:廣告商品的展示時(shí)間,Long類型炕倘;取值是以秒為單位的Unix時(shí)間戳钧大,以1天為單位對(duì)時(shí)間戳進(jìn)行了偏移
context_page_id:廣告商品的展示頁(yè)面編號(hào),Int類型激才;取值從1開始拓型,依次增加;在一次搜索的展示結(jié)果中第一屏的編號(hào)為1瘸恼,第二屏的編號(hào)為2
predict_category_property:根據(jù)查詢?cè)~預(yù)測(cè)的類目屬性列表劣挫,String類型;數(shù)據(jù)拼接格式為 “category_A:property_A_1,property_A_2,property_A_3;category_B:-1;category_C:property_C_1,property_C_2” 东帅,其中 category_A压固、category_B、category_C 是預(yù)測(cè)的三個(gè)類目靠闭;property_B 取值為-1帐我,表示預(yù)測(cè)的第二個(gè)類目 category_B 沒有對(duì)應(yīng)的預(yù)測(cè)屬性

店鋪信息
shop_id:店鋪的編號(hào),Long類型
shop_review_num_level:店鋪的評(píng)價(jià)數(shù)量等級(jí)愧膀,Int類型拦键;取值從0開始,數(shù)值越大表示評(píng)價(jià)數(shù)量越多
shop_review_positive_rate:店鋪的好評(píng)率檩淋,Double類型芬为;取值在0到1之間,數(shù)值越大表示好評(píng)率越高
shop_star_level:店鋪的星級(jí)編號(hào)蟀悦,Int類型媚朦;取值從0開始,數(shù)值越大表示店鋪的星級(jí)越高
shop_score_service:店鋪的服務(wù)態(tài)度評(píng)分日戈,Double類型询张;取值在0到1之間,數(shù)值越大表示評(píng)分越高
shop_score_delivery:店鋪的物流服務(wù)評(píng)分浙炼,Double類型份氧;取值在0到1之間,數(shù)值越大表示評(píng)分越高
shop_score_description:店鋪的描述相符評(píng)分弯屈,Double類型半火;取值在0到1之間,數(shù)值越大表示評(píng)分越高

特征工程

(1)基礎(chǔ)特征:基礎(chǔ)數(shù)據(jù)季俩、廣告商品信息钮糖、用戶信息、上下文信息、店鋪信息店归。轉(zhuǎn)化時(shí)間戳特征阎抒。
(2)統(tǒng)計(jì)類特征:主要用到三種度量方式:count,unique,mean,分別從全局、天消痛、小時(shí)三種時(shí)間粒度來構(gòu)造且叁。
(3)時(shí)間差特征:從用戶點(diǎn)擊商品的時(shí)間差來反映用戶購(gòu)買商品的可能性,”短時(shí)間內(nèi)點(diǎn)擊“相同商品購(gòu)買的可能性會(huì)比較大秩伞。用戶點(diǎn)擊商品無(wú)非三個(gè)位置:首次點(diǎn)擊逞带、中間點(diǎn)擊、末次點(diǎn)擊纱新,往往最后一次瀏覽購(gòu)買可能性最大展氓。
(4)分段特征:對(duì)小時(shí)、score脸爱、rate進(jìn)行構(gòu)造遇汞,這類離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性,刻畫出用戶習(xí)慣操作和偏好簿废。
(5)概率特征:主要構(gòu)造了轉(zhuǎn)化率特征和比例特征空入。轉(zhuǎn)化率特征主要統(tǒng)計(jì)的是歷史轉(zhuǎn)化率,一是刻畫轉(zhuǎn)化率的變化情況族檬,二是反應(yīng)某個(gè)特征大概轉(zhuǎn)化情況歪赢,特征我們進(jìn)行了單特征和多特征組合構(gòu)造轉(zhuǎn)化率特征。比例特征用來刻畫某類用戶的偏好单料。
(6)其他特征:重復(fù)出現(xiàn)次數(shù)分段(存在很多用戶在同一時(shí)間下進(jìn)行多次點(diǎn)擊轨淌,統(tǒng)計(jì)其出現(xiàn)次數(shù)(same_time_expo_cnt)。用戶對(duì)相同商品點(diǎn)擊次數(shù)對(duì)于次數(shù)大于2的進(jìn)行標(biāo)記(user_large2))看尼、predict_category_property(用戶搜索某商品時(shí)顯示預(yù)測(cè)的類別屬性影響著用戶點(diǎn)擊情況,構(gòu)造了預(yù)測(cè)類別屬性與用戶點(diǎn)擊商品類別屬性的交集個(gè)數(shù)與相似度)

模型訓(xùn)練

上述構(gòu)造特征的過程能夠上到數(shù)百個(gè)特征盟步,但是又不可能對(duì)所有特征進(jìn)行訓(xùn)練藏斩,因?yàn)槔锩婵赡馨芏嗳哂嗵卣鳌J褂脀arpper的方式來進(jìn)行特征選擇却盘。將前向搜索狰域、后向搜索、隨機(jī)搜索進(jìn)行組合篩選出最終特征黄橘。

參考文獻(xiàn)
https://tianchi.aliyun.com/competition/entrance/231647/introduction
https://zhuanlan.zhihu.com/p/36858386
https://tianchi.aliyun.com/course/video?liveId=5531
https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末兆览,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子塞关,更是在濱河造成了極大的恐慌抬探,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異小压,居然都是意外死亡线梗,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門怠益,熙熙樓的掌柜王于貴愁眉苦臉地迎上來仪搔,“玉大人,你說我怎么就攤上這事蜻牢】具郑” “怎么了?”我有些...
    開封第一講書人閱讀 165,562評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵抢呆,是天一觀的道長(zhǎng)煮嫌。 經(jīng)常有香客問我,道長(zhǎng)镀娶,這世上最難降的妖魔是什么立膛? 我笑而不...
    開封第一講書人閱讀 58,893評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮梯码,結(jié)果婚禮上宝泵,老公的妹妹穿的比我還像新娘。我一直安慰自己轩娶,他們只是感情好儿奶,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鳄抒,像睡著了一般闯捎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上许溅,一...
    開封第一講書人閱讀 51,708評(píng)論 1 305
  • 那天瓤鼻,我揣著相機(jī)與錄音,去河邊找鬼贤重。 笑死茬祷,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的并蝗。 我是一名探鬼主播祭犯,決...
    沈念sama閱讀 40,430評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼滚停!你這毒婦竟也來了沃粗?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,342評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤键畴,失蹤者是張志新(化名)和其女友劉穎最盅,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,801評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡檩禾,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評(píng)論 3 337
  • 正文 我和宋清朗相戀三年挂签,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盼产。...
    茶點(diǎn)故事閱讀 40,115評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡饵婆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出戏售,到底是詐尸還是另有隱情侨核,我是刑警寧澤,帶...
    沈念sama閱讀 35,804評(píng)論 5 346
  • 正文 年R本政府宣布灌灾,位于F島的核電站搓译,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏锋喜。R本人自食惡果不足惜些己,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望嘿般。 院中可真熱鬧段标,春花似錦、人聲如沸炉奴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)瞻赶。三九已至赛糟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間砸逊,已是汗流浹背璧南。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留师逸,地道東北人司倚。 一個(gè)月前我還...
    沈念sama閱讀 48,365評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像字旭,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子崖叫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評(píng)論 2 355