一、LR
(一)簡單總結(jié)
- 是廣義線性模型叉存,每個特征都是獨立的蜻势,如果需要考慮特征與特征之間的相互作用,需要人工對特征進(jìn)行交叉組合鹉胖。
- 非線性SVM可以對特征進(jìn)行核變換握玛,但是在特征高度稀疏的情況下,并不能很好的進(jìn)行學(xué)習(xí)甫菠。
(二)FTRL
二挠铲、FM
Rendle S. Factorization Machines[C]// IEEE International Conference on Data Mining. 2011.
(一)簡單背景介紹
- 解決數(shù)據(jù)稀疏的情況下,特征怎樣組合的問題寂诱。
- 對于一階參數(shù)的訓(xùn)練拂苹,只要這個樣本中對應(yīng)的變量不為0,而二階的參數(shù)必須兩個變量同時不為0才可以痰洒。在數(shù)據(jù)稀疏時瓢棒,很多特征交互是模型無法訓(xùn)練的。
- LR是需要特征工程的丘喻,SVM在稀疏場景下無法用脯宿。
- 通過參數(shù)矩陣分解,打破了特征組合之間的獨立性泉粉,使一個組合特征的學(xué)習(xí)可以受到其他相關(guān)組合特征的幫助连霉。
- 原本預(yù)測公式的復(fù)雜度:O(kn2),可以通過轉(zhuǎn)換變?yōu)?O(kn)嗡靡。
(二)公式推導(dǎo)
預(yù)測公式
O(kn2)變O(kn)
隨機(jī)梯度下降跺撼,O(kn)
三、FFM
2016年發(fā)表在 recsys 上的論文
(一)簡單介紹
- FM:一個特征對應(yīng)一個隱變量讨彼;FFM:將特征分為多個field歉井,每個特征對每個field分別有一個隱變量,因為同一個特征對不同field的影響可能是不同的哈误,隱變量也應(yīng)該不同哩至。
- 舉個例子躏嚎,我們的樣本有3種類型的字段:publisher, advertiser, gender。其中publisher有5種憨募,advertiser有10種,gender有2種袁辈,one-hot編碼后菜谣,每個樣本有17個特征,其中只有3個非空晚缩。
FM尾膊,17個特征,每個特征對應(yīng)1個隱變量荞彼。
FFM冈敛,17個特征,每個特征對應(yīng)3個隱變量鸣皂。
(二)模型介紹
- 表達(dá)式
- AdaGrad求解
四抓谴、Wide & Deep
2016年谷歌團(tuán)隊發(fā)表的一篇文章
Cheng H T , Koc L , Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. 2016.
(一)wide 和 deep 的比較
- wide:廣泛應(yīng)用于具有稀疏、大規(guī)模場景寞缝。組合特征有效且可解釋性強(qiáng)癌压,但需要很多特征工程,且對于未出現(xiàn)過的組合無法學(xué)習(xí)荆陆。
- deep:需要較少的特征工程滩届,泛化能力強(qiáng),可以通過稀疏特征 embedding 學(xué)習(xí)到未出現(xiàn)過的特征組合被啼。但容易過泛化帜消,推薦不太相關(guān)的東西。
- wide & deep:記憶和泛化的結(jié)合浓体。
(二)memorization 和 generalization(EE問題)
- memorization:exploit泡挺,學(xué)習(xí)頻繁出現(xiàn)的特征組合,從歷史數(shù)據(jù)中學(xué)習(xí)相關(guān)性命浴。容易推薦和用戶瀏覽歷史相似的東西粘衬。
- generalization:explore,基于相關(guān)性的傳遞咳促,學(xué)習(xí)未出現(xiàn)過的特征組合稚新。容易推薦不一樣的,新的東西跪腹。
(三)模型結(jié)構(gòu)
The spectrum of Wide & Deep models
Wide & Deep model structure for apps recommendation
(四)其他
- 模型訓(xùn)練:
wide:FTRL
deep:AdaGrad
- 預(yù)測公式
五褂删、DeepFM
華為2017年的文章
Guo H, Tang R, Ye Y, et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017.
(一)優(yōu)勢
- 是端對端的學(xué)習(xí)模型,wide 部分和 deep 部分共享一樣的輸入冲茸,不需要額外的特征工程屯阀,能夠同時學(xué)習(xí)到低階和高階的特征交互缅帘。
- 線性模型雖然十分有效,但是無法刻畫交互特征难衰,需要很多特征工程钦无,缺點是無法刻畫高階特征交互,也無法學(xué)習(xí)到在訓(xùn)練集中出現(xiàn)次數(shù)很少的特征組合盖袭。FM可以學(xué)習(xí)到2階的特征組合失暂。
(二)特征
- 連續(xù)特征:值本身,或者離散化后one-hot
- 離散特征:one-hot
- CTR預(yù)估場景中鳄虱,特征的特點:
1)稀疏
2)連續(xù)特征和類別特征混合
3)根據(jù)field分組
因此加入了embedding層
(三)模型介紹
預(yù)測分為兩部分
預(yù)測公式
FM:能更有效的學(xué)習(xí)到2階交互特征弟塞,尤其是在稀疏場景下
FM Component
FM公式Deep:
Deep Componentembedding
The structure of the embedding layer
1)每個 field 的input大小不一樣,但是embedding都一樣大;
2)在FM中V是一個m*k階的矩陣拙已,這里用V來作為input到embedding的權(quán)重决记,一起訓(xùn)練,而不是像其他work一樣用FM來預(yù)訓(xùn)練倍踪。
(四)共享embedding
- 從原始特征中同時學(xué)到了特征之間的低階和高階組合
- 不需要像 wide & deep 一樣做特征工程系宫,端到端學(xué)習(xí)
六、ESMM
ESMM是2018年阿里媽媽團(tuán)隊提出的一個多任務(wù)模型建车。
Ma X , Zhao L , Huang G , et al. Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate[J]. 2018.
(一)傳統(tǒng)CVR預(yù)估面臨的兩個問題
- SSB(sample selection bias )
impression表示展示笙瑟,click表示點擊,conversion表示轉(zhuǎn)化癞志,用戶的行為模式是impression->click->conversion往枷,傳統(tǒng)的CVR預(yù)估把click(如圖灰色)作為training data,而訓(xùn)練出來的模型要在所有impression(如圖白色)中進(jìn)行預(yù)測凄杯,存在樣本選擇偏差错洁。
DS(data sparsity)
由于點擊行為實在是太少了,利用點擊數(shù)據(jù)作為樣本訓(xùn)練CVR預(yù)估模型存在數(shù)據(jù)稀疏問題戒突。
(二)本文怎么解決
Modeling over entire space(解決SSB)
通過預(yù)測CTCVR和CTR屯碴,然后相除得到CVR,由于CTCVR和CTR都是在整個impression樣本空間進(jìn)行估計的膊存,因此解決了SSB問題导而。
CVR:conversion / click
CTR:click / impression
CTCVR:conversion / impression
- (Feature representation transfer)解決DS
CVR和CTR共享特征embedding表示,CTR訓(xùn)練數(shù)據(jù)要比CVR訓(xùn)練數(shù)據(jù)多很多隔崎,一定程度上解決了數(shù)據(jù)稀疏性問題今艺。
(三)技術(shù)細(xì)節(jié)
Modeling over entire space
模型引入兩個輔助任務(wù),pCTR和pCTCVR爵卒,從而間接學(xué)習(xí)到pCVR
- CTR:有點擊行為的曝光為正樣本虚缎,沒有點擊行為發(fā)生的曝光為負(fù)樣本
CTCVR:同時點擊和購買的曝光為正樣本,否則標(biāo)記為負(fù)樣本钓株。
CTR和CTCVR都是在整個樣本空間的实牡,解決了SSB問題陌僵。- 損失函數(shù)由兩部分組成, CTR 和 CTCVR创坞,兩部分都采用交叉熵?fù)p失函數(shù)碗短。
Feature representation transfer
- ESMM中,CVR網(wǎng)絡(luò)和CTR網(wǎng)絡(luò)共享embedding字典题涨。該共享機(jī)制使ESMM中的CVR網(wǎng)絡(luò)能夠從 un-clicked impression 中學(xué)習(xí)偎谁,緩解數(shù)據(jù)稀疏性問題。
- 另外携栋,ESMM模型中的子網(wǎng)絡(luò)結(jié)構(gòu)可以用其他模型替換搭盾,ESMM只是提供了一種解決問題的思路咳秉,具體應(yīng)用還需要根據(jù)實際業(yè)務(wù)場景進(jìn)行調(diào)整婉支。
七、DSSM
參考資料
ESSM論文地址
精讀&解析 Entire Space Multi-Task Model(ESMM) 阿里2018年CVR預(yù)測
推薦系統(tǒng)遇上深度學(xué)習(xí)(三)--DeepFM模型理論和實踐