推薦系統(tǒng)(一)LR苇羡,F(xiàn)M绸吸,F(xiàn)FM,Wide&Deep设江,DeepFM锦茁,ESMM

一、LR

(一)簡單總結(jié)

  • 是廣義線性模型叉存,每個特征都是獨立的蜻势,如果需要考慮特征與特征之間的相互作用,需要人工對特征進(jìn)行交叉組合鹉胖。
  • 非線性SVM可以對特征進(jìn)行核變換握玛,但是在特征高度稀疏的情況下,并不能很好的進(jìn)行學(xué)習(xí)甫菠。

(二)FTRL


二挠铲、FM

Rendle S. Factorization Machines[C]// IEEE International Conference on Data Mining. 2011.

(一)簡單背景介紹

  • 解決數(shù)據(jù)稀疏的情況下,特征怎樣組合的問題寂诱。
  • 對于一階參數(shù)的訓(xùn)練拂苹,只要這個樣本中對應(yīng)的變量不為0,而二階的參數(shù)必須兩個變量同時不為0才可以痰洒。在數(shù)據(jù)稀疏時瓢棒,很多特征交互是模型無法訓(xùn)練的。
  • LR是需要特征工程的丘喻,SVM在稀疏場景下無法用脯宿。
  • 通過參數(shù)矩陣分解,打破了特征組合之間的獨立性泉粉,使一個組合特征的學(xué)習(xí)可以受到其他相關(guān)組合特征的幫助连霉。
  • 原本預(yù)測公式的復(fù)雜度:O(kn2),可以通過轉(zhuǎn)換變?yōu)?O(kn)嗡靡。

(二)公式推導(dǎo)

預(yù)測公式

O(kn2)變O(kn)

隨機(jī)梯度下降跺撼,O(kn)

三、FFM

2016年發(fā)表在 recsys 上的論文

(一)簡單介紹

  • FM:一個特征對應(yīng)一個隱變量讨彼;FFM:將特征分為多個field歉井,每個特征對每個field分別有一個隱變量,因為同一個特征對不同field的影響可能是不同的哈误,隱變量也應(yīng)該不同哩至。
  • 舉個例子躏嚎,我們的樣本有3種類型的字段:publisher, advertiser, gender。其中publisher有5種憨募,advertiser有10種,gender有2種袁辈,one-hot編碼后菜谣,每個樣本有17個特征,其中只有3個非空晚缩。
    FM尾膊,17個特征,每個特征對應(yīng)1個隱變量荞彼。
    FFM冈敛,17個特征,每個特征對應(yīng)3個隱變量鸣皂。

(二)模型介紹

  • 表達(dá)式
  • AdaGrad求解

四抓谴、Wide & Deep

2016年谷歌團(tuán)隊發(fā)表的一篇文章
Cheng H T , Koc L , Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. 2016.

(一)wide 和 deep 的比較

  • wide:廣泛應(yīng)用于具有稀疏、大規(guī)模場景寞缝。組合特征有效且可解釋性強(qiáng)癌压,但需要很多特征工程,且對于未出現(xiàn)過的組合無法學(xué)習(xí)荆陆。
  • deep:需要較少的特征工程滩届,泛化能力強(qiáng),可以通過稀疏特征 embedding 學(xué)習(xí)到未出現(xiàn)過的特征組合被啼。但容易過泛化帜消,推薦不太相關(guān)的東西。
  • wide & deep:記憶和泛化的結(jié)合浓体。

(二)memorization 和 generalization(EE問題)

  • memorization:exploit泡挺,學(xué)習(xí)頻繁出現(xiàn)的特征組合,從歷史數(shù)據(jù)中學(xué)習(xí)相關(guān)性命浴。容易推薦和用戶瀏覽歷史相似的東西粘衬。
  • generalization:explore,基于相關(guān)性的傳遞咳促,學(xué)習(xí)未出現(xiàn)過的特征組合稚新。容易推薦不一樣的,新的東西跪腹。

(三)模型結(jié)構(gòu)

The spectrum of Wide & Deep models

Wide & Deep model structure for apps recommendation

(四)其他

  • 模型訓(xùn)練:
    wide:FTRL
    deep:AdaGrad

  • 預(yù)測公式

五褂删、DeepFM

華為2017年的文章
Guo H, Tang R, Ye Y, et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017.

(一)優(yōu)勢

  • 是端對端的學(xué)習(xí)模型,wide 部分和 deep 部分共享一樣的輸入冲茸,不需要額外的特征工程屯阀,能夠同時學(xué)習(xí)到低階和高階的特征交互缅帘。
  • 線性模型雖然十分有效,但是無法刻畫交互特征难衰,需要很多特征工程钦无,缺點是無法刻畫高階特征交互,也無法學(xué)習(xí)到在訓(xùn)練集中出現(xiàn)次數(shù)很少的特征組合盖袭。FM可以學(xué)習(xí)到2階的特征組合失暂。

(二)特征

  • 連續(xù)特征:值本身,或者離散化后one-hot
  • 離散特征:one-hot
  • CTR預(yù)估場景中鳄虱,特征的特點:
    1)稀疏
    2)連續(xù)特征和類別特征混合
    3)根據(jù)field分組
    因此加入了embedding層

(三)模型介紹

  • 預(yù)測分為兩部分


    預(yù)測公式

  • FM:能更有效的學(xué)習(xí)到2階交互特征弟塞,尤其是在稀疏場景下


    FM Component

    FM公式
  • Deep:


    Deep Component
  • embedding


    The structure of the embedding layer

    1)每個 field 的input大小不一樣,但是embedding都一樣大;
    2)在FM中V是一個m*k階的矩陣拙已,這里用V來作為input到embedding的權(quán)重决记,一起訓(xùn)練,而不是像其他work一樣用FM來預(yù)訓(xùn)練倍踪。

(四)共享embedding

  • 從原始特征中同時學(xué)到了特征之間的低階和高階組合
  • 不需要像 wide & deep 一樣做特征工程系宫,端到端學(xué)習(xí)

六、ESMM

ESMM是2018年阿里媽媽團(tuán)隊提出的一個多任務(wù)模型建车。
Ma X , Zhao L , Huang G , et al. Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate[J]. 2018.

(一)傳統(tǒng)CVR預(yù)估面臨的兩個問題

  • SSB(sample selection bias )

    impression表示展示笙瑟,click表示點擊,conversion表示轉(zhuǎn)化癞志,用戶的行為模式是impression->click->conversion往枷,傳統(tǒng)的CVR預(yù)估把click(如圖灰色)作為training data,而訓(xùn)練出來的模型要在所有impression(如圖白色)中進(jìn)行預(yù)測凄杯,存在樣本選擇偏差错洁。

  • DS(data sparsity)
    由于點擊行為實在是太少了,利用點擊數(shù)據(jù)作為樣本訓(xùn)練CVR預(yù)估模型存在數(shù)據(jù)稀疏問題戒突。

(二)本文怎么解決

  • Modeling over entire space(解決SSB)
    CVR:conversion / click
    CTR:click / impression
    CTCVR:conversion / impression

    通過預(yù)測CTCVR和CTR屯碴,然后相除得到CVR,由于CTCVR和CTR都是在整個impression樣本空間進(jìn)行估計的膊存,因此解決了SSB問題导而。
  • (Feature representation transfer)解決DS
    CVR和CTR共享特征embedding表示,CTR訓(xùn)練數(shù)據(jù)要比CVR訓(xùn)練數(shù)據(jù)多很多隔崎,一定程度上解決了數(shù)據(jù)稀疏性問題今艺。

(三)技術(shù)細(xì)節(jié)

Modeling over entire space

模型引入兩個輔助任務(wù),pCTR和pCTCVR爵卒,從而間接學(xué)習(xí)到pCVR

  • CTR:有點擊行為的曝光為正樣本虚缎,沒有點擊行為發(fā)生的曝光為負(fù)樣本
    CTCVR:同時點擊和購買的曝光為正樣本,否則標(biāo)記為負(fù)樣本钓株。
    CTR和CTCVR都是在整個樣本空間的实牡,解決了SSB問題陌僵。
  • 損失函數(shù)由兩部分組成, CTR 和 CTCVR创坞,兩部分都采用交叉熵?fù)p失函數(shù)碗短。

Feature representation transfer

  • ESMM中,CVR網(wǎng)絡(luò)和CTR網(wǎng)絡(luò)共享embedding字典题涨。該共享機(jī)制使ESMM中的CVR網(wǎng)絡(luò)能夠從 un-clicked impression 中學(xué)習(xí)偎谁,緩解數(shù)據(jù)稀疏性問題。
  • 另外携栋,ESMM模型中的子網(wǎng)絡(luò)結(jié)構(gòu)可以用其他模型替換搭盾,ESMM只是提供了一種解決問題的思路咳秉,具體應(yīng)用還需要根據(jù)實際業(yè)務(wù)場景進(jìn)行調(diào)整婉支。

七、DSSM


參考資料

ESSM論文地址
精讀&解析 Entire Space Multi-Task Model(ESMM) 阿里2018年CVR預(yù)測
推薦系統(tǒng)遇上深度學(xué)習(xí)(三)--DeepFM模型理論和實踐

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末澜建,一起剝皮案震驚了整個濱河市向挖,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌炕舵,老刑警劉巖何之,帶你破解...
    沈念sama閱讀 211,423評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異咽筋,居然都是意外死亡溶推,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,147評論 2 385
  • 文/潘曉璐 我一進(jìn)店門奸攻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蒜危,“玉大人,你說我怎么就攤上這事睹耐》蓿” “怎么了?”我有些...
    開封第一講書人閱讀 157,019評論 0 348
  • 文/不壞的土叔 我叫張陵硝训,是天一觀的道長响委。 經(jīng)常有香客問我,道長窖梁,這世上最難降的妖魔是什么赘风? 我笑而不...
    開封第一講書人閱讀 56,443評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘灰伟。我一直安慰自己筐高,他們只是感情好翘紊,可當(dāng)我...
    茶點故事閱讀 65,535評論 6 385
  • 文/花漫 我一把揭開白布乘盖。 她就那樣靜靜地躺著射赛,像睡著了一般副签。 火紅的嫁衣襯著肌膚如雪山析。 梳的紋絲不亂的頭發(fā)上堰燎,一...
    開封第一講書人閱讀 49,798評論 1 290
  • 那天,我揣著相機(jī)與錄音笋轨,去河邊找鬼秆剪。 笑死,一個胖子當(dāng)著我的面吹牛爵政,可吹牛的內(nèi)容都是我干的仅讽。 我是一名探鬼主播,決...
    沈念sama閱讀 38,941評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼钾挟,長吁一口氣:“原來是場噩夢啊……” “哼洁灵!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起掺出,我...
    開封第一講書人閱讀 37,704評論 0 266
  • 序言:老撾萬榮一對情侶失蹤徽千,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后汤锨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體双抽,經(jīng)...
    沈念sama閱讀 44,152評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,494評論 2 327
  • 正文 我和宋清朗相戀三年闲礼,在試婚紗的時候發(fā)現(xiàn)自己被綠了牍汹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,629評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡柬泽,死狀恐怖慎菲,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情聂抢,我是刑警寧澤钧嘶,帶...
    沈念sama閱讀 34,295評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站琳疏,受9級特大地震影響有决,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜空盼,卻給世界環(huán)境...
    茶點故事閱讀 39,901評論 3 313
  • 文/蒙蒙 一书幕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧揽趾,春花似錦台汇、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽痒芝。三九已至,卻和暖如春牵素,著一層夾襖步出監(jiān)牢的瞬間严衬,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,978評論 1 266
  • 我被黑心中介騙來泰國打工笆呆, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留请琳,地道東北人。 一個月前我還...
    沈念sama閱讀 46,333評論 2 360
  • 正文 我出身青樓赠幕,卻偏偏與公主長得像俄精,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子榕堰,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,499評論 2 348