embedding技術(shù)(1): Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling

  • DLP-KDD 2019


摘要

目前點(diǎn)擊率 (CTR) 預(yù)測模型已經(jīng)從淺層方法發(fā)展到深層神經(jīng)網(wǎng)絡(luò), 大多數(shù)深度 CTR 模型遵循 Embedding&MLP 范式,即首先映射離散的 id 特征祠锣,例如用戶訪問的物品概说,使用嵌入模塊轉(zhuǎn)換為低維向量,然后學(xué)習(xí)MLP世囊。學(xué)習(xí)嵌入對(duì)模型性能至關(guān)重要椅贱。

在許多實(shí)際應(yīng)用中懂算,深度 CTR 模型往往泛化性能不佳,這主要是由于嵌入?yún)?shù)的學(xué)習(xí)庇麦。
本文關(guān)鍵貢獻(xiàn)在于: 使用興趣延遲模型(interst delay model)對(duì)用戶行為進(jìn)行建模计技,仔細(xì)研究嵌入機(jī)制,并獲得兩個(gè)重要結(jié)果:
(i)從理論上證明了屬于同一用戶興趣域的物品的嵌入向量的小聚合半徑將使得 CTR 模型具有良好的泛化性能女器。
(ii) 設(shè)計(jì)了一種新嵌入結(jié)構(gòu)res-embedding酸役。在重新嵌入模塊中住诸,每個(gè)物品的嵌入向量是兩個(gè)分量的總和:(i)從基于物品的興趣圖計(jì)算的中心嵌入向量(ii)規(guī)模相對(duì)較小的殘差嵌入向量驾胆。

Main Story

嵌入模塊往往以look-up table的方式實(shí)現(xiàn),每個(gè)離散的特征對(duì)應(yīng)于一個(gè)低維向量贱呐,模型參數(shù)從CTR任務(wù)的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)丧诺。而嵌入模塊和MLP模塊的參數(shù)都是端到端的學(xué)習(xí),那么embedding模塊實(shí)際上是作為一個(gè)特征映射來執(zhí)行的奄薇,并決定了后續(xù)MLP模塊的輸入分布驳阎。
根據(jù)數(shù)據(jù)依賴的泛化理論,輸入分布將影響模型的泛化性能馁蒂。因此, 嵌入模塊對(duì)于深度CTR模型的泛化性能至關(guān)重要.

在實(shí)踐中呵晚,深度CTR模型的訓(xùn)練中普遍存在過擬合現(xiàn)象,特別是在具有大規(guī)模離散特征的工業(yè)應(yīng)用中沫屡。我們認(rèn)為饵隙,可能是嵌入模塊導(dǎo)致泛化性能不佳。原因在于兩個(gè)方面:
(i) 在實(shí)際系統(tǒng)中沮脖,特征的數(shù)量可以擴(kuò)展到數(shù)十億金矛,導(dǎo)致嵌入?yún)?shù)的數(shù)量巨大。這將提高記憶能力勺届,但降低泛化能力驶俊。
(ii) 在只有點(diǎn)擊標(biāo)簽數(shù)據(jù)下,傳統(tǒng)的嵌入模塊可能很難學(xué)到具有高泛化能力的代表性映射免姿。例如饼酿,在端到端訓(xùn)練中,兩個(gè)相似物品的嵌入向量的距離可能會(huì)隨著不同的初始化而發(fā)生很大的變化胚膊。

受上述觀察的啟發(fā)故俐,在本文中提出
(i) 定量分析哪些變量參與了深度CTR模型的泛化誤差邊界
(ii) 根據(jù)這種定量關(guān)系設(shè)計(jì)相應(yīng)的解決方案來提高泛化能力

Methods

數(shù)據(jù)定義如下:

定義D層的MLP模型如下:

泛化誤差邊界(Generalization error bound)
包圍半徑:即反映空間的分布范圍

用戶行為建模

當(dāng)用戶再電商網(wǎng)站上瀏覽商品時(shí)奈应,用戶會(huì)由于不同的興趣點(diǎn)擊不同的商品, 基于經(jīng)驗(yàn)和直觀常識(shí)购披,我們假設(shè)用戶興趣在瀏覽過程中會(huì)持續(xù)一段時(shí)間杖挣。

每次點(diǎn)擊可以表示為一個(gè)時(shí)間步 time step, 具有相同興趣的時(shí)間步可以成為一個(gè)時(shí)間段 period, 稱為interest delay模型。

對(duì)于具體的某個(gè)時(shí)間步而言刚陡, 用戶單個(gè)點(diǎn)擊行為由當(dāng)前用戶的興趣覺得惩妇, 從數(shù)學(xué)角度上定義\mathcal{N}_z個(gè)興趣域(interest domain), 興趣隱藏狀態(tài)z\in \{1, 2,..., \mathcal{N}_z \}. 假設(shè)P(x)表示用戶點(diǎn)擊物品x的概率,那么該點(diǎn)擊概率可以表示為:P(x) = \sum_z P(x|z)P(z)

那么interest delay模型建模過程可以定義如下:

更詳細(xì)的假設(shè)如下:

論文基于以上模型進(jìn)行泛化誤差邊界的理論分析:

那么最終影響泛化誤差的因素包含W和R_{max}. 降低embedding向量的整體范圍似乎證明了在某些情況下使用embeddding層正則化的有效性筐乳。

但這樣同時(shí)降低了embedding的容量和表征能力歌殃。 而通過分別降低每個(gè)興趣域的包圍半徑,可以使得同一興趣域內(nèi)在embedding空間上更近蝙云,但在不同興趣域上存在差異氓皱,能夠同時(shí)控制泛化誤差和模型性能。

基于該理論分析勃刨, 本文提出了一個(gè)原型框架: 同一興趣域內(nèi)的物品共相同的中心嵌入向量(central), 每個(gè)物品有不同的小范圍的殘差嵌入向量(ersidual).

最終通過兩部分向量相加波材,得到最終的物品表征,通過控制residual部分的范圍身隐,可以有效的降低同一興趣域在嵌入空間上的距離廷区,即R_{max}

假設(shè)具有I個(gè)興趣域和H個(gè)物品,中心向量矩陣表示為C\in \mathbb{R}^{I \times d}, P \in \mathbb{R}^{H \times I} 表示每個(gè)物品和每個(gè)域的關(guān)系贾铝, 其為0-1二元矩陣隙轻。 R\in \mathbb{R}^{H \times d} 表示物品的殘差向量:


然而,關(guān)系矩陣P是未知的垢揩,很難獲得玖绿,不知道每個(gè)物品屬于哪個(gè)興趣領(lǐng)域。錯(cuò)誤的P可能會(huì)給深度CTR預(yù)測模型帶來更糟糕的泛化性能叁巨。有必要確定物品和興趣領(lǐng)域之間的合理關(guān)系斑匪。此外,一個(gè)項(xiàng)目很可能不只屬于一個(gè)興趣領(lǐng)域俘种。也就是說秤标,中心嵌入的約束關(guān)系可能是軟的,這意味著同一興趣域中的物品的中心嵌入可能不完全相同宙刘,而只是更相似苍姜。

為了解決這個(gè)問題,我們重新審視假設(shè)1悬包,并注意到一個(gè)隱藏的興趣狀態(tài)z將保持T個(gè)時(shí)間步驟來影響用戶點(diǎn)擊行為衙猪。因此,可以推導(dǎo)出這樣一個(gè)結(jié)論:如果兩個(gè)物品在用戶點(diǎn)擊行為的短期內(nèi)出現(xiàn)得更頻繁,它們就更有可能處于相同的興趣域垫释。從這個(gè)結(jié)論出發(fā)丝格,定義了一個(gè)由每個(gè)物品對(duì)的共同出現(xiàn)頻率構(gòu)建的物品興趣圖(item interest graph)Z,來描述物品之間興趣域的相似性關(guān)系

具體實(shí)現(xiàn)

使用殘差向量矩陣W來表示物品和中心向量基的相關(guān)性:

物品的中心嵌入應(yīng)該是物品興趣圖中與之相連的物品的中心嵌入基礎(chǔ)的線性組合棵譬,具體的興趣圖是基于物品共現(xiàn)構(gòu)建的显蝌,

計(jì)算過程可以如下圖所示:

具體的g()函數(shù)有三種實(shí)現(xiàn)方式:

  • 線性:
  • GCN/圖聚合操作:
  • 注意力機(jī)制:

最終模型目標(biāo)函數(shù)如下:

實(shí)驗(yàn)結(jié)果

  • 泛化性能:


  • res-embedding對(duì)推薦性能的影響

總結(jié)

  • 本文從推薦算法中最基礎(chǔ)卻最關(guān)鍵的embedding優(yōu)化入手,通過理論分析對(duì)其泛化性能影響因素進(jìn)行提取
  • 并在此基礎(chǔ)上订咸,提出res-embedding曼尊,將物品embedding拆分為中心向量和殘差向量兩部分

END

本人簡書所有文章均為原創(chuàng),歡迎轉(zhuǎn)載脏嚷,請(qǐng)注明文章出處 骆撇。百度和各類采集站皆不可信,搜索請(qǐng)謹(jǐn)慎鑒別父叙。技術(shù)類文章一般都有時(shí)效性神郊,本人習(xí)慣不定期對(duì)自己的博文進(jìn)行修正和更新,因此請(qǐng)?jiān)L問本人簡書主頁查看最新信息http://www.reibang.com/u/40d14973d97c

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末趾唱,一起剝皮案震驚了整個(gè)濱河市涌乳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌鲸匿,老刑警劉巖爷怀,帶你破解...
    沈念sama閱讀 218,858評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件阻肩,死亡現(xiàn)場離奇詭異带欢,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)烤惊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門乔煞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人柒室,你說我怎么就攤上這事渡贾。” “怎么了雄右?”我有些...
    開封第一講書人閱讀 165,282評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵空骚,是天一觀的道長。 經(jīng)常有香客問我擂仍,道長囤屹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,842評(píng)論 1 295
  • 正文 為了忘掉前任逢渔,我火速辦了婚禮肋坚,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己智厌,他們只是感情好诲泌,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著铣鹏,像睡著了一般敷扫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上诚卸,一...
    開封第一講書人閱讀 51,679評(píng)論 1 305
  • 那天呻澜,我揣著相機(jī)與錄音,去河邊找鬼惨险。 笑死羹幸,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的辫愉。 我是一名探鬼主播栅受,決...
    沈念sama閱讀 40,406評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼恭朗!你這毒婦竟也來了屏镊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,311評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤痰腮,失蹤者是張志新(化名)和其女友劉穎而芥,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體膀值,經(jīng)...
    沈念sama閱讀 45,767評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡棍丐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了沧踏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片歌逢。...
    茶點(diǎn)故事閱讀 40,090評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖翘狱,靈堂內(nèi)的尸體忽然破棺而出秘案,到底是詐尸還是另有隱情,我是刑警寧澤潦匈,帶...
    沈念sama閱讀 35,785評(píng)論 5 346
  • 正文 年R本政府宣布阱高,位于F島的核電站,受9級(jí)特大地震影響茬缩,放射性物質(zhì)發(fā)生泄漏赤惊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評(píng)論 3 331
  • 文/蒙蒙 一寒屯、第九天 我趴在偏房一處隱蔽的房頂上張望荐捻。 院中可真熱鬧黍少,春花似錦、人聲如沸处面。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽魂角。三九已至昵济,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間野揪,已是汗流浹背访忿。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評(píng)論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留斯稳,地道東北人海铆。 一個(gè)月前我還...
    沈念sama閱讀 48,298評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像挣惰,于是被迫代替她去往敵國和親卧斟。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容