-
DLP-KDD 2019
摘要
目前點(diǎn)擊率 (CTR) 預(yù)測模型已經(jīng)從淺層方法發(fā)展到深層神經(jīng)網(wǎng)絡(luò), 大多數(shù)深度 CTR 模型遵循 Embedding&MLP 范式,即首先映射離散的 id 特征祠锣,例如用戶訪問的物品概说,使用嵌入模塊轉(zhuǎn)換為低維向量,然后學(xué)習(xí)MLP世囊。學(xué)習(xí)嵌入對(duì)模型性能至關(guān)重要椅贱。
在許多實(shí)際應(yīng)用中懂算,深度 CTR 模型往往泛化性能不佳,這主要是由于嵌入?yún)?shù)的學(xué)習(xí)庇麦。
本文關(guān)鍵貢獻(xiàn)在于: 使用興趣延遲模型(interst delay model)對(duì)用戶行為進(jìn)行建模计技,仔細(xì)研究嵌入機(jī)制,并獲得兩個(gè)重要結(jié)果:
(i)從理論上證明了屬于同一用戶興趣域的物品的嵌入向量的小聚合半徑將使得 CTR 模型具有良好的泛化性能女器。
(ii) 設(shè)計(jì)了一種新嵌入結(jié)構(gòu)res-embedding酸役。在重新嵌入模塊中住诸,每個(gè)物品的嵌入向量是兩個(gè)分量的總和:(i)從基于物品的興趣圖計(jì)算的中心嵌入向量(ii)規(guī)模相對(duì)較小的殘差嵌入向量驾胆。
Main Story
嵌入模塊往往以look-up table的方式實(shí)現(xiàn),每個(gè)離散的特征對(duì)應(yīng)于一個(gè)低維向量贱呐,模型參數(shù)從CTR任務(wù)的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)丧诺。而嵌入模塊和MLP模塊的參數(shù)都是端到端的學(xué)習(xí),那么embedding模塊實(shí)際上是作為一個(gè)特征映射來執(zhí)行的奄薇,并決定了后續(xù)MLP模塊的輸入分布驳阎。
根據(jù)數(shù)據(jù)依賴的泛化理論,輸入分布將影響模型的泛化性能馁蒂。因此, 嵌入模塊對(duì)于深度CTR模型的泛化性能至關(guān)重要.
在實(shí)踐中呵晚,深度CTR模型的訓(xùn)練中普遍存在過擬合現(xiàn)象,特別是在具有大規(guī)模離散特征的工業(yè)應(yīng)用中沫屡。我們認(rèn)為饵隙,可能是嵌入模塊導(dǎo)致泛化性能不佳。原因在于兩個(gè)方面:
(i) 在實(shí)際系統(tǒng)中沮脖,特征的數(shù)量可以擴(kuò)展到數(shù)十億金矛,導(dǎo)致嵌入?yún)?shù)的數(shù)量巨大。這將提高記憶能力勺届,但降低泛化能力驶俊。
(ii) 在只有點(diǎn)擊標(biāo)簽數(shù)據(jù)下,傳統(tǒng)的嵌入模塊可能很難學(xué)到具有高泛化能力的代表性映射免姿。例如饼酿,在端到端訓(xùn)練中,兩個(gè)相似物品的嵌入向量的距離可能會(huì)隨著不同的初始化而發(fā)生很大的變化胚膊。
受上述觀察的啟發(fā)故俐,在本文中提出
(i) 定量分析哪些變量參與了深度CTR模型的泛化誤差邊界
(ii) 根據(jù)這種定量關(guān)系設(shè)計(jì)相應(yīng)的解決方案來提高泛化能力
Methods
定義D層的MLP模型如下:
用戶行為建模
每次點(diǎn)擊可以表示為一個(gè)時(shí)間步 time step, 具有相同興趣的時(shí)間步可以成為一個(gè)時(shí)間段 period, 稱為interest delay模型。
對(duì)于具體的某個(gè)時(shí)間步而言刚陡, 用戶單個(gè)點(diǎn)擊行為由當(dāng)前用戶的興趣覺得惩妇, 從數(shù)學(xué)角度上定義個(gè)興趣域(interest domain), 興趣隱藏狀態(tài)
. 假設(shè)P(x)表示用戶點(diǎn)擊物品x的概率,那么該點(diǎn)擊概率可以表示為:
論文基于以上模型進(jìn)行泛化誤差邊界的理論分析:
但這樣同時(shí)降低了embedding的容量和表征能力歌殃。 而通過分別降低每個(gè)興趣域的包圍半徑,可以使得同一興趣域內(nèi)在embedding空間上更近蝙云,但在不同興趣域上存在差異氓皱,能夠同時(shí)控制泛化誤差和模型性能。
基于該理論分析勃刨, 本文提出了一個(gè)原型框架: 同一興趣域內(nèi)的物品共相同的中心嵌入向量(central), 每個(gè)物品有不同的小范圍的殘差嵌入向量(ersidual).
最終通過兩部分向量相加波材,得到最終的物品表征,通過控制residual部分的范圍身隐,可以有效的降低同一興趣域在嵌入空間上的距離廷区,即
假設(shè)具有I個(gè)興趣域和H個(gè)物品,中心向量矩陣表示為,
表示每個(gè)物品和每個(gè)域的關(guān)系贾铝, 其為0-1二元矩陣隙轻。
表示物品的殘差向量:
為了解決這個(gè)問題,我們重新審視假設(shè)1悬包,并注意到一個(gè)隱藏的興趣狀態(tài)z將保持T個(gè)時(shí)間步驟來影響用戶點(diǎn)擊行為衙猪。因此,可以推導(dǎo)出這樣一個(gè)結(jié)論:如果兩個(gè)物品在用戶點(diǎn)擊行為的短期內(nèi)出現(xiàn)得更頻繁,它們就更有可能處于相同的興趣域垫释。從這個(gè)結(jié)論出發(fā)丝格,定義了一個(gè)由每個(gè)物品對(duì)的共同出現(xiàn)頻率構(gòu)建的物品興趣圖(item interest graph)Z,來描述物品之間興趣域的相似性關(guān)系
具體實(shí)現(xiàn)
使用殘差向量矩陣來表示物品和中心向量基的相關(guān)性:
具體的g()函數(shù)有三種實(shí)現(xiàn)方式:
-
線性:
-
GCN/圖聚合操作:
-
注意力機(jī)制:
實(shí)驗(yàn)結(jié)果
-
泛化性能:
-
res-embedding對(duì)推薦性能的影響
總結(jié)
- 本文從推薦算法中最基礎(chǔ)卻最關(guān)鍵的embedding優(yōu)化入手,通過理論分析對(duì)其泛化性能影響因素進(jìn)行提取
- 并在此基礎(chǔ)上订咸,提出res-embedding曼尊,將物品embedding拆分為中心向量和殘差向量兩部分
END
本人簡書所有文章均為原創(chuàng),歡迎轉(zhuǎn)載脏嚷,請(qǐng)注明文章出處 骆撇。百度和各類采集站皆不可信,搜索請(qǐng)謹(jǐn)慎鑒別父叙。技術(shù)類文章一般都有時(shí)效性神郊,本人習(xí)慣不定期對(duì)自己的博文進(jìn)行修正和更新,因此請(qǐng)?jiān)L問本人簡書主頁查看最新信息http://www.reibang.com/u/40d14973d97c