Beyond Greedy Ranking: Slate Optimization via List-CVAE
作者:Ray Jiang? Sven Gowal? Yuqiu Qian? Timothy A. Mann? Danilo J. Rezende?
機(jī)構(gòu):?Google DeepMind, London, UK.
????The University of Hong Kong
地址:[1803.01682] Beyond Greedy Ranking: Slate Optimization via List-CVAE (arxiv.org)
代碼(參考):https://github.com/ferendo/RecommendationSystem
推薦問題的傳統(tǒng)解決方案是貪婪地根據(jù)預(yù)測分?jǐn)?shù)對各個候選item進(jìn)行排序腰湾。然而雷恃,這種方法無法將推薦列表(slate)作為一個整體來實現(xiàn)推薦,因此费坊,經(jīng)常難以捕獲由頁面布局和item交互造成的偏差倒槐。列表推薦的目的是直接找到最符合用戶需要的最優(yōu)物品序列子集(slate)。解決這個問題是困難的附井,因為考慮所有候選item的組合及其在頁面上的顯示位置將會出現(xiàn)組合爆炸問題讨越。因此两残,本文提出了一個新的研究范式,將傳統(tǒng)的解決ranking問題轉(zhuǎn)換為設(shè)計直接生成slate的框架把跨。本文提出List Conditional Variational Auto-Encoders(List-CVAE)框架人弓,學(xué)習(xí)條件在用戶反饋上的item序列聯(lián)合分布,并直接生成完整的slate着逐。
Introduction
目前崔赌,IT產(chǎn)業(yè)的大規(guī)模推薦問題通常遵循“召回-排序”兩步過程。召回層從數(shù)百萬計的物品集中篩選出百級的候選物品(candidates)耸别,而后排序?qū)宇A(yù)測用戶與各物品的交互概率并基于預(yù)測得分進(jìn)行排序峰鄙。
然而,這兩步過程存在如下問題:
- 候選召回模型和排序模型不是聯(lián)合訓(xùn)練的太雨,可能導(dǎo)致排序得分高的物品在召回階段被遺漏吟榴。
- 貪心的排序方法可能會導(dǎo)致各種由列表和上下文的視覺展示而引發(fā)的偏差,包括位置偏差(positional bias)囊扳、上下文偏差(contextual bias)等吩翻。
[Yue et al., 2010] 研究了列表視覺偏差。
因此锥咸,本文將排序視角的研究范式轉(zhuǎn)化為直觀的列表生成框架(slate generation framework)狭瞎,考慮列表的整體優(yōu)化,例如生成一個符合用戶偏好的歌單搏予、新聞列表等熊锭。
本文貢獻(xiàn):
- 首次提出直接生成推薦列表的條件生成建模框架雪侥,且本框架具有較好的可推廣性碗殷。
- 在List-CVAE框架中,使用通過負(fù)降采樣的k-head softmax層進(jìn)行預(yù)訓(xùn)練的物品embedding速缨,以實現(xiàn)大規(guī)模處理锌妻。
Related Work
Method
Notation
- 物品集
,推薦列表長度
- 用戶反饋向量
旬牲,其中
表示用戶對物品
的反饋仿粹。
- e.g. 在CTR預(yù)測任務(wù)中,
表示物品是否被點擊原茅,則最優(yōu)列表
應(yīng)滿足
最大化吭历。
Variational Auto-Encoders 變分自編碼器
VAEs是一種隱變量模型,定義觀測變量與隱變量
的聯(lián)合密度分布為
擂橘。訓(xùn)練時需要通過邊際化([深度學(xué)習(xí)] 什么是marginalization_語言模型 marginalization-CSDN博客)隱變量
來實現(xiàn)最大化數(shù)據(jù)似然
晌区。但這一目標(biāo)無法被直接估計,因此考慮采用變分估計方法(variational approximation),引入變分后驗概率
契讲,優(yōu)化數(shù)據(jù)似然的變分下界(variational Evidence Lower-Bound,ELBO):
其中
而在Conditional-VAE中,將分布P和Q延伸為條件在
Model
假設(shè)列表與用戶反饋
來自于聯(lián)合空間
银伟。通過CVAE,本文建模條件在用戶反饋
上的物品聯(lián)合分布
绘搞;在inference階段彤避,使用List-CVAE在理想條件
下生成最優(yōu)的推薦列表。
模型框架
優(yōu)化目標(biāo)“optimality”
定義映射表示將用戶反饋映射到條件空間
中夯辖,對應(yīng)的條件向量則表示我們希望優(yōu)化的用戶交互度量(user engagement)琉预。例如,若需最大化列表點擊率蒿褂,則條件可定義為
圆米,則在inference階段,理想的用戶反饋向量
對應(yīng)的條件為
隱變量分布
本模型中啄栓,建模每個物品在隱變量
上的獨立概率娄帖,意味著列表中的物品僅在
條件下獨立。雖然通過decoder能夠容易地表征
昙楚,但實際上的邊際概率
可能是非常復(fù)雜的近速。
當(dāng)encoder將列表s編碼到隱空間時,其學(xué)習(xí)了k個物品按照固定順序的聯(lián)合分布堪旧,因此也已經(jīng)在隱變量中學(xué)到了列表上下文和位置引起的偏差影響削葱,而decoder則從隱變量
中重建輸入列表,因此淳梦,inference階段使用隱變量
基于理想條件構(gòu)建推薦列表佩耳,可以兼顧列表中的各種偏差。
為進(jìn)一步揭示隱空間信息谭跨,我們將的隱分布縮放到二維標(biāo)準(zhǔn)高斯分布
干厚,如圖為壓縮后的預(yù)測先驗分布,意味著隨著訓(xùn)練輪次的增加螃宙,隱空間中任意采樣生成高反饋列表的比例越來越大蛮瞄。
k-head softmax
考慮到物品數(shù)量級龐大,使用一個標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)或自編碼器在建模用戶反饋預(yù)測將物品表征降到低維谆扎。定義映射挂捅,其中
表示
的單位向量。
通過一個預(yù)測用戶反饋的標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)或自編碼器進(jìn)行訓(xùn)練堂湖。對于列表中的第
個物品闲先,模型產(chǎn)生一個
中的向量
并通過點乘映射到物品集
中状土,產(chǎn)生
個softmax的對數(shù)向量,即k-head softmax伺糠。
Training 階段
損失函數(shù)如下蒙谓,其中為訓(xùn)練輪次的函數(shù)。
Inference 階段
從先驗分布中采樣隱變量
训桶,同理想條件
拼接后累驮,通過decoder從
中生成
,最終通過
得到列表每個位置的對應(yīng)結(jié)果舵揭。
Experiments
Setup
理想條件取.
Metric
由于需考慮整個列表的效能谤专,NDCG等指標(biāo)不適用,因此自定義指標(biāo)考慮列表上發(fā)生的點擊總數(shù)午绳。
Small-scale experiment (訓(xùn)練樣本量
):
結(jié)論:雖然List-CVAE在10次點擊預(yù)測中不能達(dá)到的完美性能置侍,但只需數(shù)步訓(xùn)練就可以優(yōu)于其他所有的ranking baselines。
Medium-scale experiment (訓(xùn)練樣本量
):
數(shù)據(jù)集:RecSys 2015 YOOCHOOSE Challenge (Ben-Shimon et al., 2015)
樣本構(gòu)造:用戶反饋向量中拦焚,0表示點擊墅垮,1表示(點擊后)購買。樣本集的用戶反饋分布如圖5(a)所示耕漱。
結(jié)論:outperform within 500 steps.
Large-scale experiment (訓(xùn)練樣本量
):
數(shù)據(jù)集:在RecSys 2015 YOOCHOOSE Challenge的基礎(chǔ)上算色,對物品集增加隨機(jī)噪聲實現(xiàn)數(shù)據(jù)擴(kuò)充,并通過用戶反饋預(yù)測模型生成每個物品的label螟够。
結(jié)論: steadily outperforms.
Generalization test
描述:現(xiàn)實場景中灾梦,close-to-optimal(高用戶反饋)的推薦列表通常非常稀少,將會限制訓(xùn)練效果妓笙。
實驗設(shè)計:定義比率變量對訓(xùn)練樣本的高用戶反饋樣本進(jìn)行削減若河,即
。
越低寞宫,則樣本中包含的用戶反饋越少萧福。
結(jié)論:(1)當(dāng)樣本集中去除了包含5次、或包含4-5次購買的列表時辈赋,List-CVAE的表現(xiàn)仍然較好鲫忍。(2)當(dāng)樣本集中包含0-2次購買的列表時,List-CVAE在1000輪訓(xùn)練后表現(xiàn)較好钥屈。(3)當(dāng)樣本集中僅包含0次或0-1次購買的列表時悟民,MLP類模型可能獲得更好的訓(xùn)練效果。
參考價值
- CVAE篷就,條件變量
使VAE的生成結(jié)果可控射亏。
- 對隱變量空間深層含義的刻畫(Figure 3)。