[2019 ICLR] List-CVAE

Beyond Greedy Ranking: Slate Optimization via List-CVAE

作者:Ray Jiang? Sven Gowal? Yuqiu Qian? Timothy A. Mann? Danilo J. Rezende?
機(jī)構(gòu):?Google DeepMind, London, UK.
????The University of Hong Kong
地址:[1803.01682] Beyond Greedy Ranking: Slate Optimization via List-CVAE (arxiv.org)
代碼(參考):https://github.com/ferendo/RecommendationSystem

推薦問題的傳統(tǒng)解決方案是貪婪地根據(jù)預(yù)測分?jǐn)?shù)對各個候選item進(jìn)行排序腰湾。然而雷恃,這種方法無法將推薦列表(slate)作為一個整體來實現(xiàn)推薦,因此费坊,經(jīng)常難以捕獲由頁面布局和item交互造成的偏差倒槐。列表推薦的目的是直接找到最符合用戶需要的最優(yōu)物品序列子集(slate)。解決這個問題是困難的附井,因為考慮所有候選item的組合及其在頁面上的顯示位置將會出現(xiàn)組合爆炸問題讨越。因此两残,本文提出了一個新的研究范式,將傳統(tǒng)的解決ranking問題轉(zhuǎn)換為設(shè)計直接生成slate的框架把跨。本文提出List Conditional Variational Auto-Encoders(List-CVAE)框架人弓,學(xué)習(xí)條件在用戶反饋上的item序列聯(lián)合分布,并直接生成完整的slate着逐。

Introduction

目前崔赌,IT產(chǎn)業(yè)的大規(guī)模推薦問題通常遵循“召回-排序”兩步過程。召回層從數(shù)百萬計的物品集中篩選出百級的候選物品(candidates)耸别,而后排序?qū)宇A(yù)測用戶與各物品的交互概率并基于預(yù)測得分進(jìn)行排序峰鄙。
然而,這兩步過程存在如下問題:

  1. 候選召回模型和排序模型不是聯(lián)合訓(xùn)練的太雨,可能導(dǎo)致排序得分高的物品在召回階段被遺漏吟榴。
  2. 貪心的排序方法可能會導(dǎo)致各種由列表和上下文的視覺展示而引發(fā)的偏差,包括位置偏差(positional bias)囊扳、上下文偏差(contextual bias)等吩翻。

[Yue et al., 2010] 研究了列表視覺偏差。

因此锥咸,本文將排序視角的研究范式轉(zhuǎn)化為直觀的列表生成框架(slate generation framework)狭瞎,考慮列表的整體優(yōu)化,例如生成一個符合用戶偏好的歌單搏予、新聞列表等熊锭。

本文貢獻(xiàn):

  1. 首次提出直接生成推薦列表的條件生成建模框架雪侥,且本框架具有較好的可推廣性碗殷。
  2. 在List-CVAE框架中,使用通過負(fù)降采樣的k-head softmax層進(jìn)行預(yù)訓(xùn)練的物品embedding速缨,以實現(xiàn)大規(guī)模處理锌妻。

Related Work

Figure 1: Comparison of related variants of VAE models.

Method

Notation

  • 物品集\mathcal{D},推薦列表長度k
  • 用戶反饋向量\mathbf{r} = (r_1, r_2, . . . r_k)旬牲,其中r_i\in\mathcal{R}表示用戶對物品d_i的反饋仿粹。
  • e.g. 在CTR預(yù)測任務(wù)中,r_i\in\{0,1\}表示物品是否被點擊原茅,則最優(yōu)列表\mathbf{s} = (d_1, d_2, . . . d_k), d_i\in\mathcal{D}應(yīng)滿足\mathbb{E}[\sum^k_{i=1}r_i]最大化吭历。

Variational Auto-Encoders 變分自編碼器

VAEs是一種隱變量模型,定義觀測變量x與隱變量z的聯(lián)合密度分布為P_\theta(x,z)擂橘。訓(xùn)練時需要通過邊際化[深度學(xué)習(xí)] 什么是marginalization_語言模型 marginalization-CSDN博客)隱變量z來實現(xiàn)最大化數(shù)據(jù)似然P_\theta(x)=\int P_\theta(x,z) dz晌区。但這一目標(biāo)無法被直接估計,因此考慮采用變分估計方法(variational approximation),引入變分后驗概率Q_\phi(z|x)契讲,優(yōu)化數(shù)據(jù)似然的變分下界(variational Evidence Lower-Bound,ELBO):

(1), (2)

其中\mathrm{KL}表示KL散度(Kullback–Leibler divergence)滑频,P_\theta(x,z)表示隱變量先驗分布捡偏。
而在Conditional-VAE中,將分布P和Q延伸為條件在c上的概率分布P_\theta(x,z|c)Q_\phi(z|x,c)峡迷,對應(yīng)的變分損失為:
(3)

Model

假設(shè)列表\mathbf{s} = (d_1, d_2, . . . d_k)與用戶反饋r來自于聯(lián)合空間\mathbb{P}_{\mathcal{D}^k×\mathcal{R}^k}银伟。通過CVAE,本文建模條件在用戶反饋\mathbf{r}上的物品聯(lián)合分布\mathbb{P}(d_1, d_2, . . . d_k|\mathbf{r})绘搞;在inference階段彤避,使用List-CVAE在理想條件\mathbf{r}^*下生成最優(yōu)的推薦列表。

模型框架
Figure 2: Structure of List-CVAE for both (a) training and (b) inference.
優(yōu)化目標(biāo)“optimality”

定義映射\Phi : \mathcal{R}^k→\mathcal{C}表示將用戶反饋映射到條件空間\mathcal{C}中夯辖,對應(yīng)的條件向量則表示我們希望優(yōu)化的用戶交互度量(user engagement)琉预。例如,若需最大化列表點擊率蒿褂,則條件可定義為\mathbf{c}=\Phi (\mathbf{r}) := \sum^k_{i=0}r_i圆米,則在inference階段,理想的用戶反饋向量\mathbf{r}^*=(1,1,…,1)對應(yīng)的條件為\mathbf{c}^*=\Phi (\mathbf{r}^*) := \sum^k_{i=0}1=k

隱變量分布

本模型中啄栓,P_\theta(\mathbf{s|z,c})建模每個物品在隱變量\mathbf{z}上的獨立概率娄帖,意味著列表中的物品僅在\mathbf{z}條件下獨立。雖然通過decoder能夠容易地表征P_\theta(\mathbf{s|z,c})昙楚,但實際上的邊際概率P_\theta(\mathbf{s|c})=\int_z P_\theta(\mathbf{s},\mathbf{z}|\mathbf{c}) P_\theta(\mathbf{z}|\mathbf{c}) d\mathbf{z}可能是非常復(fù)雜的近速。

當(dāng)encoder將列表s編碼到隱空間時,其學(xué)習(xí)了k個物品按照固定順序的聯(lián)合分布堪旧,因此也已經(jīng)在隱變量\mathbf{z}中學(xué)到了列表上下文和位置引起的偏差影響削葱,而decoder則從隱變量\mathbf{z}中重建輸入列表,因此淳梦,inference階段使用隱變量\mathbf{z}基于理想條件構(gòu)建推薦列表佩耳,可以兼顧列表中的各種偏差。

為進(jìn)一步揭示隱空間信息谭跨,我們將z的隱分布縮放到二維標(biāo)準(zhǔn)高斯分布\mathcal{N} ( \mathbf{0}, \mathbf{I}), \mathbb{R}^2 干厚,如圖為壓縮后的預(yù)測先驗分布,意味著隨著訓(xùn)練輪次的增加螃宙,隱空間中任意采樣生成高反饋列表的比例越來越大蛮瞄。

Figure 3: Predictive prior distribution of the latent variable z conditioned on ideal user response c* = (1, 1, . . . , 1).

k-head softmax

考慮到物品數(shù)量級龐大,使用一個標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)或自編碼器在建模用戶反饋預(yù)測將物品表征降到低維谆扎。定義映射\Psi : \mathcal{D}→\mathbb{S}^{q-1}挂捅,其中\mathbb{S}^{q-1}表示\mathbb{R}^q的單位向量。\Psi通過一個預(yù)測用戶反饋的標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)或自編碼器進(jìn)行訓(xùn)練堂湖。對于列表中的第i個物品闲先,模型產(chǎn)生一個\mathbb{R}^q中的向量\mathbf{x}_i并通過點乘映射到物品集\mathcal{D}中状土,產(chǎn)生k個softmax的對數(shù)向量,即k-head softmax伺糠。

Training 階段

損失函數(shù)如下蒙谓,其中\beta為訓(xùn)練輪次的函數(shù)。

(4)

Inference 階段

從先驗分布\mathcal{N}(\mu^*,\sigma^*)中采樣隱變量\mathbf{z}训桶,同理想條件\mathbf{c}^*=\Phi (\mathbf{r}^*)拼接后累驮,通過decoder從P_\theta(\mathbf{s}|\mathbf{z},\mathbf{c}^*)中生成(\mathbf{x}_1,…,\mathbf{x}_k),最終通過\mathrm{arg max}得到列表每個位置的對應(yīng)結(jié)果舵揭。

Experiments

Setup

理想條件取\mathbf{c}^*=(1,1,…,1).

Metric

由于需考慮整個列表的效能谤专,NDCG等指標(biāo)不適用,因此自定義指標(biāo)\mathbb{E}[\sum^k_{i=1}r_i]考慮列表上發(fā)生的點擊總數(shù)午绳。

(6)

Small-scale experiment (訓(xùn)練樣本量n = [100, 1000], k = 10):

結(jié)論:雖然List-CVAE在10次點擊預(yù)測中不能達(dá)到的完美性能置侍,但只需數(shù)步訓(xùn)練就可以優(yōu)于其他所有的ranking baselines。


Figure 4: Small-scale experiments.
Medium-scale experiment (訓(xùn)練樣本量n = 100,00 , k = 10):

數(shù)據(jù)集:RecSys 2015 YOOCHOOSE Challenge (Ben-Shimon et al., 2015)
樣本構(gòu)造:用戶反饋向量中拦焚,0表示點擊墅垮,1表示(點擊后)購買。樣本集的用戶反饋分布如圖5(a)所示耕漱。
結(jié)論:outperform within 500 steps.


Figure 5: Real data experiments on medium-scale dataset.
Large-scale experiment (訓(xùn)練樣本量n = \mathrm{1 million, 2 millions} , k = 10):

數(shù)據(jù)集:在RecSys 2015 YOOCHOOSE Challenge的基礎(chǔ)上算色,對物品集增加隨機(jī)噪聲\mathcal{N} ( \mathbf{0}, 10^{-2}·\mathbf{I})實現(xiàn)數(shù)據(jù)擴(kuò)充,并通過用戶反饋預(yù)測模型生成每個物品的label螟够。
結(jié)論: steadily outperforms.

[Figure 6: Real data experiments on large-scale dataset.]

Generalization test

描述:現(xiàn)實場景中灾梦,close-to-optimal(高用戶反饋)的推薦列表通常非常稀少,將會限制訓(xùn)練效果妓笙。
實驗設(shè)計:定義比率變量h對訓(xùn)練樣本的高用戶反饋樣本進(jìn)行削減若河,即\sum^k_{i=1}r_i>hk, h=80\%,60\%,40\%,20\%h越低寞宫,則樣本中包含的用戶反饋越少萧福。
結(jié)論:(1)當(dāng)樣本集中去除了包含5次、或包含4-5次購買的列表時辈赋,List-CVAE的表現(xiàn)仍然較好鲫忍。(2)當(dāng)樣本集中包含0-2次購買的列表時,List-CVAE在1000輪訓(xùn)練后表現(xiàn)較好钥屈。(3)當(dāng)樣本集中僅包含0次或0-1次購買的列表時悟民,MLP類模型可能獲得更好的訓(xùn)練效果。

Figure 7: Generalization test on List-CVAE.

參考價值

  1. CVAE篷就,條件變量\mathrm{c}使VAE的生成結(jié)果可控射亏。
  2. 對隱變量空間深層含義的刻畫(Figure 3)。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市智润,隨后出現(xiàn)的幾起案子及舍,更是在濱河造成了極大的恐慌,老刑警劉巖窟绷,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锯玛,死亡現(xiàn)場離奇詭異,居然都是意外死亡钾麸,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進(jìn)店門炕桨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來饭尝,“玉大人,你說我怎么就攤上這事献宫≡科剑” “怎么了?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵姊途,是天一觀的道長涉瘾。 經(jīng)常有香客問我,道長捷兰,這世上最難降的妖魔是什么立叛? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮贡茅,結(jié)果婚禮上秘蛇,老公的妹妹穿的比我還像新娘。我一直安慰自己顶考,他們只是感情好赁还,可當(dāng)我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著驹沿,像睡著了一般艘策。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上渊季,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天朋蔫,我揣著相機(jī)與錄音,去河邊找鬼却汉。 笑死斑举,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的病涨。 我是一名探鬼主播富玷,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了赎懦?” 一聲冷哼從身側(cè)響起雀鹃,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎励两,沒想到半個月后黎茎,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡当悔,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年傅瞻,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盲憎。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡嗅骄,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出饼疙,到底是詐尸還是另有隱情溺森,我是刑警寧澤,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布窑眯,位于F島的核電站屏积,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏磅甩。R本人自食惡果不足惜炊林,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望卷要。 院中可真熱鬧铛铁,春花似錦、人聲如沸却妨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽彪标。三九已至倍权,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間捞烟,已是汗流浹背薄声。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留题画,地道東北人默辨。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像苍息,于是被迫代替她去往敵國和親缩幸。 傳聞我的和親對象是個殘疾皇子壹置,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內(nèi)容