[2019 ICLR] List-CVAE

Beyond Greedy Ranking: Slate Optimization via List-CVAE

作者：Ray Jiang^? Sven Gowal^? Yuqiu Qian^? Timothy A. Mann^? Danilo J. Rezende^?
機(jī)構(gòu)：^?Google DeepMind, London, UK.
???^?The University of Hong Kong
地址：[1803.01682] Beyond Greedy Ranking: Slate Optimization via List-CVAE (arxiv.org)
代碼（參考）：https://github.com/ferendo/RecommendationSystem

推薦問題的傳統(tǒng)解決方案是貪婪地根據(jù)預(yù)測分?jǐn)?shù)對各個候選item進(jìn)行排序腰湾。然而雷恃，這種方法無法將推薦列表（slate）作為一個整體來實現(xiàn)推薦，因此费坊，經(jīng)常難以捕獲由頁面布局和item交互造成的偏差倒槐。列表推薦的目的是直接找到最符合用戶需要的最優(yōu)物品序列子集（slate）。解決這個問題是困難的附井，因為考慮所有候選item的組合及其在頁面上的顯示位置將會出現(xiàn)組合爆炸問題讨越。因此两残，本文提出了一個新的研究范式，將傳統(tǒng)的解決ranking問題轉(zhuǎn)換為設(shè)計直接生成slate的框架把跨。本文提出List Conditional Variational Auto-Encoders（List-CVAE）框架人弓，學(xué)習(xí)條件在用戶反饋上的item序列聯(lián)合分布，并直接生成完整的slate着逐。

Introduction

目前崔赌，IT產(chǎn)業(yè)的大規(guī)模推薦問題通常遵循“召回-排序”兩步過程。召回層從數(shù)百萬計的物品集中篩選出百級的候選物品（candidates）耸别，而后排序?qū)宇A(yù)測用戶與各物品的交互概率并基于預(yù)測得分進(jìn)行排序峰鄙。
然而，這兩步過程存在如下問題：

候選召回模型和排序模型不是聯(lián)合訓(xùn)練的太雨，可能導(dǎo)致排序得分高的物品在召回階段被遺漏吟榴。
貪心的排序方法可能會導(dǎo)致各種由列表和上下文的視覺展示而引發(fā)的偏差，包括位置偏差（positional bias）囊扳、上下文偏差（contextual bias）等吩翻。

[Yue et al., 2010] 研究了列表視覺偏差。

因此锥咸，本文將排序視角的研究范式轉(zhuǎn)化為直觀的列表生成框架（slate generation framework）狭瞎，考慮列表的整體優(yōu)化，例如生成一個符合用戶偏好的歌單搏予、新聞列表等熊锭。

本文貢獻(xiàn)：

首次提出直接生成推薦列表的條件生成建模框架雪侥，且本框架具有較好的可推廣性碗殷。

在List-CVAE框架中，使用通過負(fù)降采樣的k-head softmax層進(jìn)行預(yù)訓(xùn)練的物品embedding速缨，以實現(xiàn)大規(guī)模處理锌妻。

Related Work

Figure 1: Comparison of related variants of VAE models.

Method

Notation

物品集 $\mathcal{D}$ ，推薦列表長度 $k$
用戶反饋向量 $\mathbf{r} = (r_1, r_2, . . . r_k)$ 旬牲，其中 $r_i\in\mathcal{R}$ 表示用戶對物品 $d_i$ 的反饋仿粹。
e.g. 在CTR預(yù)測任務(wù)中， $r_i\in\{0,1\}$ 表示物品是否被點擊原茅，則最優(yōu)列表 $\mathbf{s} = (d_1, d_2, . . . d_k), d_i\in\mathcal{D}$ 應(yīng)滿足 $\mathbb{E}[\sum^k_{i=1}r_i]$ 最大化吭历。

Variational Auto-Encoders 變分自編碼器

VAEs是一種隱變量模型，定義觀測變量 $x$ 與隱變量 $z$ 的聯(lián)合密度分布為 $P_\theta(x,z)$ 擂橘。訓(xùn)練時需要通過邊際化（[深度學(xué)習(xí)] 什么是marginalization_語言模型 marginalization-CSDN博客）隱變量 $z$ 來實現(xiàn)最大化數(shù)據(jù)似然 $P_\theta(x)=\int P_\theta(x,z) dz$ 晌区。但這一目標(biāo)無法被直接估計，因此考慮采用變分估計方法（variational approximation），引入變分后驗概率 $Q_\phi(z|x)$ 契讲，優(yōu)化數(shù)據(jù)似然的變分下界（variational Evidence Lower-Bound，ELBO）：

(1), (2)

其中

\mathrm{KL}

表示KL散度（Kullback–Leibler divergence）滑频，

P_\theta(x,z)

表示隱變量先驗分布捡偏。
而在Conditional-VAE中，將分布P和Q延伸為條件在

c

上的概率分布

P_\theta(x,z|c)

和

Q_\phi(z|x,c)

峡迷，對應(yīng)的變分損失為：

(3)

Model

假設(shè)列表 $\mathbf{s} = (d_1, d_2, . . . d_k)$ 與用戶反饋 $r$ 來自于聯(lián)合空間 $\mathbb{P}_{\mathcal{D}^k×\mathcal{R}^k}$ 银伟。通過CVAE，本文建模條件在用戶反饋 $\mathbf{r}$ 上的物品聯(lián)合分布 $\mathbb{P}(d_1, d_2, . . . d_k|\mathbf{r})$ 绘搞；在inference階段彤避，使用List-CVAE在理想條件 $\mathbf{r}^*$ 下生成最優(yōu)的推薦列表。

模型框架

Figure 2: Structure of List-CVAE for both (a) training and (b) inference.

優(yōu)化目標(biāo)“optimality”

定義映射 $\Phi : \mathcal{R}^k→\mathcal{C}$ 表示將用戶反饋映射到條件空間 $\mathcal{C}$ 中夯辖，對應(yīng)的條件向量則表示我們希望優(yōu)化的用戶交互度量（user engagement）琉预。例如，若需最大化列表點擊率蒿褂，則條件可定義為 $\mathbf{c}=\Phi (\mathbf{r}) := \sum^k_{i=0}r_i$ 圆米，則在inference階段，理想的用戶反饋向量 $\mathbf{r}^*=(1,1,…,1)$ 對應(yīng)的條件為 $\mathbf{c}^*=\Phi (\mathbf{r}^*) := \sum^k_{i=0}1=k$

隱變量分布

本模型中啄栓， $P_\theta(\mathbf{s|z,c})$ 建模每個物品在隱變量 $\mathbf{z}$ 上的獨立概率娄帖，意味著列表中的物品僅在 $\mathbf{z}$ 條件下獨立。雖然通過decoder能夠容易地表征 $P_\theta(\mathbf{s|z,c})$ 昙楚，但實際上的邊際概率 $P_\theta(\mathbf{s|c})=\int_z P_\theta(\mathbf{s},\mathbf{z}|\mathbf{c}) P_\theta(\mathbf{z}|\mathbf{c}) d\mathbf{z}$ 可能是非常復(fù)雜的近速。

當(dāng)encoder將列表s編碼到隱空間時，其學(xué)習(xí)了k個物品按照固定順序的聯(lián)合分布堪旧，因此也已經(jīng)在隱變量 $\mathbf{z}$ 中學(xué)到了列表上下文和位置引起的偏差影響削葱，而decoder則從隱變量 $\mathbf{z}$ 中重建輸入列表，因此淳梦，inference階段使用隱變量 $\mathbf{z}$ 基于理想條件構(gòu)建推薦列表佩耳，可以兼顧列表中的各種偏差。

為進(jìn)一步揭示隱空間信息谭跨，我們將 $z$ 的隱分布縮放到二維標(biāo)準(zhǔn)高斯分布 $\mathcal{N} ( \mathbf{0}, \mathbf{I}), \mathbb{R}^2$ 干厚，如圖為壓縮后的預(yù)測先驗分布，意味著隨著訓(xùn)練輪次的增加螃宙，隱空間中任意采樣生成高反饋列表的比例越來越大蛮瞄。

Figure 3: Predictive prior distribution of the latent variable z conditioned on ideal user response c* = (1, 1, . . . , 1).

k-head softmax

考慮到物品數(shù)量級龐大，使用一個標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)或自編碼器在建模用戶反饋預(yù)測將物品表征降到低維谆扎。定義映射 $\Psi : \mathcal{D}→\mathbb{S}^{q-1}$ 挂捅，其中 $\mathbb{S}^{q-1}$ 表示 $\mathbb{R}^q$ 的單位向量。 $\Psi$ 通過一個預(yù)測用戶反饋的標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)或自編碼器進(jìn)行訓(xùn)練堂湖。對于列表中的第 $i$ 個物品闲先，模型產(chǎn)生一個 $\mathbb{R}^q$ 中的向量 $\mathbf{x}_i$ 并通過點乘映射到物品集 $\mathcal{D}$ 中状土，產(chǎn)生 $k$ 個softmax的對數(shù)向量，即k-head softmax伺糠。

Training 階段

損失函數(shù)如下蒙谓，其中 $\beta$ 為訓(xùn)練輪次的函數(shù)。

(4)

Inference 階段

從先驗分布 $\mathcal{N}(\mu^*,\sigma^*)$ 中采樣隱變量 $\mathbf{z}$ 训桶，同理想條件 $\mathbf{c}^*=\Phi (\mathbf{r}^*)$ 拼接后累驮，通過decoder從 $P_\theta(\mathbf{s}|\mathbf{z},\mathbf{c}^*)$ 中生成 $(\mathbf{x}_1,…,\mathbf{x}_k)$ ，最終通過 $\mathrm{arg max}$ 得到列表每個位置的對應(yīng)結(jié)果舵揭。

Experiments

Setup

理想條件取 $\mathbf{c}^*=(1,1,…,1)$ .

Metric

由于需考慮整個列表的效能谤专，NDCG等指標(biāo)不適用，因此自定義指標(biāo) $\mathbb{E}[\sum^k_{i=1}r_i]$ 考慮列表上發(fā)生的點擊總數(shù)午绳。

(6)

Small-scale experiment (訓(xùn)練樣本量 $n = [100, 1000], k = 10$ ):

結(jié)論：雖然List-CVAE在10次點擊預(yù)測中不能達(dá)到的完美性能置侍，但只需數(shù)步訓(xùn)練就可以優(yōu)于其他所有的ranking baselines。

Figure 4: Small-scale experiments.

Medium-scale experiment (訓(xùn)練樣本量 $n = 100,00 , k = 10$ ):

數(shù)據(jù)集：RecSys 2015 YOOCHOOSE Challenge (Ben-Shimon et al., 2015)
樣本構(gòu)造：用戶反饋向量中拦焚，0表示點擊墅垮，1表示(點擊后)購買。樣本集的用戶反饋分布如圖5(a)所示耕漱。
結(jié)論：outperform within 500 steps.

Figure 5: Real data experiments on medium-scale dataset.

Large-scale experiment (訓(xùn)練樣本量 $n = \mathrm{1 million, 2 millions} , k = 10$ ):

數(shù)據(jù)集：在RecSys 2015 YOOCHOOSE Challenge的基礎(chǔ)上算色，對物品集增加隨機(jī)噪聲 $\mathcal{N} ( \mathbf{0}, 10^{-2}·\mathbf{I})$ 實現(xiàn)數(shù)據(jù)擴(kuò)充，并通過用戶反饋預(yù)測模型生成每個物品的label螟够。
結(jié)論： steadily outperforms.

[Figure 6: Real data experiments on large-scale dataset.]

Generalization test

描述：現(xiàn)實場景中灾梦，close-to-optimal（高用戶反饋）的推薦列表通常非常稀少，將會限制訓(xùn)練效果妓笙。
實驗設(shè)計：定義比率變量 $h$ 對訓(xùn)練樣本的高用戶反饋樣本進(jìn)行削減若河，即 $\sum^k_{i=1}r_i>hk, h=80\%,60\%,40\%,20\%$ 。 $h$ 越低寞宫，則樣本中包含的用戶反饋越少萧福。
結(jié)論：（1）當(dāng)樣本集中去除了包含5次、或包含4-5次購買的列表時辈赋，List-CVAE的表現(xiàn)仍然較好鲫忍。（2）當(dāng)樣本集中包含0-2次購買的列表時，List-CVAE在1000輪訓(xùn)練后表現(xiàn)較好钥屈。（3）當(dāng)樣本集中僅包含0次或0-1次購買的列表時悟民，MLP類模型可能獲得更好的訓(xùn)練效果。

Figure 7: Generalization test on List-CVAE.

參考價值

CVAE篷就，條件變量 $\mathrm{c}$ 使VAE的生成結(jié)果可控射亏。
對隱變量空間深層含義的刻畫（Figure 3）。

最后編輯于：2024.01.26 14:04:38

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市智润，隨后出現(xiàn)的幾起案子及舍，更是在濱河造成了極大的恐慌，老刑警劉巖窟绷，帶你破解...
沈念sama閱讀 221,888評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件锯玛，死亡現(xiàn)場離奇詭異，居然都是意外死亡钾麸，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,677評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門炕桨，熙熙樓的掌柜王于貴愁眉苦臉地迎上來饭尝，“玉大人，你說我怎么就攤上這事献宫≡科剑” “怎么了？”我有些...
開封第一講書人閱讀 168,386評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵姊途，是天一觀的道長涉瘾。經(jīng)常有香客問我，道長捷兰，這世上最難降的妖魔是什么立叛？我笑而不...
開封第一講書人閱讀 59,726評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮贡茅，結(jié)果婚禮上秘蛇，老公的妹妹穿的比我還像新娘。我一直安慰自己顶考，他們只是感情好赁还，可當(dāng)我...
茶點故事閱讀 68,729評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著驹沿，像睡著了一般艘策。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上渊季，一...
開封第一講書人閱讀 52,337評論 1贊 310
城市分裂傳說
那天朋蔫，我揣著相機(jī)與錄音，去河邊找鬼却汉。笑死斑举，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的病涨。我是一名探鬼主播富玷，決...
沈念sama閱讀 40,902評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了赎懦？” 一聲冷哼從身側(cè)響起雀鹃，我...
開封第一講書人閱讀 39,807評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎励两，沒想到半個月后黎茎，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,349評論 1贊 318
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡当悔，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,439評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年傅瞻，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盲憎。...
茶點故事閱讀 40,567評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡嗅骄，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出饼疙，到底是詐尸還是另有隱情溺森，我是刑警寧澤，帶...
沈念sama閱讀 36,242評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布窑眯，位于F島的核電站屏积，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏磅甩。R本人自食惡果不足惜炊林，卻給世界環(huán)境...
茶點故事閱讀 41,933評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望卷要。院中可真熱鬧铛铁，春花似錦、人聲如沸却妨。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,420評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽彪标。三九已至倍权，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間捞烟，已是汗流浹背薄声。一陣腳步聲響...
開封第一講書人閱讀 33,531評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留题画，地道東北人默辨。一個月前我還...
沈念sama閱讀 48,995評論 3贊 377
代替公主和親
正文我出身青樓，卻偏偏與公主長得像苍息，于是被迫代替她去往敵國和親缩幸。傳聞我的和親對象是個殘疾皇子壹置，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,585評論 2贊 359