文章名稱
【KDD-2020】【Netflix/Spotify】Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions
核心要點(diǎn)
文章旨在流式推薦系統(tǒng)中,準(zhǔn)確對(duì)序列推薦模型的好壞進(jìn)行離線評(píng)估的問題邀窃,以及如何改進(jìn)現(xiàn)有序列推薦模型。現(xiàn)有方法要么具有較大的方差(主要是數(shù)據(jù)稀疏造成的)要么需要遵循過強(qiáng)的獨(dú)立性假設(shè)窑业。作者提出RIPS醉旦,基于圖相關(guān)的因果關(guān)系假設(shè),以近似估計(jì)目標(biāo)策略下,頁面期望收益總和的方式宪祥,來加權(quán)歷史訓(xùn)練樣本的收益進(jìn)行模型訓(xùn)練志鞍。這種做法瞭亮,使得序列推薦模型具有較低的方差,并且允許序列中的物品受到順序交互的固棚。同時(shí)统翩,該方法是漸進(jìn)無偏的。
方法細(xì)節(jié)
問題引入
快速迭代的推薦模型需要準(zhǔn)確的評(píng)估此洲,AB實(shí)驗(yàn)這一目標(biāo)的金律厂汗,但是AB實(shí)驗(yàn)是很耗費(fèi)資源的。因此呜师,利用離線評(píng)估(offline evaluation)選出有效的模型,進(jìn)行線上實(shí)驗(yàn)變得至關(guān)重要娶桦。由于日志數(shù)據(jù)受到生產(chǎn)環(huán)境模型的影響,具有顯著的曝光偏差汁汗,這給離線評(píng)估帶來了巨大的挑戰(zhàn)衷畦。
IPS方法利用反事實(shí)的概念,利用生產(chǎn)策略的數(shù)據(jù)來評(píng)估目標(biāo)策略知牌。簡(jiǎn)單的說霎匈,是利用線上收益的加權(quán)平均來近似估計(jì)目標(biāo)策略的平均收益。權(quán)重是給定狀態(tài)下目標(biāo)策略與線上策略的比值(的函數(shù))送爸。在狀態(tài)空間和動(dòng)作空間(causal里一般是treatment)比較大的情況下铛嘱,IPS方法具有較高的方差的,模型穩(wěn)定性較差袭厂,效果會(huì)受到影響墨吓。雖然忽略序列推薦列表中物品之間交互影響,可以減少方差纹磺,但會(huì)引入偏差帖烘。此外,序列推薦列表中橄杨,物品的交互影響很有可能對(duì)實(shí)際收益起到?jīng)Q定性的作用秘症。例如,推薦播放列表中排名靠前的歌如果吸引了用戶式矫,將有極大可能降低列表中后面歌曲的跳過率乡摹。
具體做法
在介紹具體方法之前,首先形式化的定義Slate Recommendation(和序列推薦不同采转,并不是基于之前的流水按順序推薦下一個(gè)聪廉,而是一次推薦一個(gè)slate瞬痘,即一個(gè)版面),
分別表示線上和目標(biāo)流式推薦模型板熊。
分別表示給定的用戶上下文以及一次流式推薦結(jié)果的整體收益框全,而
表示推薦列表中一個(gè)物品得到的收益(注意,這個(gè)收益只是觀測(cè)到的收益的體現(xiàn)干签,例如購買津辩、點(diǎn)擊等,其對(duì)整個(gè)收益的影響并沒有通過這個(gè)體現(xiàn))容劳,對(duì)應(yīng)的推薦物品(或者叫動(dòng)作)記作
丹泉。
是一個(gè)slate集合的大小(作者提到鸭蛙,該大小可以在不同slate之間不同摹恨,為了簡(jiǎn)單,作者不失一般性的假設(shè)所有
相同)娶视。
- 整個(gè)slate推薦的結(jié)果集合可以表示為
晒哄。
- 在整個(gè)session中,可能總共有
次slate推薦的結(jié)果被返回肪获,其中
分別對(duì)應(yīng)了第
次slate推薦的上下文寝凌,推薦結(jié)果集以及整體收益。
- slate推薦模型的離線評(píng)估方法孝赫,主要是利用日志數(shù)據(jù)较木,估計(jì)目標(biāo)模型
的每次slate推薦結(jié)果的收益,即估計(jì)
青柄。
值得注意的是伐债,作者并沒有假設(shè)每一個(gè)物品或者說動(dòng)作之間的收益是獨(dú)立的。
IPS
在具體介紹RIPS方法之前致开,作者對(duì)slate推薦場(chǎng)景下的IPS方法進(jìn)行了形式化定義峰锁,并回顧了該場(chǎng)景下IPS方法的局限性。
IPS方法(從offline policy evaluation的角度)是基于重要性采樣的原理双戳,對(duì)線上模型的日志數(shù)據(jù)中的收益進(jìn)行加權(quán)虹蒋,來估計(jì)同樣場(chǎng)景下目標(biāo)模型的收益,具體的加權(quán)方法如下圖所示飒货。
其中魄衅,各變量服從如下圖所示的分布,可以看到是在給定上下文
的情況下塘辅,推薦模型返回的推薦結(jié)果晃虫,服從于是一個(gè)條件概率,即推薦模型
莫辨。類似的
也服從一個(gè)條件概率
傲茄,但這個(gè)條件概率是未知的毅访,同樣
也是未知的(事實(shí)上每個(gè)條件概率就是需要建模的對(duì)象之一沮榜,可以是神經(jīng)網(wǎng)絡(luò)等模型)盘榨。
在slate推薦的場(chǎng)景下,作者在causal graph上建模條件概率蟆融,來刻畫slate推薦結(jié)果中草巡,物品收益的交互影響。
同時(shí)型酥,注意在slate場(chǎng)景下山憨,SUTVA[1](stable unit treatment value assumption)是不能滿足的,一個(gè)slate下的各個(gè)位置的物品選取是互相影響的弥喉。如前所述郁竟,雖然可以把每個(gè)slate看一個(gè)action(或者說treatment)。但是由境,高維系數(shù)的treatment1空間會(huì)帶來更大的方差棚亩。
本節(jié)介紹了slate推薦場(chǎng)景下離線評(píng)估目標(biāo)模型的背景和挑戰(zhàn),并介紹了作者在該場(chǎng)景下對(duì)IPS方法的定義虏杰。下一節(jié)繼續(xù)介紹如何解決IPS存在的問題讥蟆。
心得體會(huì)
Slate Recommendation
當(dāng)前推薦物品的布局和推薦方式五花八門。在單物品流式推薦場(chǎng)景下纺阔,用戶一個(gè)接一個(gè)的接受推薦的結(jié)果瘸彤,并作出反饋。此時(shí)笛钝,推薦模型可以是online Recommendation质况,也可以是sequential Recommendation。不過玻靡,該場(chǎng)景也可能一次返回一個(gè)slate拯杠,只是用戶看不到。個(gè)人感覺啃奴,這種同一次展示多個(gè)結(jié)果的推薦模型類似潭陪,無論單列還是雙列,還是類似搜索引擎結(jié)果也的推薦最蕾,返回的都是一個(gè)slate依溯。通常情況下用L2R優(yōu)化。但是現(xiàn)金的許多推薦模型瘟则,過渡到更高級(jí)的“l(fā)ist-wise“黎炉,也就是slate Recommendation。不過本質(zhì)上醋拧,都是為了解決如何返回一個(gè)好的結(jié)果集合的問題慷嗜。
文章引用
[1] G. W. Imbens and D. B. Rubin. Causal inference in statistics, social, and biomedical sciences. Cambridge University Press, 2015.