因果推斷推薦系統(tǒng)工具箱 - RIPS(一)

文章名稱

【KDD-2020】【Netflix/Spotify】Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions

核心要點(diǎn)

文章旨在流式推薦系統(tǒng)中,準(zhǔn)確對(duì)序列推薦模型的好壞進(jìn)行離線評(píng)估的問題邀窃,以及如何改進(jìn)現(xiàn)有序列推薦模型。現(xiàn)有方法要么具有較大的方差(主要是數(shù)據(jù)稀疏造成的)要么需要遵循過強(qiáng)的獨(dú)立性假設(shè)窑业。作者提出RIPS醉旦,基于圖相關(guān)的因果關(guān)系假設(shè),以近似估計(jì)目標(biāo)策略下,頁面期望收益總和的方式宪祥,來加權(quán)歷史訓(xùn)練樣本的收益進(jìn)行模型訓(xùn)練志鞍。這種做法瞭亮,使得序列推薦模型具有較低的方差,并且允許序列中的物品受到順序交互的固棚。同時(shí)统翩,該方法是漸進(jìn)無偏的。

方法細(xì)節(jié)

問題引入

快速迭代的推薦模型需要準(zhǔn)確的評(píng)估此洲,AB實(shí)驗(yàn)這一目標(biāo)的金律厂汗,但是AB實(shí)驗(yàn)是很耗費(fèi)資源的。因此呜师,利用離線評(píng)估(offline evaluation)選出有效的模型,進(jìn)行線上實(shí)驗(yàn)變得至關(guān)重要娶桦。由于日志數(shù)據(jù)受到生產(chǎn)環(huán)境模型的影響,具有顯著的曝光偏差汁汗,這給離線評(píng)估帶來了巨大的挑戰(zhàn)衷畦。

IPS方法利用反事實(shí)的概念,利用生產(chǎn)策略的數(shù)據(jù)來評(píng)估目標(biāo)策略知牌。簡(jiǎn)單的說霎匈,是利用線上收益的加權(quán)平均來近似估計(jì)目標(biāo)策略的平均收益。權(quán)重是給定狀態(tài)下目標(biāo)策略與線上策略的比值(的函數(shù))送爸。在狀態(tài)空間和動(dòng)作空間(causal里一般是treatment)比較大的情況下铛嘱,IPS方法具有較高的方差的,模型穩(wěn)定性較差袭厂,效果會(huì)受到影響墨吓。雖然忽略序列推薦列表中物品之間交互影響,可以減少方差纹磺,但會(huì)引入偏差帖烘。此外,序列推薦列表中橄杨,物品的交互影響很有可能對(duì)實(shí)際收益起到?jīng)Q定性的作用秘症。例如,推薦播放列表中排名靠前的歌如果吸引了用戶式矫,將有極大可能降低列表中后面歌曲的跳過率乡摹。

具體做法

在介紹具體方法之前,首先形式化的定義Slate Recommendation(和序列推薦不同采转,并不是基于之前的流水按順序推薦下一個(gè)聪廉,而是一次推薦一個(gè)slate瞬痘,即一個(gè)版面),

  • \pi, h分別表示線上和目標(biāo)流式推薦模型板熊。
  • X, R = \sum_{k=1}^{K} R_k分別表示給定的用戶上下文以及一次流式推薦結(jié)果的整體收益框全,而R_k表示推薦列表中一個(gè)物品得到的收益(注意,這個(gè)收益只是觀測(cè)到的收益的體現(xiàn)干签,例如購買津辩、點(diǎn)擊等,其對(duì)整個(gè)收益的影響并沒有通過這個(gè)體現(xiàn))容劳,對(duì)應(yīng)的推薦物品(或者叫動(dòng)作)記作A_k丹泉。K是一個(gè)slate集合的大小(作者提到鸭蛙,該大小可以在不同slate之間不同摹恨,為了簡(jiǎn)單,作者不失一般性的假設(shè)所有K相同)娶视。
  • 整個(gè)slate推薦的結(jié)果集合可以表示為A_{1:K}晒哄。
  • 在整個(gè)session中,可能總共有N次slate推薦的結(jié)果被返回肪获,其中X^{(n)}, A^{(n)}, R^{(n)}分別對(duì)應(yīng)了第n次slate推薦的上下文寝凌,推薦結(jié)果集以及整體收益。
  • slate推薦模型的離線評(píng)估方法孝赫,主要是利用日志數(shù)據(jù)较木,估計(jì)目標(biāo)模型h的每次slate推薦結(jié)果的收益,即估計(jì)V(h) = \mathbb{E}[\sum_{k=1}^{K} R_k]青柄。

值得注意的是伐债,作者并沒有假設(shè)每一個(gè)物品或者說動(dòng)作A_k之間的收益是獨(dú)立的

IPS

在具體介紹RIPS方法之前致开,作者對(duì)slate推薦場(chǎng)景下的IPS方法進(jìn)行了形式化定義峰锁,并回顧了該場(chǎng)景下IPS方法的局限性。

IPS方法(從offline policy evaluation的角度)是基于重要性采樣的原理双戳,對(duì)線上模型的日志數(shù)據(jù)中的收益進(jìn)行加權(quán)虹蒋,來估計(jì)同樣場(chǎng)景下目標(biāo)模型的收益,具體的加權(quán)方法如下圖所示飒货。

IPS

其中魄衅,各變量服從如下圖所示的分布,可以看到A^{(n)}是在給定上下文X^{(n)}的情況下塘辅,推薦模型返回的推薦結(jié)果晃虫,服從于是一個(gè)條件概率,即推薦模型\pi(A|X^{(n)})莫辨。類似的R^{(n)}也服從一個(gè)條件概率[(R|X^{(n)}, A|X^{(n)})傲茄,但這個(gè)條件概率是未知的毅访,同樣p(X)也是未知的(事實(shí)上每個(gè)條件概率就是需要建模的對(duì)象之一沮榜,可以是神經(jīng)網(wǎng)絡(luò)等模型)盘榨。

random variable distribution

在slate推薦的場(chǎng)景下,作者在causal graph上建模條件概率蟆融,來刻畫slate推薦結(jié)果中草巡,物品收益的交互影響。

同時(shí)型酥,注意在slate場(chǎng)景下山憨,SUTVA[1](stable unit treatment value assumption)是不能滿足的,一個(gè)slate下的各個(gè)位置的物品選取是互相影響的弥喉。如前所述郁竟,雖然可以把每個(gè)slate看一個(gè)action(或者說treatment)。但是由境,高維系數(shù)的treatment1空間會(huì)帶來更大的方差棚亩。

本節(jié)介紹了slate推薦場(chǎng)景下離線評(píng)估目標(biāo)模型的背景和挑戰(zhàn),并介紹了作者在該場(chǎng)景下對(duì)IPS方法的定義虏杰。下一節(jié)繼續(xù)介紹如何解決IPS存在的問題讥蟆。

心得體會(huì)

Slate Recommendation

當(dāng)前推薦物品的布局和推薦方式五花八門。在單物品流式推薦場(chǎng)景下纺阔,用戶一個(gè)接一個(gè)的接受推薦的結(jié)果瘸彤,并作出反饋。此時(shí)笛钝,推薦模型可以是online Recommendation质况,也可以是sequential Recommendation。不過玻靡,該場(chǎng)景也可能一次返回一個(gè)slate拯杠,只是用戶看不到。個(gè)人感覺啃奴,這種同一次展示多個(gè)結(jié)果的推薦模型類似潭陪,無論單列還是雙列,還是類似搜索引擎結(jié)果也的推薦最蕾,返回的都是一個(gè)slate依溯。通常情況下用L2R優(yōu)化。但是現(xiàn)金的許多推薦模型瘟则,過渡到更高級(jí)的“l(fā)ist-wise“黎炉,也就是slate Recommendation。不過本質(zhì)上醋拧,都是為了解決如何返回一個(gè)好的結(jié)果集合的問題慷嗜。

文章引用

[1] G. W. Imbens and D. B. Rubin. Causal inference in statistics, social, and biomedical sciences. Cambridge University Press, 2015.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載淀弹,如需轉(zhuǎn)載請(qǐng)通過簡(jiǎn)信或評(píng)論聯(lián)系作者。
  • 序言:七十年代末庆械,一起剝皮案震驚了整個(gè)濱河市薇溃,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缭乘,老刑警劉巖沐序,帶你破解...
    沈念sama閱讀 222,000評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異堕绩,居然都是意外死亡策幼,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門奴紧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來特姐,“玉大人,你說我怎么就攤上這事黍氮√坪” “怎么了?”我有些...
    開封第一講書人閱讀 168,561評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵滤钱,是天一觀的道長(zhǎng)觉壶。 經(jīng)常有香客問我,道長(zhǎng)件缸,這世上最難降的妖魔是什么铜靶? 我笑而不...
    開封第一講書人閱讀 59,782評(píng)論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮他炊,結(jié)果婚禮上争剿,老公的妹妹穿的比我還像新娘。我一直安慰自己痊末,他們只是感情好蚕苇,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,798評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著凿叠,像睡著了一般涩笤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上盒件,一...
    開封第一講書人閱讀 52,394評(píng)論 1 310
  • 那天蹬碧,我揣著相機(jī)與錄音,去河邊找鬼炒刁。 笑死恩沽,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的翔始。 我是一名探鬼主播罗心,決...
    沈念sama閱讀 40,952評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼里伯,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了渤闷?” 一聲冷哼從身側(cè)響起疾瓮,我...
    開封第一講書人閱讀 39,852評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎肤晓,沒想到半個(gè)月后爷贫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體认然,經(jīng)...
    沈念sama閱讀 46,409評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡补憾,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,483評(píng)論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了卷员。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盈匾。...
    茶點(diǎn)故事閱讀 40,615評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖毕骡,靈堂內(nèi)的尸體忽然破棺而出削饵,到底是詐尸還是另有隱情,我是刑警寧澤未巫,帶...
    沈念sama閱讀 36,303評(píng)論 5 350
  • 正文 年R本政府宣布窿撬,位于F島的核電站,受9級(jí)特大地震影響叙凡,放射性物質(zhì)發(fā)生泄漏劈伴。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,979評(píng)論 3 334
  • 文/蒙蒙 一握爷、第九天 我趴在偏房一處隱蔽的房頂上張望跛璧。 院中可真熱鬧,春花似錦新啼、人聲如沸追城。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽座柱。三九已至,卻和暖如春物舒,著一層夾襖步出監(jiān)牢的瞬間色洞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工茶鉴, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留锋玲,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,041評(píng)論 3 377
  • 正文 我出身青樓涵叮,卻偏偏與公主長(zhǎng)得像惭蹂,于是被迫代替她去往敵國(guó)和親伞插。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,630評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容