因果推斷推薦系統(tǒng)工具箱 - Deconfounded Recommendation（一）

文章名稱

【RecSys-2020】【University of Tuebingen】Causal Inference for Recommender Systems

核心要點

文章旨在利用因果推斷的框架提高推薦系統(tǒng)效率泌辫，只推薦被曝光后用戶才會看的電影，而非曝光不曝光都會被觀看的電影，也就是所謂的觀看提升量。同時晤愧，利用因果推斷的框架解決推薦模型經(jīng)常遇到的混淆變量的問題北专。

方法細節(jié)

問題引入

作者認為，推薦模型天生應該是因果的琴许。推薦模型應該推薦那些不推薦用戶就不會看的電影聋涨。此時晾浴，一般模型會遇到混淆變量的影響，而無法直接從觀測數(shù)據(jù)中有效的估計出因果效應牍白〖够耍基于因果推斷的理論，需要我們觀測到所有混淆變量茂腥，才能準確反應因果效應[19]狸涌，但是我們無法確認是否觀測了所有混混淆變量[8]。

具體做法

作者提出deconfounded recommender最岗，一種嘗試糾正經(jīng)典矩陣分解以解決未觀察到的混雜問題的方法帕胆。首先，形式化的定義一下問題般渡，

用戶是否被曝光了電影懒豹，記作 $a_{ui}$ 芙盘，可以被認為是treatment。

用戶和物品的嵌入表示脸秽，分別記作 $\theta_u, \beta_i$ 儒老。

用戶對物品的反饋可以被形式化為 $y_{ui}$ ，兩個potential outcome记餐， $y_{ui}(1), y_{ui}(0)$ 驮樊，分別表示被曝光（be made to watch）和沒有被曝光情況下的用戶反饋。

作者用如下圖所示的建模上述outcome片酝，其中 $a$ 表示treatment巩剖。該公式表示，當 $a=1$ 時钠怯，模型假設用戶的反饋服從正態(tài)分布，均值是用戶和物品表示的內積（模型是矩陣分解的架構）曙聂；而 $a=0$ 是晦炊，模型的均值是0。

outcome model

如果直接擬合觀測數(shù)據(jù)宁脊，上述模型退化為傳統(tǒng)的probabilistic matrix factorization[17]断国。這種情況下，模型只考慮觀測到的點擊數(shù)據(jù)榆苞，忽略了未暴露的物品稳衬。

作者認為，從因果推斷的角度坐漏，如果要無偏估計 $y_{ui}(1)$ 薄疚，需要滿足如下圖所示的ignorability的假設。

ignorability

其中赊琳， $\boldsymbol{0}, \boldsymbol{1}, \boldsymbol{a_u}$ 分別是在建立在所有物品上的曝光（把所有物品上的曝光或者不曝光作為treatment街夭，是一個0/1的向量），其形式如下圖所示躏筏。

treatment in vector

顯然板丽，要求 $\boldsymbol{a_u}$ 獨立于 $y_{ui}(1), y_{ui}(0)$ 是不合理的，因為趁尼，如地域和題材等混淆變量埃碱，會被推薦模型利用，一定會影響電影的曝光酥泞，也會影響用戶對它們的評分砚殿。

因此，用戶的偏好 $\theta_u$ 通常會被錯誤的估計芝囤。此時瓮具，需要我們控制confounder[18, 21]荧飞。假設，confounder為 $w_u$ 名党，unconfounderness的假設可以表述如下叹阔，

unconfounderness

此時，潛在因果的估計模型如下圖所示传睹，其中 $\epsilon_{ui} \sim \mathcal{N}(0, \sigma^2)$ 耳幢。

outcome model with confounder

但是，上述條件要求所有confounder都被觀測到欧啤，被稱為strong ignorability睛藻，通常是不可測量的[8]。

deconfounded recommender

作者通過建模曝光數(shù)據(jù)邢隧，來帶代替未觀測的混淆變量（因為曝光是與無觀測的混淆變量相關店印，是他們的一種可觀測表現(xiàn)）。作者表示倒慧，從causal inference的角度看按摘，推薦系統(tǒng)是一個multiple treatment的問題，每一個用戶-物品元組的曝光 $a_{ui}$ 是一個treatment纫谅，而所有物品上的曝光被看做是一個treatment向量炫贤， $\boldsymbol{y}_{u}(1)$ 才是真正的outcome，當然也是個向量付秕。但是對所有物品的曝光是個組合問題兰珍，導致只能觀測到部分組合，并且不知道哪些因素實際影響了這個組合询吴，所以存在未觀測變量掠河。

基于建模曝光的思想，作者把deconfounded recommender分為兩個步驟猛计，

建模曝光數(shù)據(jù)口柳。作者利用Poisson factorization[5]來建模曝光數(shù)據(jù)，Poisson factorization假設數(shù)據(jù)來源于泊松分布有滑，具體公式如下圖所示跃闹，其中 $\pi_u, \gamma_i$ 是非負的 $K$ 維向量，分別表示用戶偏好和物品特性毛好。作者表示望艺，PF是非負矩陣分解的變種。

PF Process assumption

重新估計曝光肌访。利用訓練好的PF模型替換未觀測的混淆變量找默，可重建曝光矩陣 $\hat{a}_{ui} = \mathbb{E}_{PF}[\pi_u\top\lambda_i|\boldsymbol{a}]$ 。其中吼驶，其中\(zhòng)boldsymbol{a}是觀察到的所有用戶的曝光惩激。值得注意的是店煞，期望在PF模型估計的所有曝光 $a_{ui}$ 上計算。并且后驗均值 $\pi_u\top\lambda_i$ 被當做confounder的替換值[26]风钻。

計算outcome顷蟀。最后，利用如下圖所示的公式骡技，基于重新估計的曝光矩陣 $\hat{a}$ （包括了替換后的confounder的影響）來計算outcome（點擊）鸣个。其中，系數(shù) $γ_u$ 用來調節(jié) $\hat{a}$ 對outcome的影響程度布朦。**值得注意的是囤萤，參數(shù) $γ_u$ 在在實際觀測到的點擊數(shù)據(jù) $a_{ui}$ 上（或評分）和未點擊的數(shù)據(jù)上共同訓練，而除了參數(shù) $γ_u$ 以外的其他參數(shù)只在實際觀測到的點擊數(shù)據(jù)上訓練（未點擊的數(shù)據(jù)意味著 $a_{ui}=0, \hat{a} \simeq 0$ ）是趴。預測時涛舍，利用 $y_{ui}(1)$ 作為預估的點擊（或評分）。

predict outcome

本節(jié)講解了作者研究的問題背景唆途，同時描述了解決方法的流程細節(jié)富雅。下一節(jié)繼續(xù)介紹方法的理論分析。

心得體會

觀看提升量

作者期望最大化的窘哈，其實是電影被觀看的概率。從這個角度定義的出發(fā)亭敢，計算提升量滚婉。提升是由于推薦這個動作帶來的。事實上帅刀，一個電影是否被觀看以及提升让腹，真的能帶來全局最優(yōu)么？我們把所有提升量最高的電影推薦給了用戶扣溺，但是占用了用戶的觀看時長骇窍，可能用戶不喜歡最終效果會下降。反而是那些用戶自己也會搜的锥余，但是有一時想不起來的更反應用戶喜好腹纳？

也許從作者的角度，提升代表了給用戶帶來新鮮感或者被推薦的體驗感驱犹，因此增加用戶粘性提升平臺收入嘲恍。而不僅僅是為了符合因果推斷的框架而已。

未觀測變量

個人理解雄驹，不管是single treatment還是multiple treatment佃牛，未觀測變量出現(xiàn)的根本原因是不可控的和未知的環(huán)節(jié)，比如推薦的工程鏈路医舆，模型的異常俘侠，未考慮到的case象缀，還有那些不可能被電腦記錄的人的情緒等。unmearued confounder處處存在爷速。

文章引用

[5] Prem Gopalan, Jake M Hofman, and David M Blei. 2015. Scalable Recommenda- tion with Hierarchical Poisson Factorization.. In UAI. 326–335.

[8] Paul W Holland, Clark Glymour, and Clive Granger. 1985. Statistics and causal inference. ETS Research Report Series 1985, 2 (1985).

[17] Andriy Mnih and Ruslan R Salakhutdinov. 2008. Probabilistic matrix factorization. In Advances in neural information processing systems. 1257–1264.

[18] Judea Pearl. 2009. Causality. Cambridge University Press.

[19] Paul R Rosenbaum and Donald B Rubin. 1983. The central role of the propensity score in observational studies for causal effects. Biometrika 70, 1 (1983), 41–55.

[21] Donald B Rubin. 2005. Causal inference using potential outcomes: Design, modeling, decisions. J. Amer. Statist. Assoc. 100, 469 (2005), 322–331.

[26] Yixin Wang and David M Blei. 2018. The blessings of multiple causes. arXiv preprint arXiv:1805.06826 (2018).

最后編輯于：2022.01.12 13:17:25

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

禁止轉載央星，如需轉載請通過簡信或評論聯(lián)系作者。

人面猴
序言：七十年代末遍希，一起剝皮案震驚了整個濱河市等曼，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌凿蒜，老刑警劉巖禁谦，帶你破解...
沈念sama閱讀 217,277評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異废封，居然都是意外死亡州泊，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門漂洋，熙熙樓的掌柜王于貴愁眉苦臉地迎上來遥皂，“玉大人，你說我怎么就攤上這事刽漂⊙菅担” “怎么了？”我有些...
開封第一講書人閱讀 163,624評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵贝咙，是天一觀的道長样悟。經(jīng)常有香客問我，道長庭猩，這世上最難降的妖魔是什么窟她？我笑而不...
開封第一講書人閱讀 58,356評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮蔼水，結果婚禮上震糖，老公的妹妹穿的比我還像新娘。我一直安慰自己趴腋，他們只是感情好吊说，可當我...
茶點故事閱讀 67,402評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著优炬，像睡著了一般疏叨。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上穿剖，一...
開封第一講書人閱讀 51,292評論 1贊 301
城市分裂傳說
那天蚤蔓，我揣著相機與錄音，去河邊找鬼糊余。笑死秀又，一個胖子當著我的面吹牛单寂，可吹牛的內容都是我干的。我是一名探鬼主播吐辙，決...
沈念sama閱讀 40,135評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼宣决，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了昏苏？” 一聲冷哼從身側響起尊沸，我...
開封第一講書人閱讀 38,992評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎贤惯，沒想到半個月后洼专，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,429評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡孵构，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,636評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年屁商，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片颈墅。...
茶點故事閱讀 39,785評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蜡镶，死狀恐怖，靈堂內的尸體忽然破棺而出恤筛，到底是詐尸還是另有隱情官还，我是刑警寧澤，帶...
沈念sama閱讀 35,492評論 5贊 345
?日本核電站爆炸內幕
正文年R本政府宣布毒坛，位于F島的核電站望伦，受9級特大地震影響，放射性物質發(fā)生泄漏粘驰。R本人自食惡果不足惜屡谐，卻給世界環(huán)境...
茶點故事閱讀 41,092評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一述么、第九天我趴在偏房一處隱蔽的房頂上張望蝌数。院中可真熱鬧，春花似錦度秘、人聲如沸顶伞。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,723評論 0贊 22
一樁弒父案剑梳，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽唆貌。三九已至，卻和暖如春垢乙，著一層夾襖步出監(jiān)牢的瞬間锨咙，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,858評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工追逮，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留酪刀，地道東北人粹舵。一個月前我還...
沈念sama閱讀 47,891評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像骂倘，于是被迫代替她去往敵國和親眼滤。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,713評論 2贊 354