因果推斷推薦系統(tǒng)工具箱 - CauSeR(一)

文章名稱

【CIKM-2021】【CS Research, New Delhi, India】CauSeR: Causal Session-based Recommendations for Handling Popularity Bias

核心要點

文章旨在解決Session-Based推薦場景下Popularity帶來的Bias對長尾物品推薦的影響熟空。流行物品的過渡曝光影響了長尾物品的曝光,并且這種偏差會在模型訓(xùn)練過程中不斷被放大视哑。作者認(rèn)為這種影響在1)數(shù)據(jù)收集阵面;2)魔性訓(xùn)練兩個階段都會有影響轻局。數(shù)據(jù)收集時的偏差源于Popularity帶來的Conformity Bias,而模型訓(xùn)練時的偏差來源于樣本不平衡導(dǎo)致的偏差(可以理解為傳統(tǒng)的Popularity Bias)样刷。不同于現(xiàn)有方法仑扑,作者考慮聯(lián)合解決兩種偏差。

方法細(xì)節(jié)

問題引入

如上所述颂斜,流行物品的過渡曝光造成了SRS(session-based RS)模型在學(xué)習(xí)預(yù)測時(分類時)面對的訓(xùn)練樣本是不平衡的夫壁,標(biāo)簽呈現(xiàn)長尾分布,因而會影響模型的性能沃疮。并且盒让,這種偏差在新模型的訓(xùn)練過程中會被逐漸放大,放大偏差的影響主要源于兩個方面司蔬,

  • 數(shù)據(jù)收集時候積累的Conformity Bias邑茄,一般是指用戶與物品交互時有從眾心理(可能是線下發(fā)生的);
  • 模型訓(xùn)練階段積累的Popularity Bias俊啼,一般是指模型見到的樣本是不平衡的肺缕,進(jìn)一步呈現(xiàn)馬太效應(yīng),導(dǎo)致模型性能變差授帕。

作者現(xiàn)有方法更多解決的是數(shù)據(jù)收集階段的偏差同木,而對訓(xùn)練階段的偏差處理較少,尤其是在SRS領(lǐng)域跛十。

具體做法

Formulation

首先彤路,形式化定義一下SRS問題,

  • 用戶集合為\mathcal{U} = \{u_1, u_2, ..., u_{N}\}芥映,物品集合為\mathcal{I} = \{t_1, t_2, ..., t_{M}\}洲尊;
  • 所有用戶-物品交互的session可以記作S。例如奈偏,表示用戶點擊物品的行為序列坞嘀。s = (i_{s, 1}, ..., i_{s, l})表示其中的一個session。
  • SRS的目的是基于session s的前l個行為序列惊来,預(yù)測第l+1個交互的物品i_{s, l+1}丽涩。這個預(yù)測結(jié)果用多分類得分\hat{\textbf{y}}_{s, l+1}表示,而得分較高的前k個物品裁蚁,被作為top-k推薦結(jié)果返回矢渊。

作者構(gòu)建的检眯,SRS的數(shù)據(jù)生成過程和模型訓(xùn)練過程的因果圖,如下所示昆淡。

Causal Graphs

數(shù)據(jù)生成階段S表示用戶在的session中的興趣刽严,I表示物品的特征(包含該物品的流行度特征)昂灵,R表示物品與當(dāng)前session中用戶興趣的相關(guān)程度。Y是用戶是否點擊了該物品的outcome舞萄。該階段眨补,物品的基礎(chǔ)特性會影響R,進(jìn)而影響Y倒脓。同時撑螺,物品的流行程度也會由于Conformity Bias(流行的物品用戶更傾向點擊,原因是因為從眾)直接影響Y崎弃。I同時具有DE(Direct Effect)和IDE(InDirect Effect)兩部分甘晤,在這樣的數(shù)據(jù)上訓(xùn)練會和我們想得到的”I只通過R造成的effect“出現(xiàn)偏差。

模型訓(xùn)練階段饲做,S表示session中的embedding墓毒,I表示物品的embedding(個人認(rèn)為這里是可以不包含流行度特征的)虏肾,M是momentum of SGD optimizer(SGD的動量),DS在頭部物品方向上的投影。Y是用戶是否點擊了該物品的outcome焙格。[18]證明了,SGD的動量會讓模型偏向于流行度高的物品(這里有一點疑惑碰逸,應(yīng)該說的是所有SGD方法都會有這個問題削祈。簡單的理解,也許是樣本不均衡肮砾,導(dǎo)致優(yōu)化器有偏)诀黍。

本節(jié)介紹了CauSeR模型解決的問題背景和形式化,下節(jié)繼續(xù)介紹模型的訓(xùn)練和預(yù)測唇敞。

心得體會

Data-Graneration Stage

個人認(rèn)為蔗草,作者在這個階段是把I當(dāng)做treatment,此時Conformity Bias疆柔,造成treatment對outcome的影響咒精,分成了DE(Direct Effect)和IDE(InDirect Effect)兩部分。因此旷档,如果在這樣的數(shù)據(jù)上訓(xùn)練模叙,會高估流行物品(因相關(guān)性帶來的)Effect。

那么問題來了鞋屈,如果我的effect只是為了點擊范咨,有啥問題么故觅?答案是,沒有(畢竟渠啊,管他是什么物品输吏,只要點了就好)。但是替蛉,我們的目標(biāo)是提高相關(guān)性帶來的點擊贯溅,進(jìn)而實現(xiàn)有效的推薦(把相關(guān)的物品推薦給具有相應(yīng)興趣的人)。這樣做的原因躲查,有兩個它浅,1)推薦系統(tǒng)的目標(biāo)是解決信息爆炸,挖掘個性化興趣镣煮,這個初心不能變(而不是純做流行物品姐霍,人云亦云,即便用戶容易這樣典唇,但是當(dāng)他們反應(yīng)過來自己真正的需求時镊折,還是會覺得從眾不是他們真正想要的,不然還需要啥個性化呢蚓聘?)腌乡;2)一旦用戶明白過來自己想要的,從眾的答案(即便他過去從眾了)他們是不會進(jìn)一步轉(zhuǎn)化的夜牡,帶不來收益(靠熱度影響与纽,不在咱們討論的范疇)。并且塘装,這種從眾的心理急迂,單個用戶是隨機(jī)產(chǎn)生的,決定不從眾了蹦肴,就要推薦系統(tǒng)給個性化的結(jié)果僚碎。可惜的是阴幌,模型沒有這么快轉(zhuǎn)身勺阐,因為模型是統(tǒng)計模型,個體不從眾了矛双,可是統(tǒng)計數(shù)據(jù)還是從眾的渊抽,不斷訓(xùn)練還會惡性循環(huán)放大這種從眾,模型就永遠(yuǎn)給不出不從眾的推薦了议忽。

Traning Stage

作者提到MSY的effect的confounder懒闷,那么此時到底誰是treatment?

個人認(rèn)為還是I是treatment,因為畢竟推薦改變的是物品愤估,而不是改變用戶的session帮辟。那么,為什么會有S有confounder就出現(xiàn)偏差的問題玩焰?原因可能是由驹,S其實是個條件,S \rightarrow Y \leftarrow I是一個collider結(jié)構(gòu)昔园。訓(xùn)練階段Y是已知的荔棉,因此S,I是相關(guān)影響的(具有相關(guān)性)蒿赢,因此IY的影響被SY的影響左右,自然也會導(dǎo)致模型估計的IY的影響出現(xiàn)偏差渣触?

推薦時候羡棵,我們是看著S的變化,來推I的嗅钻。所以皂冰,在預(yù)測時,其實暗含了养篓,我們期望Y = 1秃流,這個條件,仍然是collider的場景柳弄。

此外舶胀,是否可以把S, I同時當(dāng)做treatment?個人覺得好像不太合理碧注。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載嚣伐,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。
  • 序言:七十年代末萍丐,一起剝皮案震驚了整個濱河市轩端,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌逝变,老刑警劉巖基茵,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異壳影,居然都是意外死亡拱层,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進(jìn)店門态贤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來舱呻,“玉大人,你說我怎么就攤上這事∠渎溃” “怎么了芥驳?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長茬高。 經(jīng)常有香客問我兆旬,道長,這世上最難降的妖魔是什么怎栽? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任丽猬,我火速辦了婚禮,結(jié)果婚禮上熏瞄,老公的妹妹穿的比我還像新娘脚祟。我一直安慰自己,他們只是感情好强饮,可當(dāng)我...
    茶點故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布由桌。 她就那樣靜靜地躺著,像睡著了一般邮丰。 火紅的嫁衣襯著肌膚如雪行您。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天剪廉,我揣著相機(jī)與錄音娃循,去河邊找鬼。 笑死斗蒋,一個胖子當(dāng)著我的面吹牛捌斧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播泉沾,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼骤星,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了爆哑?” 一聲冷哼從身側(cè)響起洞难,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎揭朝,沒想到半個月后队贱,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡潭袱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年柱嫌,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片屯换。...
    茶點故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡编丘,死狀恐怖与学,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情嘉抓,我是刑警寧澤索守,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站抑片,受9級特大地震影響卵佛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜敞斋,卻給世界環(huán)境...
    茶點故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一截汪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧植捎,春花似錦衙解、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至医咨,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間架诞,已是汗流浹背拟淮。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留谴忧,地道東北人很泊。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像沾谓,于是被迫代替她去往敵國和親委造。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,573評論 2 359

推薦閱讀更多精彩內(nèi)容