因果推斷推薦系統(tǒng)工具箱 - CFF(一)

文章名稱

【CIKM-2021】【Beijing Key Laboratory of Big Data Management and Analysis Methods-AntGroup】Counterfactual Review-based Recommendation

核心要點

文章旨在解決現(xiàn)有基于評論的推薦系統(tǒng)中存在的評論稀疏和不平衡的問題典尾,提出在feature-aware的推薦場景下淤击,利用反事實樣本提升模型性能。作者通過修改(Intervention)用戶的偏好(體現(xiàn)在用戶的一些評論信息里)來生成反事實樣本,并使用觀測樣本和反事實樣本共同訓(xùn)練推薦模型,提升模型性能沮趣。在生成反事實樣本時翁狐,利用learning-based方法代替隨機(jī)生成的方式龟梦,生成最能夠提升模型性能的反事實樣本。此外计贰,作者進(jìn)行了理論分析躁倒,討論生成樣本數(shù)量和模型受到的噪聲干擾的關(guān)系象迎。

研究背景

現(xiàn)有基于評論的方法可以分為兩大類汪厨,具體案例如下圖a搏嗡。

  • Document Level。該類方法[4]將(該用戶或該物品)的所有的評論看作一個文檔學(xué)習(xí)用戶或向量的embedding除盏。這不可避免引入噪聲叉橱,影響模型性能。
  • Aspect Level者蠕。該類方法提取用戶對物品的不同方面的情感傾向窃祝,得到(用戶、項目踱侣、特征粪小、情緒)元組[7]。例如抡句,用戶評論“我喜歡這件襯衫的領(lǐng)子探膊,但是袖子不滿意,因為對我來說太緊了”待榔,最終提取的元組為“(user id, item id, 領(lǐng)子, 正反饋)”和“(user id, item id, 袖子, 負(fù)反饋)”逞壁。
review case and statistics

然而,上述方法都沒有觸及評論推薦的本質(zhì)問題究抓,即數(shù)據(jù)稀疏和不平衡猾担。評論信息能極大地提升推薦系統(tǒng)的性能,但評論信息也是稀疏的刺下、不平衡的绑嘹,給準(zhǔn)確、高效的推薦帶來了極大挑戰(zhàn)橘茉,需要付諸極大地努力使得模型取得令人滿意的性能工腋。在亞馬遜數(shù)據(jù)集上的統(tǒng)計結(jié)果顯示姨丈,只有極少數(shù)用戶經(jīng)常評論,以及極少數(shù)的物品和方面被提及擅腰。

因此蟋恬,作者借鑒反事實的思想,通過最小程度的調(diào)整用戶偏好趁冈,來改變用戶物品偏好的排序結(jié)果(pairwise loss)歼争,以此生成反事實樣本。

方法細(xì)節(jié)

基礎(chǔ)模型

作者采用BPR loss[19]進(jìn)行pairwise的學(xué)習(xí)渗勘,具體的損失函數(shù)如下圖所示沐绒。其中,\boldsymbol{O}^{}_{}表示訓(xùn)練樣本旺坠,{\sigma}^{}_{}是sigmoid函數(shù)乔遮,{g}^{}_{}表示推薦模型(這里應(yīng)該是排序模型),第二項整體表示正則項取刃。{r}^{}_{u\cdot}表示用戶對物品的偏好分?jǐn)?shù)蹋肮。

BPR loss

生成反事實樣本

如前所述,用戶評論是稀疏的璧疗。同時坯辩,用戶在對商品不同特性(方面)的關(guān)注度影響了用戶的偏好,例如崩侠,下圖中濒翻,用戶關(guān)注品牌則會選擇”IPhone“,如果更關(guān)注價格啦膜,則選擇”小米“有送。因此,通過改變(Intervene on)用戶的特性關(guān)注度僧家,可以得到反事實雀摘,并利用(已有的,可能是預(yù)訓(xùn)練得到的)推薦模型g對樣本進(jìn)行預(yù)測八拱,可以得到反事實樣本的標(biāo)簽阵赠。

sample generation

比較Naive的方法是隨機(jī)樣本和用戶的關(guān)注特征進(jìn)行替換,但是由于樣本和特性的重要程度不同[12]肌稻,這種方法顯然是次優(yōu)的清蚀。作者采用learning-based方法學(xué)習(xí)反事實樣本生成(這個現(xiàn)在應(yīng)該是反事實樣本生成的基操了)。作者借鑒[1, 12]的做法爹谭,通過學(xué)習(xí)如何最小限度的改變用戶對特性的關(guān)注度(特征表示用戶偏好)枷邪,從而改變模型g的決策結(jié)果,來生成反事實樣本诺凡,這其實是利用了模型的決策邊界反映數(shù)據(jù)潛在結(jié)構(gòu)或模式的特性东揣。其示意如上圖中子圖b所示践惑。

具體的,作者引入擾動{\tau}^{}_{} \in {\R}^{|\mathcal{F}^{}_{}|}_{}嘶卧,該擾動向量的每一個元素作用于物品的每一個特性(也可以是特性的隱向量表示)尔觉。其中,\mathcal{F}表示所有特性的集合芥吟。隨后利用如下圖所示的公式尋找最優(yōu)的擾動侦铜。

perturbation generation loss

其中,{r}^{*}_{}的計算公式如下圖所示钟鸵,\boldsymbol{A}^{}_{u} \in {\R}^{|\mathcal{U}| \times |\mathcal{F}|}_{}, \boldsymbol{B}^{} _{i} \in {\R}^{\mathcal{I}| \times |\mathcal{F}|}_{}分別表示用戶和物品的特征矩陣泵额,也就是每個用戶對特性的關(guān)注程度,以及每個物品在該特性上的質(zhì)量携添。

r start

值得注意的是,在學(xué)習(xí){\tau}^{}_{}優(yōu)化過程中篓叶,g的參數(shù)是被固定的烈掠。損失函數(shù)中的第一項的目標(biāo)是尋找最小化擾動,第二項的目標(biāo)是改變模型對兩個物品的偏好排名缸托。

本節(jié)講解了作者的研究背景左敌,基礎(chǔ)模型和生成反事實樣本的思路,下一節(jié)繼續(xù)介紹反事實生成的控制細(xì)節(jié)和理論分析俐镐。

心得體會

反事實樣本生成

這篇文章的作者也有來自Rutgers University的大佬矫限,所以套路和因果推斷推薦系統(tǒng)工具箱 - CCF(一)以及因果推斷推薦系統(tǒng)工具箱 - DCCF(一)非常類似,都是先利用反事實樣本來增強模型佩抹,生成方法主要是learning-based方法叼风,目標(biāo)是生成所謂的“hard sample”來最大限度的提升模型的性能。最終棍苹,分析了模型的錯誤率與樣本數(shù)量以及噪聲的關(guān)系无宿。

同時,生成反事實的過程是利用一個預(yù)訓(xùn)練的弱推薦模型g枢里,判斷反事實樣本的標(biāo)簽孽鸡,進(jìn)而在訓(xùn)練模型得到更高性能的g(或者說g\prime)感覺有點像bootstrap

文章引用

[1] Ehsan Abbasnejad, Damien Teney, Amin Parvaneh, Javen Shi, and Anton van den
Hengel. 2020. Counterfactual vision and language learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 10044–10054.

[4] Rose Catherine and William Cohen. 2017. TransNets: Learning to Transform for Recommendation. arXiv preprint arXiv:1704.02298 (2017).

[7] Tong Chen, Hongzhi Yin, Guanhua Ye, Zi Huang, Yang Wang, and Meng Wang.2020. Try This Instead: Personalized and Interpretable Substitute Recommendation. (2020).

[12] Yash Goyal, Ziyan Wu, Jan Ernst, Dhruv Batra, Devi Parikh, and Stefan Lee. 2019. Counterfactual visual explanations. arXiv preprint arXiv:1904.07451 (2019).

[19] Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. 2009. BPR: Bayesian personalized ranking from implicit feedback. In Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press, 452–461.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載栏豺,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者彬碱。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市奥洼,隨后出現(xiàn)的幾起案子巷疼,更是在濱河造成了極大的恐慌,老刑警劉巖灵奖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件皮迟,死亡現(xiàn)場離奇詭異搬泥,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)伏尼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門忿檩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人爆阶,你說我怎么就攤上這事燥透。” “怎么了辨图?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵班套,是天一觀的道長。 經(jīng)常有香客問我故河,道長吱韭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任鱼的,我火速辦了婚禮理盆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘凑阶。我一直安慰自己猿规,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布宙橱。 她就那樣靜靜地躺著姨俩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪师郑。 梳的紋絲不亂的頭發(fā)上环葵,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天,我揣著相機(jī)與錄音宝冕,去河邊找鬼积担。 笑死,一個胖子當(dāng)著我的面吹牛猬仁,可吹牛的內(nèi)容都是我干的帝璧。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼湿刽,長吁一口氣:“原來是場噩夢啊……” “哼的烁!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起诈闺,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤渴庆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體襟雷,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡刃滓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了耸弄。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咧虎。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖计呈,靈堂內(nèi)的尸體忽然破棺而出砰诵,到底是詐尸還是另有隱情,我是刑警寧澤捌显,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布茁彭,位于F島的核電站,受9級特大地震影響扶歪,放射性物質(zhì)發(fā)生泄漏理肺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一善镰、第九天 我趴在偏房一處隱蔽的房頂上張望妹萨。 院中可真熱鬧,春花似錦媳禁、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至霍弹,卻和暖如春毫别,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背典格。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工岛宦, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人耍缴。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓砾肺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親防嗡。 傳聞我的和親對象是個殘疾皇子变汪,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容