文章名稱
【CIKM-2021】【Beijing Key Laboratory of Big Data Management and Analysis Methods-AntGroup】Counterfactual Review-based Recommendation
核心要點
文章旨在解決現(xiàn)有基于評論的推薦系統(tǒng)中存在的評論稀疏和不平衡的問題典尾,提出在feature-aware的推薦場景下淤击,利用反事實樣本提升模型性能。作者通過修改(Intervention)用戶的偏好(體現(xiàn)在用戶的一些評論信息里)來生成反事實樣本,并使用觀測樣本和反事實樣本共同訓(xùn)練推薦模型,提升模型性能沮趣。在生成反事實樣本時翁狐,利用learning-based方法代替隨機(jī)生成的方式龟梦,生成最能夠提升模型性能的反事實樣本。此外计贰,作者進(jìn)行了理論分析躁倒,討論生成樣本數(shù)量和模型受到的噪聲干擾的關(guān)系象迎。
研究背景
現(xiàn)有基于評論的方法可以分為兩大類汪厨,具體案例如下圖a搏嗡。
- Document Level。該類方法[4]將(該用戶或該物品)的所有的評論看作一個文檔學(xué)習(xí)用戶或向量的embedding除盏。這不可避免引入噪聲叉橱,影響模型性能。
- Aspect Level者蠕。該類方法提取用戶對物品的不同方面的情感傾向窃祝,得到(用戶、項目踱侣、特征粪小、情緒)元組[7]。例如抡句,用戶評論“我喜歡這件襯衫的領(lǐng)子探膊,但是袖子不滿意,因為對我來說太緊了”待榔,最終提取的元組為“(user id, item id, 領(lǐng)子, 正反饋)”和“(user id, item id, 袖子, 負(fù)反饋)”逞壁。
然而,上述方法都沒有觸及評論推薦的本質(zhì)問題究抓,即數(shù)據(jù)稀疏和不平衡猾担。評論信息能極大地提升推薦系統(tǒng)的性能,但評論信息也是稀疏的刺下、不平衡的绑嘹,給準(zhǔn)確、高效的推薦帶來了極大挑戰(zhàn)橘茉,需要付諸極大地努力使得模型取得令人滿意的性能工腋。在亞馬遜數(shù)據(jù)集上的統(tǒng)計結(jié)果顯示姨丈,只有極少數(shù)用戶經(jīng)常評論,以及極少數(shù)的物品和方面被提及擅腰。
因此蟋恬,作者借鑒反事實的思想,通過最小程度的調(diào)整用戶偏好趁冈,來改變用戶物品偏好的排序結(jié)果(pairwise loss)歼争,以此生成反事實樣本。
方法細(xì)節(jié)
基礎(chǔ)模型
作者采用BPR loss[19]進(jìn)行pairwise的學(xué)習(xí)渗勘,具體的損失函數(shù)如下圖所示沐绒。其中,表示訓(xùn)練樣本旺坠,
是sigmoid函數(shù)乔遮,
表示推薦模型(這里應(yīng)該是排序模型),第二項整體表示正則項取刃。
表示用戶對物品的偏好分?jǐn)?shù)蹋肮。
生成反事實樣本
如前所述,用戶評論是稀疏的璧疗。同時坯辩,用戶在對商品不同特性(方面)的關(guān)注度影響了用戶的偏好,例如崩侠,下圖中濒翻,用戶關(guān)注品牌則會選擇”IPhone“,如果更關(guān)注價格啦膜,則選擇”小米“有送。因此,通過改變(Intervene on)用戶的特性關(guān)注度僧家,可以得到反事實雀摘,并利用(已有的,可能是預(yù)訓(xùn)練得到的)推薦模型對樣本進(jìn)行預(yù)測八拱,可以得到反事實樣本的標(biāo)簽阵赠。
比較Naive的方法是隨機(jī)樣本和用戶的關(guān)注特征進(jìn)行替換,但是由于樣本和特性的重要程度不同[12]肌稻,這種方法顯然是次優(yōu)的清蚀。作者采用learning-based方法學(xué)習(xí)反事實樣本生成(這個現(xiàn)在應(yīng)該是反事實樣本生成的基操了)。作者借鑒[1, 12]的做法爹谭,通過學(xué)習(xí)如何最小限度的改變用戶對特性的關(guān)注度(特征表示用戶偏好)枷邪,從而改變模型的決策結(jié)果,來生成反事實樣本诺凡,這其實是利用了模型的決策邊界反映數(shù)據(jù)潛在結(jié)構(gòu)或模式的特性东揣。其示意如上圖中子圖b所示践惑。
具體的,作者引入擾動嘶卧,該擾動向量的每一個元素作用于物品的每一個特性(也可以是特性的隱向量表示)尔觉。其中,
表示所有特性的集合芥吟。隨后利用如下圖所示的公式尋找最優(yōu)的擾動侦铜。
其中,的計算公式如下圖所示钟鸵,
分別表示用戶和物品的特征矩陣泵额,也就是每個用戶對特性的關(guān)注程度,以及每個物品在該特性上的質(zhì)量携添。
值得注意的是,在學(xué)習(xí)優(yōu)化過程中篓叶,
的參數(shù)是被固定的烈掠。損失函數(shù)中的第一項的目標(biāo)是尋找最小化擾動,第二項的目標(biāo)是改變模型對兩個物品的偏好排名缸托。
本節(jié)講解了作者的研究背景左敌,基礎(chǔ)模型和生成反事實樣本的思路,下一節(jié)繼續(xù)介紹反事實生成的控制細(xì)節(jié)和理論分析俐镐。
心得體會
反事實樣本生成
這篇文章的作者也有來自Rutgers University的大佬矫限,所以套路和因果推斷推薦系統(tǒng)工具箱 - CCF(一)以及因果推斷推薦系統(tǒng)工具箱 - DCCF(一)非常類似,都是先利用反事實樣本來增強模型佩抹,生成方法主要是learning-based方法叼风,目標(biāo)是生成所謂的“hard sample”來最大限度的提升模型的性能。最終棍苹,分析了模型的錯誤率與樣本數(shù)量以及噪聲的關(guān)系无宿。
同時,生成反事實的過程是利用一個預(yù)訓(xùn)練的弱推薦模型枢里,判斷反事實樣本的標(biāo)簽孽鸡,進(jìn)而在訓(xùn)練模型得到更高性能的
(或者說
)感覺有點像bootstrap。
文章引用
[1] Ehsan Abbasnejad, Damien Teney, Amin Parvaneh, Javen Shi, and Anton van den
Hengel. 2020. Counterfactual vision and language learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 10044–10054.
[4] Rose Catherine and William Cohen. 2017. TransNets: Learning to Transform for Recommendation. arXiv preprint arXiv:1704.02298 (2017).
[7] Tong Chen, Hongzhi Yin, Guanhua Ye, Zi Huang, Yang Wang, and Meng Wang.2020. Try This Instead: Personalized and Interpretable Substitute Recommendation. (2020).
[12] Yash Goyal, Ziyan Wu, Jan Ernst, Dhruv Batra, Devi Parikh, and Stefan Lee. 2019. Counterfactual visual explanations. arXiv preprint arXiv:1904.07451 (2019).
[19] Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. 2009. BPR: Bayesian personalized ranking from implicit feedback. In Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press, 452–461.