文章名稱
【CIKM-2021】【Rutgers University】Counterfactual Explainable Recommendation
核心要點
文章旨在對推薦模型的結果進行解釋。作者構建了一個因果推斷的框架,對每一個用戶-物品元組求解一個優(yōu)化問題蔑舞,識別出在原物品的特性方面最小的改變蓝晒,以至于生成的反事實物品可以反轉推薦模型的結果筷弦。這些最小的特性改變被成為counterfactual explanation幔妨。此外灵临,作者定義了兩個衡量指標來量化explanation的質量桅狠。
方法細節(jié)
問題引入
可解釋推薦模型讼载,不僅可以幫助用戶更好的理解推薦理由,增加對推薦系統(tǒng)的信任中跌,也可以幫助開發(fā)人員debugging咨堤。原有的方法,利用物品的屬性(例如漩符,顏色等)作為推薦理由一喘,雖然能給出可靠的解釋,但是存在如下3個問題嗜暴,
- 與模型和物品特征強耦合凸克,不能用來解釋其他模型
- 推薦理由單一,只能從一個角度進行解釋闷沥,但一般推薦結果是受多個理由共同影響的
- 對推薦理由的量化方式并無法反映萎战,該理由對推薦決策的真實影響(作者解釋是沒有考慮如果改變了某些特征值推薦結果會怎么變化。其實舆逃,就是考慮某個特征的改變對推薦結果的因果效應是多少蚂维,即做了多少貢獻。當然shap也許可以計算這個路狮,不過是從相關的角度虫啥,沒有考慮偏差,也不是最小改動)奄妨。
反事實解釋的案例如下圖所示涂籽,上半部分是原有方法對推薦結果給出的解釋,用戶對各個物品特性的偏好權重如圖所示(例如砸抛,屏幕4.0)评雌,則對手機A的評分總和為42(屏幕4x4.5+電池3x3+價格3x3)树枫,由于用戶重視screen的權重高一些,則屏幕被認為是推薦模型決策的理由柳骄,然而团赏,手機A的屏幕得分在所有物品里(包括未展示的物品)的得分并不高(甚至是最差的)。顯然屏幕并不是左右模型推薦結果的關鍵因素(如果不對比所有物品的各項得分耐薯,很難發(fā)現(xiàn)這個解釋原因的問題以及合理的解釋)舔清。
而反事實解釋的角度是,最小的改變手機A(事實樣本)的特征(例如曲初,電池)体谒,直到模型的決策反轉。發(fā)現(xiàn)電池是對模型決策影響最大的因素臼婆,作為模型決策的解釋是合理的抒痒。
這個案例表明,原有的方法主要是利用匹配的方式來進行樣本解釋颁褂,而反事實解釋則通過尋找改變預測結果的最小特征改動故响,來說明決策的原因。
具體做法
首先颁独,我們看一下問題的形式化定義彩届,
- 用戶集合記作
,物品集合記作
誓酒;
- 交互矩陣記作
樟蠕;
- 推薦模型為用戶
返回的
推薦結果為
,如果
靠柑,則表示模型把
納入了
的結果中寨辩;
- 物品的
個方向特征記作
,
矩陣表示用戶有多看重
個方向的特征歼冰,
矩陣表示物品在
個特征方向表現(xiàn)出多強的競爭力靡狞;
作者借鑒[1,2]中的方法,從用戶的評論數(shù)據中隔嫡,提取X和Y甸怕。簡言之,作者將評論中提到的某個方面特性的次數(shù)畔勤,分別在用戶和物品維度聚合蕾各,得到這個特征被提到的頻次扒磁,再經過變換和歸一化庆揪,得到X和Y中的元素,(當然也可以采用其他方法得到)由于不是重點妨托,具體提取方法可以參見原論文和引文缸榛。
Counterfactual Explainable Recommendation
定義在物品的特性上做的微小改變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5CDelta%20%3D%20%5B%5Cdelta_0%2C%20%5Cdelta_0%2C%20...%2C%20%5Cdelta_r%5D" alt="\Delta = [\delta_0, \delta_0, ..., \delta_r]" mathimg="1">吝羞,如果這種微小的改變,被應用到物品上(
)内颗,使得原來被推薦給用戶的物品
钧排,從
結果列表
中被移除,則可以認為這種改變是推薦模型的一種有意義的解釋(因為均澳,這種改變影響了模型的決策恨溜,必然是決策過程中的重要因素)。這種微小的改變中找前,最小的被稱為反事實解釋糟袁。
值得注意的是,作者表示微小的改動應該是0或者負值躺盛,因為只有在某些特性上表現(xiàn)不好项戴,才會被從推薦列表中移除。
Explanation Complexity and Strength
Explanation Complexity (EC)表示給出的解釋的復雜程度槽惫,包括1)有多少方面的特性被引入來解釋模型決策周叮,可以表示為中非零元素的個數(shù)
;2)多大的改動需要被應用在物品特性上界斜,可以用
表示仿耽。
Explanation Strength (ES)表示應用微小的改變后,多大程度上改變了模型的決策锄蹂,可以用排序得分的變化表示氓仲,即,其中
分別表示應用微小改動前后的排序得分得糜。
值得注意的是敬扛,可以采用其他的計算方式來量化EC和ES,但是作者表示整體框架是不變的朝抖。并且啥箭,ES和EC是兩個正交的維度,簡單的解釋不一定低效治宣,復雜的解釋也可能不高效急侥。因此,反事實解釋尋找的是最簡單侮邀,最有效的改動作為解釋坏怪。
Evaluation Methods
作者提出兩種評估解釋結果的量化指標,
- 面向用戶的評價指標绊茧,利用用戶的評論信息铝宵,定義解釋中的特性與評論中提到的物品特性的重合度,并基于此計算準確率、召回率鹏秋,F(xiàn)1得分等等尊蚁。
- 面向模型的評價指標,定義了Probability of Necessity(PN)和Probability of Sufficiency (PS)侣夷,以及他們的平均值横朋,來衡量解釋的必要性與充分性。
本節(jié)介紹了在實際應用中matching-based可解釋性方法的弊端百拓,以及其與counterfactual-based方法區(qū)別琴锭。并介紹了如何反事實解釋的概念以及其兩個重要的量化指標。下一節(jié)將繼續(xù)介紹作者提出的反事實推理框架衙传,以及如何產出反事實解釋祠够。
心得體會
最小特征改動
反事實解釋不定義為最小特征改動行不行?
作者從奧卡姆提到的原則給出解釋說粪牲,解釋應該具有簡單和有效(低復雜度和高解釋能力)的特性古瓤。因此,最小改動能夠保證具有最小的復雜度腺阳,且清晰落君、有效的解釋模型的決策原因。
個人認為亭引,必須取最小還因為绎速,可能存在多種組合導致模型決策反轉。例如焙蚓,文章最開始講解反事實解釋的案例描述的纹冤,推薦結果是靠綜合各個特征的評分得來的,因此必然存在屏幕減一點购公,電池減的少一點萌京,同樣可以反轉模型決策的情況。此時宏浩,可能無法清晰地指出那個因素是最主要的知残。即不好確定唯一性,解釋可能模棱兩可比庄。
文章引用
[1] Yongfeng Zhang, Guokun Lai, Min Zhang, Yi Zhang, Yiqun Liu, and Shaoping Ma. 2014. Explicit factor models for explainable recommendation based on phrase-level sentiment analysis. In Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval. 83–92.
[2] Yongfeng Zhang, Haochen Zhang, Min Zhang, Yiqun Liu, and Shaoping Ma. 2014. Do Users Rate or Review? Boost Phrase-Level Sentiment Labeling with Review-Level Sentiment Classification. In SIGIR. 1027–1030.