文章名稱
【Arxiv-2021】【University of Technology Sydney】Prototype-based Counterfactual Explanation for Causal Classification
核心要點(diǎn)
文章旨在解決現(xiàn)有(針對離散特征的)反事實(shí)解釋方法存在的,1)丟失特征間因果關(guān)系黄虱,導(dǎo)致反事實(shí)樣本不合理悬钳;2)生成反事實(shí)樣本速度慢默勾,需調(diào)節(jié)大量參數(shù)母剥,融合多種損失兩方面問題环疼,提出了利用因果結(jié)構(gòu)模型來保留反事實(shí)特征背后的因果關(guān)系,同時設(shè)計(jì)了一種基于多目標(biāo)遺傳算法的新型無梯度優(yōu)化算法為連續(xù)和分類數(shù)據(jù)的混合類型生成反事實(shí)解釋淋叶。
方法細(xì)節(jié)
問題引入
反事實(shí)解釋是可解釋機(jī)器學(xué)習(xí)的一個分支煞檩,通過產(chǎn)生擾動樣本使得模型改變原來決策斟湃,以擾動樣本作為對模型決策依據(jù)的解釋∧現(xiàn)有的反事實(shí)解釋方法大多是基于梯度的方法墓猎,只能優(yōu)化連續(xù)變量陶衅。雖然有許多方法被提出直晨,來對分類變量進(jìn)行反事實(shí)解釋的生成勇皇,但存在兩點(diǎn)不足
- 在生成反事實(shí)時通常會忽略特征之間的因果關(guān)系敛摘,導(dǎo)致得到的反事實(shí)解釋是不合理的(比如提升學(xué)歷兄淫,但年齡不變)蔓姚,不能幫助決策者采取行動[1, 2]坡脐。
- 生成反事實(shí)樣本的速度非常慢,需要調(diào)節(jié)大量參數(shù)晌端,并且要組合多種損失函數(shù)[3, 4]咧纠。
具體做法
為了解決上述問題,作者提出了ProCE方法梧奢,其特點(diǎn)包括粹断,
- 該方法是一種與模型無關(guān)的方法瓶埋,能夠?qū)旌咸卣骺臻g中的分類決策給出解釋诊沪。
- 該方法結(jié)合因果結(jié)果模型和因果損失函數(shù),可以在生成反事實(shí)樣本時保持特征間因果約束晕粪。
- 利用自動編碼器模型巫湘,結(jié)合所謂的“類原型”來指導(dǎo)反事實(shí)樣本生成的搜索過程尚氛,并加快搜索速度阅嘶。
- ProCE利用多目標(biāo)優(yōu)化平衡生成的反事實(shí)樣本的最優(yōu)性和合理性讯柔。
首先护昧,對一些后續(xù)用到的變量進(jìn)行一下形式化定義,
- 決策模型
极祸,
分別表示特征和標(biāo)簽空間,
表示某一個具體樣本的特征选泻。
- 為了區(qū)別觀測事實(shí)和反事實(shí)页眯,把觀測樣本特征和標(biāo)簽記作
窝撵。
- 反事實(shí)樣本生成的目的是碌奉,基于
赐劣,生成反事實(shí)樣本
, 使得樣本的預(yù)測結(jié)果
變?yōu)槟繕?biāo)標(biāo)簽魁兼。該生成過程一般通過解決如下圖所示的優(yōu)化問題得到漠嵌。其中儒鹿,
表示
和
之間的距離度量函數(shù)。一般為了產(chǎn)生合理的反事實(shí)解釋,要求反事實(shí)樣本與原始樣本在特征空間中的距離要小锌仅。
optimization problem of counterfactual sample generation
Prototype-based Causal Model
ProCE在反事實(shí)樣本贱傀,要求模型遵循一些約束來伊脓,以此保證樣本取值的合理性,加速反事實(shí)樣本生成速度剖淀。包括纤房,
目標(biāo)標(biāo)簽約束炮姨。分類器對發(fā)說說樣本的預(yù)測距離和期望反事實(shí)結(jié)果要一致舒岸。在分類任務(wù)中,可以利用cross-entropy來度量這個差異俄认,其損失如下圖所示梭依。
prediction loss- 原型約束役拴。巨大的搜索空間河闰,導(dǎo)致反事實(shí)樣本生成運(yùn)算過程很慢。作者受到[5]啟發(fā)髓考,利用“類原型”的概念指導(dǎo)模型在特征空間中搜索氨菇,并得到合理的反事實(shí)樣本查蓉。具體做法是一個意向量空間中尋找
的KNN,并以這些KNN的算數(shù)中心(各節(jié)點(diǎn)的平均)妹田」碛叮可以通過投影函數(shù)
把原始樣本特征
投影到原型空間。在原型空間中利用歐式距離屯烦,找到KNN驻龟,最終某一個類型
的原型
的定義如下圖所示翁狐。
prototype
基于此露懒,原型損失定義如下圖所示懈词。
prototype loss function
其中,類別是在原型空間中抠忘,距離原始樣本
最近的類原型的標(biāo)號外永,其公式如下圖所示崎脉。
target class(smallest distance class)
本節(jié)講解了文章研究問題的背景,作者進(jìn)行反事實(shí)樣本生成的思路以及一些反事實(shí)樣本需要遵循的約束伯顶。下一節(jié)繼續(xù)介紹其他約束以及多目標(biāo)損失函數(shù)和優(yōu)化方法
心得體會
反事實(shí)約束
作者的優(yōu)化思路是先把反事實(shí)樣本需要遵循的約束(或者說目標(biāo))羅列清楚囚灼,通過優(yōu)化這些目標(biāo),得到期望的反事實(shí)樣本祭衩。其中灶体,prototype,相當(dāng)于給反事實(shí)樣本生成打錨點(diǎn)汪厨,讓反事實(shí)樣本生成逐漸找到方向赃春,而不是不知道該往哪走(因?yàn)橛锌梢悦闇?zhǔn)任何一個具有目標(biāo)標(biāo)簽的樣本去搜索或者改變特征值)愉择。
也許在原型選取劫乱,也就是KNN中K的設(shè)置過程上,優(yōu)先使用大的K,最終逐漸縮小K刁笙,類似引路的感覺前鹅。
文章引用
[1] Berk Ustun, Alexander Spangher, and Yang Liu. Actionable recourse in linear classification. In Proceedings of the Conference on Fairness, Accountabil- ity, and Transparency, pages 10–19, 2019.
[2] Rafael Poyiadzi, Kacper Sokol, Raul Santos-Rodriguez, Tijl De Bie, and Peter Flach. Face: fea- sible and actionable counterfactual explanations. In Pro- ceedings of the AAAI/ACM Conference on AI, Ethics, and Society, pages 344–350, 2020.
[3] Divyat Mahajan, Chenhao Tan, and Amit Sharma. Preserving causal constraints in counterfactual explanations for machine learning classifiers. arXiv preprint arXiv:1912.03277, 2019.
[4] Ramaravind K Mothilal, Amit Sharma, and Chenhao Tan. Explaining machine learning classifiers through diverse counterfactual explanations. In Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, pages 607–617, 2020.
[5] Arnaud Van Looveren and Janis Klaise. Interpretable counterfactual explanations guided by prototypes. arXiv preprint arXiv:1907.02584, 2019.