文章名稱
【Arxiv-2021】【University of Technology Sydney】Prototype-based Counterfactual Explanation for Causal Classification
核心要點(diǎn)
文章旨在解決現(xiàn)有(針對(duì)離散特征的)反事實(shí)解釋方法存在的珠叔,1)丟失特征間因果關(guān)系古毛,導(dǎo)致反事實(shí)樣本不合理;2)生成反事實(shí)樣本速度慢斋荞,需調(diào)節(jié)大量參數(shù)陌僵,融合多種損失兩方面問題轴合,提出了利用因果結(jié)構(gòu)模型來保留反事實(shí)特征背后的因果關(guān)系,同時(shí)設(shè)計(jì)了一種基于多目標(biāo)遺傳算法的新型無梯度優(yōu)化算法為連續(xù)和分類數(shù)據(jù)的混合類型生成反事實(shí)解釋碗短。
上一節(jié)講解了文章研究問題的背景受葛,作者進(jìn)行反事實(shí)樣本生成的思路以及一些反事實(shí)樣本需要遵循的約束。本節(jié)繼續(xù)介紹其他約束以及多目標(biāo)損失函數(shù)和優(yōu)化方法.
方法細(xì)節(jié)
問題引入
上一節(jié)講述了為了生成反事實(shí)約束,需要優(yōu)化幾個(gè)目標(biāo)(約束)奔坟。其中携栋,首先要保證生成的反事實(shí)樣本會(huì)被模型預(yù)測為期望的標(biāo)簽。此外咳秉,為了能減少模型在特征空間中(以為是調(diào)整特征值婉支,來生成反事實(shí))搜索的開銷,加速反事實(shí)生成的過程澜建。作者引入了所謂“class prototype”的概念向挖。以“class prototype”為錨點(diǎn),引導(dǎo)模型尋找可能的特征值修改策略炕舵,生成反事實(shí)樣本何之。
上述目標(biāo)都被作者融入多目標(biāo)優(yōu)化的損失函數(shù)中,另外還有Proximity Loss以及Causality-preserving Loss咽筋。
具體做法
如前所述溶推,ProCE在反事實(shí)樣本,要求模型遵循一些約束來反事實(shí)保證樣本取值的合理性奸攻,加速反事實(shí)樣本的生成速度蒜危。包括目標(biāo)標(biāo)簽約束和原型約束。除此之外還有睹耐,
相近約束辐赞。反事實(shí)樣本應(yīng)盡可能接近原始觀測樣本,以便用戶理解(跨度太大的樣本之間很難做對(duì)比)硝训。然而响委,樣本同時(shí)具有離散和連續(xù)特征時(shí),很難構(gòu)造有效的損失函數(shù)進(jìn)行反事實(shí)樣本生成窖梁,并度量相近性赘风。一般會(huì)利用指示變量表明反事實(shí)樣本和觀測樣本的某個(gè)離散特征是否一致[Sharma et al., 2020]。但是這種標(biāo)識(shí)符不能夠反映距離的遠(yuǎn)近窄绒,無法優(yōu)化贝次。作者利用原型約束中的嵌入函數(shù),把離散特征變成稠密向量來度量距離的遠(yuǎn)近彰导,具體公式表示如下圖所示蛔翅。
proximity loss
值得注意的是,采用嵌入函數(shù)的好處是能夠捕獲每個(gè)分類值之間的潛在關(guān)系位谋,不需要通過特征工程為每個(gè)類別分配權(quán)重山析。
因果關(guān)系保留約束。上述約束都不能保持特征之間的因果關(guān)系掏父。因此笋轨,作者基于結(jié)構(gòu)因果模型(SEM)[Pearl, 2009],構(gòu)建了因果損失函數(shù)來保持生成樣本中特征的因果關(guān)系。作者假設(shè)可以得到與反事實(shí)生成業(yè)務(wù)相關(guān)的因果結(jié)構(gòu)模型爵政。對(duì)于每一個(gè)內(nèi)生變量
(
是因果圖的節(jié)點(diǎn)仅讽,表示某一個(gè)特征),其值由因果結(jié)構(gòu)方程
確定钾挟。其中洁灵,
表示
的所有父節(jié)點(diǎn)〔舫觯回到反事實(shí)生成場景徽千,特征
的proximity Loss的計(jì)算公式如下圖所示。
Causality-preserving Loss of endogenous variables因此汤锨,所有特征的causality-preserving loss如下圖所示双抽。其中,
分別表示所有外生節(jié)點(diǎn)和單個(gè)外生節(jié)點(diǎn)(特征)闲礼。
Final Causality-preserving Loss
最終牍汹,作者將所有損失匯集在一起形成如下圖所示的多目標(biāo),并直接采用改進(jìn)的NSGA-II[Deb et al., 2000]求解位仁,而繞開了費(fèi)時(shí)費(fèi)力的目標(biāo)權(quán)重調(diào)節(jié)(時(shí)間花在了求解運(yùn)算上)柑贞。
作者改進(jìn)的NSGA-II的具體細(xì)節(jié)參見代碼實(shí)現(xiàn)部分的偽代碼。作者首先找到與原始實(shí)例最接近的類原型聂抢,用來計(jì)算后續(xù)的原型損失。隨后棠众,通過高斯分布初始化一個(gè)隨機(jī)的候選種群琳疏,為每個(gè)候選解計(jì)算上述損失,
闸拿。再按照非支配解[Deb et al., 2002]排序方法空盼,為每一個(gè)候選解分配Pareto Front[Ngatchou et al., 2005]。從分配后的候選集中選擇候選解新荤。重復(fù)該過程揽趾,直到所有解決方案都分配到一個(gè)Pareto Front(具體細(xì)節(jié)和定義可以參考原文)。
到此為止苛骨,我們得到一個(gè)候選解種群篱瞎。對(duì)每一個(gè)候選解計(jì)算crowding distance [Raquel and Naval Jr, 2005]來保證多樣性。只有排名靠前的一半候選解被保留并進(jìn)行cross-over和mutation操作痒芝。最終俐筋,最優(yōu)的反事實(shí)樣本被作為最終解返回。
代碼實(shí)現(xiàn)
文章的偽代碼如下圖所示严衬。
心得體會(huì)
特征因果關(guān)系保留
作者計(jì)算proximity loss的時(shí)候引入SEM來強(qiáng)調(diào)因果性澄者,是該方法的一大亮點(diǎn),不過也需要更多的領(lǐng)域知識(shí),并且應(yīng)該是需要全部的因果圖粱挡。在因果可解釋綜述中介紹過赠幕,假設(shè)全部因果圖已知是不太現(xiàn)實(shí)的。因此询筏,該方法可能比較難實(shí)際應(yīng)用劣坊。
反事實(shí)生成與多樣性
作者采用crowding distance保證多樣性,其實(shí)是利用了樣本點(diǎn)的密度屈留,高密度的點(diǎn)更容易被生成出來局冰,因此低密度的則更可能是多樣的。有一個(gè)地方可以稍作調(diào)整灌危,來保證其他特性康二,例如哪些特征不能變化,特征的取值范圍再什么范圍內(nèi)等勇蝙。
文章引用
[Sharma et al., 2020] Shubham Sharma, Jette Henderson, and Joydeep Ghosh. Certifai: A common framework to provide explanations and analyse the fairness and ro- bustness of black-box models. In Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society, pages 166–172, 2020.
[Pearl, 2009] Judea Pearl. Causal inference in statistics: An overview. Statistics Surveys, 3:96–146, 01 2009.
[Deb et al., 2000] Kalyanmoy Deb, Samir Agrawal, Am- rit Pratap, and Tanaka Meyarivan. A fast elitist non- dominated sorting genetic algorithm for multi-objective optimization: Nsga-ii. In International conference on parallel problem solving from nature, pages 849–858. Springer, 2000.
[Deb et al., 2002] Kalyanmoy Deb, Amrit Pratap, Sameer Agarwal, and TAMT Meyarivan. A fast and elitist mul- tiobjective genetic algorithm: Nsga-ii. IEEE transactions on evolutionary computation, 6(2):182–197, 2002.
[Ngatchou et al., 2005] Patrick Ngatchou, Anahita Zarei, and A El-Sharkawi. Pareto multi objective optimization. In Proceedings of the 13th International Conference on, Intelligent Systems Application to Power Systems, pages 84–91. IEEE, 2005.
[Raquel and Naval Jr, 2005] Carlo R Raquel and Prospero C Naval Jr. An effective use of crowding distance in mul- tiobjective particle swarm optimization. In Proceedings of the 7th annual conference on Genetic and evolutionary computation, pages 257–264, 2005.