可解釋推薦系統(tǒng)工具箱 - ProCE(二)

文章名稱

【Arxiv-2021】【University of Technology Sydney】Prototype-based Counterfactual Explanation for Causal Classification

核心要點(diǎn)

文章旨在解決現(xiàn)有(針對(duì)離散特征的)反事實(shí)解釋方法存在的珠叔,1)丟失特征間因果關(guān)系古毛,導(dǎo)致反事實(shí)樣本不合理;2)生成反事實(shí)樣本速度慢斋荞,需調(diào)節(jié)大量參數(shù)陌僵,融合多種損失兩方面問題轴合,提出了利用因果結(jié)構(gòu)模型來保留反事實(shí)特征背后的因果關(guān)系,同時(shí)設(shè)計(jì)了一種基于多目標(biāo)遺傳算法的新型無梯度優(yōu)化算法為連續(xù)和分類數(shù)據(jù)的混合類型生成反事實(shí)解釋碗短。

上一節(jié)講解了文章研究問題的背景受葛,作者進(jìn)行反事實(shí)樣本生成的思路以及一些反事實(shí)樣本需要遵循的約束。本節(jié)繼續(xù)介紹其他約束以及多目標(biāo)損失函數(shù)和優(yōu)化方法.

方法細(xì)節(jié)

問題引入

上一節(jié)講述了為了生成反事實(shí)約束,需要優(yōu)化幾個(gè)目標(biāo)(約束)奔坟。其中携栋,首先要保證生成的反事實(shí)樣本會(huì)被模型預(yù)測為期望的標(biāo)簽。此外咳秉,為了能減少模型在特征空間中(以為是調(diào)整特征值婉支,來生成反事實(shí))搜索的開銷,加速反事實(shí)生成的過程澜建。作者引入了所謂“class prototype”的概念向挖。以“class prototype”為錨點(diǎn),引導(dǎo)模型尋找可能的特征值修改策略炕舵,生成反事實(shí)樣本何之。

上述目標(biāo)都被作者融入多目標(biāo)優(yōu)化的損失函數(shù)中,另外還有Proximity Loss以及Causality-preserving Loss咽筋。

具體做法

如前所述溶推,ProCE在反事實(shí)樣本,要求模型遵循一些約束來反事實(shí)保證樣本取值的合理性奸攻,加速反事實(shí)樣本的生成速度蒜危。包括目標(biāo)標(biāo)簽約束和原型約束。除此之外還有睹耐,

  • 相近約束辐赞。反事實(shí)樣本應(yīng)盡可能接近原始觀測樣本,以便用戶理解(跨度太大的樣本之間很難做對(duì)比)硝训。然而响委,樣本同時(shí)具有離散和連續(xù)特征時(shí),很難構(gòu)造有效的損失函數(shù)進(jìn)行反事實(shí)樣本生成窖梁,并度量相近性赘风。一般會(huì)利用指示變量表明反事實(shí)樣本和觀測樣本的某個(gè)離散特征是否一致[Sharma et al., 2020]。但是這種標(biāo)識(shí)符不能夠反映距離的遠(yuǎn)近窄绒,無法優(yōu)化贝次。作者利用原型約束中的嵌入函數(shù),把離散特征變成稠密向量來度量距離的遠(yuǎn)近彰导,具體公式表示如下圖所示蛔翅。

    proximity loss

    值得注意的是,采用嵌入函數(shù)的好處是能夠捕獲每個(gè)分類值之間的潛在關(guān)系位谋,不需要通過特征工程為每個(gè)類別分配權(quán)重山析。

  • 因果關(guān)系保留約束。上述約束都不能保持特征之間的因果關(guān)系掏父。因此笋轨,作者基于結(jié)構(gòu)因果模型(SEM)[Pearl, 2009],構(gòu)建了因果損失函數(shù)來保持生成樣本中特征的因果關(guān)系。作者假設(shè)可以得到與反事實(shí)生成業(yè)務(wù)相關(guān)的因果結(jié)構(gòu)模型爵政。對(duì)于每一個(gè)內(nèi)生變量vv是因果圖的節(jié)點(diǎn)仅讽,表示某一個(gè)特征),其值由因果結(jié)構(gòu)方程v = {g}({v}^{}_{p1}, {v}^{}_{p2}, \ldots, {v}^{}_{pk})確定钾挟。其中洁灵,({v}^{}_{p1}, {v}^{}_{p2}, \ldots, {v}^{}_{pk})表示v的所有父節(jié)點(diǎn)〔舫觯回到反事實(shí)生成場景徽千,特征{x}^{v}_{}的proximity Loss的計(jì)算公式如下圖所示。

    Causality-preserving Loss of endogenous variables

    因此汤锨,所有特征的causality-preserving loss如下圖所示双抽。其中,U, u分別表示所有外生節(jié)點(diǎn)和單個(gè)外生節(jié)點(diǎn)(特征)闲礼。

    Final Causality-preserving Loss

最終牍汹,作者將所有損失匯集在一起形成如下圖所示的多目標(biāo),并直接采用改進(jìn)的NSGA-II[Deb et al., 2000]求解位仁,而繞開了費(fèi)時(shí)費(fèi)力的目標(biāo)權(quán)重調(diào)節(jié)(時(shí)間花在了求解運(yùn)算上)柑贞。

Multi-objective Optimization

作者改進(jìn)的NSGA-II的具體細(xì)節(jié)參見代碼實(shí)現(xiàn)部分的偽代碼。作者首先找到與原始實(shí)例x_0最接近的類原型聂抢,用來計(jì)算后續(xù)的原型損失。隨后棠众,通過高斯分布初始化一個(gè)隨機(jī)的候選種群琳疏,為每個(gè)候選解計(jì)算上述損失,f_{pred},f_{proto}, f_{final\_dist} 闸拿。再按照非支配解[Deb et al., 2002]排序方法空盼,為每一個(gè)候選解分配Pareto Front[Ngatchou et al., 2005]。從分配后的候選集中選擇候選解新荤。重復(fù)該過程揽趾,直到所有解決方案都分配到一個(gè)Pareto Front(具體細(xì)節(jié)和定義可以參考原文)。

到此為止苛骨,我們得到一個(gè)候選解種群篱瞎。對(duì)每一個(gè)候選解計(jì)算crowding distance [Raquel and Naval Jr, 2005]來保證多樣性。只有排名靠前的一半候選解被保留并進(jìn)行cross-over和mutation操作痒芝。最終俐筋,最優(yōu)的反事實(shí)樣本被作為最終解返回。

Crowding Distance

代碼實(shí)現(xiàn)

文章的偽代碼如下圖所示严衬。

pseudo code

心得體會(huì)

特征因果關(guān)系保留

作者計(jì)算proximity loss的時(shí)候引入SEM來強(qiáng)調(diào)因果性澄者,是該方法的一大亮點(diǎn),不過也需要更多的領(lǐng)域知識(shí),并且應(yīng)該是需要全部的因果圖粱挡。在因果可解釋綜述中介紹過赠幕,假設(shè)全部因果圖已知是不太現(xiàn)實(shí)的。因此询筏,該方法可能比較難實(shí)際應(yīng)用劣坊。

反事實(shí)生成與多樣性

作者采用crowding distance保證多樣性,其實(shí)是利用了樣本點(diǎn)的密度屈留,高密度的點(diǎn)更容易被生成出來局冰,因此低密度的則更可能是多樣的。有一個(gè)地方可以稍作調(diào)整灌危,來保證其他特性康二,例如哪些特征不能變化,特征的取值范圍再什么范圍內(nèi)等勇蝙。

文章引用

[Sharma et al., 2020] Shubham Sharma, Jette Henderson, and Joydeep Ghosh. Certifai: A common framework to provide explanations and analyse the fairness and ro- bustness of black-box models. In Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society, pages 166–172, 2020.

[Pearl, 2009] Judea Pearl. Causal inference in statistics: An overview. Statistics Surveys, 3:96–146, 01 2009.

[Deb et al., 2000] Kalyanmoy Deb, Samir Agrawal, Am- rit Pratap, and Tanaka Meyarivan. A fast elitist non- dominated sorting genetic algorithm for multi-objective optimization: Nsga-ii. In International conference on parallel problem solving from nature, pages 849–858. Springer, 2000.

[Deb et al., 2002] Kalyanmoy Deb, Amrit Pratap, Sameer Agarwal, and TAMT Meyarivan. A fast and elitist mul- tiobjective genetic algorithm: Nsga-ii. IEEE transactions on evolutionary computation, 6(2):182–197, 2002.

[Ngatchou et al., 2005] Patrick Ngatchou, Anahita Zarei, and A El-Sharkawi. Pareto multi objective optimization. In Proceedings of the 13th International Conference on, Intelligent Systems Application to Power Systems, pages 84–91. IEEE, 2005.

[Raquel and Naval Jr, 2005] Carlo R Raquel and Prospero C Naval Jr. An effective use of crowding distance in mul- tiobjective particle swarm optimization. In Proceedings of the 7th annual conference on Genetic and evolutionary computation, pages 257–264, 2005.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載沫勿,如需轉(zhuǎn)載請(qǐng)通過簡信或評(píng)論聯(lián)系作者。
  • 序言:七十年代末味混,一起剝皮案震驚了整個(gè)濱河市产雹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌翁锡,老刑警劉巖蔓挖,帶你破解...
    沈念sama閱讀 221,576評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異馆衔,居然都是意外死亡瘟判,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門角溃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拷获,“玉大人,你說我怎么就攤上這事减细〈夜希” “怎么了?”我有些...
    開封第一講書人閱讀 168,017評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵未蝌,是天一觀的道長驮吱。 經(jīng)常有香客問我,道長树埠,這世上最難降的妖魔是什么糠馆? 我笑而不...
    開封第一講書人閱讀 59,626評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮怎憋,結(jié)果婚禮上又碌,老公的妹妹穿的比我還像新娘九昧。我一直安慰自己,他們只是感情好毕匀,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,625評(píng)論 6 397
  • 文/花漫 我一把揭開白布铸鹰。 她就那樣靜靜地躺著,像睡著了一般皂岔。 火紅的嫁衣襯著肌膚如雪蹋笼。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,255評(píng)論 1 308
  • 那天躁垛,我揣著相機(jī)與錄音剖毯,去河邊找鬼。 笑死教馆,一個(gè)胖子當(dāng)著我的面吹牛逊谋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播土铺,決...
    沈念sama閱讀 40,825評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼胶滋,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了悲敷?” 一聲冷哼從身側(cè)響起究恤,我...
    開封第一講書人閱讀 39,729評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎后德,沒想到半個(gè)月后部宿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,271評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡探遵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,363評(píng)論 3 340
  • 正文 我和宋清朗相戀三年窟赏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片箱季。...
    茶點(diǎn)故事閱讀 40,498評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖棍掐,靈堂內(nèi)的尸體忽然破棺而出藏雏,到底是詐尸還是另有隱情,我是刑警寧澤作煌,帶...
    沈念sama閱讀 36,183評(píng)論 5 350
  • 正文 年R本政府宣布掘殴,位于F島的核電站,受9級(jí)特大地震影響粟誓,放射性物質(zhì)發(fā)生泄漏奏寨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,867評(píng)論 3 333
  • 文/蒙蒙 一鹰服、第九天 我趴在偏房一處隱蔽的房頂上張望病瞳。 院中可真熱鬧揽咕,春花似錦、人聲如沸套菜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,338評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽逗柴。三九已至蛹头,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間戏溺,已是汗流浹背渣蜗。 一陣腳步聲響...
    開封第一講書人閱讀 33,458評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留旷祸,地道東北人耕拷。 一個(gè)月前我還...
    沈念sama閱讀 48,906評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像肋僧,于是被迫代替她去往敵國和親斑胜。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,507評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容