文章名稱
Learning Representations for Counterfactual Inference
核心要點(diǎn)
因果推斷的核心問題1)missing counterfactuals烹笔;2)imbalance covariates distribution under different intervention茎毁。只有知道了各種干預(yù)下的結(jié)果音念,才能計(jì)算出不同干預(yù)之間的因果效應(yīng)。為了準(zhǔn)確的估計(jì)反事實(shí),需要解決由于混淆變量引起的不同干預(yù)下定嗓,樣本特征分布不一致的問題裸影,否則會(huì)具有selection bias,同時(shí)會(huì)帶來估計(jì)的高方差串前。
不同干預(yù)下樣本特征分布不一致瘫里,意味著,也意味著
荡碾。采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的機(jī)器學(xué)習(xí)方法在觀察到的事實(shí)結(jié)果上可能擬合的很好谨读,但在反事實(shí)上遇到了不同的特征分布,導(dǎo)致模型效果變差坛吁。例如劳殖,某個(gè)樣本的實(shí)際干預(yù)是
,模型擬合了
拨脉,也就是事實(shí)數(shù)據(jù)哆姻,但遇到反事實(shí)分布
時(shí),就會(huì)估計(jì)的不準(zhǔn)確玫膀。猛然一拍大腿矛缨,這個(gè)是不是有點(diǎn)像訓(xùn)練集和測(cè)試集分布不一致的問題?
這種不一致的問題在領(lǐng)域遷移里是基操帖旨,作者借鑒domain adaptation的思想箕昭,結(jié)合表示學(xué)習(xí),利用正則化的手段解阅,使得落竹,其中
是學(xué)習(xí)到的特征表示(分布平衡是在表示層做的)。有了這種表示货抄,模型能夠更好地回答反事實(shí)的問題述召。并且,作者證明了這種方法是在最小化counterfactual的regret的上界碉熄。
方法細(xì)節(jié)
問題引入
因果推斷問題桨武,旨在計(jì)算不同干預(yù)之間的效果差異,即锈津,其中
是樣本的covariates呀酸。然而,我們只能觀測(cè)到一個(gè)factual outcome琼梆,
性誉。也就是說窿吩,觀測(cè)數(shù)據(jù)實(shí)際來自于兩個(gè)分布
,
和
错览,其中
代表counterfactual纫雁。由于混淆變量的存在,這兩個(gè)分布是不同的倾哺。如果通過直接建模的方式來估計(jì)轧邪,無論是單個(gè)模型
,還是多個(gè)模型
羞海,我們都需要把一個(gè)在不同分布上訓(xùn)練的模型忌愚,應(yīng)用到在另一個(gè)不同的分布上來估計(jì)counterfactual,就像訓(xùn)練集和測(cè)試集的分布不同一樣却邓,導(dǎo)致模型效果不夠理想(實(shí)際上硕糊,由于觀測(cè)數(shù)據(jù)得到的
和
也只是真實(shí)條件分布的采樣,最終會(huì)導(dǎo)致有更大的偏差)腊徙。由于這里的分布不一致简十,指的是covariates,也就是特征分布不一致撬腾,也就是所謂的covariates shift螟蝙,是domain adaptation的一個(gè)特殊場(chǎng)景。
其實(shí)民傻,在很多文章中都有過闡述胶逢,領(lǐng)域遷移(協(xié)變量遷移)與因果推斷的關(guān)系是密不可分。因此饰潜,作者從領(lǐng)域遷移的idea出發(fā),把因果推斷問題定義為領(lǐng)域遷移問題和簸,通過正則化的方法來平衡不同干預(yù)下的covariates分布彭雾。其他利用re-weight,調(diào)整樣本權(quán)重的方法不同锁保,文章提出的方法的正則化是在表示層進(jìn)行的薯酝,也就是約束的是,
是映射函數(shù)爽柒,把covariates映射到representation吴菠。通常情況下表示層會(huì)是更稠密的向量,有更深層次的語義浩村。
具體做法
為了更好地估計(jì)因果效應(yīng)做葵,我們需要學(xué)習(xí)兩個(gè)函數(shù)和
。這兩個(gè)函數(shù)需要在整個(gè)covariates分布上有良好的泛化能力心墅。因此需要做到三點(diǎn)酿矢,
- 估計(jì)好事實(shí)榨乎,對(duì)觀測(cè)到的實(shí)際outcome估計(jì)準(zhǔn)確;
- 估計(jì)好反事實(shí)瘫筐,這里利用的是最近鄰的方法蜜暑,來構(gòu)造反事實(shí),即
策肝,其中
表示最近鄰的鄰居肛捍。本質(zhì)是在模擬樣本的反事實(shí),有點(diǎn)類似于matching的方法之众。
- 平衡好不同干預(yù)下的representation
整體的損失函數(shù)如下圖所示拙毫,分別對(duì)應(yīng)著上邊所說的三個(gè)要點(diǎn)。
那么如何學(xué)習(xí)到好的樣本表示呢酝枢,作者闡述了兩種學(xué)習(xí)器恬偷,1)線性表示學(xué)習(xí)器;2)深度表示學(xué)習(xí)器帘睦。
To be continued