因果推斷深度學(xué)習(xí)工具箱 - Learning Representations for Counterfactual Inference

文章名稱

Learning Representations for Counterfactual Inference

核心要點(diǎn)

因果推斷的核心問題1)missing counterfactuals烹笔;2)imbalance covariates distribution under different intervention茎毁。只有知道了各種干預(yù)下的結(jié)果音念,才能計(jì)算出不同干預(yù)之間的因果效應(yīng)。為了準(zhǔn)確的估計(jì)反事實(shí),需要解決由于混淆變量引起的不同干預(yù)下定嗓,樣本特征分布不一致的問題裸影,否則會(huì)具有selection bias,同時(shí)會(huì)帶來估計(jì)的高方差串前。
不同干預(yù)下樣本特征分布不一致瘫里,意味著P(X) \neq P(X|T=t),也意味著P(X|T=t_0) \neq P(X|T=t_1)荡碾。采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的機(jī)器學(xué)習(xí)方法在觀察到的事實(shí)結(jié)果上可能擬合的很好谨读,但在反事實(shí)上遇到了不同的特征分布,導(dǎo)致模型效果變差坛吁。例如劳殖,某個(gè)樣本的實(shí)際干預(yù)是T=t_1,模型擬合了P(Y|X, T=t_1)拨脉,也就是事實(shí)數(shù)據(jù)哆姻,但遇到反事實(shí)分布P(Y|X, T=t_0)時(shí),就會(huì)估計(jì)的不準(zhǔn)確玫膀。猛然一拍大腿矛缨,這個(gè)是不是有點(diǎn)像訓(xùn)練集和測(cè)試集分布不一致的問題?
這種不一致的問題在領(lǐng)域遷移里是基操帖旨,作者借鑒domain adaptation的思想箕昭,結(jié)合表示學(xué)習(xí),利用正則化的手段解阅,使得P(\Phi(X)|T=t_0) = P(\Phi(X)|T=t_1)落竹,其中\Phi(X)是學(xué)習(xí)到的特征表示(分布平衡是在表示層做的)。有了這種表示货抄,模型能夠更好地回答反事實(shí)的問題述召。并且,作者證明了這種方法是在最小化counterfactual的regret的上界碉熄。

方法細(xì)節(jié)

問題引入

因果推斷問題桨武,旨在計(jì)算不同干預(yù)之間的效果差異,即Y_1(x) - Y_0(x)锈津,其中x是樣本的covariates呀酸。然而,我們只能觀測(cè)到一個(gè)factual outcome琼梆,y_{i}^{F} = t_{i} Y_{1}(x_i) + (1 - t_{i}) Y_{0}(x_i)性誉。也就是說窿吩,觀測(cè)數(shù)據(jù)實(shí)際來自于兩個(gè)分布y_{i}^{F}P^F(x, t) = P(x) P(t|x)P^{CF} = P(x) P(\neg t|x)错览,其中CF代表counterfactual纫雁。由于混淆變量的存在,這兩個(gè)分布是不同的倾哺。如果通過直接建模的方式來估計(jì)轧邪,無論是單個(gè)模型h(x_i, t_i) = \hat{y}_{i}^{F},還是多個(gè)模型h_{j}(x_i, t_i = j) = \hat{y}_{i:t_i=j}^{F}羞海,我們都需要把一個(gè)在不同分布上訓(xùn)練的模型忌愚,應(yīng)用到在另一個(gè)不同的分布上來估計(jì)counterfactual,就像訓(xùn)練集和測(cè)試集的分布不同一樣却邓,導(dǎo)致模型效果不夠理想(實(shí)際上硕糊,由于觀測(cè)數(shù)據(jù)得到的P(X|T=t_0)P(X|T=t_1)也只是真實(shí)條件分布的采樣,最終會(huì)導(dǎo)致有更大的偏差)腊徙。由于這里的分布不一致简十,指的是covariates,也就是特征分布不一致撬腾,也就是所謂的covariates shift螟蝙,是domain adaptation的一個(gè)特殊場(chǎng)景。
其實(shí)民傻,在很多文章中都有過闡述胶逢,領(lǐng)域遷移(協(xié)變量遷移)與因果推斷的關(guān)系是密不可分。因此饰潜,作者從領(lǐng)域遷移的idea出發(fā),把因果推斷問題定義為領(lǐng)域遷移問題和簸,通過正則化的方法來平衡不同干預(yù)下的covariates分布彭雾。其他利用re-weight,調(diào)整樣本權(quán)重的方法不同锁保,文章提出的方法的正則化是在表示層進(jìn)行的薯酝,也就是約束的是\Phi(x)\Phi是映射函數(shù)爽柒,把covariates映射到representation吴菠。通常情況下表示層會(huì)是更稠密的向量,有更深層次的語義浩村。

具體做法

learning process

為了更好地估計(jì)因果效應(yīng)做葵,我們需要學(xué)習(xí)兩個(gè)函數(shù)\Phi(x)h(\Phi(x), t)。這兩個(gè)函數(shù)需要在整個(gè)covariates分布上有良好的泛化能力心墅。因此需要做到三點(diǎn)酿矢,

  • 估計(jì)好事實(shí)榨乎,對(duì)觀測(cè)到的實(shí)際outcome估計(jì)準(zhǔn)確;
  • 估計(jì)好反事實(shí)瘫筐,這里利用的是最近鄰的方法蜜暑,來構(gòu)造反事實(shí),即y^{CF}_{i:t_i = 0} = y^{CF}_{NN_i:t_i \neq 0}策肝,其中NN_i表示最近鄰的鄰居肛捍。本質(zhì)是在模擬樣本的反事實(shí),有點(diǎn)類似于matching的方法之众。
  • 平衡好不同干預(yù)下的representation

整體的損失函數(shù)如下圖所示拙毫,分別對(duì)應(yīng)著上邊所說的三個(gè)要點(diǎn)。


loss in step 1

那么如何學(xué)習(xí)到好的樣本表示呢酝枢,作者闡述了兩種學(xué)習(xí)器恬偷,1)線性表示學(xué)習(xí)器;2)深度表示學(xué)習(xí)器帘睦。

To be continued

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末袍患,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子竣付,更是在濱河造成了極大的恐慌诡延,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,657評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件古胆,死亡現(xiàn)場(chǎng)離奇詭異肆良,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)逸绎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門惹恃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人棺牧,你說我怎么就攤上這事巫糙。” “怎么了颊乘?”我有些...
    開封第一講書人閱讀 164,057評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵参淹,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我乏悄,道長(zhǎng)浙值,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,509評(píng)論 1 293
  • 正文 為了忘掉前任檩小,我火速辦了婚禮开呐,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己负蚊,他們只是感情好神妹,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,562評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著家妆,像睡著了一般鸵荠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上伤极,一...
    開封第一講書人閱讀 51,443評(píng)論 1 302
  • 那天蛹找,我揣著相機(jī)與錄音,去河邊找鬼哨坪。 笑死庸疾,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的当编。 我是一名探鬼主播届慈,決...
    沈念sama閱讀 40,251評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼忿偷!你這毒婦竟也來了金顿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,129評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤鲤桥,失蹤者是張志新(化名)和其女友劉穎揍拆,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體茶凳,經(jīng)...
    沈念sama閱讀 45,561評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡嫂拴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,779評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了贮喧。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片筒狠。...
    茶點(diǎn)故事閱讀 39,902評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖箱沦,靈堂內(nèi)的尸體忽然破棺而出窟蓝,到底是詐尸還是另有隱情,我是刑警寧澤饱普,帶...
    沈念sama閱讀 35,621評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站状共,受9級(jí)特大地震影響套耕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜峡继,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,220評(píng)論 3 328
  • 文/蒙蒙 一冯袍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦康愤、人聲如沸儡循。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽择膝。三九已至,卻和暖如春检激,著一層夾襖步出監(jiān)牢的瞬間肴捉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評(píng)論 1 269
  • 我被黑心中介騙來泰國打工叔收, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留齿穗,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,025評(píng)論 2 370
  • 正文 我出身青樓饺律,卻偏偏與公主長(zhǎng)得像窃页,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子复濒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,843評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容