因果推斷深度學(xué)習(xí)工具箱 - CounterFactual Regression with Importance Sampling Weights

文章名稱

CounterFactual Regression with Importance Sampling Weights

核心要點(diǎn)

文章主要針對binary treatment的場景巾乳,能夠用來估計CATE(當(dāng)然也可以估計ATE)茵肃。作者基于CFR[1],提出利用上下文感知的重要性采樣來取代CFR的固定權(quán)重,來平衡selection bias。相比于BNN和CFR利用頻率統(tǒng)計得到的樣本權(quán)重,文章提出的方法能夠?qū)崿F(xiàn)selection bias的平衡,彌補(bǔ)IPM loss較小平衡能力不足的問題。CFR-IS采用兩階段交替學(xué)習(xí)班巩。首先,利用給定權(quán)重嘶炭,訓(xùn)練類似BNN和CFR的loss抱慌。隨后,通過最小化NLL得到更優(yōu)的權(quán)重旱物。

方法細(xì)節(jié)

問題引入

BNN和CFR主要利用IPM來平衡不同treatment下的分布差異遥缕,具體loss如下圖所示。但是由于這種平衡是建立在P(\Phi(x), t)的聯(lián)合分布上的宵呛,t的影響可能會被忽略单匣,而且高維特征會導(dǎo)致有treatment引起的分布距離比較小,不能夠提供足夠的loss宝穗,來進(jìn)行selection bias的平衡户秤。

CFR loss

同時,BNN和CFR在構(gòu)建factual loss(估計樣本實(shí)際輸出)的時候逮矛,采用了頻率統(tǒng)計得到的權(quán)重鸡号,即圖中的w_i,其計算方法如下圖所示须鼎【ò椋可以看出這個weight是一個頻率統(tǒng)計值府蔗,本質(zhì)是一個propensity score的倒數(shù)。
CFR weight

CFR weight(2)

而經(jīng)過loss的改寫汞窗,發(fā)現(xiàn)這部分權(quán)重的目標(biāo)是平衡樣本不均(參見引用[1])姓赤,并不能起到balancing當(dāng)中的re-weigthing的作用。因此仲吏,總體作者認(rèn)為對selection bias的矯正是不充分的不铆。所以,提出利用重要性采樣的方法來學(xué)習(xí)樣本權(quán)重實(shí)現(xiàn)不同treatment下的covariates均衡(大家都是這條路裹唆,做法不同而已)誓斥。
CFR loss reformation

具體做法

因此,作者把兩個不同的treatment下的分布许帐,看做是兩個不同分布的采樣劳坑。為了對齊兩個分布的學(xué)習(xí)效果,我們把counterfactual的covariates分布p(y, \phi | \neg t)當(dāng)做是目標(biāo)分布p(x)舞吭,把實(shí)際觀測到的樣本分布p(y, \phi | t)當(dāng)做采樣分布q(x)泡垃。例如析珊,當(dāng)我們處理t = 0的數(shù)據(jù)是羡鸥,t = 0的covariates分布就是采樣分布请契,而t = 1是目標(biāo)分布辙诞。

importance sampling

當(dāng)控制住\phi = \Phi(x)之后,下圖中因果圖的后門被阻斷(后門準(zhǔn)則)爽哎,那么ty是獨(dú)立的奕剃。
belif net

因此衷旅,得到不同treatment下y\phi的聯(lián)合分布的比值等于不同treatment下\phi的比值。這樣我們構(gòu)造了一個有covariates得到的隱向量\Phi(x)決定的重要性采樣權(quán)重纵朋。
counterfactual IS

為了能夠在觀測數(shù)據(jù)上也表現(xiàn)得好(也就是預(yù)測好factual)柿顶,作者在權(quán)重上加1,表示采樣分布和目標(biāo)分布是同一個操软。
weight

但是嘁锯,我們發(fā)現(xiàn)直接估計這個weight不現(xiàn)實(shí),因?yàn)槭且烙嬕粋€隱向量在不同treatment下出現(xiàn)的概率的比值聂薪。無論是直接估計概率密度函數(shù)家乘,還是用高斯建模概率的密度函數(shù)要么計算量大,要么假設(shè)太強(qiáng)藏澳,不準(zhǔn)確仁锯。所以作者采用貝葉斯法則轉(zhuǎn)化了weight的估計方式,如下圖所示翔悠。其中业崖,\pi_{0}(t|\phi)表示propensity score野芒,可以用LR或者神經(jīng)網(wǎng)絡(luò)得到。
weight reformation

propensity \pi

學(xué)習(xí)propensity的loss就是簡單的NLL双炕。作者采用交替優(yōu)化CFR loss和propensity loss的方法進(jìn)行學(xué)(也許可以一起學(xué)复罐,類似Dragnnet)。
propensity loss

具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示雄家,
network structure

代碼實(shí)現(xiàn)

pseudo code

(留坑待填...)

心得體會

why IS work?

個人理解效诅,IS就是把眼分布的數(shù)據(jù)用來換到目標(biāo)分布來估計目標(biāo)結(jié)果。這里weight是用在factual loss的那個部分趟济,也就是說乱投,我們假設(shè)樣本可能來自counterfactual分布,在這種情況下還用觀測結(jié)果作為事實(shí)來代表counterfactual的值顷编,就需要用IS戚炫。并且IS之后,就可以把估計factual loss當(dāng)做是在估計counterfactual loss媳纬。

add 1 to weight

在權(quán)重上+1双肤,就把一個樣本分成了兩個。因?yàn)椋?img class="math-inline" src="https://math.jianshu.com/math?formula=(1%2Bw_%7Bi%7D)%20x%20%3D%20x%20%2B%20w_i%20x" alt="(1+w_{i}) x = x + w_i x" mathimg="1">钮惠。本質(zhì)是表示如果這個樣本實(shí)際就是從觀測分布來的茅糜,那么就不需要加權(quán),但需要被用來估計factual素挽。

文章引用

[1] Shalit, U., Johansson, F.D., & Sontag, D. (2017). Estimating individual treatment effect: generalization bounds and algorithms. ICML.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蔑赘,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子预明,更是在濱河造成了極大的恐慌缩赛,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撰糠,死亡現(xiàn)場離奇詭異酥馍,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)阅酪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進(jìn)店門旨袒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人遮斥,你說我怎么就攤上這事峦失。” “怎么了术吗?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵尉辑,是天一觀的道長。 經(jīng)常有香客問我较屿,道長隧魄,這世上最難降的妖魔是什么卓练? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮购啄,結(jié)果婚禮上襟企,老公的妹妹穿的比我還像新娘。我一直安慰自己狮含,他們只是感情好顽悼,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著几迄,像睡著了一般蔚龙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上映胁,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天木羹,我揣著相機(jī)與錄音,去河邊找鬼解孙。 笑死坑填,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的弛姜。 我是一名探鬼主播脐瑰,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼娱据!你這毒婦竟也來了蚪黑?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤中剩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后抒寂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體结啼,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年屈芜,在試婚紗的時候發(fā)現(xiàn)自己被綠了郊愧。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡井佑,死狀恐怖属铁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情躬翁,我是刑警寧澤焦蘑,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站盒发,受9級特大地震影響例嘱,放射性物質(zhì)發(fā)生泄漏狡逢。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一拼卵、第九天 我趴在偏房一處隱蔽的房頂上張望奢浑。 院中可真熱鬧,春花似錦腋腮、人聲如沸雀彼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽详羡。三九已至,卻和暖如春嘿悬,著一層夾襖步出監(jiān)牢的瞬間实柠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工善涨, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留窒盐,地道東北人。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓钢拧,卻偏偏與公主長得像蟹漓,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子源内,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容