Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning 筆記
論文地址:Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning
摘要
??在實(shí)驗(yàn)和觀察性研究中阳啥, 異質(zhì)化的treatment的評(píng)估和分析受到了人們?cè)絹碓蕉嗟年P(guān)注桑驱。我們描述一些元算法,他們可以利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中的任何監(jiān)督學(xué)習(xí)或者回歸方法來評(píng)估條件處理效應(yīng)( Conditional Average Treatment Effect候衍,CATE)函數(shù)。元算法建立在基本算法(隨機(jī)森林-RF掺出、貝葉斯加權(quán)回歸樹-BART看杭、神經(jīng)網(wǎng)絡(luò)的等)的基礎(chǔ)上評(píng)估CATE,該算法并沒有直接評(píng)估的基本算法掉冶。本文介紹了一種新的元算法-,該算法在treatment組數(shù)據(jù)遠(yuǎn)大于contal數(shù)據(jù)時(shí)也是有效的,并且利用了CATE的函數(shù)結(jié)構(gòu)特性脐雪。例如厌小,如果CATE函數(shù)是線性的,并且在treatment和contal中響應(yīng)函數(shù)都是Lipschitz連續(xù)战秋,X-learner可以在正則條件下獲得參數(shù)率定(對(duì)參數(shù)進(jìn)行校準(zhǔn)測(cè)定璧亚,這里個(gè)人覺的就是在樣本不均衡下也可以到準(zhǔn)確的參數(shù)評(píng)估)。然后我們介紹了使用RF和CART作為基礎(chǔ)學(xué)習(xí)器的X-learner的版本脂信。在廣泛的模擬研究中癣蟋,雖然沒有一個(gè)元學(xué)習(xí)器效果始終是好的,但是X-learner總體上表現(xiàn)的很好狰闪。在政治學(xué)中的兩個(gè)說服性實(shí)驗(yàn)組疯搅,展示了X-learner如何用于teatment制度上,并闡明潛在的機(jī)制埋泵。
Lipschitz(利普希茨)連續(xù)定義:有函數(shù)
幔欧,如果存在一個(gè)常量
,使得對(duì)
f定義域上(可為實(shí)數(shù)也可以為復(fù)數(shù))的任意兩個(gè)值滿足如下條件:
那么稱函數(shù)滿足Lipschitz連續(xù)條件丽声,并稱
為
的Lipschitz常數(shù)礁蔗。Lipschitz連續(xù)比一致連續(xù)要強(qiáng)。它限制了函數(shù)的局部變動(dòng)幅度不能超過某常量
介紹
??隨著包含有關(guān)人類及其行為的細(xì)粒度的數(shù)據(jù)信息的增長(zhǎng)恒序,研究人員瘦麸、商業(yè)谁撼、政客越來越關(guān)注treatment的效果的個(gè)人效果的不同性歧胁。他們希望可以比在隨機(jī)試驗(yàn)和觀察研究中通過估計(jì)評(píng)估實(shí)驗(yàn)效果(ATE,Average Treatment Effect)的數(shù)據(jù)更多的信息厉碟。取而代之是他們尋找評(píng)估CATE的個(gè)性化treatment方案和更好的理解因果機(jī)制喊巍。我們這里介紹了一個(gè)新的評(píng)估器:X-learner,并使用一個(gè)統(tǒng)一的元學(xué)習(xí)框架對(duì)它和其他的CATE評(píng)估器進(jìn)行表證箍鼓。并通過兩個(gè)隨機(jī)試驗(yàn)數(shù)據(jù)集比較了他們的性能崭参。
??在第一個(gè)隨機(jī)實(shí)驗(yàn),我們?cè)u(píng)估了郵件對(duì)選民投票率的影響款咖,在第二個(gè)實(shí)驗(yàn)組何暮,評(píng)估了上門交談對(duì)性別歧視的影響奄喂。實(shí)驗(yàn)組,發(fā)現(xiàn)treatment效果是不一樣的海洼,我們通過CATE來量化這種差異跨新。
??為了評(píng)估CATE,我們使用了統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的回歸或監(jiān)督學(xué)習(xí)的方法坏逢,這些方法已經(jīng)成功的廣泛被其他的應(yīng)用使用域帐。具體的講,我們我們的元算法是基于二值的treatment實(shí)驗(yàn)是整。元學(xué)習(xí)器把估計(jì)CATE拆分為多個(gè)子回歸問題肖揣,然后這些問題可以用任何回歸或者監(jiān)督學(xué)習(xí)方法來解決。
??在大多場(chǎng)景評(píng)估異構(gòu)treatment效果的元算法中需要有兩個(gè)步驟浮入。1)它使用基學(xué)習(xí)器分別評(píng)估treatment和contal結(jié)果的條件期望龙优。 2)計(jì)算他們(treatment和contal)之間的差異∈滦悖基學(xué)習(xí)器可以使用線性回歸或者基于樹的方法陋率。當(dāng)使用樹學(xué)習(xí)器時(shí)被稱為Two-Tree評(píng)估,我們因此將這種方式稱為T-learner秽晚⊥咴悖“T”就是“two”的縮寫。
??另外一種評(píng)估CATE效果是利用所有的特征和treatment信號(hào)進(jìn)行訓(xùn)練模型赴蝇。讓treatment信號(hào)為空時(shí)表示特殊情況菩浙,就是contral情況。預(yù)測(cè)CATE時(shí)是修改treatment信號(hào)的值進(jìn)行預(yù)測(cè)句伶,兩次結(jié)果的差值作為最終的結(jié)果(就是把treatment當(dāng)做特征使用劲蜻,訓(xùn)練一個(gè)模型,使用時(shí)先把treatment信號(hào)置為1預(yù)測(cè)一遍考余,在置為0預(yù)測(cè)一遍先嬉,兩個(gè)預(yù)測(cè)做差表示CATE)。這種元算法就是S-learner楚堤,“s”就是“single”的縮寫疫蔓。
??不是所有的捕獲treatment異構(gòu)效果的方法都是元算法。例如身冬,一些研究所人員通過估計(jì)有意義的子群體的評(píng)價(jià)treatment效果來分析效果的異構(gòu)性衅胀。例如文獻(xiàn)8中的因果森林。由于因果森林是基于RF的方法酥筝,因此在模擬研究中可以與RF的元算法進(jìn)行比較滚躯,并在結(jié)果中我們發(fā)現(xiàn)因果森林和基于RF的元算法表現(xiàn)的很好,但是也有其他的元算法效果也可以因果森林效果更好。
??本文的貢獻(xiàn)主要是引入了一種新的元算法:X-learner掸掏。它是建立在T-learner的基礎(chǔ)上茁影,并將訓(xùn)練集中的每個(gè)觀測(cè)值用在一個(gè)類似“X”形狀的公式上。假設(shè)我們可以直接觀測(cè)到Treatment的效果丧凤,我們可以通過一些方法來刻畫這個(gè)CATE函數(shù)呼胚。但是在實(shí)際中我們的實(shí)驗(yàn)樣本不可能同時(shí)處于Treatment和control的,X-learner就是利用觀測(cè)到的結(jié)果來評(píng)估CATE的息裸。
??與其他的CATE評(píng)估方式比蝇更,X-learner有兩個(gè)優(yōu)點(diǎn)。第一呼盆,它可以證明可適應(yīng)結(jié)構(gòu)性年扩,例如CATE的的稀疏性或平滑性。這特別有用访圃,因?yàn)镃ATE通常為0或者近似為線性厨幻。第二,當(dāng)一個(gè)treatment組(通常為control)的數(shù)據(jù)量比另外一個(gè)treatment大很多時(shí)特別有用腿时,發(fā)展這種親口的原因是對(duì)照組的數(shù)據(jù)比較容易獲取况脆。
框架和定義
??我們采用 Neyman–Rubin潛在結(jié)果框架,并假設(shè)一個(gè)超群體或分布批糟,從中給出
個(gè)獨(dú)立的隨機(jī)變量作為訓(xùn)練集格了。即
,這里
表示的是一個(gè)d維的特征向量,
表示的是否是treatment,
表示的是對(duì)照組的結(jié)果徽鼎,
表的treatment的結(jié)果盛末。在這些符號(hào)表示下,平均treatment(ATE)效果可以表示為:
定義對(duì)照組的相應(yīng)和實(shí)驗(yàn)組的相應(yīng)
:
此外我們定義以下符號(hào)
這里是X的分布否淤,
和
是獨(dú)立于X和W的非零均值隨機(jī)變量悄但,
表示的是傾向得分(一個(gè)樣本被分配到treatment組的概率)。
??因果推斷的根本問題是石抡,對(duì)于訓(xùn)練集中的每一個(gè)樣本檐嚣,要么觀察到處于對(duì)照組()下的結(jié)果,要么觀察到處于實(shí)驗(yàn)組
下的結(jié)果,不能同時(shí)觀察到啰扛。因此我們將觀測(cè)數(shù)據(jù)定義為
.這里
是
決定的嚎京。為了避免所有的樣本都處于對(duì)照組或者實(shí)驗(yàn)組概率為一個(gè)極小的非零值問題,我們將根據(jù)treatment的樣本數(shù)量為條件來分析不同的評(píng)估器的效果差異侠讯。也就是說挖藏,對(duì)于一個(gè)固定的
,
,我們的條件是
厢漩。這樣使得我們根據(jù)實(shí)驗(yàn)組的樣本n、控制組的樣本m=N-n下來描述評(píng)估器的效果岩臣。
??對(duì)于一個(gè)具有特征的個(gè)體
,判定是否對(duì)其treatment溜嗜,我們需要計(jì)算個(gè)體treatment效果(ITE, Individual Treatment Effect)
,定義為
然而宵膨,在實(shí)際中我們是觀察不到的,并且如果沒有強(qiáng)大的附加假設(shè)就無(wú)法識(shí)別
,我們雖然可以構(gòu)造數(shù)據(jù)生成過程與觀察數(shù)據(jù)的相同分布炸宵,但是卻和
的分布不同辟躏。所以,我們這評(píng)估CATE效果用以下定義
個(gè)人認(rèn)為土全,就是說單獨(dú)的個(gè)體treatment差異是無(wú)法評(píng)估到的捎琐,但是可以評(píng)估一組相同特征下的子群體treatment差異。
我們注意到CATE的最佳估計(jì)也是在最小均方誤差下的ITE的最佳估計(jì)裹匙。為了證明這點(diǎn)瑞凑,我們假設(shè)一個(gè)估計(jì)量
,然后分解為
概页。由于我們無(wú)法影響公式2中的第一項(xiàng)籽御,所以我們優(yōu)化最小CATE的MSE也就是優(yōu)化最小化ITE的MSE。
在本文中惰匙,我們最小化期望均方誤差(EMSE)來估計(jì)CATE技掏。
.
這里的取決于
和
,
獨(dú)立于
项鬼。
??為了幫助我們估計(jì),我們假設(shè)這里沒有其他的混淆因素哑梳。
條件1
在特征相同的情況下,是否被treatment要獨(dú)立于結(jié)果誤差绘盟。
條件2 存在傾向得分的最小最大
邊界值,使得所有的
都符合涧衙,
元算法
??在這個(gè)章節(jié)中,我們正式的介紹元算法(元學(xué)習(xí))奥此,它是以特征的方式組合監(jiān)督學(xué)習(xí)或回歸估計(jì)弧哎,同時(shí)它允許采用任何形式的基學(xué)習(xí)器。元算法因此具有很高的靈活性稚虎,可以在不同的子問題中利用先驗(yàn)知識(shí)來評(píng)估CATE:可以選擇特定類型的數(shù)據(jù)撤嫩,可以直接利用現(xiàn)有的數(shù)據(jù)分析管道。
??我們首先會(huì)議一下S-learner 和T-learner,然后我們提出X-learner,這是一種可以利用不平衡(例如蠢终,實(shí)驗(yàn)組或者對(duì)照的樣本遠(yuǎn)大于另外一個(gè))數(shù)據(jù)的優(yōu)勢(shì)和CATE結(jié)構(gòu)的新元算法序攘。
??T-learner分為兩個(gè)步驟,第一步寻拂,用一個(gè)基學(xué)習(xí)器來擬合對(duì)照組的相應(yīng)函數(shù)程奠,
基學(xué)習(xí)器可以在對(duì)照組的樣本采用任何監(jiān)督學(xué)習(xí)或者回歸估計(jì),我們用符號(hào)
表示祭钉。第二步瞄沙,我們估計(jì)treatment的相應(yīng)函數(shù),
,
在實(shí)驗(yàn)組的數(shù)據(jù)上進(jìn)行訓(xùn)練,我們用符號(hào)來表示距境。那么T-learner可以通過以下公式得出:
?? S-learner,是否treatment是被當(dāng)做特征使用的申尼。因此評(píng)估公式為,這里可以用任何基學(xué)習(xí)器,我們用
表示模型的估計(jì)量垫桂,因此CATE估計(jì)量表示為:
.
X-learner
這里我們提出X-learner并提供一個(gè)例子說明它的動(dòng)機(jī)师幕。X-learner學(xué)習(xí)器可以分為三步
- 用任意的監(jiān)督學(xué)習(xí)或者回歸算法估計(jì)相應(yīng)函數(shù),用
和
表示估計(jì)量诬滩。
,
- 根據(jù)對(duì)照組的模型來計(jì)算實(shí)驗(yàn)組中的個(gè)人treatment效果霹粥,根據(jù)實(shí)驗(yàn)組的模型來計(jì)算實(shí)驗(yàn)最中的個(gè)人treatment效果。用公式表示為:
,
注意到疼鸟,如果和
后控,則
??使用任意的監(jiān)督學(xué)習(xí)或者回歸算法計(jì)算有兩種方式:一種是利用treatment組訓(xùn)練的模型計(jì)算得到的
,另一種是利用對(duì)照組訓(xùn)練的模型計(jì)算得到的
.
- 通過階段2中計(jì)算得到的兩個(gè)估計(jì)量進(jìn)行加權(quán)計(jì)算CATE估計(jì)量:
這里是一個(gè)權(quán)重函數(shù)。
備注1 和
都是
的估計(jì)量愚臀,而
是把這些估計(jì)量合在一起提高
的準(zhǔn)確度忆蚀。根據(jù)我們的經(jīng)驗(yàn),我們發(fā)現(xiàn)傾向得分作為
是很好的姑裂,所以選擇
馋袜,如果在實(shí)驗(yàn)組和對(duì)照組的樣本數(shù)據(jù)比例很大或者很小時(shí),選擇
或者
也是有意義的舶斧。對(duì)于某些估計(jì)量來說欣鳖,它有可能估計(jì)
和
的協(xié)方差矩陣,然后選擇
來最小化
茴厉。
元學(xué)習(xí)器背后的直覺(動(dòng)機(jī))
??X-learner可以使用對(duì)照組的信息來為實(shí)驗(yàn)組服務(wù)得到更好的估計(jì)量泽台,反之亦然。我們通過一個(gè)簡(jiǎn)單的例子來說明這個(gè)矾缓。假設(shè)我們想要研究一種treatment的效果怀酷,我們用CATE估計(jì)量來作為x的單變量函數(shù)。然而嗜闻,我們發(fā)現(xiàn)實(shí)驗(yàn)組的樣本很少蜕依,對(duì)照組的樣本很多。這種情況出現(xiàn)在行政管理和在線數(shù)據(jù)中:對(duì)照組的數(shù)據(jù)要比實(shí)驗(yàn)組的數(shù)據(jù)豐富的多琉雳。Fig1(a)現(xiàn)實(shí)了實(shí)驗(yàn)組的結(jié)果(圓圈)和對(duì)照組的結(jié)果(叉號(hào))样眠。在這個(gè)例子中CATE是常量且等于1。這里是人工模型數(shù)據(jù)生成的.
??目前讓我們只看實(shí)驗(yàn)組(treatment)的結(jié)果翠肘,當(dāng)我們估計(jì)時(shí)檐束,我們必須注意不用出現(xiàn)過擬合,因?yàn)槲覀冎挥?0個(gè)樣本束倍。我們可能打算使用線性模型被丧,(虛線)來評(píng)估盟戏。對(duì)于對(duì)照組,我們注意到當(dāng)區(qū)間的觀測(cè)值似乎是不同的晚碾,最終我們用一個(gè)在之間跳躍的分段線性函數(shù)來建模(實(shí)線)抓半。這是一個(gè)相對(duì)復(fù)雜的函數(shù)喂急,因?yàn)橛泻芏鄶?shù)據(jù)我們不擔(dān)心過擬合問題格嘁。
??在T-learner模型現(xiàn)在將計(jì)算(見Fig1中C的實(shí)線部分),這是一個(gè)在跳躍的相對(duì)復(fù)雜的函數(shù)廊移,然而真實(shí)的是一個(gè)常量糕簿。所以這里是有問題的,因?yàn)槲覀児烙?jì)CATE方程時(shí)是基于只有10個(gè)樣本的實(shí)驗(yàn)組訓(xùn)練的模型狡孔。(換句話就是懂诗,實(shí)驗(yàn)組的樣本太少,計(jì)算的
這里指出T-learner在實(shí)驗(yàn)組和對(duì)照組樣本極不均勻時(shí)的預(yù)測(cè)的錯(cuò)誤CATE結(jié)果
??在選擇計(jì)算treatment組的預(yù)測(cè)值時(shí)選擇了一個(gè)比較好的估計(jì)量,正確的避免了過擬合辱揭,最終我們選擇了一個(gè)相對(duì)復(fù)雜的CATE評(píng)估方式离唐。我們可以選擇一個(gè)在0到0.5之間跳躍的分段線性函數(shù),但是當(dāng)只考慮treatment組時(shí)這顯然是不合理的问窃。但是亥鬓,如果我們還要考慮對(duì)照組的,則這種公式將是自然選擇域庇。換句話說嵌戈,我們應(yīng)該改變和
,希望以這種方式估算他們的差是對(duì)
的良好的估計(jì)。
這里是說我們計(jì)算treatment效果時(shí)用到了對(duì)照組的模型听皿,如果只考慮treatment組這是不合理的熟呛。但是我們的目標(biāo)不是找treatment和control,而是找treatment和control的差尉姨,通過這種方式可以更好的擬合
庵朝。
X-learner使得我們可以做到這一點(diǎn)。它使我們能夠利用CATE結(jié)構(gòu)信息來高效的利用結(jié)構(gòu)的不平衡設(shè)計(jì)啊送。X-learner第一階段時(shí)和T-learner相同的偿短,但是第二階段,從reatment的觀測(cè)結(jié)果減去對(duì)照組訓(xùn)練的模型估計(jì)量馋没,從實(shí)驗(yàn)組訓(xùn)練的模型減去對(duì)照組的觀測(cè)結(jié)果昔逗,從而估算出treatment的結(jié)果。,
篷朵。
這里我們用和
分別表示對(duì)照組和實(shí)驗(yàn)組的觀測(cè)結(jié)果勾怒,
和
分別是相應(yīng)的特征向量婆排。Fig1(b)展示了計(jì)算treatment的效果
。根據(jù)公式7笔链、8 可以計(jì)算出
和
段只。然后再利用以下公式計(jì)算出最終的評(píng)估結(jié)果。
這里計(jì)算
是利用實(shí)驗(yàn)組的觀測(cè)數(shù)據(jù)減去對(duì)照組模型預(yù)測(cè)的結(jié)果鉴扫,
是利用實(shí)驗(yàn)組模型預(yù)測(cè)結(jié)果減去對(duì)照組的觀測(cè)數(shù)據(jù)赞枕。要說明的是
(fig1_b中藍(lán)線)計(jì)算的更準(zhǔn)確一些,因?yàn)閷?duì)照組模型是準(zhǔn)確的坪创,但是實(shí)驗(yàn)組模型是過擬合的炕婶。所以fig1(b)藍(lán)線更接近正確值(treatment真實(shí)效果為1)。
如果我們選擇,即使用傾向得分作為
,
將和
非常相似莱预,因?yàn)槲覀冊(cè)趯?duì)照組中有更多的觀察結(jié)果柠掂,即
很小。Fig1(c)顯示了T-learner和X-learner的效果依沮。
??在這個(gè)例子中我們選擇S-learner很難評(píng)估涯贞,因?yàn)槿绻庞蠷F的基學(xué)習(xí)器進(jìn)行訓(xùn)練時(shí),S-learner第一個(gè)分裂可能把97.5%的實(shí)驗(yàn)組的樣本分裂出去危喉,造成后續(xù)分裂時(shí)缺少實(shí)驗(yàn)組的樣本宋渔。
換句話說就是實(shí)驗(yàn)組和對(duì)照組的樣本比例極不均衡時(shí),如果使用S-learner訓(xùn)練時(shí)幾次分裂就會(huì)把所有的實(shí)驗(yàn)組樣本使用完姥饰。
仿真結(jié)果(略)
這里說元算法的基學(xué)習(xí)器的選擇會(huì)最對(duì)最終的結(jié)果有很大的不同傻谁。
指出S-learner是否treatment當(dāng)做和其他特征一樣的權(quán)重是不是最明智的。
指出T-learner沒有合并實(shí)驗(yàn)組和對(duì)照組列粪,這對(duì)預(yù)測(cè)CATE是不利的审磁,因?yàn)橹皇菙M合各自的數(shù)據(jù)集,沒有表現(xiàn)出實(shí)驗(yàn)組和對(duì)照組之間的相應(yīng)功能岂座。
指出當(dāng)實(shí)驗(yàn)組和對(duì)照組的樣本非常不均衡時(shí)态蒂,X-learner是牛逼的。
收斂速度比較(略)
應(yīng)用(略)
通過2個(gè)數(shù)據(jù)證明X-learner的優(yōu)越性费什。
結(jié)論
這篇文章綜述了CATE估計(jì)的元算法钾恢,包括S-learner和T-learner。然后提出了一個(gè)新的X-learner鸳址,它可以將任何監(jiān)督學(xué)習(xí)或者回歸算法組合轉(zhuǎn)換來評(píng)估CATE瘩蚪。X-learner適合于各種場(chǎng)景,例如當(dāng)實(shí)驗(yàn)組數(shù)據(jù)要比對(duì)照組數(shù)據(jù)多出很多時(shí)稿黍,理論和數(shù)據(jù)均表明X-learner能夠很好的擬合treatment的效果疹瘦。
附錄: