X-learner:Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning

Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning 筆記

論文地址:Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning

摘要

??在實(shí)驗(yàn)和觀察性研究中阳啥, 異質(zhì)化的treatment的評(píng)估和分析受到了人們?cè)絹碓蕉嗟年P(guān)注桑驱。我們描述一些元算法,他們可以利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中的任何監(jiān)督學(xué)習(xí)或者回歸方法來評(píng)估條件處理效應(yīng)( Conditional Average Treatment Effect候衍,CATE)函數(shù)。元算法建立在基本算法(隨機(jī)森林-RF掺出、貝葉斯加權(quán)回歸樹-BART看杭、神經(jīng)網(wǎng)絡(luò)的等)的基礎(chǔ)上評(píng)估CATE,該算法并沒有直接評(píng)估的基本算法掉冶。本文介紹了一種新的元算法-\color{red}{X-learner},該算法在treatment組數(shù)據(jù)遠(yuǎn)大于contal數(shù)據(jù)時(shí)也是有效的,并且利用了CATE的函數(shù)結(jié)構(gòu)特性脐雪。例如厌小,如果CATE函數(shù)是線性的,并且在treatment和contal中響應(yīng)函數(shù)都是Lipschitz連續(xù)战秋,X-learner可以在正則條件下獲得參數(shù)率定(對(duì)參數(shù)進(jìn)行校準(zhǔn)測(cè)定璧亚,這里個(gè)人覺的就是在樣本不均衡下也可以到準(zhǔn)確的參數(shù)評(píng)估)。然后我們介紹了使用RF和CART作為基礎(chǔ)學(xué)習(xí)器的X-learner的版本脂信。在廣泛的模擬研究中癣蟋,雖然沒有一個(gè)元學(xué)習(xí)器效果始終是好的,但是X-learner總體上表現(xiàn)的很好狰闪。在政治學(xué)中的兩個(gè)說服性實(shí)驗(yàn)組疯搅,展示了X-learner如何用于teatment制度上,并闡明潛在的機(jī)制埋泵。

Lipschitz(利普希茨)連續(xù)定義:有函數(shù)f(x)幔欧,如果存在一個(gè)常量K,使得對(duì)f(x)f定義域上(可為實(shí)數(shù)也可以為復(fù)數(shù))的任意兩個(gè)值滿足如下條件:
|f(x_1)-f(x_2)| \leq |x_1-x_2|*K
那么稱函數(shù)f(x)滿足Lipschitz連續(xù)條件丽声,并稱Kf(x)的Lipschitz常數(shù)礁蔗。Lipschitz連續(xù)比一致連續(xù)要強(qiáng)。它限制了函數(shù)的局部變動(dòng)幅度不能超過某常量

介紹

??隨著包含有關(guān)人類及其行為的細(xì)粒度的數(shù)據(jù)信息的增長(zhǎng)恒序,研究人員瘦麸、商業(yè)谁撼、政客越來越關(guān)注treatment的效果的個(gè)人效果的不同性歧胁。他們希望可以比在隨機(jī)試驗(yàn)和觀察研究中通過估計(jì)評(píng)估實(shí)驗(yàn)效果(ATE,Average Treatment Effect)的數(shù)據(jù)更多的信息厉碟。取而代之是他們尋找評(píng)估CATE的個(gè)性化treatment方案和更好的理解因果機(jī)制喊巍。我們這里介紹了一個(gè)新的評(píng)估器:X-learner,并使用一個(gè)統(tǒng)一的元學(xué)習(xí)框架對(duì)它和其他的CATE評(píng)估器進(jìn)行表證箍鼓。并通過兩個(gè)隨機(jī)試驗(yàn)數(shù)據(jù)集比較了他們的性能崭参。
??在第一個(gè)隨機(jī)實(shí)驗(yàn),我們?cè)u(píng)估了郵件對(duì)選民投票率的影響款咖,在第二個(gè)實(shí)驗(yàn)組何暮,評(píng)估了上門交談對(duì)性別歧視的影響奄喂。實(shí)驗(yàn)組,發(fā)現(xiàn)treatment效果是不一樣的海洼,我們通過CATE來量化這種差異跨新。
??為了評(píng)估CATE,我們使用了統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的回歸或監(jiān)督學(xué)習(xí)的方法坏逢,這些方法已經(jīng)成功的廣泛被其他的應(yīng)用使用域帐。具體的講,我們我們的元算法是基于二值的treatment實(shí)驗(yàn)是整。元學(xué)習(xí)器把估計(jì)CATE拆分為多個(gè)子回歸問題肖揣,然后這些問題可以用任何回歸或者監(jiān)督學(xué)習(xí)方法來解決。
??在大多場(chǎng)景評(píng)估異構(gòu)treatment效果的元算法中需要有兩個(gè)步驟浮入。1)它使用基學(xué)習(xí)器分別評(píng)估treatment和contal結(jié)果的條件期望龙优。 2)計(jì)算他們(treatment和contal)之間的差異∈滦悖基學(xué)習(xí)器可以使用線性回歸或者基于樹的方法陋率。當(dāng)使用樹學(xué)習(xí)器時(shí)被稱為Two-Tree評(píng)估,我們因此將這種方式稱為T-learner秽晚⊥咴悖“T”就是“two”的縮寫。
??另外一種評(píng)估CATE效果是利用所有的特征和treatment信號(hào)進(jìn)行訓(xùn)練模型赴蝇。讓treatment信號(hào)為空時(shí)表示特殊情況菩浙,就是contral情況。預(yù)測(cè)CATE時(shí)是修改treatment信號(hào)的值進(jìn)行預(yù)測(cè)句伶,兩次結(jié)果的差值作為最終的結(jié)果(就是把treatment當(dāng)做特征使用劲蜻,訓(xùn)練一個(gè)模型,使用時(shí)先把treatment信號(hào)置為1預(yù)測(cè)一遍考余,在置為0預(yù)測(cè)一遍先嬉,兩個(gè)預(yù)測(cè)做差表示CATE)。這種元算法就是S-learner楚堤,“s”就是“single”的縮寫疫蔓。
??不是所有的捕獲treatment異構(gòu)效果的方法都是元算法。例如身冬,一些研究所人員通過估計(jì)有意義的子群體的評(píng)價(jià)treatment效果來分析效果的異構(gòu)性衅胀。例如文獻(xiàn)8中的因果森林。由于因果森林是基于RF的方法酥筝,因此在模擬研究中可以與RF的元算法進(jìn)行比較滚躯,并在結(jié)果中我們發(fā)現(xiàn)因果森林和基于RF的元算法表現(xiàn)的很好,但是也有其他的元算法效果也可以因果森林效果更好。
??本文的貢獻(xiàn)主要是引入了一種新的元算法:X-learner掸掏。它是建立在T-learner的基礎(chǔ)上茁影,并將訓(xùn)練集中的每個(gè)觀測(cè)值用在一個(gè)類似“X”形狀的公式上。假設(shè)我們可以直接觀測(cè)到Treatment的效果丧凤,我們可以通過一些方法來刻畫這個(gè)CATE函數(shù)呼胚。但是在實(shí)際中我們的實(shí)驗(yàn)樣本不可能同時(shí)處于Treatment和control的,X-learner就是利用觀測(cè)到的結(jié)果來評(píng)估CATE的息裸。
??與其他的CATE評(píng)估方式比蝇更,X-learner有兩個(gè)優(yōu)點(diǎn)。第一呼盆,它可以證明可適應(yīng)結(jié)構(gòu)性年扩,例如CATE的的稀疏性或平滑性。這特別有用访圃,因?yàn)镃ATE通常為0或者近似為線性厨幻。第二,當(dāng)一個(gè)treatment組(通常為control)的數(shù)據(jù)量比另外一個(gè)treatment大很多時(shí)特別有用腿时,發(fā)展這種親口的原因是對(duì)照組的數(shù)據(jù)比較容易獲取况脆。

框架和定義

??我們采用 Neyman–Rubin潛在結(jié)果框架,并假設(shè)一個(gè)超群體或分布P批糟,從中給出N個(gè)獨(dú)立的隨機(jī)變量作為訓(xùn)練集格了。即(Y_i(0),Y_i(1),X_i,W_i ) \sim \mathcal{P},這里X_i \in \mathbb{R^d}表示的是一個(gè)d維的特征向量,W_i \in {0,1}表示的是否是treatment, Y_i(0) \in \mathbb{R}表示的是對(duì)照組的結(jié)果徽鼎,Y_i(1) \in \mathbb{R}表的treatment的結(jié)果盛末。在這些符號(hào)表示下,平均treatment(ATE)效果可以表示為:ATE:=\mathbb{E}[Y(1)-Y(0)]
定義對(duì)照組的相應(yīng)\mu_0和實(shí)驗(yàn)組的相應(yīng)\mu_1:\mu_0(x):=\mathbb{E}[Y(0)|X=x],\mu_1(x):=\mathbb{E}[Y(1)|X=x]
此外我們定義以下符號(hào)
\begin{split} X \sim \Lambda, \\ W \sim Bern(e(X)), \\ Y(0)=\mu_0(X)+\varepsilon(0), \\ Y(1)=\mu_1(X)+\varepsilon(1) \\ \end{split} \tag{1}
這里\Lambda是X的分布否淤,\varepsilon(0)\varepsilon(1)是獨(dú)立于X和W的非零均值隨機(jī)變量悄但,e(x)= \mathbb{P}(W=1|X=x)表示的是傾向得分(一個(gè)樣本被分配到treatment組的概率)。
??因果推斷的根本問題是石抡,對(duì)于訓(xùn)練集中的每一個(gè)樣本檐嚣,要么觀察到處于對(duì)照組(W_i=0)下的結(jié)果,要么觀察到處于實(shí)驗(yàn)組(W_i=1)下的結(jié)果,不能同時(shí)觀察到啰扛。因此我們將觀測(cè)數(shù)據(jù)定義為\mathcal{D}=(Y_i,X_i,W_i)_{1\leq{i} \leq{N}}.這里\mathcal{D}\mathcal{P}決定的嚎京。為了避免所有的樣本都處于對(duì)照組或者實(shí)驗(yàn)組概率為一個(gè)極小的非零值問題,我們將根據(jù)treatment的樣本數(shù)量為條件來分析不同的評(píng)估器的效果差異侠讯。也就是說挖藏,對(duì)于一個(gè)固定的n0<n<N ,我們的條件是\sum_{i=1}^N{W_i}=n厢漩。這樣使得我們根據(jù)實(shí)驗(yàn)組的樣本n、控制組的樣本m=N-n下來描述評(píng)估器的效果岩臣。
??對(duì)于一個(gè)具有特征x_i的個(gè)體i,判定是否對(duì)其treatment溜嗜,我們需要計(jì)算個(gè)體treatment效果(ITE, Individual Treatment Effect) D_i,定義為
D_i :=Y_i(1)-Y_i(0)
然而宵膨,在實(shí)際中我們是觀察不到D_i的,并且如果沒有強(qiáng)大的附加假設(shè)就無(wú)法識(shí)別D_i,我們雖然可以構(gòu)造數(shù)據(jù)生成過程與觀察數(shù)據(jù)的相同分布炸宵,但是卻和D_i的分布不同辟躏。所以,我們這評(píng)估CATE效果用以下定義
\tau(x) := \mathbb{E}[D|X=x]=\mathbb{E}[Y(1)-Y(0)|X=x]
個(gè)人認(rèn)為土全,就是說單獨(dú)的個(gè)體treatment差異是無(wú)法評(píng)估到的捎琐,但是可以評(píng)估一組相同特征下的子群體treatment差異。
我們注意到CATE的最佳估計(jì)也是在最小均方誤差下的ITE的最佳估計(jì)裹匙。為了證明這點(diǎn)瑞凑,我們假設(shè)D_i一個(gè)估計(jì)量\hat{\tau_i},然后分解為
\mathbb{E}[(D_i-\hat{\tau_i} )^2|X_i=x_i]=\mathbb{E}[(D_i-\tau(x_i))^2|X_i=x_i]+\mathbb{E}[(\tau(x_i)-\hat{\tau_i})^2] \tag{2}概页。由于我們無(wú)法影響公式2中的第一項(xiàng)籽御,所以我們優(yōu)化最小CATE的MSE也就是優(yōu)化最小化ITE的MSE。
在本文中惰匙,我們最小化期望均方誤差(EMSE)來估計(jì)CATE技掏。
EMSE(\mathcal{P},\hat{\tau}) = \mathbb{E}[(\tau(\mathcal{X}-\hat{\tau(\mathcal{X}})^2].
這里的\mathbb{E}取決于\hat{\tau}\mathcal{X} \sim \Lambda\mathcal{X}獨(dú)立于\hat{\tau}项鬼。
??為了幫助我們估計(jì)\tau,我們假設(shè)這里沒有其他的混淆因素哑梳。
條件1 (\varepsilon(0),\varepsilon(1)) \bot W|X
在特征相同的情況下,是否被treatment要獨(dú)立于結(jié)果誤差绘盟。
條件2 存在傾向得分的最小e_{min}最大e_{max}邊界值,使得所有的x都符合涧衙,0<e_{min}<e(x)<e_{max}<1

元算法

??在這個(gè)章節(jié)中,我們正式的介紹元算法(元學(xué)習(xí))奥此,它是以特征的方式組合監(jiān)督學(xué)習(xí)或回歸估計(jì)弧哎,同時(shí)它允許采用任何形式的基學(xué)習(xí)器。元算法因此具有很高的靈活性稚虎,可以在不同的子問題中利用先驗(yàn)知識(shí)來評(píng)估CATE:可以選擇特定類型的數(shù)據(jù)撤嫩,可以直接利用現(xiàn)有的數(shù)據(jù)分析管道。
??我們首先會(huì)議一下S-learner 和T-learner,然后我們提出X-learner,這是一種可以利用不平衡(例如蠢终,實(shí)驗(yàn)組或者對(duì)照的樣本遠(yuǎn)大于另外一個(gè))數(shù)據(jù)的優(yōu)勢(shì)和CATE結(jié)構(gòu)的新元算法序攘。
??T-learner分為兩個(gè)步驟,第一步寻拂,用一個(gè)基學(xué)習(xí)器來擬合對(duì)照組的相應(yīng)函數(shù)程奠,\mu_0(x)=\mathbb{E}[Y(0)|X=x]
基學(xué)習(xí)器可以在對(duì)照組的樣本{(X_i,Y_i)}_{W_i=0}采用任何監(jiān)督學(xué)習(xí)或者回歸估計(jì),我們用符號(hào)\hat{\mu_0}表示祭钉。第二步瞄沙,我們估計(jì)treatment的相應(yīng)函數(shù),\mu_1(x)=\mathbb{E}[Y(1)|X=x],
在實(shí)驗(yàn)組的數(shù)據(jù)上進(jìn)行訓(xùn)練,我們用符號(hào)\hat{\mu_1}來表示距境。那么T-learner可以通過以下公式得出:
\hat{\tau_T}(x)=\hat{\mu_1}(x) -\hat{\mu_0}(x) \\ \tag{3}

?? S-learner,是否treatment是被當(dāng)做特征使用的申尼。因此評(píng)估公式為\mu(x,w) := \mathbb{E}[Y^{abs}|X=x,W=w],這里可以用任何基學(xué)習(xí)器,我們用\hat{\mu}表示模型的估計(jì)量垫桂,因此CATE估計(jì)量表示為:\hat{\tau_S}(x) =\hat{\mu}(x,1) -\hat{\mu}(x,0) \tag{4}.

X-learner

這里我們提出X-learner并提供一個(gè)例子說明它的動(dòng)機(jī)师幕。X-learner學(xué)習(xí)器可以分為三步

  1. 用任意的監(jiān)督學(xué)習(xí)或者回歸算法估計(jì)相應(yīng)函數(shù),用\hat{\mu_0}\hat{\mu_1}表示估計(jì)量诬滩。
    \mu_0 = \mathbb{E}[Y(0)|X=x] \tag{5}, \mu_1 = \mathbb{E}[Y(1)|X=x] \tag{6}
  2. 根據(jù)對(duì)照組的模型來計(jì)算實(shí)驗(yàn)組中的個(gè)人treatment效果霹粥,根據(jù)實(shí)驗(yàn)組的模型來計(jì)算實(shí)驗(yàn)最中的個(gè)人treatment效果。用公式表示為:
    \tilde{D_i^1} :=Y_i^1-\hat{\mu_0}(X_i^1) \tag{7},
    \tilde{D_i^0} :=\hat{\mu_1}(X_i^0)-Y_i^0 \tag{8}
    注意到疼鸟,如果\hat{\mu_0}=\mu_0\hat{\mu_1}=\mu_1后控,則\tau(x)=\mathbb{E}[\tilde{D^1}|X=x]=\mathbb{E}[\tilde{D^0}|X=x]
    ??使用任意的監(jiān)督學(xué)習(xí)或者回歸算法計(jì)算\tau(x)有兩種方式:一種是利用treatment組訓(xùn)練的模型計(jì)算得到的\hat{\tau_1}(x),另一種是利用對(duì)照組訓(xùn)練的模型計(jì)算得到的\hat{\tau_0}(x).
  3. 通過階段2中計(jì)算得到的兩個(gè)估計(jì)量進(jìn)行加權(quán)計(jì)算CATE估計(jì)量:
    \hat{\tau}(x)=g(x)\hat{\tau_0}(x)+(1-g(x))\hat{\tau_1}(x) \tag{9}
    這里g \in [0,1] 是一個(gè)權(quán)重函數(shù)。

備注1 \hat{\tau_0}\hat{\tau_1}都是\tau的估計(jì)量愚臀,而g是把這些估計(jì)量合在一起提高\hat{\tau}的準(zhǔn)確度忆蚀。根據(jù)我們的經(jīng)驗(yàn),我們發(fā)現(xiàn)傾向得分作為g是很好的姑裂,所以選擇g=\hat{e}馋袜,如果在實(shí)驗(yàn)組和對(duì)照組的樣本數(shù)據(jù)比例很大或者很小時(shí),選擇g=1或者g=0也是有意義的舶斧。對(duì)于某些估計(jì)量來說欣鳖,它有可能估計(jì)\hat{\tau_0}\hat{\tau_1}的協(xié)方差矩陣,然后選擇g來最小化\hat{\tau}茴厉。

元學(xué)習(xí)器背后的直覺(動(dòng)機(jī))

??X-learner可以使用對(duì)照組的信息來為實(shí)驗(yàn)組服務(wù)得到更好的估計(jì)量泽台,反之亦然。我們通過一個(gè)簡(jiǎn)單的例子來說明這個(gè)矾缓。假設(shè)我們想要研究一種treatment的效果怀酷,我們用CATE估計(jì)量來作為x的單變量函數(shù)。然而嗜闻,我們發(fā)現(xiàn)實(shí)驗(yàn)組的樣本很少蜕依,對(duì)照組的樣本很多。這種情況出現(xiàn)在行政管理和在線數(shù)據(jù)中:對(duì)照組的數(shù)據(jù)要比實(shí)驗(yàn)組的數(shù)據(jù)豐富的多琉雳。Fig1(a)現(xiàn)實(shí)了實(shí)驗(yàn)組的結(jié)果(圓圈)和對(duì)照組的結(jié)果(叉號(hào))样眠。在這個(gè)例子中CATE是常量且等于1。這里是人工模型數(shù)據(jù)生成的.

用一個(gè)不平衡的樣本案例描述X-learner背后直覺

??目前讓我們只看實(shí)驗(yàn)組(treatment)的結(jié)果翠肘,當(dāng)我們估計(jì)時(shí)檐束,我們必須注意不用出現(xiàn)過擬合,因?yàn)槲覀冎挥?0個(gè)樣本束倍。我們可能打算使用線性模型被丧,(虛線)來評(píng)估盟戏。對(duì)于對(duì)照組,我們注意到當(dāng)區(qū)間的觀測(cè)值似乎是不同的晚碾,最終我們用一個(gè)在之間跳躍的分段線性函數(shù)來建模(實(shí)線)抓半。這是一個(gè)相對(duì)復(fù)雜的函數(shù)喂急,因?yàn)橛泻芏鄶?shù)據(jù)我們不擔(dān)心過擬合問題格嘁。
??在T-learner模型現(xiàn)在將計(jì)算(見Fig1中C的實(shí)線部分),這是一個(gè)在跳躍的相對(duì)復(fù)雜的函數(shù)廊移,然而真實(shí)的是一個(gè)常量糕簿。所以這里是有問題的,因?yàn)槲覀児烙?jì)CATE方程時(shí)是基于只有10個(gè)樣本的實(shí)驗(yàn)組訓(xùn)練的模型狡孔。(換句話就是懂诗,實(shí)驗(yàn)組的樣本太少,計(jì)算的\hat{\mu_1}是不準(zhǔn)確的苗膝,從而利用\hat{\tau_T}(x)=\hat{\mu_1}(x)-\hat{\mu_0}(x)計(jì)算的\hat{\tau}也是不準(zhǔn)確的)殃恒。

這里指出T-learner在實(shí)驗(yàn)組和對(duì)照組樣本極不均勻時(shí)的預(yù)測(cè)的錯(cuò)誤CATE結(jié)果

??在選擇計(jì)算treatment組的預(yù)測(cè)值時(shí)選擇了一個(gè)比較好的估計(jì)量,正確的避免了過擬合辱揭,最終我們選擇了一個(gè)相對(duì)復(fù)雜的CATE評(píng)估方式离唐。我們可以選擇一個(gè)在0到0.5之間跳躍的分段線性函數(shù),但是當(dāng)只考慮treatment組時(shí)這顯然是不合理的问窃。但是亥鬓,如果我們還要考慮對(duì)照組的,則這種公式將是自然選擇域庇。換句話說嵌戈,我們應(yīng)該改變\mu_1\mu_0,希望以這種方式估算他們的差是對(duì)\tau的良好的估計(jì)。

這里是說我們計(jì)算treatment效果時(shí)用到了對(duì)照組的模型听皿,如果只考慮treatment組這是不合理的熟呛。但是我們的目標(biāo)不是找treatment和control,而是找treatment和control的差尉姨,通過這種方式可以更好的擬合\tau庵朝。

X-learner使得我們可以做到這一點(diǎn)。它使我們能夠利用CATE結(jié)構(gòu)信息來高效的利用結(jié)構(gòu)的不平衡設(shè)計(jì)啊送。X-learner第一階段時(shí)和T-learner相同的偿短,但是第二階段,從reatment的觀測(cè)結(jié)果減去對(duì)照組訓(xùn)練的模型估計(jì)量馋没,從實(shí)驗(yàn)組訓(xùn)練的模型減去對(duì)照組的觀測(cè)結(jié)果昔逗,從而估算出treatment的結(jié)果。\tilde{D_i^1} :=Y_i^1-\hat{\mu_0}(X_i^1),
\tilde{D_i^0} :=\hat{\mu_1}(X_i^0)-Y_i^0篷朵。
這里我們用Y_i^0Y_i^1分別表示對(duì)照組和實(shí)驗(yàn)組的觀測(cè)結(jié)果勾怒,X_i^1X_i^0分別是相應(yīng)的特征向量婆排。Fig1(b)展示了計(jì)算treatment的效果\tilde{D}。根據(jù)公式7笔链、8 可以計(jì)算出 \hat{\tau_1}\hat{\tau_0}段只。然后再利用以下公式計(jì)算出最終的評(píng)估結(jié)果。
\hat{\tau}(x)=g(x)\hat{\tau_0}(x)+(1-g(x))\hat{\tau_1}(x)

這里計(jì)算\hat{\tau_1}是利用實(shí)驗(yàn)組的觀測(cè)數(shù)據(jù)減去對(duì)照組模型預(yù)測(cè)的結(jié)果鉴扫,\hat{\tau_0}是利用實(shí)驗(yàn)組模型預(yù)測(cè)結(jié)果減去對(duì)照組的觀測(cè)數(shù)據(jù)赞枕。要說明的是\hat{\tau_1}(fig1_b中藍(lán)線)計(jì)算的更準(zhǔn)確一些,因?yàn)閷?duì)照組模型是準(zhǔn)確的坪创,但是實(shí)驗(yàn)組模型是過擬合的炕婶。所以fig1(b)藍(lán)線更接近正確值(treatment真實(shí)效果為1)。

如果我們選擇g(x)=\hat{e}(x),即使用傾向得分作為g,\tau將和\hat{\tau_1}(x)非常相似莱预,因?yàn)槲覀冊(cè)趯?duì)照組中有更多的觀察結(jié)果柠掂,即\hat{e}很小。Fig1(c)顯示了T-learner和X-learner的效果依沮。
??在這個(gè)例子中我們選擇S-learner很難評(píng)估涯贞,因?yàn)槿绻庞蠷F的基學(xué)習(xí)器進(jìn)行訓(xùn)練時(shí),S-learner第一個(gè)分裂可能把97.5%的實(shí)驗(yàn)組的樣本分裂出去危喉,造成后續(xù)分裂時(shí)缺少實(shí)驗(yàn)組的樣本宋渔。

換句話說就是實(shí)驗(yàn)組和對(duì)照組的樣本比例極不均衡時(shí),如果使用S-learner訓(xùn)練時(shí)幾次分裂就會(huì)把所有的實(shí)驗(yàn)組樣本使用完姥饰。

仿真結(jié)果(略)

這里說元算法的基學(xué)習(xí)器的選擇會(huì)最對(duì)最終的結(jié)果有很大的不同傻谁。
指出S-learner是否treatment當(dāng)做和其他特征一樣的權(quán)重是不是最明智的。
指出T-learner沒有合并實(shí)驗(yàn)組和對(duì)照組列粪,這對(duì)預(yù)測(cè)CATE是不利的审磁,因?yàn)橹皇菙M合各自的數(shù)據(jù)集,沒有表現(xiàn)出實(shí)驗(yàn)組和對(duì)照組之間的相應(yīng)功能岂座。
指出當(dāng)實(shí)驗(yàn)組和對(duì)照組的樣本非常不均衡時(shí)态蒂,X-learner是牛逼的。

收斂速度比較(略)

應(yīng)用(略)

通過2個(gè)數(shù)據(jù)證明X-learner的優(yōu)越性费什。

結(jié)論

這篇文章綜述了CATE估計(jì)的元算法钾恢,包括S-learner和T-learner。然后提出了一個(gè)新的X-learner鸳址,它可以將任何監(jiān)督學(xué)習(xí)或者回歸算法組合轉(zhuǎn)換來評(píng)估CATE瘩蚪。X-learner適合于各種場(chǎng)景,例如當(dāng)實(shí)驗(yàn)組數(shù)據(jù)要比對(duì)照組數(shù)據(jù)多出很多時(shí)稿黍,理論和數(shù)據(jù)均表明X-learner能夠很好的擬合treatment的效果疹瘦。

附錄:


S-learner

T-learner

X-learner
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市巡球,隨后出現(xiàn)的幾起案子言沐,更是在濱河造成了極大的恐慌邓嘹,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,599評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件险胰,死亡現(xiàn)場(chǎng)離奇詭異汹押,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)起便,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門棚贾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人缨睡,你說我怎么就攤上這事鸟悴〕氯瑁” “怎么了奖年?”我有些...
    開封第一講書人閱讀 158,084評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)沛贪。 經(jīng)常有香客問我陋守,道長(zhǎng),這世上最難降的妖魔是什么利赋? 我笑而不...
    開封第一講書人閱讀 56,708評(píng)論 1 284
  • 正文 為了忘掉前任水评,我火速辦了婚禮,結(jié)果婚禮上媚送,老公的妹妹穿的比我還像新娘中燥。我一直安慰自己,他們只是感情好塘偎,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,813評(píng)論 6 386
  • 文/花漫 我一把揭開白布疗涉。 她就那樣靜靜地躺著,像睡著了一般吟秩。 火紅的嫁衣襯著肌膚如雪咱扣。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,021評(píng)論 1 291
  • 那天涵防,我揣著相機(jī)與錄音闹伪,去河邊找鬼。 笑死壮池,一個(gè)胖子當(dāng)著我的面吹牛偏瓤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播椰憋,決...
    沈念sama閱讀 39,120評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼厅克,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了熏矿?” 一聲冷哼從身側(cè)響起已骇,我...
    開封第一講書人閱讀 37,866評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤离钝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后褪储,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卵渴,經(jīng)...
    沈念sama閱讀 44,308評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,633評(píng)論 2 327
  • 正文 我和宋清朗相戀三年鲤竹,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了浪读。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,768評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辛藻,死狀恐怖碘橘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情吱肌,我是刑警寧澤痘拆,帶...
    沈念sama閱讀 34,461評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站氮墨,受9級(jí)特大地震影響纺蛆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜规揪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,094評(píng)論 3 317
  • 文/蒙蒙 一桥氏、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧猛铅,春花似錦字支、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至月杉,卻和暖如春刃跛,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背苛萎。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評(píng)論 1 267
  • 我被黑心中介騙來泰國(guó)打工桨昙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人腌歉。 一個(gè)月前我還...
    沈念sama閱讀 46,571評(píng)論 2 362
  • 正文 我出身青樓蛙酪,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親翘盖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子桂塞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,666評(píng)論 2 350