文章名稱
On Inductive Biases for Heterogeneous Treatment Effect Estimation
核心要點
在估計CATE的時候烤宙,通常做法是分別估計出不同的potential outcome的結(jié)果哎媚,而現(xiàn)有做法在單獨估計potential outcome的時候沒有有效的利用potential outcome之間的結(jié)構(gòu)相似性燃异。 試想一下,如果treatment effect是0(干預(yù)無效)起暮,那么合理的假設(shè)是potential outcome是相似的暂殖。而現(xiàn)在通常的做法不經(jīng)意的假設(shè)potential outcome是有差別的。比如墨微,現(xiàn)有的方法中引入的一些正則化策略,隱式的鼓勵模型在不同potential outcome下具有異質(zhì)性(結(jié)果不相同)扁掸,即便這種異質(zhì)性可能并不存在翘县。同時,這種正則化導(dǎo)致沒有充分利用共享結(jié)構(gòu)谴分。作者提出了三種方法锈麸,包括改進的正則化方法,重參數(shù)化模型牺蹄,以及一種更為靈活的多任務(wù)學(xué)習(xí)結(jié)構(gòu)忘伞,這種結(jié)構(gòu)不只是直接估計potential outcome,而結(jié)合直接估計effect的目標钞馁,間接地引入了potential outcome之間的相似性虑省。
paper的切入點是探索potential outcomes之間結(jié)構(gòu)的相似性匿刮,這個角度與現(xiàn)有各種調(diào)整confounding bias的方法是正交的僧凰,即便在隨機實驗下,探索potential outcomes之間結(jié)構(gòu)的相似性也能夠幫助我們更好的預(yù)測CATE和potential outcome熟丸。
方法細節(jié)
問題引入
文章關(guān)注的核心問題是训措,在Potential Outcome框架下,估計二值策略(binary treatment)的CATE光羞。切入點是探索potential outcomes之間結(jié)構(gòu)的相似性绩鸣,這個角度與現(xiàn)有各種調(diào)整confounding bias的方法是正交的,即便在隨機實驗下纱兑,探索potential outcomes之間結(jié)構(gòu)的相似性也能夠幫助我們更好的預(yù)測CATE和potential outcome 呀闻。除了confounding的問題以外,作者認為CATE估計的另一個關(guān)鍵因素是兩個potential outcome之間的差值(的結(jié)構(gòu))潜慎。這一點和現(xiàn)在主流causal effect估計方法首先關(guān)注反事實估計捡多,再進行causal effect求解有一些不同蓖康。主要原因是,相比每個單獨的potential outcome的函數(shù)結(jié)構(gòu)來說垒手,potential outcome的差值(在binary的情況下就是causal effect)的結(jié)構(gòu)可能更加簡單蒜焊。
假設(shè)某種干預(yù)沒有治療效果,理所當然的兩種不同的treatment下的potential outcome應(yīng)該完全一樣科贬,在整個人群的分布上也具有同樣的結(jié)構(gòu)泳梆。同時,即便干預(yù)存在因果效應(yīng)榜掌,我們也有理由認為這些potential outcome具有相似或者共享的結(jié)構(gòu)优妙。作者提出的主要依據(jù)是,在醫(yī)學(xué)上存在兩種biomarkers憎账。一種被觀察對象接受了哪一種干預(yù)鳞溉,我們都可以用它(們)來預(yù)測potential outcome。另一種是用來預(yù)測treatment effect的biomarkers鼠哥。個人理解熟菲,作者其實是在對potential outcome的predictor進行分解。
同時朴恳,數(shù)據(jù)里也觀測到了如下圖所示的potential outcome的結(jié)構(gòu)與CATE的結(jié)構(gòu)對比抄罕。可以看出關(guān)于covariates的potential outcome functions都是非線性的于颖,而CATE卻是線性的呆贿。
與監(jiān)督學(xué)習(xí)和單純的反事實估計模型不同,估計因果效應(yīng),需要準確估計的是兩者的差值俱两。假設(shè)估計某一個統(tǒng)計量的函數(shù)是
具體做法
解決上述問題的最簡單的方法是直接估計causal effect浪秘,但是這類方法目前都是多階段的,并且除了causal effect之外埠况,不能給出對potential outcome的估計耸携。但很多時候,我們對potential outcome也非常感興趣辕翰。作者借鑒了最近的一些神經(jīng)網(wǎng)絡(luò)causal effect估計方法的觀念夺衍,提出了一種充分利用共享結(jié)構(gòu),從而更好的同時估計causal effect和potential outcome的端到端的學(xué)習(xí)方法喜命。作者稱之為inductive bias(歸納偏差沟沙,因為通過歸納總結(jié)的畴,我們知道不同potential outcome應(yīng)該具有相似度function結(jié)構(gòu))。
作者嘗試了三種方法尝胆,希望能夠通過plugin的方式改善預(yù)測性能丧裁。第一種方法是利用正則化方法,鼓勵potential outcome function具有相似度結(jié)構(gòu)含衔,這種方法能夠比較容易的和已有方法結(jié)合煎娇。第二方法是通過重參數(shù)化的形式改變現(xiàn)有模型,直接在模型中引入potential outcome輸出具有相似性的限制贪染。第三種方法基于多任務(wù)學(xué)習(xí)缓呛,提出了一種新的結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)(這種方法其實已經(jīng)不能plugin了...)。
為了引入合理的inductive bias(不同的potential outcome的結(jié)構(gòu)有比較大的相似)杭隙,作者以TARNet和TNet(以NN為base model的T-learner)為例哟绊,進行改造。TARNet和TNet的區(qū)別僅在于痰憎,在兩個不同treatment的prediction head之間是否有(學(xué)習(xí)到的)共享的feature space票髓。與文章的改進比較相關(guān)的是最后的regularization的部分。通常不同的potential outcome的prediction head是分開進行正則化的铣耘,即loss中會加入形如的部分洽沟,
在
取0或1的時候分別表示分別表示對應(yīng)prediction head的參數(shù)。這樣的正則化由于沒有充分利用結(jié)構(gòu)相似這個信息蜗细,導(dǎo)致CATE的估計值很不穩(wěn)定裆操。
第一種做法是,直接改變正則化的形式炉媒,即踪区。這種正則化形式,顯示的要求兩個prediction head的形式相對接近吊骤,接近程度可以通過
調(diào)節(jié)缎岗。
第二種做法是,把原來分別預(yù)測potential outcome的形式水援,改為分別預(yù)測和
密强,而
茅郎。再改變正則項蜗元,即
,其中
表示直接估計CATE的網(wǎng)絡(luò)的權(quán)重系冗。這樣的做法不僅引入了potential outcome結(jié)構(gòu)相似的信息奕扣,同時也引入了
是
和
之和的信息。這樣的假設(shè)有可能存在偏差掌敬,導(dǎo)致一些復(fù)雜關(guān)系學(xué)不到惯豆。其實這里相當于假設(shè)過強池磁,導(dǎo)致heterogeneity被忽略了。
第三種做法楷兽,作者基于多任務(wù)學(xué)習(xí)和領(lǐng)域遷移的自主學(xué)習(xí)share哪些信息地熄,保留哪些信息的idea,提出了FlexTENet芯杀。我們可以把網(wǎng)絡(luò)看作三個信息提取流(器)端考,不同于原有的網(wǎng)絡(luò)結(jié)構(gòu),這三股信息提取流在神經(jīng)網(wǎng)絡(luò)的每一層都有揭厚,包括共享特征層和最終的potential outcome輸出層(當然網(wǎng)絡(luò)最終已經(jīng)模糊了這兩個層的分解)却特。中間的提取流學(xué)習(xí)共享信息,或者說學(xué)習(xí)特征的相似性以及potential outcome的結(jié)構(gòu)相似性筛圆,這部分內(nèi)容其實也起到了balance confounding的作用裂明。同時,為不同的potential outcome分別構(gòu)造網(wǎng)絡(luò)進行預(yù)測太援。這樣的結(jié)構(gòu)保證每一層可以有不同的共享信息和獨立信息闽晦。此外,F(xiàn)lexTENet把正則項修改為提岔,尼荆,其中
。這個正則項在對每一個單獨的組成部分進行復(fù)雜度限制的同時唧垦,鼓勵每個potential outcome的prediction head與共享層的距離不要太遠
心得體會
covariates decomposition
作者提到的biomarkers捅儒,有一些類似于covariates decomposition。在最近一些主流神經(jīng)網(wǎng)絡(luò)因果模型中振亮,經(jīng)常見到的因果圖如下巧还。B是我們通常理解的confounder,而C和作者說的第一種biomarker類似坊秸,A這里作者沒有提到麸祷。由于過濾了噪聲,相當于進行了特征選擇褒搔,這種decomposition能夠幫助我們更準確的對potential outcome阶牍。這一idea已經(jīng)成為最近很多paper的源泉。這里講到這篇paper是從potential outcome的函數(shù)結(jié)構(gòu)上來解釋的星瘾,而這個函數(shù)是關(guān)于covariates的走孽,所以,對函數(shù)結(jié)構(gòu)的分解琳状,其實是對covariates的分解磕瓷。
directly predict CATE
paper中提到,直接估計CATE在大部分的時候會比直接估計potential outcome要簡單。主要原因是causal effect相對于potential outcome來說會相對小困食。但是也不排除causal effect變化更為劇烈的情形边翁。另外,X learner能夠取得比較好的結(jié)果硕盹,其實也受益于中間構(gòu)造的pseudo outcome符匾,而這其實是在直接估計causal effect,間接地是在學(xué)習(xí)不同potential outcome之間的結(jié)構(gòu)相關(guān)性瘩例。也許待讳,同時估計causal effect和potential outcome也能帶來效果提升。類的DragonNet中的propensity score head仰剿,可以再加一些估計相似結(jié)構(gòu)的組件创淡。
雖然,paper里提到了直接估計causal effect的好處南吮,但其實只在第二種方法中實際應(yīng)用了琳彩。
Theoretical justification
paper中沒有給出詳細的理論證明,只是提到了一些相似的領(lǐng)域有證明部凑,所以主要是講了一些idea露乏。