因果推斷深度學(xué)習(xí)工具箱 - On Inductive Biases for Heterogeneous Treatment Effect Estimation

文章名稱

On Inductive Biases for Heterogeneous Treatment Effect Estimation

核心要點

在估計CATE的時候烤宙,通常做法是分別估計出不同的potential outcome的結(jié)果哎媚,而現(xiàn)有做法在單獨估計potential outcome的時候沒有有效的利用potential outcome之間的結(jié)構(gòu)相似性燃异。 試想一下,如果treatment effect是0(干預(yù)無效)起暮,那么合理的假設(shè)是potential outcome是相似的暂殖。而現(xiàn)在通常的做法不經(jīng)意的假設(shè)potential outcome是有差別的。比如墨微,現(xiàn)有的方法中引入的一些正則化策略,隱式的鼓勵模型在不同potential outcome下具有異質(zhì)性(結(jié)果不相同)扁掸,即便這種異質(zhì)性可能并不存在翘县。同時,這種正則化導(dǎo)致沒有充分利用共享結(jié)構(gòu)谴分。作者提出了三種方法锈麸,包括改進的正則化方法,重參數(shù)化模型牺蹄,以及一種更為靈活的多任務(wù)學(xué)習(xí)結(jié)構(gòu)忘伞,這種結(jié)構(gòu)不只是直接估計potential outcome,而結(jié)合直接估計effect的目標钞馁,間接地引入了potential outcome之間的相似性虑省。

paper的切入點是探索potential outcomes之間結(jié)構(gòu)的相似性匿刮,這個角度與現(xiàn)有各種調(diào)整confounding bias的方法是正交的僧凰,即便在隨機實驗下,探索potential outcomes之間結(jié)構(gòu)的相似性也能夠幫助我們更好的預(yù)測CATE和potential outcome熟丸。

方法細節(jié)

問題引入

文章關(guān)注的核心問題是训措,在Potential Outcome框架下,估計二值策略(binary treatment)的CATE光羞。切入點是探索potential outcomes之間結(jié)構(gòu)的相似性绩鸣,這個角度與現(xiàn)有各種調(diào)整confounding bias的方法是正交的,即便在隨機實驗下纱兑,探索potential outcomes之間結(jié)構(gòu)的相似性也能夠幫助我們更好的預(yù)測CATE和potential outcome 呀闻。除了confounding的問題以外,作者認為CATE估計的另一個關(guān)鍵因素是兩個potential outcome之間的差值(的結(jié)構(gòu))潜慎。這一點和現(xiàn)在主流causal effect估計方法首先關(guān)注反事實估計捡多,再進行causal effect求解有一些不同蓖康。主要原因是,相比每個單獨的potential outcome的函數(shù)結(jié)構(gòu)來說垒手,potential outcome的差值(在binary的情況下就是causal effect)的結(jié)構(gòu)可能更加簡單蒜焊。
假設(shè)某種干預(yù)沒有治療效果,理所當然的兩種不同的treatment下的potential outcome應(yīng)該完全一樣科贬,在整個人群的分布上也具有同樣的結(jié)構(gòu)泳梆。同時,即便干預(yù)存在因果效應(yīng)榜掌,我們也有理由認為這些potential outcome具有相似或者共享的結(jié)構(gòu)优妙。作者提出的主要依據(jù)是,在醫(yī)學(xué)上存在兩種biomarkers憎账。一種被觀察對象接受了哪一種干預(yù)鳞溉,我們都可以用它(們)來預(yù)測potential outcome。另一種是用來預(yù)測treatment effect的biomarkers鼠哥。個人理解熟菲,作者其實是在對potential outcome的predictor進行分解。
同時朴恳,數(shù)據(jù)里也觀測到了如下圖所示的potential outcome的結(jié)構(gòu)與CATE的結(jié)構(gòu)對比抄罕。可以看出關(guān)于covariates的potential outcome functions都是非線性的于颖,而CATE卻是線性的呆贿。

CATE structure is simpler than POs themselves

與監(jiān)督學(xué)習(xí)和單純的反事實估計模型不同,估計因果效應(yīng),需要準確估計的是兩者的差值俱两。假設(shè)估計某一個統(tǒng)計量的函數(shù)是\hat{f}(x)喂很,直接估計CATE的MSE的上界是分別估計兩個potential outcome的MSE的和,即\epsilon_{sq}(\hat{\tau}(x)) \lesssim \epsilon_{sq}(\hat{\mu_{1}}(x)) + \epsilon_{sq}(\hat{\mu_{0}}(x)) \lesssim Rate_{\mu_{1}} + Rate_{\mu_{0}}(感興趣的同學(xué)可以參見論文的引文)竟块,因此,直接估計CATE能夠加速收斂耐齐。

具體做法

解決上述問題的最簡單的方法是直接估計causal effect浪秘,但是這類方法目前都是多階段的,并且除了causal effect之外埠况,不能給出對potential outcome的估計耸携。但很多時候,我們對potential outcome也非常感興趣辕翰。作者借鑒了最近的一些神經(jīng)網(wǎng)絡(luò)causal effect估計方法的觀念夺衍,提出了一種充分利用共享結(jié)構(gòu),從而更好的同時估計causal effect和potential outcome的端到端的學(xué)習(xí)方法喜命。作者稱之為inductive bias(歸納偏差沟沙,因為通過歸納總結(jié)的畴,我們知道不同potential outcome應(yīng)該具有相似度function結(jié)構(gòu))。
作者嘗試了三種方法尝胆,希望能夠通過plugin的方式改善預(yù)測性能丧裁。第一種方法是利用正則化方法,鼓勵potential outcome function具有相似度結(jié)構(gòu)含衔,這種方法能夠比較容易的和已有方法結(jié)合煎娇。第二方法是通過重參數(shù)化的形式改變現(xiàn)有模型,直接在模型中引入potential outcome輸出具有相似性的限制贪染。第三種方法基于多任務(wù)學(xué)習(xí)缓呛,提出了一種新的結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)(這種方法其實已經(jīng)不能plugin了...)。

為了引入合理的inductive bias(不同的potential outcome的結(jié)構(gòu)有比較大的相似)杭隙,作者以TARNet和TNet(以NN為base model的T-learner)為例哟绊,進行改造。TARNet和TNet的區(qū)別僅在于痰憎,在兩個不同treatment的prediction head之間是否有(學(xué)習(xí)到的)共享的feature space票髓。與文章的改進比較相關(guān)的是最后的regularization的部分。通常不同的potential outcome的prediction head是分開進行正則化的铣耘,即loss中會加入形如\lambda \sum_{w\in\{ {0, 1} \}}{\mathcal{R} (\Theta_{h_{w}} )}的部分洽沟,\Theta_{h_{w}}w 取0或1的時候分別表示分別表示對應(yīng)prediction head的參數(shù)。這樣的正則化由于沒有充分利用結(jié)構(gòu)相似這個信息蜗细,導(dǎo)致CATE的估計值很不穩(wěn)定裆操。

three methods for CATE estimation with inductive bias

第一種做法是,直接改變正則化的形式炉媒,即\lambda_1 \mathcal{R}( \Theta_{h_{0}} ) + \lambda_2 \mathcal{R}(\Theta_{h_{1}} - \Theta_{h_{0}} )踪区。這種正則化形式,顯示的要求兩個prediction head的形式相對接近吊骤,接近程度可以通過\lambda_2調(diào)節(jié)缎岗。
第二種做法是,把原來分別預(yù)測potential outcome的形式水援,改為分別預(yù)測\mu_{0}(x)\tau(x)密强,而\mu_{1}(x) = \mu_{0}(x) + \tau(x)茅郎。再改變正則項蜗元,即\lambda_1 \mathcal{R}( \Theta_{h_{0}} ) + \lambda_2 \mathcal{R}(\Theta_{h_{\tau} } ),其中\Theta_{h_{\tau} }表示直接估計CATE的網(wǎng)絡(luò)的權(quán)重系冗。這樣的做法不僅引入了potential outcome結(jié)構(gòu)相似的信息奕扣,同時也引入了\mu_{1}(x)\mu_{0}(x)\tau(x)之和的信息。這樣的假設(shè)有可能存在偏差掌敬,導(dǎo)致一些復(fù)雜關(guān)系學(xué)不到惯豆。其實這里相當于假設(shè)過強池磁,導(dǎo)致heterogeneity被忽略了。
第三種做法楷兽,作者基于多任務(wù)學(xué)習(xí)和領(lǐng)域遷移的自主學(xué)習(xí)share哪些信息地熄,保留哪些信息的idea,提出了FlexTENet芯杀。我們可以把網(wǎng)絡(luò)看作三個信息提取流(器)端考,不同于原有的網(wǎng)絡(luò)結(jié)構(gòu),這三股信息提取流在神經(jīng)網(wǎng)絡(luò)的每一層都有揭厚,包括共享特征層和最終的potential outcome輸出層(當然網(wǎng)絡(luò)最終已經(jīng)模糊了這兩個層的分解)却特。中間的提取流學(xué)習(xí)共享信息,或者說學(xué)習(xí)特征的相似性以及potential outcome的結(jié)構(gòu)相似性筛圆,這部分內(nèi)容其實也起到了balance confounding的作用裂明。同時,為不同的potential outcome分別構(gòu)造網(wǎng)絡(luò)進行預(yù)測太援。這樣的結(jié)構(gòu)保證每一層可以有不同的共享信息和獨立信息闽晦。此外,F(xiàn)lexTENet把正則項修改為提岔,\lambda_1 \mathcal{R}(\Theta_{s } ) + \lambda_2 \sum_{w\in\{ 0, 1 \}}{\mathcal{R} (\Theta_{p_{w} } )} + \lambda_o \mathcal{R_{ o }}(\Theta_{s }, \Theta_{p_0 }, \Theta_{p_1 })尼荆,其中\mathcal{R_{ o }}(\Theta_{s }, \Theta_{p_0 }, \Theta_{p_1 }) = \sum_{w\in\{ 0, 1 \}}\sum_{l=1}^{L}{ || { \Theta_{s }^{l}}^{ \top} \Theta_{ p_w, 1:n_{s}^{l-1} }^{l} ||_{F}^{2} }。這個正則項在對每一個單獨的組成部分進行復(fù)雜度限制的同時唧垦,鼓勵每個potential outcome的prediction head與共享層的距離不要太遠

心得體會

covariates decomposition

作者提到的biomarkers捅儒,有一些類似于covariates decomposition。在最近一些主流神經(jīng)網(wǎng)絡(luò)因果模型中振亮,經(jīng)常見到的因果圖如下巧还。B是我們通常理解的confounder,而C和作者說的第一種biomarker類似坊秸,A這里作者沒有提到麸祷。由于過濾了噪聲,相當于進行了特征選擇褒搔,這種decomposition能夠幫助我們更準確的對potential outcome阶牍。這一idea已經(jīng)成為最近很多paper的源泉。這里講到這篇paper是從potential outcome的函數(shù)結(jié)構(gòu)上來解釋的星瘾,而這個函數(shù)是關(guān)于covariates的走孽,所以,對函數(shù)結(jié)構(gòu)的分解琳状,其實是對covariates的分解磕瓷。


covariates decomposition

directly predict CATE

paper中提到,直接估計CATE在大部分的時候會比直接估計potential outcome要簡單。主要原因是causal effect相對于potential outcome來說會相對小困食。但是也不排除causal effect變化更為劇烈的情形边翁。另外,X learner能夠取得比較好的結(jié)果硕盹,其實也受益于中間構(gòu)造的pseudo outcome符匾,而這其實是在直接估計causal effect,間接地是在學(xué)習(xí)不同potential outcome之間的結(jié)構(gòu)相關(guān)性瘩例。也許待讳,同時估計causal effect和potential outcome也能帶來效果提升。類的DragonNet中的propensity score head仰剿,可以再加一些估計相似結(jié)構(gòu)的組件创淡。
雖然,paper里提到了直接估計causal effect的好處南吮,但其實只在第二種方法中實際應(yīng)用了琳彩。

Theoretical justification

paper中沒有給出詳細的理論證明,只是提到了一些相似的領(lǐng)域有證明部凑,所以主要是講了一些idea露乏。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市涂邀,隨后出現(xiàn)的幾起案子瘟仿,更是在濱河造成了極大的恐慌,老刑警劉巖比勉,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件劳较,死亡現(xiàn)場離奇詭異,居然都是意外死亡浩聋,警方通過查閱死者的電腦和手機观蜗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來衣洁,“玉大人墓捻,你說我怎么就攤上這事》环颍” “怎么了砖第?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長环凿。 經(jīng)常有香客問我梧兼,道長,這世上最難降的妖魔是什么拷邢? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任袱院,我火速辦了婚禮,結(jié)果婚禮上瞭稼,老公的妹妹穿的比我還像新娘忽洛。我一直安慰自己,他們只是感情好环肘,可當我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布欲虚。 她就那樣靜靜地躺著,像睡著了一般悔雹。 火紅的嫁衣襯著肌膚如雪复哆。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天腌零,我揣著相機與錄音梯找,去河邊找鬼。 笑死益涧,一個胖子當著我的面吹牛锈锤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播闲询,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼久免,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了扭弧?” 一聲冷哼從身側(cè)響起阎姥,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎鸽捻,沒想到半個月后呼巴,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡御蒲,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年伊磺,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片删咱。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡屑埋,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出痰滋,到底是詐尸還是另有隱情摘能,我是刑警寧澤,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布敲街,位于F島的核電站团搞,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏多艇。R本人自食惡果不足惜逻恐,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧复隆,春花似錦拨匆、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至亏栈,卻和暖如春台腥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背绒北。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工黎侈, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人闷游。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓峻汉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親储藐。 傳聞我的和親對象是個殘疾皇子俱济,可洞房花燭夜當晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內(nèi)容