第四章的主要內(nèi)容是講疗琉,在不能采用隨機(jī)大樣本對照實(shí)驗(yàn)的情況下雁竞,如何使用do算子去除因果關(guān)系的混雜因子簿寂。
最早的一次對照實(shí)驗(yàn):
公元前597年漾抬,巴比倫王洗劫了猶大國,帶回了數(shù)以千計(jì)的俘虜常遂。亞施毗按照國王的指示尋找“那些沒有缺陷纳令、相貌英俊、技能全面克胳、通達(dá)知識(shí)平绩、理解科學(xué)的孩子”,接受教育漠另,以后為國家服務(wù)捏雌。
其中有個(gè)叫丹尼爾的男孩拒絕按照安排吃皇家飯,喝皇家酒笆搓。出于宗教原因性湿,他和他的朋友一定要吃素食纬傲。亞施毗拿對此感到非常為難。
丹尼爾向亞施毗拿提出肤频,吃素不會(huì)削弱他們服務(wù)國王的能力嘹锁。并提議做一次對照實(shí)驗(yàn):“給我們10天時(shí)間,讓我們4人只吃蔬菜着裹,讓另一組孩子吃皇家的肉领猾,喝皇家的酒。10天后骇扇,讓兩組進(jìn)行比較”摔竿。
最終,丹尼爾和他的三個(gè)同伴勝出少孝,后來在素食飲食下健康成長继低。國王也為他們的智慧和學(xué)識(shí)(當(dāng)然還有他們那健康美麗的外表)所折服,并留下了一段傳奇稍走。
這個(gè)關(guān)于丹尼爾的故事就是一個(gè)對照實(shí)驗(yàn)袁翁,雖然相對于現(xiàn)代的實(shí)驗(yàn)來講,還有很多問題婿脸,比如樣本數(shù)不夠粱胜、時(shí)間不夠等,沒有剔除混雜因子影響狐树。但是它同樣有著現(xiàn)代實(shí)驗(yàn)的光輝:前瞻性對照試驗(yàn)在今天仍然是可靠科學(xué)的一個(gè)標(biāo)志焙压。要知道,我們現(xiàn)在還有多少人抑钟,因?yàn)槁犝f朋友采取某種飲食涯曲,并減肥成功,因此自己就照著做呢在塔?
利用隨機(jī)對照實(shí)驗(yàn)去除混雜因子
混雜因子的定義晦澀難懂幻件,本來我想說,對原因x和結(jié)果y之間的因果關(guān)系造成干擾蛔溃,影響的因素就是混雜因子绰沥。可惜這樣說是不準(zhǔn)確的城榛。但是可以通過舉例子加強(qiáng)對混雜因子的理解揪利。比如前面丹尼爾的實(shí)驗(yàn)态兴,丹尼爾和他的三個(gè)伙伴以前的身體狀況和知識(shí)就是對照實(shí)驗(yàn)的混雜因子狠持,甚至可以說他們的基因也可能是混雜因子。還有瞻润,著名的斯坦福囚犯實(shí)驗(yàn)中喘垂,參加實(shí)驗(yàn)的人都是白人甜刻、年輕人。因此正勒,就有人認(rèn)為實(shí)驗(yàn)結(jié)果不具備代表性得院,就是因?yàn)椋@里面章贞,人種和年齡等因素就是斯坦福實(shí)驗(yàn)的混雜因子祥绞。
為了消除混雜因子的影響,科學(xué)家引入了隨機(jī)對照實(shí)驗(yàn)鸭限。這本書中并沒有提到大樣本蜕径,但是我認(rèn)為足夠的樣本是消除混雜因子必備的基礎(chǔ)。為什么隨機(jī)大樣本實(shí)驗(yàn)?zāi)軌蛳祀s因子的影響败京?隨機(jī)可以將各種混雜因子分布在樣本中兜喻,而你可以按照你需要控制的因素對樣本進(jìn)行分組,樣本足夠多赡麦,分布的就足夠均勻朴皆,混雜因子的影響就去除的越徹底。通過這樣泛粹,就可以獲得干預(yù)概率P(Y|do(X))遂铡,也就是我們要研究的因果關(guān)系。隨機(jī)大樣本對照實(shí)驗(yàn)可以說是現(xiàn)代醫(yī)學(xué)實(shí)驗(yàn)的金標(biāo)準(zhǔn)晶姊,在另一本書《這么吃才科學(xué)》中忧便,就提到了很多不被作者認(rèn)可的實(shí)驗(yàn),原因就是實(shí)驗(yàn)樣本太少帽借。比如有些實(shí)驗(yàn)的樣本只有二三十個(gè)人而已珠增。在這種情況下,是無法消除混雜因子影響的砍艾,那么結(jié)論的有效性就非常值得質(zhì)疑蒂教。
大樣本隨機(jī)對照實(shí)驗(yàn)是金標(biāo)準(zhǔn),但是脆荷,有些研究是不能采取這鐘方法的凝垛,例如在研究肥胖對心臟病的影響時(shí),我們不能隨機(jī)安排病人肥胖與否蜓谋,或者干預(yù)可能是不道德的(例如研究吸煙的影響梦皮,我們也不能要求隨機(jī)選擇的一些人抽上10年的煙)。再或者桃焕,對于某些較為復(fù)雜剑肯、參與起來不方便的試驗(yàn),我們可能會(huì)在招募受試者時(shí)遇到困難观堂,而勉強(qiáng)找到的志愿參與者又無法代表我們的目標(biāo)總體让网。這時(shí)候呀忧,本章提出的“后門標(biāo)準(zhǔn)”(back-door criterion)的方法,它可以明確識(shí)別出因果圖中哪些變量是去混因子溃睹。
利用因果圖和后門標(biāo)準(zhǔn)去除混雜因子
因?yàn)橛行┑胤綗o法使用對照實(shí)驗(yàn)而账,那么這場因果革命帶來的方法就能派上用場了。這突破了一直以來的一個(gè)結(jié)論:一項(xiàng)觀察性研究(其中受試者自行選擇是否接受處理)永遠(yuǎn)不能闡明一個(gè)因果結(jié)論因篇。
使用這個(gè)方法泞辐,首先要熟練使用因果圖,上一章已經(jīng)講過竞滓,因果圖由3個(gè)基本形式組成:鏈接合铛碑、叉結(jié)合、對撞結(jié)合虽界。在你所繪制的因果圖中汽烦,x和y之間有些路徑是因果路徑,有些地方是非因果路徑莉御。為了去除X和Y中的混雜撇吞,我們只需要阻斷它們之間的每個(gè)非因果路徑,而不去阻斷或干擾所有的因果路徑就可以了礁叔。換句話說牍颈,就是保留因果關(guān)系之間的信息流動(dòng),阻斷非因果關(guān)系之間的信息流動(dòng)琅关。這樣煮岁,我們將后門路徑(back-door path)定義為所有X和Y之間以指向X的箭頭為開始的路徑;如果我們阻斷了所有的后門路徑(因?yàn)檫@些路徑允許X和Y之間的偽相關(guān)信息在管道中流通)涣易,則我們就完成了對X和Y的去混雜画机。
為了理解這段話,我費(fèi)了很大的功夫新症,只能從因果圖中進(jìn)行舉例了步氏。
在上面這張圖中,X←A→B和B←C→Y是叉結(jié)合徒爹,A→B←C是對撞結(jié)合荚醒,因此,x的信息流不會(huì)按照這條路徑X←A→B←C→Y流動(dòng)隆嗅,因此可以說界阁,這張因果圖中并沒有混雜因子。
如果在B和X之間增加一個(gè)路徑胖喳,B→X泡躯,那么,X←B←C→Y這條路徑就被打通了。我們需要將這條非因果關(guān)系的路徑中斷精续,杜絕它帶來的不利影響。最簡單的方式是控制C粹懒,就阻斷了這條非因果關(guān)系路徑重付。要注意的是,如果我們通過控制B來關(guān)閉這條路徑凫乖,那么我們就打開了M形路徑X←A→B←C→Y确垫。而要關(guān)閉這一路徑,我們還必須控制A或C帽芽。這個(gè)方法就是第四章講解的后門標(biāo)準(zhǔn)去除因果關(guān)系中的混雜因子删掀。
從這里看,能夠準(zhǔn)確的畫出因果圖导街,是準(zhǔn)確做出分析的重要前提披泪。否則,重要的因素沒有在因果圖中出現(xiàn)搬瑰,去除混雜因子就無從談起款票。