二、因果和實(shí)驗(yàn)
譯者:飛龍
協(xié)議:CC BY-NC-SA 4.0
自豪地采用谷歌翻譯
“這些問(wèn)題已經(jīng)屋吨,而且可能永遠(yuǎn)留在自然界難以捉摸的秘密之中,它們屬于人類智力根本難以接近的一類問(wèn)題山宾。 - 1849 年 9 月至扰,倫敦時(shí)報(bào),霍亂如何傳染和傳播
死刑有威懾作用嗎资锰?巧克力對(duì)你有好處嗎敢课?什么導(dǎo)致乳腺癌?
所有這些問(wèn)題試圖為結(jié)果找到一個(gè)原因绷杜。仔細(xì)檢查數(shù)據(jù)可以幫助揭示這些問(wèn)題直秆。在本節(jié)中,你將學(xué)習(xí)建立因果關(guān)系所涉及的一些基本概念鞭盟。
觀察是良好科學(xué)的關(guān)鍵圾结。觀察研究是一項(xiàng)研究,科學(xué)家根據(jù)他們所觀察到的齿诉,但卻無(wú)法產(chǎn)生的數(shù)據(jù)作出結(jié)論筝野。在數(shù)據(jù)科學(xué)中,許多這樣的研究涉及對(duì)一組個(gè)體的觀察粤剧,稱為實(shí)驗(yàn)的利害關(guān)系(factor of interest)歇竟,以及對(duì)每個(gè)個(gè)體的測(cè)量結(jié)果。
將個(gè)體視為人是最容易的抵恋。在研究巧克力是否對(duì)健康有好處時(shí)焕议,個(gè)體確實(shí)是人,實(shí)驗(yàn)是吃巧克力馋记,結(jié)果可能是血壓的測(cè)量号坡。但觀察研究中的個(gè)體不一定是人。在研究死刑是否具有威懾作用時(shí)梯醒,個(gè)體可以為聯(lián)盟的 50 個(gè)州宽堆。允許死刑的州的法律是實(shí)驗(yàn),結(jié)果可能是州的謀殺率茸习。
根本問(wèn)題是實(shí)驗(yàn)是否對(duì)結(jié)果有影響畜隶。實(shí)驗(yàn)和結(jié)果之間的任何關(guān)系被稱為關(guān)聯(lián)。如果實(shí)驗(yàn)導(dǎo)致結(jié)果發(fā)生,那么這個(gè)關(guān)聯(lián)是因果關(guān)系。因果關(guān)系是本節(jié)開頭提出的所有三個(gè)問(wèn)題的核心骨田。例如暑脆,問(wèn)題之一是巧克力是否直接導(dǎo)致健康狀況的改善,而不是巧克力與健康之間是否存在關(guān)聯(lián)跛锌。
因果關(guān)系的建立往往分兩個(gè)階段進(jìn)行。首先届惋,觀察一個(gè)關(guān)聯(lián)髓帽。接下來(lái),更仔細(xì)的分析決定了因果關(guān)系脑豹。
John Snow 和 Broad 街水泵
觀察和可視化:John Snow 和 Broad 街水泵
精確觀察導(dǎo)致建立因果關(guān)系的例子之一郑藏,最早可以追溯到 150 多年前。為了將你的思維帶回正確的時(shí)間瘩欺,試著想象一下 19 世紀(jì) 50 年代的倫敦必盖。這是世界上最富裕的城市,但其中許多人卻極度貧困俱饿。那時(shí)歌粥,查爾斯·狄更斯(Charles Dickens)在名氣鼎盛時(shí),正在寫作關(guān)于他們的困境的文章稍途。這個(gè)城市的貧困地區(qū)疾病盛行阁吝,霍亂是最可怕的。那個(gè)時(shí)候還不知道細(xì)菌會(huì)導(dǎo)致疾病械拍,主流理論是“瘴氣”是主要的罪魁禍?zhǔn)住?瘴氣表現(xiàn)為惡臭突勇,被認(rèn)為是由腐爛物質(zhì)引起的無(wú)形的有毒顆粒。倫敦的部分地區(qū)氣味非常糟糕坷虑,特別是在炎熱的天氣里甲馋。為了保護(hù)自己免受感染,那些有能力的人把甜的東西放在鼻子上迄损。
幾年來(lái)定躏,一個(gè)名叫約翰·斯諾(John Snow)的醫(yī)生一直在跟蹤著時(shí)不時(shí)襲擊英國(guó)的巨大霍亂。疾病突然到來(lái)芹敌,幾乎立即致命:人們?cè)谝粌商靸?nèi)死亡痊远,數(shù)百人在一個(gè)星期內(nèi)死亡,單批總死亡人數(shù)可能達(dá)到數(shù)萬(wàn)人氏捞。斯諾對(duì)瘴氣理論持懷疑態(tài)度碧聪。他注意到,當(dāng)整個(gè)家庭被霍亂摧毀時(shí)液茎,鄰居有時(shí)完全沒(méi)有受到影響逞姿。當(dāng)他們呼吸和鄰居一樣的空氣和瘴氣時(shí)辞嗡,不好的氣味和霍亂的發(fā)生之間沒(méi)有什么緊密的聯(lián)系。
斯諾還注意到滞造,這種疾病的發(fā)作幾乎總是牽涉嘔吐和腹瀉续室。因此,他認(rèn)為這種感染是由人們吃或喝的東西來(lái)進(jìn)行的谒养,而不是他們所呼吸的空氣挺狰。他主要懷疑被污染的水。
1854 年 8 月底蝴光,霍亂在過(guò)度擁擠的倫敦蘇豪區(qū)爆發(fā)她渴。隨著死亡人數(shù)的增加达址,斯諾用一種在疾病傳播研究中成為標(biāo)準(zhǔn)的方法蔑祟,勤奮地將它們記錄下來(lái):他畫了一張地圖。在該地區(qū)的街道地圖上沉唠,他記錄了每次死亡的地點(diǎn)疆虚。
這是斯諾的原始地圖。每個(gè)黑色條形代表一次死亡满葛。黑色圓圈標(biāo)記了水泵的位置径簿。地圖上顯示了一個(gè)驚人的啟示 - 死亡大致集中在 Broad 街水泵周圍。
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/2-1.jpg
斯諾仔細(xì)研究了他的地圖嘀韧,并調(diào)查了明顯的異常篇亭。他們都設(shè)計(jì) Broad 街水泵。例如:
- 死亡發(fā)生在離 Rupert 街水泵更近的房子锄贷,而不是 Broad 街译蒂。盡管 Rupert 街水泵直線上更近,但由于街道布局不方便谊却,是死路一條柔昼。那些房子里的居民使用了 Broad 街水泵。
- 泵東邊的兩個(gè)街區(qū)沒(méi)有死亡炎辨。那是 Lion Brewery 的位置捕透,那里的工人喝了他們釀造的東西。如果他們想喝水碴萧,啤酒廠有自己的井乙嘀。
- Broad 街水泵幾個(gè)街區(qū)之外的房子里,發(fā)生了少量死亡破喻。那些孩子在上學(xué)路上從 Broad 街水泵飲水虎谢。泵的水清涼爽口。
最后一個(gè)支持斯諾的理論的證據(jù)是低缩,在距離 Soho 區(qū)很遠(yuǎn)的 Hampstead 地區(qū)的兩個(gè)孤立的死亡事件嘉冒。斯諾對(duì)這些人感到困惑曹货,直到他得知死者是住在 Broad 街的 Susannah Eley 夫人和她的侄女。Eley 夫人每天都將 Broad 街水泵的水帶到 Hampstead 給她讳推。她喜歡水的味道顶籽。
后來(lái)發(fā)現(xiàn)了一個(gè)糞坑,距離 Broad 街水泵幾英尺遠(yuǎn)银觅,滲入了井里面礼饱。因此,來(lái)自霍亂受害者房子的污水污染了水泵的水究驴。
斯諾用他的地圖來(lái)說(shuō)服當(dāng)?shù)卣餍鳎鸪?Broad 街水泵的手柄。雖然霍亂疫情已經(jīng)在減少洒忧,但是停止使用這種水泵有可能阻止了許多人死于未來(lái)的疾病蝴韭。
Broad 街水泵的手柄的拆除已成為一個(gè)傳奇。在亞特蘭大的疾病控制中心(CDC)熙侍,當(dāng)科學(xué)家尋找流行病問(wèn)題的簡(jiǎn)單答案時(shí)榄鉴,他們有時(shí)會(huì)互相問(wèn):“這個(gè)水泵的手柄在哪里?”
斯諾的地圖是數(shù)據(jù)可視化的最早和最強(qiáng)大的用法之一◎茸ィ現(xiàn)在各種疾病地圖是跟蹤流行病的標(biāo)準(zhǔn)工具庆尘。
因果關(guān)系
雖然地圖給了斯諾強(qiáng)有力的證據(jù),說(shuō)明了供水的清潔是控制霍亂的關(guān)鍵巷送,但是驶忌,為了使“污染的水導(dǎo)致疾病的傳播”這個(gè)科學(xué)論證有說(shuō)服力,還有很長(zhǎng)一段路要走笑跛。為了使案例更有說(shuō)服力付魔,他必須使用比較法。
科學(xué)家使用比較來(lái)確定實(shí)驗(yàn)與結(jié)果之間的關(guān)聯(lián)堡牡。他們比較了一組接受實(shí)驗(yàn)的個(gè)體(實(shí)驗(yàn)組)的結(jié)果抒抬,和一組沒(méi)有接受實(shí)驗(yàn)的個(gè)體的結(jié)果(對(duì)照組)。例如晤柄,現(xiàn)在的研究人員可能會(huì)比較死刑國(guó)家和沒(méi)有死刑的國(guó)家的平均謀殺率擦剑。
如果結(jié)果不同,那就是表明關(guān)聯(lián)的證據(jù)芥颈。但是為了確定因果關(guān)系惠勒,需要更加小心。
斯諾的“大實(shí)驗(yàn)”
斯諾為自己在 Soho 中學(xué)到的東西感到鼓舞爬坑,他對(duì)霍亂的死亡情況做了更徹底的分析纠屋。一段時(shí)間中,他一直在收集倫敦一個(gè)地區(qū)的數(shù)據(jù)盾计,這里由兩家水廠服務(wù)售担。Lambeth 水廠從污水排入泰晤士河的地方的上游抽水赁遗。它的水比較干凈。但 Southwark and Vauxhall (S&V) 公司在污水排放的下游抽水族铆,因此其供水受到污染岩四。
下圖顯示了兩家公司所服務(wù)的地區(qū)。斯諾專注于兩個(gè)服務(wù)地區(qū)重疊的地方哥攘。
https://gitee.com/wizardforcel/data8-textbook-zh/raw/master/img/2-2.jpg
斯諾注意到剖煌,S&V 供應(yīng)的人和 Lambeth 供應(yīng)的人之間沒(méi)有系統(tǒng)的差別。 “每家公司都供應(yīng)富人和窮人逝淹,大房子和小房子耕姊,接受不同公司的供水的人的狀況或職業(yè)并沒(méi)有差別......接受兩家公司供水的人或者房子都沒(méi)什么區(qū)別,它們周圍的物理狀況也沒(méi)什么區(qū)別...”
唯一的區(qū)別是供水方面栅葡,“一組供水含有倫敦的污水茉兰,其中有一些可能來(lái)自霍亂病人,另一組則不含妥畏“畎睿”
斯諾相信他能夠得出一個(gè)清楚的結(jié)論,斯諾在下表中總結(jié)了他的數(shù)據(jù)醉蚁。
Supply Area | Number of houses | cholera deaths | deaths per 10,000 houses |
---|---|---|---|
S&V | 40,046 | 1,263 | 315 |
Lambeth | 26,107 | 98 | 37 |
Rest of London | 256,423 | 1,422 | 59 |
數(shù)字在指責(zé) S&V。 S&V 供應(yīng)的房屋的霍亂死亡率幾乎是 Lambeth 供應(yīng)的房屋的十倍鬼店。
建立因果
用本節(jié)前面提出的語(yǔ)言网棍,可以將 S&V 房屋中的人作為實(shí)驗(yàn)組,Lambeth 房屋中的人作為對(duì)照組妇智。斯諾的分析中的一個(gè)關(guān)鍵因素是滥玷,除了實(shí)驗(yàn)組以外,兩組相互比較巍棱。
為了確定供水是否引起霍亂惑畴,斯諾必須比較兩個(gè)彼此相似的群體,它們只有一方面不同:供水航徙。只有這樣如贷,他才能夠?qū)⑵浣Y(jié)果的差異歸因于供水。如果這兩個(gè)群體在其他方面有所不同到踏,那么就很難把供水視為疾病的來(lái)源杠袱。例如,如果實(shí)驗(yàn)組由工廠工人組成窝稿,而對(duì)照組不是楣富,那么兩組之間的結(jié)果之間的差異可能是由于供水,工廠工作或兩者兼有伴榔,或使兩組彼此不同的其它因素纹蝴。最后的圖景會(huì)更加模糊庄萎。
斯諾的才智在于,確定可以使他的比較清晰的兩組塘安。他開始著手建立水污染和霍亂感染之間的因果關(guān)系惨恭,并且在很大程度上他成功了,盡管瘴氣學(xué)說(shuō)忽視甚至嘲笑他耙旦。當(dāng)然脱羡,斯諾并不了解人類感染霍亂的詳細(xì)機(jī)制。這個(gè)發(fā)現(xiàn)是在 1883 年免都,當(dāng)時(shí)德國(guó)科學(xué)家羅伯特·科赫(Robert Koch)分離出霍亂弧菌锉罐,這種霍亂弧菌是進(jìn)入人體小腸并引起霍亂的細(xì)菌。
事實(shí)上绕娘,霍亂弧菌在 1854 年由意大利的菲利波·帕齊尼(Filippo Pacini)發(fā)現(xiàn)脓规,就在斯諾在倫敦分析他的數(shù)據(jù)的時(shí)候。由于意大利瘴氣學(xué)說(shuō)的統(tǒng)治险领,帕齊尼的發(fā)現(xiàn)并不為人所知侨舆。但到了十九世紀(jì)末,瘴氣學(xué)說(shuō)正在消失绢陌。隨后的歷史證明了帕齊尼和約翰·斯諾挨下。斯諾的方法導(dǎo)致了流行病學(xué)領(lǐng)域的發(fā)展,它是疾病傳播的研究脐湾。
混淆
現(xiàn)在讓我們回到更現(xiàn)代化的時(shí)代臭笆,帶著我們一路上學(xué)到的重要經(jīng)驗(yàn):
在一項(xiàng)觀察研究中,如果實(shí)驗(yàn)組和對(duì)照組在實(shí)驗(yàn)以外的方面有所不同秤掌,則很難對(duì)因果關(guān)系作出結(jié)論愁铺。
兩組之間的根本區(qū)別(除了實(shí)驗(yàn))被稱為混淆因素,因?yàn)楫?dāng)你試圖得出結(jié)論時(shí)闻鉴,它可能會(huì)混淆你(也就是搞砸你)茵乱。
示例:咖啡和肺癌。二十世紀(jì)六十年代的研究表明孟岛,喝咖啡的人患肺癌的比率高于不喝咖啡的人瓶竭。因此,有些人認(rèn)為咖啡是肺癌的一個(gè)原因蚀苛。但咖啡不會(huì)導(dǎo)致肺癌在验。分析包含一個(gè)混淆因素 - 吸煙。在那些日子里堵未,喝咖啡的人也可能是吸煙者腋舌,吸煙確實(shí)會(huì)導(dǎo)致肺癌。喝咖啡與肺癌有關(guān)渗蟹,但不會(huì)導(dǎo)致疾病块饺。
混淆因素在觀察研究中很常見赞辩。良好的研究需要非常小心,以減少混淆授艰。
隨機(jī)化
避免混淆的一個(gè)很好的方法是辨嗽,將個(gè)體隨機(jī)分配到實(shí)驗(yàn)和對(duì)照組,然后將實(shí)驗(yàn)給予分配到實(shí)驗(yàn)組的人淮腾。隨機(jī)化使兩組除了實(shí)驗(yàn)之外都相似糟需。
如果你能夠?qū)€(gè)體隨機(jī)分為實(shí)驗(yàn)組和對(duì)照組,你正在進(jìn)行一項(xiàng)隨機(jī)對(duì)照試驗(yàn)(RCT)谷朝。有時(shí)候洲押,人們?cè)趯?shí)驗(yàn)中的反應(yīng)會(huì)受到他們知道他們?cè)谀膫€(gè)群體的影響。所以你可能希望進(jìn)行盲法實(shí)驗(yàn)圆凰,其中個(gè)體不知道他們是在實(shí)驗(yàn)組還是對(duì)照組杈帐。為了使它有效,你必須把安慰劑給控制組专钉,這是一種和實(shí)驗(yàn)看起來(lái)完全一樣的東西挑童,但實(shí)際上沒(méi)有效果。
隨機(jī)對(duì)照實(shí)驗(yàn)早已成為醫(yī)學(xué)領(lǐng)域的黃金標(biāo)準(zhǔn)跃须,例如確定新藥是否有效站叼。在經(jīng)濟(jì)學(xué)等其他領(lǐng)域也越來(lái)越普遍。
示例:墨西哥的福利補(bǔ)貼回怜。在 20 世紀(jì) 90 年代的墨西哥村莊大年,貧困家庭的孩子往往沒(méi)有入學(xué)。其中一個(gè)原因是年齡較大的孩子可以上班玉雾,從而幫助家庭。墨西哥財(cái)政部長(zhǎng) Santiago Levy 著手調(diào)查福利項(xiàng)目是否可以用來(lái)提升入學(xué)率和改善健康狀況轻要。他在一組村莊進(jìn)行了一項(xiàng)隨機(jī)對(duì)照試驗(yàn)复旬,隨機(jī)選擇其中的一些來(lái)接受一個(gè)名為 PROGRESA 的新福利項(xiàng)目。如果他們的孩子定期上學(xué)冲泥,并且家庭使用了預(yù)防性醫(yī)療保險(xiǎn)驹碍,那么這個(gè)項(xiàng)目會(huì)把錢捐給貧困家庭。如果孩子上中學(xué)而不是小學(xué)凡恍,會(huì)給他們更多錢志秃,來(lái)補(bǔ)償孩子的工資損失,女孩上學(xué)比男孩給的更多嚼酝。其余的村莊沒(méi)有得到這個(gè)實(shí)驗(yàn)浮还,并形成了對(duì)照組。由于隨機(jī)化闽巩,沒(méi)有銷魂因素钧舌,可以確定 PROGRESA 增加了入學(xué)率担汤。對(duì)于男孩,入學(xué)率從對(duì)照組的 73% 上升到 PROGRESA 組的 77%洼冻。對(duì)于女孩來(lái)說(shuō)崭歧,增長(zhǎng)幅度更大,從對(duì)照組的 67% 增加到 PROGRESA 組的近75%撞牢。由于這個(gè)實(shí)驗(yàn)的成功率碾,墨西哥政府以 OPORTUNIDADES 這個(gè)新名稱支持這個(gè)項(xiàng)目,作為對(duì)一個(gè)健康和受過(guò)良好教育的人口的投資屋彪。
在某些情況下所宰,即使目標(biāo)是調(diào)查因果關(guān)系,也不可能進(jìn)行隨機(jī)對(duì)照實(shí)驗(yàn)撼班。例如歧匈,假設(shè)你想研究懷孕期間飲酒的影響,你隨機(jī)將一些孕婦分配到你的“酒精”組砰嘁。如果你給他們喝一杯件炉,你不應(yīng)該期待她們會(huì)合作。在這種情況下矮湘,你幾乎總是在進(jìn)行觀察研究斟冕,而不是實(shí)驗(yàn)。要警惕混淆因素缅阳。
尾注
根據(jù)我們開發(fā)的術(shù)語(yǔ)磕蛇,約翰·斯諾進(jìn)行了一項(xiàng)觀察研究,而不是一個(gè)隨機(jī)的實(shí)驗(yàn)十办。但是他把自己的研究稱為“大實(shí)驗(yàn)”秀撇,因?yàn)樗麑懙溃骸爸辽偃f(wàn)人......被分成兩組,他們無(wú)法選擇向族,在大多數(shù)情況下呵燕,他們并不知情......”
斯諾的這種研究有時(shí)被稱為“自然實(shí)驗(yàn)”。然而件相,真正的隨機(jī)化并不僅僅意味著再扭,實(shí)驗(yàn)和對(duì)照組“在他們無(wú)法選擇的情況下”進(jìn)行選擇。
隨機(jī)化的方法可以像擲硬幣一樣簡(jiǎn)單夜矗。它也可能更復(fù)雜一點(diǎn)泛范。但是隨機(jī)化的每一種方法都是由一系列精心定義的步驟組成的,這些步驟允許幾率以數(shù)學(xué)方式指定紊撕。這有兩個(gè)重要的結(jié)果罢荡。
它使我們能夠以數(shù)學(xué)方式,計(jì)算隨機(jī)化產(chǎn)生實(shí)驗(yàn)和對(duì)照組的可能性。
它使我們能夠?qū)?shí)驗(yàn)組和對(duì)照組之間的差異作出精確的數(shù)學(xué)表述柠傍。這反過(guò)來(lái)幫助我們對(duì)實(shí)驗(yàn)是否有效作出正確的結(jié)論麸俘。
在本課程中,你將學(xué)習(xí)如何進(jìn)行和分析你自己的隨機(jī)實(shí)驗(yàn)惧笛。這將涉及比本節(jié)更多的細(xì)節(jié)从媚。目前,只需關(guān)注主要思想:嘗試建立因果關(guān)系患整,如果可能拜效,進(jìn)行隨機(jī)對(duì)照實(shí)驗(yàn)。如果你正在進(jìn)行一項(xiàng)觀察研究各谚,你可能能夠建立聯(lián)系而不是因果關(guān)系紧憾。在根據(jù)觀察研究得出因果關(guān)系的結(jié)論之前,要非常小心混淆因素昌渤。
術(shù)語(yǔ)
- observational study:觀察研究
- treatment:實(shí)驗(yàn)
- outcome:結(jié)果
- association:關(guān)聯(lián)/聯(lián)系
- causal association:因果聯(lián)系
- causality:因果(關(guān)系)
- comparison:比較
- treatment group:實(shí)驗(yàn)組
- control group:對(duì)照組
- epidemiology:流行病學(xué)/傳染病學(xué)
- confounding:混淆
- randomization:隨機(jī)化
- randomized controlled experiment:隨機(jī)對(duì)照實(shí)驗(yàn)
- randomized controlled trial (RCT):隨機(jī)對(duì)照實(shí)驗(yàn)
- blind:盲法
- placebo:安慰劑
有趣的事實(shí)
約翰·斯諾有時(shí)被稱為流行病學(xué)之父赴穗,但他是專業(yè)的麻醉師。 他的病人之一是維多利亞女王膀息,她是分娩時(shí)麻醉劑的早期接受者般眉。
弗洛倫斯·南丁格爾,現(xiàn)代護(hù)理實(shí)踐的創(chuàng)始人潜支,因其在克里米亞戰(zhàn)爭(zhēng)中的工作而聞名甸赃,是一位頑固瘴氣主義者。 她沒(méi)有時(shí)間研究傳染病和細(xì)菌的理論冗酿,也沒(méi)有時(shí)間講述她的話埠对。 她說(shuō):“與這個(gè)學(xué)說(shuō)相關(guān)的荒謬是無(wú)窮無(wú)盡的。一言以蔽之裁替,從一般意義上說(shuō)项玛,沒(méi)有任何科學(xué)研究可以接受的證據(jù)表明,存在傳染病這樣的事情弱判∩约疲”
后來(lái)的隨機(jī)對(duì)照試驗(yàn)表明,PROGRESA 堅(jiān)持的條件 - 孩子上學(xué)裕循,預(yù)防性醫(yī)療保險(xiǎn) - 對(duì)于提升入學(xué)率沒(méi)有必要。 只是提高福利金就足夠了净刮。
擴(kuò)展閱讀
The Strange Case of the Broad Street Pump: John Snow and the Mystery of Cholera 由 Sandra Hempel 所著剥哑,加利福尼亞大學(xué)出版社出版,讀起來(lái)像是偵探小說(shuō)淹父。 這是本節(jié)中約翰·斯諾和他的工作的主要來(lái)源之一株婴。 一些警告:這本書的一些內(nèi)容令人反胃。
Poor Economics 由 MIT 的 Abhijit V. Banerjee 和 Esther Duflo 所著的暢銷書,是對(duì)抗全球貧困的方式的易理解的真實(shí)記錄困介。 它包含了很多 RCT 的例子大审,包括本節(jié)中的 PROGRESA 示例。