Trustworthy Online Controlled Experiments Part 2 Chap 11
弱者相信運氣茶鹃, 強者相信因果
? Ralph Waldo Emerson
為什么重要
隨機對照實驗是確定因果關系的金標準麦备,但有時無法進行這樣的實驗瓮顽。很多公司都在大量的收集數(shù)據(jù)株依,盡管信任度較低当叭,但觀察性因果關系研究還是可用于評估因果關系漏设。如果無法進行在線控制的實驗上遥,那么了解可能進行的實驗和常見的陷阱還是很有用的。
無法進行隨機試驗的場景
如果用戶將手機從iPhone切換到三星溃肪,對產品參與度有何影響免胃?如果我們強行退出,有多少用戶回來惫撰?如果將優(yōu)惠券作為業(yè)務模型的一部分引入羔沙,對收入會產生什么影響?對于所有這些問題厨钻,分析目標是發(fā)現(xiàn)因果關系扼雏。這需要將受干預人群的結果與未干預人群的結果進行比較。 “因果推論的原理”(瓦里安夯膀,2016年)為:
并表明诗充,將實際影響(對被治療人群的影響)與反事實(對未治療人群的影響)進行比較是確定因果關系的關鍵。
對照實驗是評估因果關系的金標準诱建,因為在將樣本隨機分配的情況下蝴蜓,第一項是觀察到的治療和對照之間的差異,第二項是預期值為零俺猿。
但是茎匠,有時無法運行適當控制的實驗。這些情況包括:
當要檢驗的因果行為不在組織的控制之下押袍。例如诵冒,您可能想了解用戶將手機從iPhone更改為Samsung Galaxy手機時的行為變化。即使是三星公司谊惭,可以采取一些措施鼓勵用戶隨機選擇汽馋,但通常情況下侮东,依然無法控制用戶的選擇,付費的行為會使結果產生偏差豹芯。
樣本太少悄雅。例如,在并購(M&A)場景中告组,只有一個事件發(fā)生(或不發(fā)生)煤伟,并且估計反事實非常困難。
機會成本過大木缝。例如便锨,罕見事件,例如在超級碗期間確定正在投放的廣告的影響(Stephens-Davidowitz我碟,Varian和Smith放案,2017年),或者所需的OEC花費的時間太長(例如用戶在5年后是否會購買一輛新車)矫俺。
當變化比較昂貴的時吱殉。一些實驗試圖更好地理解一些關系。例如厘托,如果在一段時間后強行退出所有用戶友雳,將會流失多少用戶?或者铅匹,如果不在Bing或Google等搜索引擎上展示廣告押赊,會有什么影響?
當所需的隨機樣本無法正確隨機化時包斑。在評估電視廣告的價值時流礁,實際上不可能由觀看者隨機分配。使用指定市場區(qū)域(DMA)的替代方法(Wikipedia貢獻者罗丰,多重比較問題2019)導致樣本數(shù)量少得多(例如神帅,在美國約為210個),因此即使使用配對等技術萌抵,統(tǒng)計能力也很低找御。
當所測試的東西不道德或違法時,例如绍填,讓對照組患者不接受治療萎坷。
在上述情況下,最好的方法通常是使用證據(jù)層次較低的多種方法來評估效果沐兰,也就是說,使用多種方法來回答問題蔽挠,包括小規(guī)模的用戶體驗研究住闯,調查和觀察性研究瓜浸。有關其他幾種技術的介紹,請參見第10章比原。
在本章中插佛,我們的重點是估計觀察性研究的因果效應,我們將其稱為觀察性因果研究量窘。一些書雇寇,例如Shadish等。 (2001年)蚌铜,術語“觀察性(因果)研究”是指沒有干預受試者的研究锨侯,術語“準實驗設計”是指將樣本分配給不同干預組但分配不是隨機的研究。有關更多信息冬殃,請參見Varian(2016)和Angrist and Pischke(2009囚痴,2014)。請注意审葬,我們將觀察性因果研究與更一般的觀察性或回顧性數(shù)據(jù)分析區(qū)分開來深滚。兩者都基于歷史日志數(shù)據(jù),觀察性因果關系研究的目標是嘗試盡可能接近因果關系結果涣觉,而正如第10章所討論的痴荐,回顧性數(shù)據(jù)分析有不同的目標,它包括從總結分布到發(fā)現(xiàn)某些行為模式的普遍性官册,分析可能的指標以及尋找可以受控實驗中進行測試的假設生兆。
設計一個觀察型因果關系研究
觀察型因果關系研究有如下挑戰(zhàn):
- 如何構建對照和治療組以進行比較。
- 在給定“控制和治療”組的情況下攀隔,如何建模皂贩。
中斷時間序列
中斷間序列(ITS)是一種準實驗設計,可以在其中控制系統(tǒng)中的變量昆汹,但不能隨機化干預方案以進行適當?shù)目刂坪透深A明刷。取而代之的是,將相同的人群用于控制和治療满粗,并且隨著時間的推移辈末,會改變人群的體驗。
具體來說映皆,它會在一段時間之內多次測量干預挤聘,以創(chuàng)建一個模型,該模型可以在干預后為感興趣的指標提供一個反事實估計值 捅彻。干預后组去,進行多次測量,并將治療效果定義為指標的實際值與模型預測的值之間的平均差(Charles and Melvin 2004步淹,130)从隆。簡單ITS的一種擴展是引入干預诚撵,然后將其逆轉,可以選擇重復多次此過程键闺。例如寿烟,使用多種治療干預措施,估計警用直升機監(jiān)視對家庭入室盜竊的影響辛燥,幾個月以來筛武,實施了幾次監(jiān)視并撤回了幾次。每次實施直升機監(jiān)視挎塌,入室盜竊的數(shù)量都會減少徘六。每次取消監(jiān)視,入室盜竊的數(shù)量都會增加(Charles and Melvin 2004)勃蜘。在在線環(huán)境中硕噩,一個類似的例子是了解在線廣告對與搜索相關的網(wǎng)站訪問的影響。注意缭贡,可能需要復雜的建模來推斷干預影響炉擅,可以用貝葉斯結構時間序列分析(Charles and Melvin 2004)。
觀察性因果研究的一個常見問題是阳惹,當存在某種混雜的影響時谍失,需要排除這種干擾的影響。 ITS最常見的混淆是基于時間的影響莹汤,因為實驗要在不同的時間點進行比較快鱼。季節(jié)性是明顯的例子,但是其他潛在的系統(tǒng)更改也可能造成混淆纲岭。來回更改多次將有助于降低這種可能性抹竹。使用ITS時的另一個問題是用戶體驗:用戶會注意到他們的體驗來回翻轉嗎?如果是這樣止潮,那么這種缺乏一致性可能會以某種方式使用戶煩惱或沮喪窃判,這種影響可能不是由于更改而是由于不一致引起的。
使用貝葉斯結構時間序列的中斷時間序列(Charles and Melvin 2004)喇闸。 (a)以實線顯示了干預前時期的模型擬合和實際觀察到的指標袄琳,虛線是預測的反事實。 x軸是天數(shù) 燃乍,垂直陰影線表示周末唆樊。 (b)顯示實際與預測之間的差額;如果模型是好的刻蟹,那么它是對干預效果的估計逗旁。周末用灰色陰影顯示。
交錯試驗
交錯實驗設計是用于評估排名算法更改(例如在搜索引擎中或在網(wǎng)站上進行搜索)的常用設計(Chapelle等人舆瘪,2012痢艺; Radlinski和Craswell仓洼,2013)。假設在一個交錯實驗中堤舒,有兩個排序算法X和Y。算法X將按該順序顯示結果而算法Y將顯示玻墅。交錯實驗會散布混合在一起的結果介牙,例如 并刪除重復的結果线得。
一種評估算法的方法是比較兩種算法結果的點擊率。盡管這是功能強大的實驗設計徐伐,但其適用性受到限制贯钩,因為結果必須同質。如果通常情況下办素,如果第一個結果占用更多空間或影響頁面的其他區(qū)域角雷,那么結果就會比較復雜。
回歸間斷設計
回歸不連續(xù)性設計(RDD)是一種方法性穿,只要有明確的閾值可以識別干預人群勺三,就可以使用該方法〖径基于該閾值檩咱,我們可以通過將剛好在閾值以下的人口識別為對照,并與剛好在閾值之上的人口進行比較來減少選擇偏誤胯舷。
例如刻蚯,當獲得獎學金時,容易識別出接近獲獎者(Thistlewaite and Campbell 1960)桑嘶。如果獎學金的閾值是80分炊汹,則認為分數(shù)剛好高于80的治療組與分數(shù)剛好低于80的對照組相似。但是當參與者可能影響施加在他身上的干預時逃顶,該假設就會被違反讨便;例如充甚,如果“治療”適用于及格分數(shù),但學生能夠說服老師“憐憫及格”(McCrary 2008)霸褒。(學生干預了對學生的評分)
使用RDD的一個示例是評估飲酒對死亡的影響:21歲以上的美國人可以合法飲酒伴找,因此我們可以按生日查看死亡,如圖11.2所示废菱。 “死亡率風險會在二十一歲生日那天突然爆發(fā)……相對于基線水平技矮,那一天的死亡數(shù)會升高100~150例。 21歲的飆升似乎并不是通常遇到的的生日聚會效應殊轴。如果這一高峰僅反映了生日聚會衰倦,那么其他相近年歲的生日也應該出現(xiàn)類似的變化(20,22歲),但這并沒有發(fā)生(Angrist和Pischke旁理,2014年)奄喂。
從20歲需忿,21歲和22歲生日起的死亡與天數(shù)對比(Angrist and Pischke 2014)
就像上面的例子一樣盅弛,一個關鍵問題還是混雜因素璧帝。在RDD中,閾值不連續(xù)性可能會受到共享同一閾值的其他因素的污染叛溢。例如塑悼,一項關于酒精影響的研究選擇了21歲的法定年齡作為閾值,這一事實也可能被污染楷掉,因為這也是合法賭博的法定年齡厢蒜。(21歲是合法喝酒和賭博的法定年齡,因此無法區(qū)分)
當存在生成分數(shù)的算法并且基于該分數(shù)的閾值發(fā)生某些事情時烹植,RDD最常適用斑鸦。請注意,當這種情況在軟件中發(fā)生時草雕,雖然一種選擇是使用RDD巷屿,但這種情況也很容易使其適用于隨機對照實驗,或兩者的某種混合體(Owen和Varian 2018)墩虹。
工具變量(IV)和自然實驗
工具變量(IV)是一種試圖近似隨機分配的技術嘱巾。具體而言,目標是確定一種工具诫钓,使我們能夠近似隨機分配(自然實驗中自然發(fā)生)(Angrist和Pischke 2014旬昭,Pearl 2009)。
例如菌湃,為了分析退伍軍人與非退伍軍人之間的收入差異问拘,越南戰(zhàn)爭征兵抽簽類似于將個人隨機分配給軍隊;特許學校的座位是通過抽簽分配的,因此對于某些學習來說可能是不錯的選擇骤坐。在這兩個示例中绪杏,抽簽均不能保證出席率,但對出席率影響很大纽绍。然后通常使用兩階段最小二乘回歸模型來估計效果蕾久。
有時,可能會發(fā)生“好于隨機”的自然實驗拌夏。在醫(yī)學上腔彰,單卵雙生子允許進行雙生子研究作為自然實驗(Harden等人,2008辖佣; McGue 2014)。在研究社交網(wǎng)絡或對等網(wǎng)絡時搓逾,進行受控實驗可能具有挑戰(zhàn)性卷谈,因為由于成員之間的交流,其效果可能不會受到治療人群的限制霞篡。但是世蔗,通知隊列和消息傳遞順序是自然實驗的類型,可以利用它們來了解干預的影響朗兵。
傾向得分匹配 Propensity Score Matching
這里的另一類方法是構造可比較的“控制和干預”人群污淋,通常是按照常見的干擾因素對用戶進行細分,類似于分層抽樣余掖。這樣做的目的是確保對照人群和治療人群之間的比較不會由于人群結構的變化而引起寸爆。例如,如果我們正在研究從Windows更改為iOS的用戶的影響的外源性變化盐欺,我們要確保我們沒有衡量人口的人口差異赁豆。
我們可以通過采用傾向得分匹配(PSM)來進一步采用這種方法,該方法不是匹配協(xié)變量上的單位冗美,而是匹配一個數(shù)字:構造的傾向得分(Rosenbaum and Rubin 1983魔种,Imbens and Rubin 2015)。這種方法已用于在線空間粉洼,例如节预,用于評估在線廣告活動的影響(Chan等,2010)属韧。關于PSM的主要問題是只考慮觀察到的協(xié)變量安拟,因此無法測量的因素可能會導致隱藏的偏見。 Judea Pearl(2009挫剑,352)寫道:“ Rosenbaum和Rubin……在警告從業(yè)者時說的非常清楚去扣,傾向得分僅在 '考慮了足夠多的潛在因素' 條件下起作用。但是,他們沒有意識到的是愉棱,僅僅警告人們注意自己無法識別的危險是不夠的唆铐。”金和尼爾森(King and Nielsen奔滑,2018年)聲稱艾岂,PSM“結果往往和預期目標相反,從而加劇了不平衡朋其,低效王浴,模型依賴性和偏見∶吩常”
對于以上所有這些方法氓辣,關鍵問題是混淆因素 (confounding factors)。
Difference in Differences (DID)
上面的許多方法著重于如何發(fā)現(xiàn)與治療組盡可能相似的對照組袱蚓。鑒于此钞啸,一種衡量干預效果的方法是差異中的差異(DD或DID),假設存在共同趨勢喇潘,則將差異歸因于干預体斩。特別是,這些群體“在沒有治療的情況下可能會有所不同颖低,但會平行發(fā)展”(Angrist and Pischke 2014)絮吵。
基于地理位置的實驗通常使用這種技術。您想了解電視廣告對的作用忱屑。在一個DMA中投放電視廣告蹬敲,然后將其與另一個DMA進行比較。 如圖所示想幻,在時間T1對治療組進行了更改粱栖。在T1之前和之后的T2分別對治療和對照進行測量。假定對照組中兩個時期之間的關注指標(例如OEC)之間的差異是為了捕獲外部因素(例如脏毯,季節(jié)性闹究,經濟實力,通貨膨脹)食店,從而呈現(xiàn)出與實際情況相反的事實渣淤。將治療效果估算為相關指標的差異減去同一期間內該指標的對照差異。
請注意吉嫩,即使不進行干預价认,更改是外部發(fā)生的,也可以應用此方法自娩。例如用踩,當新澤西州的最低工資發(fā)生變化時,想要研究其對快餐店就業(yè)水平的影響的研究人員,將其與賓夕法尼亞州東部的情況進行了比較脐彩,賓夕法尼亞州的東部與新澤西州有很多共同點(Card and Krueger 1994)碎乃。
陷阱
盡管有時觀察性因果關系研究是最好的選擇,但應注意一些陷阱(有關更詳盡的列表惠奸,請參見Newcomer等人(2015年))梅誓。如上所述,進行觀察性因果關系研究的主要陷阱佛南,無論采用何種方法梗掰,都是意料之外的混雜因素,這些混雜因素會影響所測得的效果以及因果關系對利益變化的影響嗅回。由于這些混雜因素及穗,觀察因果關系研究需要付出很大的努力才能產生可信賴的結果。另外绵载,有許多對觀察因果關系研究的反駁(請參閱本專欄的“對觀察因果關系研究的反駁”拥坛,以及本章后面的第17章)。
性別導致了預期壽命與手掌大小的不同尘分, 不能依據(jù)手掌大小來預測壽命。
混淆的一種常見類型是無法識別的原因丸氛。例如培愁,在人類中,手掌大小與預期壽命密切相關:平均而言缓窜,手掌越小定续,壽命就越長。但是禾锤,手掌較小和預期壽命較長的常見原因是性別:女性手掌較小私股,平均壽命更長(在美國大約為6年)。
再舉一個例子恩掷,對于包括Microsoft Office 365在內的許多產品倡鲸,遇到更多Bug的用戶的的流失率通常會更低!但是黄娘,從直覺就可以判斷出來峭状, 肯定不是bug導致了用戶更喜愛該產品。這種相關性是由于以下常見原因造成的:經常使用該產品的用戶會看到更多錯誤逼争,并且流失率更低优床。對于功能所有者來說,新功能用戶流失率較低的情況并不少見誓焦,但這并不一定意味著新功能可以留住用戶胆敞。也許是使用新功能的往往是重度用戶, 這些用戶很累流失, 倒是是哪一種原因移层?在這些情況下仍翰,要評估新功能是否確實可以減少客戶流失,需要受控實驗(并分別分析新用戶和老用戶)幽钢。
要注意的另一個陷阱是虛假或欺騙性的關聯(lián)歉备。欺騙性的相關性可能是由強烈的異常值引起的,例如匪燕,如圖11.5所示蕾羊,營銷公司可以聲稱其能量飲料與運動表現(xiàn)高度相關,并暗示因果關系:喝我們的能量產品帽驯,您的運動表現(xiàn)將會改善(Orlin 2016)龟再。
運動表現(xiàn)與消耗的能量飲料數(shù)量之間存在欺騙性的相關性。相關并不表示因果關系尼变!
幾乎總是可以找到虛假的相關性(Vigen 2018)利凑。當我們檢驗許多假設時,并且當我們沒有直覺來拒絕因果主張時嫌术,就像我們在上面的例子中那樣哀澈,我們可能會相信它。例如度气,如果某人告訴你割按,他發(fā)現(xiàn)了一個因素,這個因素與被毒蜘蛛殺死有很強相關性(r = 0.86) 磷籍,那么你可能會傾向于對這些信息采取行動适荣。但是這個因素是National Spelling Bee 測試中單詞的長度,如圖院领,那你肯定不會試圖縮短單詞長度以減少死亡率弛矛,這是不合理的。
Scripps National Spelling Bee中被毒蜘蛛殺死的人與單詞長度的虛假相關性
在真實世界中比然,即使采取了謹慎措施丈氓,也無法保證觀察性因果研究中沒有包含可能影響結果的其他因素。試圖得出反事實以進行比較强法,并由此建立因果關系的準實驗方法需要做出許多假設扒寄,其中任何一個都可能是錯誤的,并且某些假設是隱含的拟烫。錯誤的假設可能會導致實驗缺乏內部有效性该编,同時,不合適的假設及其局限性硕淑,也會影響研究的外部有效性课竣。如第1章所述嘉赎,建立直覺可以幫助提高假設的質量,但是直覺并不能消除所有可能出現(xiàn)的問題于樟。因此公条,建立因果關系的科學金標準仍然是受控實驗。
補充: 對觀察因果關系研究的反駁
要從觀測數(shù)據(jù)中得出因果關系迂曲,需要多個無法測試且容易違背的假設靶橱。雖然后來許多隨機對照實驗證實了許多觀察性因果關系研究(Concato,Shah和Horwitz 2000)路捧,其他的實驗則被反駁了关霸。約阿尼迪斯(Ioannidis,2005年)評估了來自高引研究的結果杰扫;在他的研究中包括六項觀察性因果研究队寇,其中五項無法重復。 Stanley Young和Alan Karr(2019)使用觀察性因果研究(即非對照)和被認為更可靠的隨機臨床試驗章姓,比較了醫(yī)學已發(fā)表結果佳遣,這些結果都是統(tǒng)計顯著的。在12篇論文中的52項結果中凡伊,沒有一項在隨機對照試驗中可重復零渐。在52例中的5例中,在與觀察因果關系研究相反的方向上具有統(tǒng)計學意義系忙。他們的結論是:“來自觀察性研究的任何說法非常有可能是錯誤的相恃。”
在線領域的一個例子是如何衡量在線廣告的有效性笨觅,換句話說,在線廣告是否導致了品牌活動的增加甚至用戶參與度的提高耕腾。通常需要觀察性因果研究來衡量效果见剩,因為干預(廣告)和效果(用戶注冊或參與)通常位于不同的位置,因此在不同的控制范圍內扫俺。 Lewis苍苞,Rao和Reiley(2011)比較了觀察性因果研究相對于“黃金標準”對照實驗所估計的在線廣告的有效性,發(fā)現(xiàn)觀察性因果研究大大高估了效果狼纬。具體來說羹呵,他們進行了三個實驗。
首先疗琉,向用戶顯示廣告(展示廣告)冈欢,研究的問題是:使用與廣告中顯示的品牌相關的關鍵字進行搜索的用戶數(shù)量增加了多少? 通過對5千萬用戶的觀察性因果研究盈简,包括3個帶有Control變量的回歸分析凑耻,估計的提升幅度為871%至1198%太示。該估計比通過對照實驗測得的5.4%的提升高出幾個數(shù)量級∠愫疲混淆因素是用戶訪問Yahoo!的常見原因类缤。積極訪問Yahoo!的用戶在特定日期更有可能看到展示廣告并執(zhí)行Yahoo!搜索。廣告的曝光率和搜索行為高度正相關邻吭,但展示廣告對搜索的因果影響很小餐弱。(沒太看明白原文的意思,附原文)
First, advertisements (display ads) were shown to users, and the question
was: What is the increase (lift) in the number of users who search using keywords
related to the brand shown in the ad. Using several observational causal studies of
50 million users, including three regression analyses with Control variables, the
estimated lift ranged from 871% to 1198%. This estimated lift is orders of
magnitude higher from the lift of 5.4% measured via the controlled experiment.
The confound is common cause of users visiting Yahoo! in the first place: Users
who actively visit Yahoo! on a given day are much more likely to see the display
ad and to perform a Yahoo! search. The ad exposure and the search behavior are
highly positively correlated, but the display ads have very little causal impact on
the searches.
接下來囱晴,網(wǎng)站向用戶展示了視頻膏蚓,問題是這些視頻是否會導致活動增加。用戶是通過Amazon Mechanical Turk招募的速缆,其中一半暴露于宣傳Yahoo.com服務的30秒視頻廣告(即“治療”)降允,一半暴露于政治性視頻廣告(“對照”),其目的是衡量用戶訪問Yahoo!的活動是否有所增加艺糜。 研究人員進行了兩項分析:
- 觀察性研究 --- 受試者在看了 30秒 Yahoo! 廣告前后的活動是否增加
- 看Yahoo! 廣告與看政治廣告的受試者直接的對照分析
結果表明剧董, 觀察性研究高估了 350%。 在這里破停,混淆因素是翅楼,受試者在特定的一天在Amazon Mechanical Turk上活動, 會增加該受試者 在Yahoo!上的活動真慢。
最后毅臊,在Yahoo!上向用戶展示了一個廣告系列。目的是評估觀看廣告的用戶在觀看廣告當天是否更有可能在競爭對手的網(wǎng)站上進行注冊黑界。觀察性因果研究對比了當天看了廣告的用戶以及這些用戶一周之前的行為管嬉,而控制實驗則對當天訪問了Yahoo! 看到和沒看到那個廣告的用戶進行了比較朗鸠。根據(jù)觀察性因果研究的結論蚯撩,與前一周相比,看過廣告的用戶更有可能在看到廣告的那一天在競爭對手的網(wǎng)站上進行注冊烛占。但是胎挎,從對照實驗中,實驗人員觀察到忆家, 是否看廣告對受試者的行為沒有影響犹菇。該結果類似于我們之前對客戶流失的錯誤的討論:活躍的用戶只是更有可能更活躍。這里芽卿,活躍度是一個混淆因素揭芍。
Finally, an ad campaign was shown to users on Yahoo! with the goal of
measuring whether users who saw the ad were more likely to sign up at the
competitor’s website on the day they saw the ad. The observational causal study
compared users exposed to the ad on the day they saw the ad relative to the week
before, while the experiment compared users who did not see the ad but visited
Yahoo! on that day to the users who came to Yahoo! on the same day and saw the
competitor ad. From the observational causal study, exposed users were more
likely to sign up at the competitor’s website the day they saw the ad compared to
the week before. However, from the experiment, they observed a nearly identical
lift. This result is similar to our previous discussion of churn and errors: More
active users are simply more likely to do a broad range of activities. Using
activity as a factor is typically important.
這只是一個故事。最近的一項比較研究還發(fā)現(xiàn)卸例,觀察性因果研究的準確性不如在線對照實驗(Gordon et al.2018)沼沈。我們在https://bit.ly/experimentGuideRefutedObservationalStudies 上提供了更多故事流酬,其中顯示了常見的未知原因,時間敏感的混雜因素列另,人口差異導致缺乏外部有效性等示例芽腾。在使用觀察性因果研究的時候, 一定要當心页衙。