Trustworthy Online Controlled Experiments Part 5 Chap 17
第五部分 實驗分析的高級話題
第五部分包括七個高級分析主題横朋,主要針對數(shù)據(jù)科學(xué)家和愿意深入了解受控實驗的的人員。
我們從在線控制實驗背后的統(tǒng)計學(xué)開始衙传,該統(tǒng)計數(shù)據(jù)概述了t檢驗厕九,p值和置信區(qū)間計算扁远,正態(tài)性假設(shè),統(tǒng)計功效以及I / II型錯誤并闲。它涵蓋了多種測試和費舍爾的薈萃分析方法焙蚓。
下一章是方差估計和改進的靈敏度:陷阱和解決方案洒宝,我們從標(biāo)準(zhǔn)公式開始雁歌,隨后展示了一個非常常見的陷阱知残,需要使用增量法求妹。然后制恍,我們回顧了減少方差的方法,從而提高了實驗的靈敏度何吝。
A / A測試涵蓋了提高實驗系統(tǒng)的可信度并發(fā)現(xiàn)軟件或使用的統(tǒng)計信息中的實際問題和錯誤的最佳方法爱榕。借助于 A / A測試坡慌,我們發(fā)現(xiàn)了許多陷阱。
提高觸發(fā)靈敏度的一章詳細(xì)介紹了關(guān)鍵概念-觸發(fā)棵帽。因為并非每個實驗都會影響所有用戶坑夯,所以可以通過減少可能沒有受到影響的用戶的噪音來提高敏感性柜蜈。隨著組織的成熟,觸發(fā)的使用也在增長隶垮,隨之而來的是有助于分析和調(diào)試的工具狸吞。
接下一章著眼于樣本比率不匹配(SRM)和其他與信任相關(guān)的護欄指標(biāo)蹋偏。 SRM在實踐中很常見至壤,當(dāng)存在SRM時像街,結(jié)果看起來非常正面或極端負(fù)面,但是是不可信的脓斩。自動運行這種測試(和其他測試)對于結(jié)果的可信賴性至關(guān)重要随静。
在某些現(xiàn)實環(huán)境中挪挤,例如多邊市場和社交網(wǎng)絡(luò)关翎,實驗版本可能會泄漏信息纵寝,這是我們在不同版本之間的泄漏和干擾中涉及的主題星立。
在結(jié)束時提出了一個仍在研究中的重要問題:測量長期效果绰垂。我們嘗試提幾種實驗設(shè)計來解決這一目標(biāo)劲装。
在線受控實驗背后的統(tǒng)計方法
吸煙是統(tǒng)計學(xué)出現(xiàn)的主要原因
– Fletcher Knebel
為什么重要
統(tǒng)計是設(shè)計和分析實驗的基礎(chǔ)昌简。
本章介紹幾種統(tǒng)計概念纯赎,并且將深入探討對實驗至關(guān)重要的統(tǒng)計學(xué)犬金,包括假設(shè)檢驗和統(tǒng)計能力(Lehmann和Romano 2005,Casella和Berger 2001峰伙,Kohavi瞳氓,Longbotham等2009)。
Two-Sample t 檢驗
Two-Sample t 檢驗(雙樣本t檢驗) 是最常見的統(tǒng)計顯著性檢驗锅锨,用于確定我們看到的治療和控制之間的差異是真實的還是僅是噪音(Student 1908必搞; Wasserman 2004)恕洲。雙樣本t檢驗考察了兩個均值之間的差異相對于方差的大小。差異的顯著性由p值表示葛家。 p值越低癞谒,則表明治療與對照不同的證據(jù)越強弹砚。為了將兩個樣本的t檢驗應(yīng)用于感興趣的度量Y(例如,每個用戶的查詢)朱沃,假定在干預(yù)和控制中用戶對度量的觀察值是隨機變量和的獨立的逗物。 Null假設(shè)()是和具有相同的均值敬察,備則假設(shè)()是它們均值不相同(請參見公式17.1):
雙樣本t檢驗基于t統(tǒng)計量T:
其中莲祸, 是治療平均值和對照平均值之間的差锐帜,平均值的偏移量為無偏估計量缴阎。由于樣本是獨立的:
t統(tǒng)計量T只是的歸一化形式蛮拔。
憑直覺建炫,T越大疼蛾,均值相同的可能性就越小察郁。換句話說,T越大越有可能拒絕零假設(shè)稳捆。如何量化呢眷柔?
p 值 和 置信區(qū)間
有了t統(tǒng)計量T驯嘱,就可以計算p值了,這是如果在治療和控制之間確實沒有差異的情況下T至少會達(dá)到這個極值的可能性茂蚓。按照慣例聋涨,p值小于0.05的差異都被視為“具有統(tǒng)計學(xué)意義”牍白,盡管正在進行的辯論要求默認(rèn)使用較低的p值(Benjamin等人抖棘,2017)切省。小于0.01的p值被認(rèn)為是非常重要的朝捆。
盡管p值是最著名的統(tǒng)計術(shù)語之一芙盘,但它經(jīng)常被誤解。一種常見的誤解是蝴乔,在觀察到的數(shù)據(jù)給定的情況下淘这,p值會捕獲Null假設(shè)為真的概率。從表面上看钠怯,這是一個合理的解釋晦炊,因為大多數(shù)實驗者都希望他們的干預(yù)方法有效。但是榆苞,正確的解釋幾乎相反霞捡,真正的解釋是在 Null假設(shè)為真的情況下碧信, 觀察到當(dāng)前的差異的可能性砰碴。要了解這兩種解釋有何不同呈枉,且有什么關(guān)聯(lián)碴卧,可以使用貝葉斯規(guī)則將其分解:
如方程式所示住册,要根據(jù)收集的數(shù)據(jù)(后驗概率)知道Null假設(shè)是否正確,不僅需要p值凡人,還需要Null假設(shè)正確的可能性挠轴。
檢查差異是否在統(tǒng)計上有意義的另一種方法是檢查置信區(qū)間是否包含0值岸晦。某些人發(fā)現(xiàn)置信區(qū)間是一種比p值更直觀的方式來解釋觀察到的增量附近的噪聲和不確定性启上。 95%的置信區(qū)間是指覆蓋95%的時間的真實差異并且等效于0.05的p值的范圍店印;如果95%置信區(qū)間不包含零或p值小于0.05按摘,則該差異在0.05的顯著性水平上具有統(tǒng)計學(xué)意義。在大多數(shù)情況下溅固,的置信區(qū)間以觀察到的為中心付秕,并在每一側(cè)延伸約兩個標(biāo)準(zhǔn)差。對于(近似)服從正態(tài)分布的所有統(tǒng)計信息(包括百分比增量)侍郭,都是如此盹牧。
正態(tài)假設(shè)
在大多數(shù)情況下,我們以t統(tǒng)計量T服從正態(tài)分布為前提來計算p值励幼,并且在Null假設(shè)下汰寓,分布的均值為0,方差為1苹粟。p值只是正態(tài)曲線下的面積,正如第2章中的圖2.1中突出顯示的那樣嵌削。許多人誤以為正態(tài)性假設(shè)是度量Y的分布的假設(shè)毛好,并認(rèn)為這是一個糟糕的假設(shè),因為在實踐中幾乎沒有度量遵循正態(tài)分布苛秕。但是肌访,在大多數(shù)在線實驗中,“對照”和“治療”的樣本量至少為數(shù)千艇劫, 此時吼驶,盡管Y的樣本分布不服從正態(tài)分布,但由于中心極限定理(Billingsly 1995)店煞,通常采用平均值分布蟹演。圖17.1說明了從β分布抽取的樣本Y的收斂性。隨著樣本數(shù)量的增加顷蟀,平均值的分布將變得更正態(tài)分布酒请。
隨著樣本數(shù)量n的增加,平均值的分布變得越來越正態(tài)
每個變量的平均值具有正態(tài)分布所需的最小樣本數(shù)的一個經(jīng)驗法則是 (Kohavi 2014)鸣个,其中??是度量Y的樣本分布的偏度系數(shù)羞反,如公式17.5所定義:
一些度量標(biāo)準(zhǔn),尤其是收入度量標(biāo)準(zhǔn)囤萤,往往具有較高的偏度系數(shù)昼窗。減少偏度的一種有效方法是轉(zhuǎn)換度量標(biāo)準(zhǔn)或設(shè)置值的上限。例如阁将,在Bing將“每位用戶的每周收入/用戶”設(shè)置為10美元之后膏秫,他們發(fā)現(xiàn)偏斜度從18下降到5右遭,而所需的最低樣本量也從114k下降到10k做盅。此經(jīng)驗法則為| s |> 1 時提供了很好的指導(dǎo), 但對當(dāng)偏度比較小的時候缤削, 比較無效。不過吹榴,當(dāng)偏斜度較小時亭敢,通常需要較少的樣本(Tyurin 2009)。
對于兩樣本t檢驗图筹,因為您正在查看具有相似分布的兩個變量的差異帅刀,所以使正態(tài)性假設(shè)合理的樣本數(shù)往往會減少。如果治療和控制具有相同的流量分配远剩,則尤其如此(Kohavi 2014)扣溺,因為差異的分布近似對稱(在零假設(shè)下,零偏度是完全對稱的)瓜晤。
如果您想知道樣本量是否足夠大以假定正態(tài)性锥余,請使用脫機模擬對其進行至少一次測試。您可以在“治療和控制”中隨機洗檢樣本以生成零分布痢掠,并使用統(tǒng)計檢驗(例如Kolmogorov-Smirnov和Anderson-Darling)將該分布與正態(tài)曲線進行比較(Razali和Wah 2011)驱犹。由于在假設(shè)檢驗中關(guān)注尾分布,因此您也可以通過僅關(guān)注I型錯誤率是否受預(yù)設(shè)閾值(例如0.05)限制來提高檢驗靈敏度足画。
當(dāng)正態(tài)性假設(shè)失敗時雄驹,您可以進行置換檢驗(Efron和Tibshriani 1994),并觀察相對于模擬零分布的觀察位置淹辞。請注意医舆,即使大規(guī)模進行排列測試非常昂貴,但有時需要使用較小樣本量的情況象缀,因此在實踐中效果很好彬向。
I / II型錯誤和 Power
任何測試都會出錯。在假設(shè)檢驗中攻冷,我們關(guān)心I型和II型錯誤娃胆。 I型錯誤的結(jié)論是,在沒有實質(zhì)性差異的情況下等曼,實驗宣稱治療與控制之間存在顯著差異里烦。 II型錯誤是實驗宣稱Null 假設(shè)為真,也就是說禁谦, 實驗沒有發(fā)現(xiàn)差異胁黑, 但是實際上二者存在差異。 可以預(yù)見州泊,p值的閾值選取會對 I / II型錯誤 同時造成影響丧蘸, 如果想降低 1型錯誤概率, 就會提高2型錯誤的概率遥皂, 反之亦然力喷。
II型錯誤的概念被稱為 Power刽漂。Power 是在確實存在差異時檢測變體之間差異的可能性,即拒絕Null 假設(shè)的概率(請參見公式17.6):
功率通常由實際應(yīng)用的最小增量δ來參數(shù)化弟孟。在數(shù)學(xué)上贝咙,假設(shè)所需的置信度為95%,則公式如公式17.7所示:
行業(yè)標(biāo)準(zhǔn)是在我們的測試中至少達(dá)到80%的功率拂募。因此庭猩,通常在開始實驗之前進行功率分析,且需要多少樣本才能獲得足夠的功率陈症。假設(shè)處理組和控制組較小蔼水,則可以從上面的功效公式中達(dá)計算達(dá)到80%功效所需的樣本總數(shù),大約等于公式17.8(van Belle 2008):
其中录肯,是樣本方差徙缴,而δ是處理與對照之間的差異。人們經(jīng)常問的一個問題是嘁信,他們在進行實驗之前如何知道 于样?的確,我們不知道真實的潘靖,這就是進行實驗的原因穿剖。
但是,我們知道在實踐中多大才有意義卦溢,換句話說糊余,具有實際意義的大小。例如单寂,收入相差0.1%的時候大家不太會關(guān)心贬芥,但是收入下降1%的情況就不行了。在這種情況下宣决,實際上0.1%無效蘸劈,而1%實際有效。要估算所需的最小樣本量尊沸,首先需要確定最小 (也稱為最小可檢測效果)威沫。
對于在線實驗,由于在線用戶的數(shù)量是在一段時間內(nèi)統(tǒng)計出來的洼专,因此樣本大小估算更為復(fù)雜棒掠,因此實驗的持續(xù)時間也對實驗的實際樣本大小起著重要作用。取決于隨機單位屁商,樣本方差 也可以隨時間變化烟很。另一個挑戰(zhàn)是使用觸發(fā)分析(請參閱第20章),隨著觸發(fā)條件在整個實驗中的變化, 和值也會變化雾袱。由于這些原因恤筛,我們在第15章介紹了一種更為實用的方法,用于確定流量分配和大多數(shù)在線實驗的持續(xù)時間谜酒。
我們要強調(diào)對Power概念的常見誤解。許多人認(rèn)為功率是測試的絕對屬性妻枕,卻忘記了它與要檢測的效果的大小有關(guān)僻族。具有足夠能力檢測10%差異的實驗不一定具有足夠能力檢測1%差異。一個很好的類比是“找不同”的游戲屡谐。圖17.2證明述么,相對于斑點的差異(實心圓),更容易檢測到睡蓮葉上的差異(因為差異大)(虛線圓)愕掏。
用統(tǒng)計能力比喻“發(fā)現(xiàn)差異”度秘。
功耗分析與I型和II型錯誤緊密相關(guān)。 Gelman和Carlin(2014)認(rèn)為饵撑,對于較小的樣本量設(shè)置剑梳,計算a)估計方向錯誤的可能性(Type S [sign]誤差)和b)影響幅度大小的因素也很重要。效果可能被高估了(類型M [幅值]誤差或夸張率)滑潘。
偏誤
在實驗結(jié)果中垢乙,當(dāng)均值的估計值和真實值系統(tǒng)不同時,就會出現(xiàn)偏差。這可能是由于平臺錯誤,有缺陷的實驗設(shè)計或無代表性的樣本(例如公司員工或測試帳戶)引起的癞季。我們在第3章中討論了一些預(yù)防和檢測這些問題的例子和建議樊破。
多重實驗
當(dāng)我們?yōu)槊總€實驗計算數(shù)百個指標(biāo),常會聽到實驗者抱怨 “為什么這個看似無關(guān)緊要的指標(biāo)很重要记劝?” 這是一種簡答化的看法。如果為實驗計算100個指標(biāo),那么即使不執(zhí)行任何操作巴席,猜猜你仍會看到多少個具有統(tǒng)計意義的指標(biāo)?在顯著性水平為5%的情況下诅需,答案大約為5個(假設(shè)指標(biāo)是獨立的)情妖。當(dāng)檢查數(shù)百個實驗并且每個實驗進行多次迭代時,這個問題會更嚴(yán)重诱担。當(dāng)并行測試多個事物時毡证,錯誤發(fā)現(xiàn)的數(shù)量就會增加。這稱為“多重測試”問題蔫仙。
如何確保在多次測試中仍能合理控制I型和II型錯誤料睛?有許多經(jīng)過深入研究的方法。但是,大多數(shù)方法要么簡單但過于保守恤煞,要么復(fù)雜屎勘,因此難以實施。例如居扒,流行的Bonferroni校正使用了一致但較小的p值閾值(0.05除以測試次數(shù))概漱,這過于保守。 Benjamini-Hochberg過程(Hochberg和Benjamini 1995)對不同的測試使用不同的p值閾值喜喂,這又過于復(fù)雜瓤摧。
因此,當(dāng)一個指標(biāo)出乎意料地重要時玉吁,應(yīng)該怎么做照弥?這是一個簡單的兩步法則:
1.將所有指標(biāo)分為三組:
- 一階指標(biāo):希望受到實驗影響的指標(biāo)
- 二階指標(biāo):可能受到影響的指標(biāo)
- 三階指標(biāo):那些不太可能受到影響的指標(biāo)。
2.將分層的顯著性水平應(yīng)用于每個組(例如分別為0.05进副、0.01和0.001)这揣。
這些經(jīng)驗法則基于一個有趣的貝葉斯解釋:進行實驗之前就相信零假設(shè)(H0)是正確的?信心越強影斑,就應(yīng)該使用更加嚴(yán)格的p門檻给赞。
Fisher 薈萃分析
在第8章中,我們講述了如何利用歷史實驗的薈萃分析矫户, 以進行模式識別塞俱,創(chuàng)建和利用機構(gòu)記憶。在本節(jié)中吏垮,我們特別感興趣的是將對同一假設(shè)進行檢驗的多個實驗的結(jié)果進行組合障涯。例如,復(fù)現(xiàn)具有令人驚訝結(jié)果的實驗是一種常見的技術(shù)膳汪。一般使用正交隨機分配的用戶進行復(fù)現(xiàn)唯蝶。這兩個實驗(原始實驗和復(fù)現(xiàn)實驗)都產(chǎn)生彼此獨立的p值。直觀地遗嗽,如果兩個p值均小于0.05粘我,比只有一個p值小于0.05更有力地證明了該方法有效。 Fisher在他的薈萃分析方法中將這種直覺形式化(Fisher 1925)痹换,稱我們可以將多個獨立統(tǒng)計檢驗的p值組合為一個檢驗統(tǒng)計量征字,如公式17.9所示:其中pi是第i個假設(shè)檢驗的p值。如果所有k個零假設(shè)都成立娇豫,則該檢驗統(tǒng)計量遵循自由度的卡方分布匙姜。 Brown(1975)將Fisher的方法擴展到p值不獨立的情況。還有其他p值組合方法冯痢,例如Edgington(1972)氮昧,Volumne 80(2)以及Mudholkar和George(1979)框杜。有關(guān)更多討論,請參見Hedges和Olkin(2014)袖肥。
通常咪辱,F(xiàn)isher的方法(或任何其他薈萃分析技術(shù))對于提高功效和減少假陽性非常有用。即使應(yīng)用了所有增加功率的技術(shù)(例如最大功率流量分配(請參閱第15章)和方差減少(請參閱第22章))之后椎组,實驗也可能功率不足油狂。在這種情況下,可以考慮同一實驗的兩個或多個(正交)復(fù)現(xiàn)(一個接一個)寸癌,并通過使用Fisher的方法組合結(jié)果來獲得更高的 Power专筷。