Silly significance tests: Balance tests
研究論文中包含太多的統(tǒng)計(jì)檢驗(yàn)總是令人反感的抑党。我們應(yīng)該細(xì)致地報(bào)告研究和進(jìn)行分析,但如果我們能過刪除多于的眠菇、愚蠢的顯著性檢驗(yàn)呕屎,這會(huì)使得我們的論文更容易閱讀分预。今天要談的話題是:balance tests。
標(biāo)題中“愚蠢的顯著性檢驗(yàn)”這一術(shù)語來自于Abelson’s?Statistics as principled argument噩峦,指的是除了讓一篇研究論文更難閱讀锭沟,而未能提供任何其他有效信息的統(tǒng)計(jì)檢驗(yàn)。我至少能夠列出四種我們并不需要的愚蠢的統(tǒng)計(jì)檢驗(yàn)识补,本文關(guān)注的是族淮,隨機(jī)實(shí)驗(yàn)中的平衡性檢驗(yàn)。
什么是平衡性檢驗(yàn)凭涂?
Balance tests也稱randomisation checks祝辣,是一種普遍的顯著性檢驗(yàn)。例如切油,一位研究者希望將一種新的詞匯學(xué)習(xí)方法和傳統(tǒng)方法進(jìn)行比較蝙斜。他隨機(jī)分配40名被試到控制組(傳統(tǒng)方法)和實(shí)驗(yàn)組(新方法)中。4周后澎胡,他檢查所有被試的詞匯知識孕荠,讓我們假定他發(fā)現(xiàn)了一個(gè)支持實(shí)驗(yàn)組的顯著差異?(e.g. t(38) = 2.7, p = 0.01)。
為了有人避免批評攻谁,兩組之間的差異是由于學(xué)習(xí)方法之外的其他因素導(dǎo)致的岛琼,周密的研究應(yīng)該進(jìn)行一次t檢驗(yàn)和卡方檢驗(yàn)以核查實(shí)驗(yàn)組與控制組成員在年齡上和性別比例上是否有顯著差異。這些檢驗(yàn)是為了確保研究者能夠主張隨機(jī)化分組使得在這些變量上巢株,兩組是平衡的,因此我們所觀察到的組間差異并不能歸因于這些可能的混淆變量熙涤。如果一個(gè)平衡性檢驗(yàn)的結(jié)果是顯著的阁苞,研究者可能試圖將該混淆變量作為協(xié)變量再進(jìn)行一次分析。
為什么這類顯著性檢驗(yàn)是多余的祠挫?
盡管該策略看上去非常合理那槽,但是平衡性檢驗(yàn)存在以下幾個(gè)問題。
平衡性檢驗(yàn)不能提供能多信息:統(tǒng)計(jì)檢驗(yàn)是用來對總體而非特定樣本進(jìn)行推斷的等舔。誠然骚灸,實(shí)際中會(huì)出現(xiàn)實(shí)驗(yàn)組中有3名男性,而控制組有14名男性的情況慌植;卡方檢驗(yàn)將會(huì)產(chǎn)生一個(gè)顯著結(jié)果甚牲。但是我們會(huì)真的認(rèn)為男性更有可能出現(xiàn)在控制組嗎义郑?當(dāng)然不會(huì)。因?yàn)槲覀円呀?jīng)隨機(jī)將所有被試分配至各個(gè)條件中丈钙,我們知道關(guān)于這個(gè)變量的零假設(shè)(兩組成員之間沒有性別差異)是真的非驮,因此我們明白男性進(jìn)入實(shí)驗(yàn)組和控制組的機(jī)會(huì)是均等的。故每一次顯著的平衡性檢驗(yàn)都是由于完全隨機(jī)所導(dǎo)致的錯(cuò)誤警報(bào)雏赦。一次平衡性檢驗(yàn)不能告訴我們?nèi)魏挝覀冞€不知道的信息劫笙。
平衡性檢驗(yàn)也是多余的:那些同意上述觀點(diǎn)的研究者可能繼續(xù)認(rèn)為,他們使用平衡性檢驗(yàn)不是為了推斷總體星岗,而是想了解組間不平衡程度填大。但是,組間的完美平衡并不是做出有效統(tǒng)計(jì)推斷的先決條件俏橘。因此平衡性檢驗(yàn)也是不必要的允华。
平衡性檢驗(yàn)使得顯著性檢驗(yàn)失效:因?yàn)閜值只有在未進(jìn)行平衡性檢驗(yàn)的條件下才有它確切含義。實(shí)際上p值是一個(gè)條件概率:如果零假設(shè)為真敷矫,那么觀察到如此極端例获、甚至更極端的數(shù)據(jù)模式的概率。一旦進(jìn)行了平衡性檢驗(yàn)曹仗,我們?yōu)閜值增加了一個(gè)前提條件:如果零假設(shè)為真并且平衡性檢驗(yàn)產(chǎn)生一個(gè)特定結(jié)果榨汤,我們能觀察到如此極端、甚至更極端的數(shù)據(jù)模式的概率怎茫。雖然看起來并未增加很多限制收壕,實(shí)際上它是一種數(shù)據(jù)依賴性分析模式,這使得顯著性檢驗(yàn)失效轨蛤。
通過R語言進(jìn)行模擬實(shí)驗(yàn):我們性檢驗(yàn)一個(gè)處理效應(yīng)蜜宪,隨機(jī)分配40名被試到實(shí)驗(yàn)組和控制組。被試的年齡分布在20-40之間祥山。年齡變量并不是我們感興趣的圃验,但它與結(jié)果變量呈線性相關(guān)。假如處理效應(yīng)為0缝呕,即零假設(shè)為真澳窑。我們的分析策略如下。我們對年齡變量進(jìn)行一次顯著性檢驗(yàn)供常,以確定實(shí)驗(yàn)組和控制組在被試年齡方面是否平衡摊聋。如果檢驗(yàn)結(jié)果不顯著,可以斷定我們擁有平衡的群組栈暇,并對結(jié)果變量進(jìn)行一次t檢驗(yàn)麻裁。我們模擬10000次該場景,并將來自于“有條件的”分析策略的p值分布與不管平衡性檢驗(yàn)結(jié)果的t檢驗(yàn)和協(xié)方差分析所提供的p值分布進(jìn)行比較。下面的直方圖顯示煎源,這三種檢驗(yàn)策略的p值分布色迂。
由于在本例中,零假設(shè)為真薪夕,因此p值的分布應(yīng)該是均勻的脚草,例如所有的bars應(yīng)該一樣高。左側(cè)和中間的直方圖正如如此原献,表明當(dāng)分析不受平衡性檢驗(yàn)影響時(shí)馏慨,p值是正確地分布。簡言之姑隅,在此情況下p值有其預(yù)期的含義写隶。右側(cè)直方圖表明,當(dāng)分析受到平衡性檢驗(yàn)影響時(shí)讲仰,低p值太罕見:對處理效應(yīng)的檢驗(yàn)太過于保守慕趴,即它的p值沒有反映其預(yù)期含義。
最近有一些文章還是強(qiáng)調(diào)鄙陡,data-dependent analysis會(huì)導(dǎo)致anti-conservative?p-values,例如當(dāng)不存在處理效應(yīng)時(shí)冕房,非常有可能觀測到一個(gè)顯著效應(yīng)(e.g.?Gelman & Loken 2013?and?Simmons et al. 2011)。因此本文表明data-dependent analysis可能產(chǎn)生?overconservative results似乎有些奇怪趁矾。但我的主要觀點(diǎn)是耙册,平衡性檢驗(yàn)會(huì)產(chǎn)生本可以輕松避免的不準(zhǔn)確結(jié)果——不論錯(cuò)誤方向。這就是說毫捣,overconservatism也有實(shí)踐上的缺陷详拙,即更低的統(tǒng)計(jì)功效:當(dāng)處理效應(yīng)真實(shí)存在時(shí),它不太可能觀察到一個(gè)在統(tǒng)計(jì)上顯著的效應(yīng)蔓同。下面的直方圖顯示了當(dāng)存在一個(gè)相對較小的處理效應(yīng)時(shí)饶辙,p值的分布情況。
很明顯斑粱,只有ANCOVA策略的統(tǒng)計(jì)功效表現(xiàn)最好弃揽,反之使用平衡性檢驗(yàn)策略甚至比不上單純的使用t檢驗(yàn)的方法。
解決辦法
解決辦法很簡單:just don’t use balance tests则北。在分析隨機(jī)試驗(yàn)的數(shù)據(jù)時(shí)蹋宦,平衡性檢驗(yàn)只會(huì)把研究報(bào)告弄得亂七八糟而不能提供任何明顯的優(yōu)勢。當(dāng)我們有理由假定存在一個(gè)影響結(jié)果變量的協(xié)變量時(shí)咒锻,最好的辦法就是將它納入到主要分析中,而不管實(shí)驗(yàn)組和控制組在該變量上是否平衡守屉。實(shí)際上惑艇,?Mutz and Pemantle (2013)發(fā)現(xiàn),當(dāng)組間是平衡時(shí),加入一個(gè)協(xié)變量會(huì)更加有效滨巴。盡管本文只關(guān)注隨機(jī)實(shí)驗(yàn)思灌,但我認(rèn)為在分析非隨機(jī)的準(zhǔn)實(shí)驗(yàn)時(shí),該策略也是最明智的選擇恭取。
或者在實(shí)驗(yàn)設(shè)計(jì)時(shí)就考慮協(xié)變量也是非常有意義的泰偿,例如在隨機(jī)分組之前?(see the part in my?analysis paper?on ‘blocking’, pp. 6-7)。
R code? 見原文