愚蠢的顯著性檢驗(yàn)之平衡性檢驗(yàn)

Silly significance tests: Balance tests

研究論文中包含太多的統(tǒng)計(jì)檢驗(yàn)總是令人反感的抑党。我們應(yīng)該細(xì)致地報(bào)告研究和進(jìn)行分析,但如果我們能過刪除多于的眠菇、愚蠢的顯著性檢驗(yàn)呕屎,這會(huì)使得我們的論文更容易閱讀分预。今天要談的話題是:balance tests。

標(biāo)題中“愚蠢的顯著性檢驗(yàn)”這一術(shù)語來自于Abelson’s?Statistics as principled argument噩峦,指的是除了讓一篇研究論文更難閱讀锭沟,而未能提供任何其他有效信息的統(tǒng)計(jì)檢驗(yàn)。我至少能夠列出四種我們并不需要的愚蠢的統(tǒng)計(jì)檢驗(yàn)识补,本文關(guān)注的是族淮,隨機(jī)實(shí)驗(yàn)中的平衡性檢驗(yàn)。

什么是平衡性檢驗(yàn)凭涂?

Balance tests也稱randomisation checks祝辣,是一種普遍的顯著性檢驗(yàn)。例如切油,一位研究者希望將一種新的詞匯學(xué)習(xí)方法和傳統(tǒng)方法進(jìn)行比較蝙斜。他隨機(jī)分配40名被試到控制組(傳統(tǒng)方法)和實(shí)驗(yàn)組(新方法)中。4周后澎胡,他檢查所有被試的詞匯知識孕荠,讓我們假定他發(fā)現(xiàn)了一個(gè)支持實(shí)驗(yàn)組的顯著差異?(e.g. t(38) = 2.7, p = 0.01)。

為了有人避免批評攻谁,兩組之間的差異是由于學(xué)習(xí)方法之外的其他因素導(dǎo)致的岛琼,周密的研究應(yīng)該進(jìn)行一次t檢驗(yàn)和卡方檢驗(yàn)以核查實(shí)驗(yàn)組與控制組成員在年齡上和性別比例上是否有顯著差異。這些檢驗(yàn)是為了確保研究者能夠主張隨機(jī)化分組使得在這些變量上巢株,兩組是平衡的,因此我們所觀察到的組間差異并不能歸因于這些可能的混淆變量熙涤。如果一個(gè)平衡性檢驗(yàn)的結(jié)果是顯著的阁苞,研究者可能試圖將該混淆變量作為協(xié)變量再進(jìn)行一次分析。

為什么這類顯著性檢驗(yàn)是多余的祠挫?

盡管該策略看上去非常合理那槽,但是平衡性檢驗(yàn)存在以下幾個(gè)問題。


平衡性檢驗(yàn)不能提供能多信息:統(tǒng)計(jì)檢驗(yàn)是用來對總體而非特定樣本進(jìn)行推斷的等舔。誠然骚灸,實(shí)際中會(huì)出現(xiàn)實(shí)驗(yàn)組中有3名男性,而控制組有14名男性的情況慌植;卡方檢驗(yàn)將會(huì)產(chǎn)生一個(gè)顯著結(jié)果甚牲。但是我們會(huì)真的認(rèn)為男性更有可能出現(xiàn)在控制組嗎义郑?當(dāng)然不會(huì)。因?yàn)槲覀円呀?jīng)隨機(jī)將所有被試分配至各個(gè)條件中丈钙,我們知道關(guān)于這個(gè)變量的零假設(shè)(兩組成員之間沒有性別差異)是真的非驮,因此我們明白男性進(jìn)入實(shí)驗(yàn)組和控制組的機(jī)會(huì)是均等的。故每一次顯著的平衡性檢驗(yàn)都是由于完全隨機(jī)所導(dǎo)致的錯(cuò)誤警報(bào)雏赦。一次平衡性檢驗(yàn)不能告訴我們?nèi)魏挝覀冞€不知道的信息劫笙。

平衡性檢驗(yàn)也是多余的:那些同意上述觀點(diǎn)的研究者可能繼續(xù)認(rèn)為,他們使用平衡性檢驗(yàn)不是為了推斷總體星岗,而是想了解組間不平衡程度填大。但是,組間的完美平衡并不是做出有效統(tǒng)計(jì)推斷的先決條件俏橘。因此平衡性檢驗(yàn)也是不必要的允华。


平衡性檢驗(yàn)使得顯著性檢驗(yàn)失效:因?yàn)閜值只有在未進(jìn)行平衡性檢驗(yàn)的條件下才有它確切含義。實(shí)際上p值是一個(gè)條件概率:如果零假設(shè)為真敷矫,那么觀察到如此極端例获、甚至更極端的數(shù)據(jù)模式的概率。一旦進(jìn)行了平衡性檢驗(yàn)曹仗,我們?yōu)閜值增加了一個(gè)前提條件:如果零假設(shè)為真并且平衡性檢驗(yàn)產(chǎn)生一個(gè)特定結(jié)果榨汤,我們能觀察到如此極端、甚至更極端的數(shù)據(jù)模式的概率怎茫。雖然看起來并未增加很多限制收壕,實(shí)際上它是一種數(shù)據(jù)依賴性分析模式,這使得顯著性檢驗(yàn)失效轨蛤。

通過R語言進(jìn)行模擬實(shí)驗(yàn):我們性檢驗(yàn)一個(gè)處理效應(yīng)蜜宪,隨機(jī)分配40名被試到實(shí)驗(yàn)組和控制組。被試的年齡分布在20-40之間祥山。年齡變量并不是我們感興趣的圃验,但它與結(jié)果變量呈線性相關(guān)。假如處理效應(yīng)為0缝呕,即零假設(shè)為真澳窑。我們的分析策略如下。我們對年齡變量進(jìn)行一次顯著性檢驗(yàn)供常,以確定實(shí)驗(yàn)組和控制組在被試年齡方面是否平衡摊聋。如果檢驗(yàn)結(jié)果不顯著,可以斷定我們擁有平衡的群組栈暇,并對結(jié)果變量進(jìn)行一次t檢驗(yàn)麻裁。我們模擬10000次該場景,并將來自于“有條件的”分析策略的p值分布與不管平衡性檢驗(yàn)結(jié)果的t檢驗(yàn)和協(xié)方差分析所提供的p值分布進(jìn)行比較。下面的直方圖顯示煎源,這三種檢驗(yàn)策略的p值分布色迂。

由于在本例中,零假設(shè)為真薪夕,因此p值的分布應(yīng)該是均勻的脚草,例如所有的bars應(yīng)該一樣高。左側(cè)和中間的直方圖正如如此原献,表明當(dāng)分析不受平衡性檢驗(yàn)影響時(shí)馏慨,p值是正確地分布。簡言之姑隅,在此情況下p值有其預(yù)期的含義写隶。右側(cè)直方圖表明,當(dāng)分析受到平衡性檢驗(yàn)影響時(shí)讲仰,低p值太罕見:對處理效應(yīng)的檢驗(yàn)太過于保守慕趴,即它的p值沒有反映其預(yù)期含義。

最近有一些文章還是強(qiáng)調(diào)鄙陡,data-dependent analysis會(huì)導(dǎo)致anti-conservative?p-values,例如當(dāng)不存在處理效應(yīng)時(shí)冕房,非常有可能觀測到一個(gè)顯著效應(yīng)(e.g.?Gelman & Loken 2013?and?Simmons et al. 2011)。因此本文表明data-dependent analysis可能產(chǎn)生?overconservative results似乎有些奇怪趁矾。但我的主要觀點(diǎn)是耙册,平衡性檢驗(yàn)會(huì)產(chǎn)生本可以輕松避免的不準(zhǔn)確結(jié)果——不論錯(cuò)誤方向。這就是說毫捣,overconservatism也有實(shí)踐上的缺陷详拙,即更低的統(tǒng)計(jì)功效:當(dāng)處理效應(yīng)真實(shí)存在時(shí),它不太可能觀察到一個(gè)在統(tǒng)計(jì)上顯著的效應(yīng)蔓同。下面的直方圖顯示了當(dāng)存在一個(gè)相對較小的處理效應(yīng)時(shí)饶辙,p值的分布情況。


很明顯斑粱,只有ANCOVA策略的統(tǒng)計(jì)功效表現(xiàn)最好弃揽,反之使用平衡性檢驗(yàn)策略甚至比不上單純的使用t檢驗(yàn)的方法。

解決辦法

解決辦法很簡單:just don’t use balance tests则北。在分析隨機(jī)試驗(yàn)的數(shù)據(jù)時(shí)蹋宦,平衡性檢驗(yàn)只會(huì)把研究報(bào)告弄得亂七八糟而不能提供任何明顯的優(yōu)勢。當(dāng)我們有理由假定存在一個(gè)影響結(jié)果變量的協(xié)變量時(shí)咒锻,最好的辦法就是將它納入到主要分析中,而不管實(shí)驗(yàn)組和控制組在該變量上是否平衡守屉。實(shí)際上惑艇,?Mutz and Pemantle (2013)發(fā)現(xiàn),當(dāng)組間是平衡時(shí),加入一個(gè)協(xié)變量會(huì)更加有效滨巴。盡管本文只關(guān)注隨機(jī)實(shí)驗(yàn)思灌,但我認(rèn)為在分析非隨機(jī)的準(zhǔn)實(shí)驗(yàn)時(shí),該策略也是最明智的選擇恭取。

或者在實(shí)驗(yàn)設(shè)計(jì)時(shí)就考慮協(xié)變量也是非常有意義的泰偿,例如在隨機(jī)分組之前?(see the part in my?analysis paper?on ‘blocking’, pp. 6-7)。

R code? 見原文

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蜈垮,一起剝皮案震驚了整個(gè)濱河市耗跛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌攒发,老刑警劉巖调塌,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異惠猿,居然都是意外死亡羔砾,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門偶妖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來姜凄,“玉大人,你說我怎么就攤上這事趾访√恚” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵腹缩,是天一觀的道長屿聋。 經(jīng)常有香客問我,道長藏鹊,這世上最難降的妖魔是什么润讥? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮盘寡,結(jié)果婚禮上楚殿,老公的妹妹穿的比我還像新娘。我一直安慰自己竿痰,他們只是感情好脆粥,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著影涉,像睡著了一般变隔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蟹倾,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天匣缘,我揣著相機(jī)與錄音猖闪,去河邊找鬼。 笑死肌厨,一個(gè)胖子當(dāng)著我的面吹牛培慌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播柑爸,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼吵护,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了表鳍?” 一聲冷哼從身側(cè)響起馅而,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎进胯,沒想到半個(gè)月后用爪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡胁镐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年偎血,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盯漂。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡颇玷,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出就缆,到底是詐尸還是另有隱情帖渠,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布竭宰,位于F島的核電站空郊,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏切揭。R本人自食惡果不足惜狞甚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望廓旬。 院中可真熱鬧哼审,春花似錦、人聲如沸孕豹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽励背。三九已至春霍,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間叶眉,已是汗流浹背址儒。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工籍胯, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人离福。 一個(gè)月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像炼蛤,于是被迫代替她去往敵國和親妖爷。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345