Silly significance tests: Tautological tests

上一篇博文已經(jīng)論證：使用顯著性檢驗(yàn)去核查隨機(jī)分配是否有效是毫無意義的楚殿。在本篇博文浩习，我們在討論另一種愚蠢的顯著性檢驗(yàn)：dividing participants into a ‘high X’ and a ‘low X’ group and then testing whether the groups differ with respect to ‘X’。

什么是“tautological tests”

我們經(jīng)常會在研究論文中看到下面的表述：

根據(jù)70名被試在20分的法語測驗(yàn)上的成績拱燃，分為3個水平組徙垫。高水平組包含16或更高分?jǐn)?shù)的被試（n=20）肴裙；中等水平組為那些分?jǐn)?shù)在10-15之間的被試（n=37）；低水平組為9分及9以下的被試（n=13）章蚣。經(jīng)ANOVA表明站欺，三組之間的測驗(yàn)得分存在顯著差異?(F(2, 67) = 133.5,?p?< 0.001)。

這是一個虛構(gòu)的例子纤垂，但在應(yīng)用語言學(xué)中上述程序比較常見：研究人員對被試進(jìn)行分組矾策，使得在某個變量上各組之間沒有重疊（如任務(wù)表現(xiàn)、年齡）峭沦，然后繼續(xù)通過證明組間在該變量上存在顯著差異來表明這種分組是合理的贾虽。這種做法并不一定是針對被試，有時研究者對刺激的選擇（如：高頻詞vs 低頻詞）也遵循類似的邏輯吼鱼。由于目前找不到更好的術(shù)語蓬豁，姑且先稱這種實(shí)踐為重復(fù)顯著性檢驗(yàn)绰咽。

存在的問題

正如其名，tautological tests之所以是愚蠢的地粪，是因?yàn)樗麄儾荒芨嬖V我們?nèi)魏渭日_又新鮮的信息取募。因?yàn)槭俏覀冏约簞?chuàng)建了在某個變量上未重疊的被試或刺激分組，因而我們顯然知道各組之間必定在該變量上存在差異蟆技。如果顯著性檢驗(yàn)未見有顯著的p值玩敏，那么這更多告訴我們的是sample size的信息，而不是關(guān)于該變量上的組間差異的信息质礼。

這種non-informativeness??tautological tests與之前討論的?balance tests有一些相似之處旺聚。在balance tests例子中，我們對一個不存在的差異進(jìn)行檢驗(yàn)（我們知道它并不存在）几苍；當(dāng)使用tautological tests時翻屈，我們對一個已知的差異進(jìn)行檢驗(yàn)。個人認(rèn)為妻坝，?tautological tests并不會對研究結(jié)果造成負(fù)面影響伸眶，但它使用無用的信息將研究報(bào)告弄得亂七八糟，并常常讓人望而生畏刽宪。

更嚴(yán)重的問題：過度使用ANOVA

更嚴(yán)重的問題發(fā)生在?tautological significance tests之前：將一個連續(xù)變量離散化厘贼。將一個連續(xù)變量劃分成不同組，會丟失一些有價(jià)值的信息圣拄。因此嘴秸，與你在分析中使用原始變量相比，這會導(dǎo)致統(tǒng)計(jì)功效的降低庇谆。此外岳掐，分割點(diǎn)的選擇是任意的，選擇不同的分割點(diǎn)也會造成結(jié)果上的差異饭耳。

研究者似乎普遍認(rèn)為串述，為了明智地分析數(shù)據(jù)，他們需要進(jìn)行分組寞肖。其潛在觀點(diǎn)可能是分組比較（i.e. ANOVAs）比涉及連續(xù)變量的分析（e.g. linear regression）更正式和客觀纲酗。或者研究人員可能認(rèn)為新蟆，在處理更加復(fù)雜數(shù)據(jù)時觅赊，如具有交叉依賴結(jié)構(gòu)的數(shù)據(jù)（e.g. featuring both stimulus- and participant-related variables）或者數(shù)據(jù)呈現(xiàn)非線性，必需使用ANOVAs琼稻。想要消除這些錯誤觀點(diǎn)的研究人員可以閱讀?Harald Baayen?的一篇文章以及2008 special issue of the Journal of Memory and Language上的一些文章?(e.g. the Baayen et al. and Jaeger papers)吮螺。如果你的數(shù)據(jù)顯示非線性，而你希望通過將一個連續(xù)變量離散化進(jìn)行解決時，我建議你首先看看?Michael Clark對?generalised additive models的介紹规脸，它可以解決非線性問題坯约，或者你也可以嘗試轉(zhuǎn)換變量是否有可能使它們之間的關(guān)系近似線性。

解決辦法

解決?tautological tests的方法也是非常簡單莫鸭。首先闹丐，我們應(yīng)該捫心自問，真的有必要對連續(xù)變量進(jìn)行分類嗎被因？通常一個基于回歸的分析是可行的卿拴。第二，如果出于某些原因不能執(zhí)行回歸分析梨与，只需記住不要進(jìn)行這種tautological tests堕花。

A related kind of test use

一個相關(guān)的，我們正在使用的顯著性檢驗(yàn)是粥鞋，當(dāng)研究者試圖確保刺激或被試在不同條件下是可比的時候缘挽。例如，當(dāng)調(diào)查詞頻對單詞記憶的影響時呻粹，研究者常常希望確保高頻詞和低頻詞在除了詞頻外的其他屬性上保持相似（如壕曼，單詞長度）。盡管我不會將這種顯著性檢驗(yàn)稱為愚蠢的等浊，但它也不是最理想的做法腮郊。?Imai et al.?討論了使用顯著性檢驗(yàn)去評估一個匹配程序是否成功，并反對這種做法筹燕。關(guān)于這個問題在后期會進(jìn)一步討論轧飞。而當(dāng)前的關(guān)鍵信息非常簡單：顯著性檢驗(yàn)不適合這種目的。