1、統(tǒng)計(jì)功效(statistical power)
當(dāng)假設(shè)檢驗(yàn)結(jié)果不顯著時(shí)师痕,這時(shí)我們不能立刻接受原假設(shè)溃睹,因?yàn)榭赡苁墙y(tǒng)計(jì)功效過低。統(tǒng)計(jì)功效是什么意思呢?它代表當(dāng)備擇假設(shè)為真的情況下七兜,可以正確拒絕原假設(shè)的概率丸凭,即1-β。它代表我們通過假設(shè)檢驗(yàn)可以正確識(shí)別出目標(biāo)的概率。(熟悉機(jī)器學(xué)習(xí)的同學(xué)應(yīng)該知道惜犀,類似于評(píng)估機(jī)器學(xué)習(xí)分類模型效果時(shí)铛碑,有個(gè)指標(biāo)叫做召回率(recall),代表實(shí)際為陽性的所有樣本中虽界,通過模型可以被識(shí)別出的比例汽烦。這個(gè)統(tǒng)計(jì)功效即類似于召回率。)如果結(jié)果不顯著莉御,樣本不一定是陰性撇吞,也可能是統(tǒng)計(jì)功效過低,而無法識(shí)別出來礁叔。
2牍颈、統(tǒng)計(jì)功效影響因素
影響統(tǒng)計(jì)功效(1-β)的因素有顯著性水平α,樣本量大小N琅关,標(biāo)準(zhǔn)化的效應(yīng)大小EZ煮岁。這四個(gè)要素是相輔相成的,只要確定了其中三個(gè)要素涣易,另外一個(gè)就可以唯一確定画机。
- 顯著性水平α
α某種意義上可以代表檢驗(yàn)的嚴(yán)苛程度,其他條件不變的情況下新症,α越小越嚴(yán)苛步氏,目標(biāo)樣本越不容易識(shí)別出來,因此統(tǒng)計(jì)功效越小徒爹。 - 樣本量大小N
其他條件不變情況下荚醒,樣本量越大,統(tǒng)計(jì)功效越大瀑焦。 - 效應(yīng)大小EZ
其他條件不變情況下腌且,效應(yīng)越大梗肝,代表樣本與總體之間的差異越大榛瓮,越容易被檢驗(yàn)出來,因此統(tǒng)計(jì)功效越大巫击。
3禀晓、功效分析(power analysis)
我們了解了影響統(tǒng)計(jì)功效(1-β)的三個(gè)因素,因此坝锰,在確定了我們想要達(dá)到的統(tǒng)計(jì)功效粹懒、顯著性水平和效應(yīng)大小后,就可以估算需要的樣本量顷级。利用統(tǒng)計(jì)功效估算樣本量的方法稱為功效分析凫乖。
功效分析的難點(diǎn)在于如何確定效應(yīng)大小。效應(yīng)大小是一個(gè)抽象的概念,它在數(shù)學(xué)上到底是什么形式取決于具體的統(tǒng)計(jì)測(cè)試帽芽。比如說删掀,相關(guān)分析、t檢驗(yàn)导街、卡方檢驗(yàn)的效應(yīng)大小分別是:相關(guān)系數(shù)披泪、均值差、OR值(比值比)搬瑰。在估算樣本量時(shí)款票,我們還沒有開始試驗(yàn),又如何確定效應(yīng)大小呢泽论?常用的有兩種方法:
- 試點(diǎn)試驗(yàn)
用少量樣本進(jìn)行試點(diǎn)試驗(yàn)艾少,利用試點(diǎn)試驗(yàn)的結(jié)果估算效應(yīng)值大小。 - 利用相近研究數(shù)據(jù)進(jìn)行經(jīng)驗(yàn)估算
尋找相近的研究數(shù)據(jù)翼悴,或利用某些經(jīng)驗(yàn)值姆钉,合理估算效應(yīng)值大小。
4抄瓦、提升統(tǒng)計(jì)功效的方法
-
1潮瓶、增加數(shù)據(jù)量
某些試驗(yàn)是兩個(gè)或以上組別的試驗(yàn),可以嘗試增加容易獲得樣本的組別的數(shù)量钙姊,但是這個(gè)方法也有限度毯辅,通常情況下一個(gè)組別的數(shù)量是另一個(gè)組別數(shù)量的兩倍,再增加數(shù)量就沒有多少作用了煞额;此外思恐,試驗(yàn)中盡量減少樣本的損失也是增加數(shù)據(jù)量的一個(gè)方法。 -
2膊毁、放寬顯著性水平α
這個(gè)方法會(huì)增加第一類錯(cuò)誤的概率胀莹,因此,較少使用 -
3婚温、增加效應(yīng)大小
3.1 增強(qiáng)干預(yù)的效果
如果我們的研究是關(guān)于某種干預(yù)(如藥物描焰、物理治療、行為訓(xùn)練等)的效果栅螟,一種簡(jiǎn)單但很有效的方法是使用更強(qiáng)的干預(yù)(比如更大劑量的藥物荆秦、更長時(shí)間的訓(xùn)練等)。
3.2 對(duì)極端群體作比較
在一些研究中力图,我們無法直接控制感興趣的自變量步绸。這種情況往往發(fā)生在觀察性或回顧性研究中,由于實(shí)驗(yàn)者不能主動(dòng)操縱自變量吃媒,因而上一條方法就不適用了瓤介。
如果自變量是一個(gè)在某個(gè)范圍內(nèi)可以連續(xù)取值的變量(如年齡吕喘、血糖濃度等),為了增強(qiáng)效應(yīng)大小我們可以采取對(duì)自變量“取兩頭刑桑、棄中間”的辦法兽泄,從而放大不同個(gè)體間的差異。
比如我們想探索肥胖人群與正常體重人群的學(xué)習(xí)能力是否存在差異漾月。
大家知道病梢,一個(gè)人肥胖與否可以通過體重指數(shù)(body mass index, 縮寫為BMI)來表示。如果BMI在18到25之間為正常梁肿;25到30之間為超重蜓陌;30以上為肥胖。為了盡可能擴(kuò)大效應(yīng)大小吩蔑,我們只選擇了BMI在18-25之間與30以上的受試者钮热,并對(duì)兩者進(jìn)行比較,而沒有使用整個(gè)BMI范圍的受試者烛芬。
3.3 引進(jìn)控制變量
很多時(shí)候隧期,盡管我們研究真正感興趣的只有一兩個(gè)自變量,我們依然會(huì)收集它們以外的許多其他變量的信息赘娄,并把這些變量包括在我們的統(tǒng)計(jì)分析中仆潮。這些變量就是我們所說的控制變量。
雖然我們的出發(fā)點(diǎn)并不是研究這些變量遣臼,但是它們可能可以消除數(shù)據(jù)中與我們真正感興趣的自變量無關(guān)的噪音性置,從而增強(qiáng)我們能觀察到的效應(yīng)大小。
例如揍堰,我們想研究一種新型的受體拮抗劑對(duì)抑郁癥狀的療效鹏浅。由于這種藥物與某些激素存在相互作用,導(dǎo)致該藥物對(duì)女性的作用大大高于男性屏歹。如果我們不將性別的因素考慮進(jìn)來隐砸,當(dāng)我們比較干預(yù)組和對(duì)照組時(shí),由于兩組受試者中男性的存在蝙眶,平均的療效差異就會(huì)被拉低季希,統(tǒng)計(jì)功效也隨之降低了。如果我們將性別作為控制變量械馆,藥物對(duì)女性的療效就更容易表現(xiàn)為具有統(tǒng)計(jì)學(xué)顯著性的結(jié)果了胖眷。
3.4 采用重復(fù)測(cè)量或組內(nèi)設(shè)計(jì)
在可行的情況下武通,采用重復(fù)測(cè)量(在同一組受試者上分別實(shí)施干預(yù)和對(duì)照)設(shè)計(jì)能夠有效降低組間設(shè)計(jì)(在不同的受試者上進(jìn)行不同的干預(yù))中由于個(gè)體不同所帶來的隨機(jī)噪音霹崎,從而也能增強(qiáng)效應(yīng)大小妆艘,進(jìn)而提高統(tǒng)計(jì)功效褥赊。