假設(shè)檢驗Hypothesis Testing是數(shù)理統(tǒng)計學(xué)中根據(jù)假設(shè)條件由樣本推斷總體的一種方法掷伙。采用反證法的思路,主要根據(jù)概率分布的小概率事件(0.05)進行決策;其中概率分布基本是以正態(tài)分布為基礎(chǔ)。
要點一、假設(shè)檢驗一般思路
- 1昵骤、清楚自己的問題是什么?預(yù)期想得出什么結(jié)論肯适?
例如兩種藥是否存在藥效差異变秦、自變量與因變量是否存在回歸關(guān)系....
始終要牢記的是:假設(shè)檢驗回答的問題是有沒有,存不存在關(guān)系:而不能衡量這種關(guān)系有多大框舔。
- 2蹦玫、做出兩種假設(shè):零假設(shè)(null hypothesis,H0)與備擇假設(shè)(alternative hypothesis刘绣,H1)
零假設(shè)與備擇假設(shè)相反樱溉,一般研究目的是為了證明原假設(shè)的錯誤,即得到備擇假設(shè)的結(jié)論纬凤。
例如:實驗預(yù)期希望兩種藥存在藥效差異福贞,則H0:μ1-μ2=0;H1:μ1-μ2≠0
一般形如H0:μ1-μ2=0的稱為雙側(cè)檢驗停士,而
>
挖帘、<
之類的零假設(shè)稱為單側(cè)檢驗。一般來說雙側(cè)檢驗較為常見恋技,下面也主要介紹這種方法拇舀。
one or two tailed test
- 3、根據(jù)原始數(shù)據(jù)計算蜻底,其在零假設(shè)概率分布情況下的統(tǒng)計量值(t值骄崩、Z值、F值等)
根據(jù)問題性質(zhì)選擇合適的概率檢驗方法薄辅,從而計算出對應(yīng)的統(tǒng)計量值要拂;因此統(tǒng)計量值針對不同的情況有不同的計算方法。 - 4站楚、根據(jù)計算得到的統(tǒng)計量值宇弛,利用統(tǒng)計軟件,可以知道對應(yīng)的p值是多少
也可以先確定一個適當?shù)娘@著性水平(0.05源请、0.001....),并計算出其臨界值, 與我們計算得到的統(tǒng)計量值作比較谁尸,進行判斷舅踪。 -
5、根據(jù)第四步比較結(jié)果良蛮,若p值小于預(yù)期顯著性水平(α抽碌,一般設(shè)置為0.05),則認為統(tǒng)計量離原假設(shè)分布很遠决瞳,是小概率事件货徙,則拒絕原假設(shè),從而就接受備擇假設(shè)皮胡。
make decision
要點二痴颊、以t檢驗示例演示上述假設(shè)檢驗思路
-
t檢驗基于t分布,常見的t檢驗有如下圖的三種屡贺,不過我覺得第三種配對設(shè)計可能更常用(零假設(shè):差值是否為零)蠢棱,下面介紹的例子就是配對設(shè)計
三種t檢驗 -
例子:將大白鼠配成8對,每對分別飼以正常飼料和缺乏維生素E飼料甩栈,測得兩組大白鼠肝中維生素A的含量泻仙,試比較兩組大白鼠中維生素A的含量有無差別。數(shù)據(jù)如下
data
(1)預(yù)期希望兩組大白鼠中維生素A的含量存在差異
(2)H0: μd=0量没,H1: μd≠0玉转,α=0.05,雙側(cè)檢驗
(3)計算t統(tǒng)計量
formula
calculate
如上過程殴蹄,計算了自由度為7的t分布情況下的t值究抓。公式了解即可,不同的方法有不同的公式饶套,這些交給統(tǒng)計軟件做即可漩蟆。
(4)查t分布表(雙側(cè)),t 0.05/2, 7 =2.365<4.2
(5)做決策:按 α= 0.05顯著性水平妓蛮,拒絕H0怠李,接受H1,可以認為兩種飼料喂養(yǎng)的兩組大白鼠中維生素A的含量有差別。再根據(jù)均值蛤克,判斷正常飼料組比缺乏維生素E飼料組的含量要高捺癞。
如第五步,雖然做的是雙側(cè)檢驗构挤。但根據(jù)有差異的決策髓介,以及均值差異,一樣可以得到單側(cè)檢驗的結(jié)果筋现,也更方便唐础。此外均值差異大小為0.01箱歧,p值也很小,也不要詫異一膨。因為始終記住假設(shè)檢驗回答的問題是有沒有呀邢,存不存在關(guān)系:而不能衡量這種關(guān)系有多大。此時使用置信區(qū)間相對P值來說豹绪,反應(yīng)的信息就多一些了价淌。
捎帶補充下關(guān)于t檢驗的應(yīng)用條件
- t分布基于正態(tài)分布,因此用于t檢驗的數(shù)據(jù)要符合正態(tài)分布瞒津。對于上面的例子來說蝉衣,是兩組的差值要符合正態(tài)分布。
- 若數(shù)據(jù)不符合t分布的正態(tài)假設(shè)巷蚪,存在嚴重偏態(tài)時病毡,可使用非參數(shù)的Wilcoxon秩和檢驗方法代替。具體不做記錄了钓辆,之后有用到再回顧下剪验。
要點三、p值與兩類錯誤
如上假設(shè)檢驗過程前联,在第四步比較時功戚,t統(tǒng)計量是根據(jù)數(shù)據(jù)與公式計算的,即固定的似嗤。而顯著性水平是我們自己根據(jù)經(jīng)驗設(shè)計的(雖然一般來說都是0.05)啸臀,直接影響第五步的決策結(jié)論。
-
簡單來說就是什么概率情況下烁落,可以認為是零假設(shè)分布的小概率事件乘粒。即使是0.05的顯著性水平,但也不能保證結(jié)論一定是正確的伤塌,在假設(shè)檢驗中常常有兩類錯誤灯萍。
two types of error Ⅰ類錯誤:拒絕原假設(shè)時可能會犯的錯誤,即兩組水平實際沒有差異每聪,但決策認為有差異旦棉;
也稱為假陽性False positive,聯(lián)想到醫(yī)學(xué)中的誤診
药薯,更好理解绑洛;Ⅱ類錯誤:接受原假設(shè)時可能會犯的錯誤,即兩組水平實際有差異童本,但決策認為沒有差異真屯;
-
如下圖這兩類錯誤是此消彼長的關(guān)系。例如隨著顯著性水平α數(shù)值降低(critical value線右移)穷娱,固然有很多決策為拒絕原假設(shè)(H0沒病)的事件本身就是備擇假設(shè)(有病绑蔫,且癥狀嚴重)运沦,但是未能拒絕原假設(shè)的事件,有很多其實是屬于備擇假設(shè)的(有病被認為沒病晾匠,可能癥狀比較輕)
也稱為假陰性True negative茶袒,聯(lián)想到醫(yī)學(xué)中的漏診
,更好理解凉馆;
relation p值其實就是Ⅰ類錯誤概率,例如α=0.05亡资,可以理解為在100次拒絕原假設(shè)事件中澜共,有5次是錯誤的拒絕了,即誤診锥腻。
(1-Ⅱ類錯誤β)則稱為把握度power嗦董。結(jié)合Ⅱ類錯誤的概念,把握度就是指能夠正確診斷出疾病的概率瘦黑。把握度越高京革,即有很高的把握做出有意義的統(tǒng)計學(xué)結(jié)論。通常不低于0.8幸斥。
從這里可以看到p值與把握度分別是基于決策拒絕原假設(shè)匹摇,而真實情況是TRUE、FALSE的兩種情況甲葬。
通常在做組間比較計算樣本量時廊勃,可以設(shè)定p值與把握度,然后根據(jù)相應(yīng)的效應(yīng)值(如組間差值)計算所需的樣本量经窖,也就是功效分析的過程
如上兩類錯誤的2*2定義表坡垫,可類比機器學(xué)習(xí)中的二分類混淆矩陣,例如靈敏度(sensitive)画侣、精確率(Precision)等概念冰悠。此外還有ROC曲線,在此提一下配乱,以后有機會再學(xué)習(xí)下溉卓。