Student's test —— 簡稱t-test郭宝,據(jù)說是作者當(dāng)年為避風(fēng)頭而用‘’學(xué)生”這一筆名,所以就將該種方法稱為學(xué)生檢驗(yàn)了廷蓉。
百度百科:t-test 主要用于樣本含量較腥狻(例如n < 30),總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布桃犬。t-test 是用t分布理論來推論差異發(fā)生的概率刹悴,從而比較兩個(gè)平均數(shù)的差異是否顯著。
關(guān)于t-test的原理在此處就不過多贅述了,主要還是看在R語言里面怎么用以及何時(shí)用攒暇。首先土匀,我們要注意做t-test的目的是為了檢驗(yàn)在符合正態(tài)分布的樣本中兩個(gè)平均數(shù)是否有顯著的差異,且該樣本的總體方差也是未知的扯饶,否則可以用u檢驗(yàn)恒削。
在R語言中,t-test的函數(shù)為t.test()
尾序,如下所示
t.test(x, ...)
## Default S3 method:
t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, ...)
x,y
:為進(jìn)行檢驗(yàn)的數(shù)據(jù)钓丰。
alternative
:該參數(shù)設(shè)定備擇假設(shè),默認(rèn)為雙尾檢驗(yàn)每币。
mu
:單樣本檢驗(yàn)時(shí)携丁,需要設(shè)定的平均值。
paired
:為邏輯參數(shù),是否進(jìn)行配對(duì)t-test梦鉴。
var.equal
:雙樣本檢驗(yàn)時(shí)李茫,總體方差是否相等
conf.level
:設(shè)定顯著性水平,默認(rèn)α=0.05肥橙。
以下將以實(shí)例展示不同情況下的t-test如何使用魄宏。
單樣本均值檢驗(yàn)
【例1】一魚塘多年水中含氧量平均值為4.5 mg/L,現(xiàn)隨機(jī)在該魚塘采集10個(gè)樣本存筏,試檢驗(yàn)該次抽樣的均值是否與多年均值有顯著差別宠互。
> X <- c(4.33, 4.62, 3.89, 4.14, 4.78, 4.64, 4.52, 4.55, 4.48, 4.26)
> t.test(X, mu=4.5)
One Sample t-test
data: X
t = -0.93574, df = 9, p-value = 0.3738
alternative hypothesis: true mean is not equal to 4.5
95 percent confidence interval:
4.230016 4.611984
sample estimates:
mean of x
4.421
假設(shè)檢驗(yàn)一般都是以四段進(jìn)行,分別為:
(1)給出假設(shè)H0, HA
(2)確定顯著水平
(3)計(jì)算統(tǒng)計(jì)檢驗(yàn)值
(4)作出推斷
在以上結(jié)果中椭坚,我們可以看到t.test
函數(shù)給出的結(jié)果中包含了計(jì)算出的檢驗(yàn)值予跌、自由度、p值以及結(jié)論等善茎。很明顯券册,我們看到本次抽樣的均值與總體均值是沒有顯著差異的。
雙樣本均值檢驗(yàn)
當(dāng)要比較的兩個(gè)樣本的總體方差未知垂涯,但相等時(shí)(判斷方差是否相等可以借助方差同質(zhì)性檢驗(yàn)F-test)烁焙,可以使用t-test。
成組數(shù)據(jù)的均值檢驗(yàn)--獨(dú)立樣本
成組數(shù)據(jù)(pooled data)是兩個(gè)樣本的各個(gè)變量從各自總體中抽取集币,也就是說兩個(gè)樣本間的變量沒有任何關(guān)聯(lián)考阱,兩個(gè)抽樣樣本彼此獨(dú)立。成組數(shù)據(jù)的兩個(gè)樣本的容量未必相同鞠苟,但是方差需要相等才能進(jìn)行t-test乞榨。
【例2】用高蛋白和低蛋白兩種飼料養(yǎng)1月齡大白鼠,在3個(gè)月時(shí)当娱,測定兩組大白鼠的增重量(g)吃既,檢驗(yàn)兩組數(shù)據(jù)均值有無顯著性差異。
> X <- c(134, 146, 106, 119, 124, 161, 107, 83, 113, 129, 97, 123)
> Y <- c(70, 118, 101, 85, 107, 132, 94)
> t.test(X, Y, var.equal = T)
Two Sample t-test
data: X and Y
t = 1.9157, df = 17, p-value = 0.07238
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.942543 40.275876
sample estimates:
mean of x mean of y
120.1667 101.0000
由于本篇文章不展開F-test跨细,因此我們先跳過方差同質(zhì)性檢驗(yàn)這步(但兩總體的方差是相等的)鹦倚。此時(shí)所用的自由度為(n1+n2-2),且由于默認(rèn)上mu=0
冀惭,所以在結(jié)果中備擇假設(shè)就打印出:
alternative hypothesis: true difference in means is not equal to 0
但是細(xì)看p值的話震叙,p>0.05,即接受H0散休,兩者無顯著差異媒楼,所以進(jìn)行雙總體均值檢驗(yàn)時(shí),要以p值為判斷基準(zhǔn)戚丸。
配對(duì)樣本檢驗(yàn)
配對(duì)樣本(paired data)的比較要求兩個(gè)樣本間配偶成對(duì)划址,每一對(duì)樣本除隨機(jī)地給予不同處理外,其他實(shí)驗(yàn)條件應(yīng)盡量一致。即為配對(duì)夺颤,兩樣本的容量必定相等痢缎。
配對(duì)樣本檢驗(yàn)在研究中也是較為常用的,如高血壓病人在服藥前后血壓變化是否有顯著差異等世澜,都可以使用該法檢驗(yàn)独旷。
【例3】用正常飼料和維生素E缺乏飼料飼養(yǎng)兩組配對(duì)的實(shí)驗(yàn)動(dòng)物一段時(shí)間后,檢測其肝臟中維生素A含量是否有顯著性差異宜狐。
> X <- c(3550, 2000, 3000, 3950, 3800, 3750, 3450, 3050)
> Y <- c(2450, 2400, 1800, 3200, 3250, 2700, 2500, 1750)
> t.test(X, Y, var.equal = T, paired = T)
Paired t-test
data: X and Y
t = 4.207, df = 7, p-value = 0.004001
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
355.8207 1269.1793
sample estimates:
mean of the differences
812.5
由于是進(jìn)行配對(duì)檢驗(yàn)势告,因此paired = T
。p<0.05抚恒,證明兩組均值有顯著性差異。
R語言中的統(tǒng)計(jì)檢驗(yàn)還是較為簡單和直接的络拌,但作為數(shù)據(jù)分析者俭驮,我們的任務(wù)除了敲出這幾行代碼之外,還要對(duì)我們的結(jié)果作出解答春贸。統(tǒng)計(jì)檢驗(yàn)是研究結(jié)論的守門人混萝,務(wù)必要保證該流程的嚴(yán)謹(jǐn)性,以給出令人信服的結(jié)論萍恕。
最后逸嘀,正如Holmes所言:
When you have eliminated the impossible, whatever remains, however improbable, must be the truth。
假設(shè)檢驗(yàn)也是如此允粤,即使結(jié)果與預(yù)設(shè)不符合崭倘,但只要任何一步都是嚴(yán)謹(jǐn)?shù)剡M(jìn)行的時(shí)候,我們都應(yīng)當(dāng)采信得出的結(jié)論类垫。
P.S. 以上例子出于李春喜老師的《生物統(tǒng)計(jì)學(xué)》(第五版)
完司光。