title: DALS003-統(tǒng)計(jì)推斷(Inference)02-總體與樣本估計(jì)
date: 2019-07-22 12:0:00
type: "tags"
tags:
- 統(tǒng)計(jì)推斷
categories: - 生物統(tǒng)計(jì)
總體(population)鹤盒、樣本(Sample)和估計(jì)(Estimates)
總體參數(shù)(population parameters)
在小鼠體重的案例中,我們有兩種總體,對(duì)照組雌性小鼠歼郭,高脂組雌性小鼠躏将,其中體重是我們感興趣的指標(biāo)∨繁瘢現(xiàn)在我們假設(shè)種群的數(shù)目是固定的宝与,而其中的隨機(jī)誤差就來(lái)源于抽樣梗醇。我們使用下面的這個(gè)數(shù)據(jù)集來(lái)作為案例鳄抒,這是因?yàn)槲覀冋糜羞@種類型小鼠的數(shù)據(jù)闯捎,現(xiàn)在導(dǎo)入數(shù)據(jù),跟前面的流程一下许溅,如下所示:
library(downloader)
url <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extd\
ata/mice_pheno.csv"
filename <- "mice_pheno.csv"
download(url,destfile=filename)
dat <- read.csv(filename)
head(dat)
計(jì)算結(jié)果如下:
> head(dat)
Sex Diet Bodyweight
1 F hf 31.94
2 F hf 32.48
3 F hf 22.82
4 F hf 19.92
5 F hf 32.22
6 F hf 27.50
現(xiàn)在挑一個(gè)對(duì)照組的種群瓤鼻,如下所示:
library(dplyr)
controlPopulation <- filter(dat,Sex == "F" & Diet == "chow") %>% dplyr::select(Bodyweight) %>% unlist
head(controlPopulation)
length(controlPopulation)
如下所示:
> head(controlPopulation)
Bodyweight1 Bodyweight2 Bodyweight3 Bodyweight4 Bodyweight5 Bodyweight6
27.03 24.80 27.02 28.07 23.55 22.72
> length(controlPopulation)
[1] 225
我們通常使用來(lái)表示對(duì)照組的這些數(shù)據(jù),其中表示上述總體中的數(shù)字的數(shù)目贤重。
現(xiàn)在我們來(lái)挑hf組的總體茬祷,如下所示:
hfPopulation <- filter(dat, Sex =="F" & Diet == "hf") %>% dplyr::select(Bodyweight) %>% unlist
head(hfPopulation)
length(hfPopulation)
如下所示:
> head(hfPopulation)
Bodyweight1 Bodyweight2 Bodyweight3 Bodyweight4 Bodyweight5 Bodyweight6
31.94 32.48 22.82 19.92 32.22 27.50
> length(hfPopulation)
[1] 200
現(xiàn)在我們使用y來(lái)表示hf組總體中的數(shù)目,即并蝗,現(xiàn)在我們定義這些總體的一些參數(shù):
均值:
方差(variance):
我們從總體中獲得的這兩個(gè)參數(shù)祭犯,即均值和方差,稱為總體參數(shù)(population parameters)滚停。
我們一開(kāi)始的問(wèn)題就可以這么寫:?
雖然在我們的案例中我們獲取了所有的值沃粗,并且驗(yàn)證這個(gè)問(wèn)題是否為真,但是在實(shí)際中键畴,我們并不能這么干陪每。例如,在實(shí)際實(shí)驗(yàn)中镰吵,購(gòu)買一個(gè)總體中的所有小鼠非常昂貴檩禾。此時(shí),我們可以抽取一個(gè)樣本(sample)來(lái)回答這個(gè)問(wèn)題(也就是hf組和chow組中的小鼠體重的差異是否為0這個(gè)問(wèn)題)疤祭。這就是統(tǒng)計(jì)推斷(statistical inference)的本質(zhì)盼产。
樣本估計(jì)(sample estimates)
在前面部分中,我們從每個(gè)總體(hf總體和chow總體)中獲取了樣本勺馆,每個(gè)樣本中有12只小鼠戏售。在統(tǒng)計(jì)學(xué)中,我們經(jīng)常使用大寫字母來(lái)表示這些隨機(jī)抽取的樣本草穆。因此這些樣本就是和灌灾,在這個(gè)案例中,假設(shè)我們有12個(gè)樣本悲柱,也就是說(shuō)锋喜,當(dāng)我們列出總體的值時(shí)(這個(gè)總體此時(shí)是設(shè)定的,不隨機(jī)的),我們就使用小寫字母來(lái)下標(biāo)它們嘿般。
由于我們想知道總體的兩個(gè)均值是否為0段标,我們可以通過(guò)計(jì)算它們的樣本之差是否為0,也即是否為0來(lái)進(jìn)行推斷(在統(tǒng)計(jì)學(xué)中炉奴,常用希臘字母來(lái)表示總體均值逼庞,而用大寫字母上加橫的形式表示樣本均值):
需要注意的是,2個(gè)均值的差值也是一個(gè)隨機(jī)變量瞻赶,這些內(nèi)容我們?cè)谇懊嬉呀?jīng)提及赛糟。
練習(xí)
P39