寫在前面
溫習(xí)一下用R做基本統(tǒng)計(jì)的過程喘批。
summary(cars)
plot(pressure)
======================================
緒論:
概率?統(tǒng)計(jì)椭更?
世界是隨機(jī)的
模型 --概率--> 數(shù)據(jù)
數(shù)據(jù) --統(tǒng)計(jì)--> 模型
常見概率模型
離散型:
binom:二項(xiàng)分布
geom:幾何分布
hyper:超幾何分布
nbinom:負(fù)二項(xiàng)分布
pois:泊松分布
連續(xù)型:
norm:正態(tài)分布
unif:均勻分布
exp:指數(shù)分布
gamma:伽馬分布
beta:貝塔分布
t:t分布
f:F分布
chisq:卡方分布
R語言中的四種前綴
d:概率密度函數(shù)f
p:概率分布函數(shù)F
q:分位數(shù)F^(-1)
r: 隨機(jī)數(shù)
一些例子
#扔100次硬幣哪审,恰好出現(xiàn)50次的概率
#dbinom(x, size, prob, log = FALSE)
dbinom(50,100,0.5)
pbinom(50,100,0.5)
pbinom(40,100,0.5)
qnorm(0.05)
qnorm(0.025)
#均勻分布的隨機(jī)數(shù)
runif(10,0.1)
多元正態(tài)
library(mvtnorm)
mu <- c(1,-1)
sig <- matrix(c(1,0.5,0.5,1),2,2)
x <- rmvnorm(100,mu,sig)
x[1:10,]
plot(x=x[,1],y=x[,2])
常見統(tǒng)計(jì)量
均值;方差;標(biāo)準(zhǔn)差;中位數(shù)虑瀑;四分位數(shù)
data("mtcars")
attach(mtcars) #如果存在多個(gè)數(shù)據(jù)集的時(shí)候湿滓,用attach()可能會(huì)造成誤解;
mean(wt) #此時(shí)應(yīng)用$來代替attach()舌狗。
var(wt)
sd(wt)
median(wt) #中位數(shù)對(duì)極端值不敏感
quantile(wt,0.25)
#自定義分位數(shù)
quantile(wt,c(0.1,0.25,0.5,0.75,0.9))
次序統(tǒng)計(jì)量
min(wt)
max(wt)
#排序叽奥,默認(rèn)由小到大
wtinc <- sort(wt)
wtinc[1:10]
#設(shè)置“decreasing = T”,變成從大到小排列
wtdec <- sort(wt,decreasing = T)
wtdec[1:10]
summary(wt)
table(vs)
多元數(shù)據(jù)
#2是按列把夸,1是按行
apply(mtcars,MARGIN = 2,mean)
apply(mtcars,MARGIN = 2,var)
#協(xié)方差矩陣
C <- cov(mtcars)
C
##相關(guān)性系數(shù)
cr <- cor(mtcars)
cr
======================================
假設(shè)檢驗(yàn)和區(qū)間估計(jì)
summary(cars)
plot(pressure)
常用統(tǒng)計(jì)函數(shù)
常見假設(shè)檢驗(yàn)和區(qū)間估計(jì)
兩個(gè)幾乎對(duì)應(yīng)的概念
假設(shè)檢驗(yàn):用p值衡量數(shù)據(jù)與關(guān)于參數(shù)的原假設(shè)的差異程度而线。
區(qū)間估計(jì):基于數(shù)據(jù)推斷對(duì)應(yīng)參數(shù)的一個(gè)可能區(qū)間。
如果區(qū)間包含對(duì)應(yīng)原假設(shè)值 ---》接受原假設(shè)
如果區(qū)間不包含對(duì)應(yīng)原假設(shè)值 ---》拒絕原假設(shè)
某種意義上來說區(qū)間估計(jì)的信息更多或更直接
但有些時(shí)候假設(shè)檢驗(yàn)對(duì)應(yīng)的區(qū)間估計(jì)難以得到或不存在。
均值檢驗(yàn):t test
單樣本
data("mtcars")
attach(mtcars)
t.test(wt,mu=3) #默認(rèn)是雙尾檢驗(yàn)
t.test(wt,mu=3,alternative = "greater") #指定為單尾檢驗(yàn)
注:
1.理論上來說膀篮,t檢驗(yàn)依賴于正態(tài)性建設(shè)
2.但由于中心極限嘹狞,大樣本也可以用
3.但多大是大呢?30誓竿?skewness磅网!通過斜度來糾正
雙樣本數(shù)據(jù)
做t.test一般不考慮variance.equal=T
wt_am <- wt[am==0]
wt_mn <- wt[am==1]
t.test(wt_am,wt_mn)
#方差相同時(shí)的假設(shè),power可能更高筷屡;更高更好涧偷;但一般不推薦
t.test(wt_am,wt_mn,var.equal = T)
sample size determination based on power fuction
功效函數(shù):給定真實(shí)參數(shù)值和樣本量,假設(shè)被拒絕的概率
由此反推毙死,如果給定真實(shí)參數(shù)值和期望的假設(shè)被拒絕的概率燎潮,樣本需要多少?
power.t.test(n=32,delta = abs(3.5 - 3),sd=sd(wt), sig.level = 0.05,power = NULL,type = "one.sample",alternative = "one.sided")
如果是雙樣本扼倘,標(biāo)準(zhǔn)差建議使用雙樣本標(biāo)準(zhǔn)差的平方平均
power.t.test(n=NULL,delta = abs(1 - 0),sd=sqrt(var(wt_am)+var(wt_mn)), sig.level = 0.05,power = 0.9,type = "two.sample",alternative = "two.sided")
配對(duì)t檢驗(yàn)
為了提高功效确封,在實(shí)驗(yàn)條件允許的情況下,我們可以采集配對(duì)數(shù)據(jù)再菊,每對(duì)數(shù)據(jù)其他協(xié)變量相近(統(tǒng)計(jì)變量法的統(tǒng)計(jì)版)
此時(shí)不應(yīng)該使用之前的t test(over conservative爪喘,會(huì)造成更高的p值)
因?yàn)閮山M樣本之間存在強(qiáng)相關(guān)性,從而帶來更高的precison and power
試驗(yàn)設(shè)計(jì)優(yōu)先纠拔。
x <- c(113,120,138,120,100,118,138,123)
y <- c(138,116,125,136,110,132,130,110)
cor(x,y)
t.test(x,y,paired = T)
t.test(x,y)
方差檢驗(yàn):F test
檢驗(yàn)兩組樣本的方差是否相同
var.test(wt_am,wt_mn)
注:
1.這個(gè)檢驗(yàn)基于正態(tài)性假設(shè)且及其敏感(如何檢查正態(tài)性)
相關(guān)性檢驗(yàn)
由試驗(yàn)設(shè)計(jì)決定
cor.test(x,y)
正態(tài)性檢驗(yàn)
- 正態(tài)w檢驗(yàn)法 shapiro-wilk
- qqplot
shapiro.test(wt)
qqnorm(wt)
qqline(wt)
用隨機(jī)數(shù)的例子
shapiro.test(runif(100))
注:
1.檢驗(yàn)和qq plot都很重要秉剑;后者更直觀
2.還有一些非參的方法(KS,Peason),但就正態(tài)性這一問題來說稠诲,S-W的power更大侦鹏。
Pearson卡方檢驗(yàn)
單變量
(默認(rèn)是)檢驗(yàn)概率是否均勻
x <- c(210,312,170,85,223)
chisq.test(x)
注:
1.也可以設(shè)置成給定的非均勻概率
2.本質(zhì)是刻畫觀測(cè)數(shù)據(jù)與期望數(shù)據(jù)的差距。
雙變量(列連表)
檢驗(yàn)兩個(gè)變量是否獨(dú)立吕粹。
x <- matrix(c(60,3,32,11),2,2)
x
chisq.test(x)
注:
1.本質(zhì)是通過邊際概率+獨(dú)立性假設(shè)計(jì)算聯(lián)合概率种柑,進(jìn)而計(jì)算期望頻數(shù)并與數(shù)據(jù)比較
2.檢驗(yàn)僅能說明存在相關(guān)性而非因果性
3.若想獲得因果性,需要修改的并非是檢驗(yàn)匹耕,而是試驗(yàn)設(shè)計(jì)(隨機(jī)化聚请!)
4.如果某一個(gè)單元格的期望頻數(shù)小于5,則檢驗(yàn)不可靠稳其,R會(huì)給出warning驶赏。
針對(duì)期望頻數(shù)小于5的列聯(lián)表
Fisher.test
x <- matrix(c(4,5,18,6),2,2)
x
chisq.test(x)
fisher.test(x)
注:
1.通過考慮所有的排列組合去刻畫概率(Lady tasting tea),因此是exact
2.在因果推斷是一個(gè)重要的檢驗(yàn)
3.可能會(huì)出現(xiàn)樣本數(shù)量過大而無法考察所有的組合情況既鞠,此時(shí)需要Monte Carlo方法近似
參考鏈接:
1.https://space.bilibili.com/40285258/?spm_id_from=333.999.0.0
2.白話統(tǒng)計(jì)學(xué)
3.南方科大生物統(tǒng)計(jì)-https://www.bilibili.com/video/BV1Sf4y1N76S?p=10&spm_id_from=pageDriver