【R-statistics】基本統(tǒng)計(jì)量蹦狂、假設(shè)檢驗(yàn)和置信區(qū)間

寫在前面
溫習(xí)一下用R做基本統(tǒng)計(jì)的過程喘批。

summary(cars)
plot(pressure)

======================================
緒論:
概率?統(tǒng)計(jì)椭更?
世界是隨機(jī)的
模型 --概率--> 數(shù)據(jù)
數(shù)據(jù) --統(tǒng)計(jì)--> 模型

常見概率模型

離散型:
binom:二項(xiàng)分布
geom:幾何分布
hyper:超幾何分布
nbinom:負(fù)二項(xiàng)分布
pois:泊松分布

連續(xù)型:
norm:正態(tài)分布
unif:均勻分布
exp:指數(shù)分布
gamma:伽馬分布
beta:貝塔分布
t:t分布
f:F分布
chisq:卡方分布

R語言中的四種前綴

d:概率密度函數(shù)f
p:概率分布函數(shù)F
q:分位數(shù)F^(-1)
r: 隨機(jī)數(shù)

一些例子

#扔100次硬幣哪审,恰好出現(xiàn)50次的概率
#dbinom(x, size, prob, log = FALSE)
dbinom(50,100,0.5)
pbinom(50,100,0.5)
pbinom(40,100,0.5)
qnorm(0.05)
qnorm(0.025)
#均勻分布的隨機(jī)數(shù)
runif(10,0.1)

多元正態(tài)

library(mvtnorm)
mu <- c(1,-1)
sig <- matrix(c(1,0.5,0.5,1),2,2)
x <- rmvnorm(100,mu,sig)
x[1:10,]
plot(x=x[,1],y=x[,2])

常見統(tǒng)計(jì)量

均值;方差;標(biāo)準(zhǔn)差;中位數(shù)虑瀑;四分位數(shù)

data("mtcars")
attach(mtcars) #如果存在多個(gè)數(shù)據(jù)集的時(shí)候湿滓,用attach()可能會(huì)造成誤解;
mean(wt)      #此時(shí)應(yīng)用$來代替attach()舌狗。
var(wt)
sd(wt)
median(wt) #中位數(shù)對(duì)極端值不敏感
quantile(wt,0.25)
#自定義分位數(shù)
quantile(wt,c(0.1,0.25,0.5,0.75,0.9))

次序統(tǒng)計(jì)量

min(wt)
max(wt)
#排序叽奥,默認(rèn)由小到大
wtinc <- sort(wt)
wtinc[1:10]
#設(shè)置“decreasing = T”,變成從大到小排列
wtdec <- sort(wt,decreasing = T)
wtdec[1:10]

summary(wt)
table(vs)

多元數(shù)據(jù)

#2是按列把夸,1是按行
apply(mtcars,MARGIN = 2,mean)
apply(mtcars,MARGIN = 2,var)
#協(xié)方差矩陣
C <- cov(mtcars)
C
##相關(guān)性系數(shù)
cr <- cor(mtcars)
cr

======================================

假設(shè)檢驗(yàn)和區(qū)間估計(jì)

summary(cars)
plot(pressure)

常用統(tǒng)計(jì)函數(shù)

常見假設(shè)檢驗(yàn)和區(qū)間估計(jì)

兩個(gè)幾乎對(duì)應(yīng)的概念
假設(shè)檢驗(yàn):用p值衡量數(shù)據(jù)與關(guān)于參數(shù)的原假設(shè)的差異程度而线。
區(qū)間估計(jì):基于數(shù)據(jù)推斷對(duì)應(yīng)參數(shù)的一個(gè)可能區(qū)間。
如果區(qū)間包含對(duì)應(yīng)原假設(shè)值 ---》接受原假設(shè)
如果區(qū)間不包含對(duì)應(yīng)原假設(shè)值 ---》拒絕原假設(shè)
某種意義上來說區(qū)間估計(jì)的信息更多或更直接
但有些時(shí)候假設(shè)檢驗(yàn)對(duì)應(yīng)的區(qū)間估計(jì)難以得到或不存在。

均值檢驗(yàn):t test

單樣本

data("mtcars")
attach(mtcars)
t.test(wt,mu=3) #默認(rèn)是雙尾檢驗(yàn)
t.test(wt,mu=3,alternative = "greater") #指定為單尾檢驗(yàn)
雙尾檢驗(yàn).png
單尾檢驗(yàn).png

注:
1.理論上來說膀篮,t檢驗(yàn)依賴于正態(tài)性建設(shè)
2.但由于中心極限嘹狞,大樣本也可以用
3.但多大是大呢?30誓竿?skewness磅网!通過斜度來糾正

雙樣本數(shù)據(jù)

做t.test一般不考慮variance.equal=T

wt_am <- wt[am==0]
wt_mn <- wt[am==1]
t.test(wt_am,wt_mn)
#方差相同時(shí)的假設(shè),power可能更高筷屡;更高更好涧偷;但一般不推薦
t.test(wt_am,wt_mn,var.equal = T)
image.png

sample size determination based on power fuction

功效函數(shù):給定真實(shí)參數(shù)值和樣本量,假設(shè)被拒絕的概率
由此反推毙死,如果給定真實(shí)參數(shù)值和期望的假設(shè)被拒絕的概率燎潮,樣本需要多少?

power.t.test(n=32,delta = abs(3.5 - 3),sd=sd(wt), sig.level = 0.05,power = NULL,type = "one.sample",alternative = "one.sided")

如果是雙樣本扼倘,標(biāo)準(zhǔn)差建議使用雙樣本標(biāo)準(zhǔn)差的平方平均

power.t.test(n=NULL,delta = abs(1 - 0),sd=sqrt(var(wt_am)+var(wt_mn)), sig.level = 0.05,power = 0.9,type = "two.sample",alternative = "two.sided")

配對(duì)t檢驗(yàn)

為了提高功效确封,在實(shí)驗(yàn)條件允許的情況下,我們可以采集配對(duì)數(shù)據(jù)再菊,每對(duì)數(shù)據(jù)其他協(xié)變量相近(統(tǒng)計(jì)變量法的統(tǒng)計(jì)版)
此時(shí)不應(yīng)該使用之前的t test(over conservative爪喘,會(huì)造成更高的p值)
因?yàn)閮山M樣本之間存在強(qiáng)相關(guān)性,從而帶來更高的precison and power
試驗(yàn)設(shè)計(jì)優(yōu)先纠拔。

x <- c(113,120,138,120,100,118,138,123)
y <- c(138,116,125,136,110,132,130,110)
cor(x,y)
t.test(x,y,paired = T)
t.test(x,y)
Paired T test.png

方差檢驗(yàn):F test

檢驗(yàn)兩組樣本的方差是否相同

var.test(wt_am,wt_mn)
方差齊性檢驗(yàn).png

注:
1.這個(gè)檢驗(yàn)基于正態(tài)性假設(shè)且及其敏感(如何檢查正態(tài)性)

相關(guān)性檢驗(yàn)

由試驗(yàn)設(shè)計(jì)決定

cor.test(x,y)

正態(tài)性檢驗(yàn)

  • 正態(tài)w檢驗(yàn)法 shapiro-wilk
  • qqplot
shapiro.test(wt)
qqnorm(wt)
qqline(wt)
shapiro.test.png
qqnorm.png

用隨機(jī)數(shù)的例子

shapiro.test(runif(100))

注:
1.檢驗(yàn)和qq plot都很重要秉剑;后者更直觀
2.還有一些非參的方法(KS,Peason),但就正態(tài)性這一問題來說稠诲,S-W的power更大侦鹏。

Pearson卡方檢驗(yàn)

單變量

(默認(rèn)是)檢驗(yàn)概率是否均勻

x <- c(210,312,170,85,223)
chisq.test(x)

注:
1.也可以設(shè)置成給定的非均勻概率
2.本質(zhì)是刻畫觀測(cè)數(shù)據(jù)與期望數(shù)據(jù)的差距。

雙變量(列連表)

檢驗(yàn)兩個(gè)變量是否獨(dú)立吕粹。

x <- matrix(c(60,3,32,11),2,2)
x
chisq.test(x)

注:
1.本質(zhì)是通過邊際概率+獨(dú)立性假設(shè)計(jì)算聯(lián)合概率种柑,進(jìn)而計(jì)算期望頻數(shù)并與數(shù)據(jù)比較
2.檢驗(yàn)僅能說明存在相關(guān)性而非因果性
3.若想獲得因果性,需要修改的并非是檢驗(yàn)匹耕,而是試驗(yàn)設(shè)計(jì)(隨機(jī)化聚请!)
4.如果某一個(gè)單元格的期望頻數(shù)小于5,則檢驗(yàn)不可靠稳其,R會(huì)給出warning驶赏。

針對(duì)期望頻數(shù)小于5的列聯(lián)表
Fisher.test

x <- matrix(c(4,5,18,6),2,2)
x
chisq.test(x)
fisher.test(x)

注:
1.通過考慮所有的排列組合去刻畫概率(Lady tasting tea),因此是exact
2.在因果推斷是一個(gè)重要的檢驗(yàn)
3.可能會(huì)出現(xiàn)樣本數(shù)量過大而無法考察所有的組合情況既鞠,此時(shí)需要Monte Carlo方法近似

參考鏈接:
1.https://space.bilibili.com/40285258/?spm_id_from=333.999.0.0
2.白話統(tǒng)計(jì)學(xué)
3.南方科大生物統(tǒng)計(jì)-https://www.bilibili.com/video/BV1Sf4y1N76S?p=10&spm_id_from=pageDriver

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末煤傍,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子嘱蛋,更是在濱河造成了極大的恐慌蚯姆,老刑警劉巖五续,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異龄恋,居然都是意外死亡疙驾,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門郭毕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來它碎,“玉大人,你說我怎么就攤上這事显押“飧兀” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵乘碑,是天一觀的道長(zhǎng)挖息。 經(jīng)常有香客問我,道長(zhǎng)兽肤,這世上最難降的妖魔是什么旋讹? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮轿衔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘睦疫。我一直安慰自己害驹,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布蛤育。 她就那樣靜靜地躺著宛官,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瓦糕。 梳的紋絲不亂的頭發(fā)上底洗,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音咕娄,去河邊找鬼亥揖。 笑死,一個(gè)胖子當(dāng)著我的面吹牛圣勒,可吹牛的內(nèi)容都是我干的费变。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼圣贸,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼挚歧!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起吁峻,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤滑负,失蹤者是張志新(化名)和其女友劉穎在张,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體矮慕,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡帮匾,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了凡傅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辟狈。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖夏跷,靈堂內(nèi)的尸體忽然破棺而出哼转,到底是詐尸還是另有隱情,我是刑警寧澤槽华,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布壹蔓,位于F島的核電站,受9級(jí)特大地震影響猫态,放射性物質(zhì)發(fā)生泄漏佣蓉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一亲雪、第九天 我趴在偏房一處隱蔽的房頂上張望勇凭。 院中可真熱鬧,春花似錦义辕、人聲如沸虾标。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)璧函。三九已至,卻和暖如春基显,著一層夾襖步出監(jiān)牢的瞬間蘸吓,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工撩幽, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留库继,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓窜醉,卻偏偏與公主長(zhǎng)得像制跟,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子酱虎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容