7.1 描述性統(tǒng)計分析
連續(xù)型變量的中心趨勢、變化性和分布形狀的方法。
7.1.1 方法云集
基礎(chǔ)安裝中的函數(shù):summary()函數(shù)來獲取描述性統(tǒng)計量(最小值俐银、最大值、四分位數(shù)和數(shù)值型變量的均值逛万,以及因子向量和邏輯型向量的頻數(shù)統(tǒng)計)
apply()函數(shù)
sapply()函數(shù) :sapply(x, FUN, options)
fivenum()函數(shù):返回最小值、下四分位數(shù)批钠、中位數(shù)宇植、上四分位數(shù)和最大值。
7.1.2 更多方法
- Hmisc包中的describe()函數(shù)
- pastecs包中的stat.desc()函數(shù)
- psych包中describe()函數(shù)
最后載入的程序包優(yōu)先埋心。
7.1.3 分組計算描述性統(tǒng)計量
- aggregate()函數(shù)分組獲取描述性統(tǒng)計量
- by()分組計算描述性統(tǒng)計量
7.1.4 分組計算的擴(kuò)展
- doBy包中的summaryBy()分組計算概述統(tǒng)計量
- psych包中的describeBy()分組計算概述統(tǒng)計量
7.1.5 結(jié)果的可視化
7.2 頻數(shù)表和列聯(lián)表
類別型變量的頻數(shù)表和列聯(lián)表指郁,以及相應(yīng)的獨立性檢驗、相關(guān)性的度量拷呆、圖形化展示結(jié)果的方法闲坎。
7.2.1 生成頻數(shù)表
用于創(chuàng)建和處理列聯(lián)表的函數(shù)
函數(shù) | 描述 |
---|---|
table(var1, var2, ..., varN) | 使用N個類別型變量創(chuàng)建一個N維列聯(lián)表 |
xtabs(formula, data) | 根據(jù)一個公式和一個矩陣或數(shù)據(jù)框創(chuàng)建一個N維列聯(lián)表 |
prop.table(table, margins) | 依m(xù)argins定義的邊際列表將表中條目表示為分?jǐn)?shù)形式 |
margin.table(table, margins) | 依m(xù)argins定義的邊際列表計算表中條目的和 |
addmargins(table, margins) | 將概述邊margins放入表中 |
ftable(table) | 創(chuàng)建一個緊湊的平鋪式列聯(lián)表 |
- 一維列聯(lián)表
> mytable <- with(Arthritis,table(Improved))
> mytable
Improved
None Some Marked
42 14 28
> prop.table(mytable)
Improved
None Some Marked
0.5000000 0.1666667 0.3333333
> prop.table(mytable)*100
Improved
None Some Marked
50.00000 16.66667 33.33333
- 二維列聯(lián)表,table()函數(shù)使用格式為:mytable<-xtabs(~A+B, data=mydata)
> mytable <- xtabs(~ Treatment+Improved, data=Arthritis)
> mytable
Improved
Treatment None Some Marked
Placebo 29 7 7
Treated 13 7 21
使用Crosstable生成二維列聯(lián)表
library(gmodels)
CrossTable(Arthritis$Treatment,Arthritis$Improved)
Total Observations in Table: 84
| Arthritis$Improved
Arthritis$Treatment | None | Some | Marked | Row Total |
--------------------|-----------|-----------|-----------|-----------|
Placebo | 29 | 7 | 7 | 43 |
| 2.616 | 0.004 | 3.752 | |
| 0.674 | 0.163 | 0.163 | 0.512 |
| 0.690 | 0.500 | 0.250 | |
| 0.345 | 0.083 | 0.083 | |
--------------------|-----------|-----------|-----------|-----------|
Treated | 13 | 7 | 21 | 41 |
| 2.744 | 0.004 | 3.935 | |
| 0.317 | 0.171 | 0.512 | 0.488 |
| 0.310 | 0.500 | 0.750 | |
| 0.155 | 0.083 | 0.250 | |
--------------------|-----------|-----------|-----------|-----------|
Column Total | 42 | 14 | 28 | 84 |
| 0.500 | 0.167 | 0.333 | |
--------------------|-----------|-----------|-----------|-----------|
- 多維列聯(lián)表
table(), xtabs(), ftable()
7.2.2 獨立性檢驗
主要介紹三種檢驗:卡方獨立性檢驗茬斧、Fisher精確檢驗腰懂、Cochran-Mantel-Haenszel檢驗
- 卡方獨立性檢驗:chisq.test()函數(shù)
- Fisher精確檢驗:fisher.test()函數(shù)
- Cochran-Mantel-Haenszel檢驗:mantlehaen.test()函數(shù)
7.2.3 相關(guān)性的度量
vcd包中的assocstats()函數(shù)
7.2.4 結(jié)果的可視化
7.3 相關(guān)
相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。
±表明關(guān)系的方向项秉,值的大小表明關(guān)系的強(qiáng)弱程度绣溜。
7.3.1 相關(guān)的類型
- Pearson(兩個定量變量之間的線性相關(guān)程度)、Spearman(衡量分級定序變量之間的相關(guān)程度)和 Kendall相關(guān)(非參數(shù)的等級相關(guān)度量)
cor()函數(shù)可以計算這三種相關(guān)系數(shù)伙狐;cov()函數(shù)可計算協(xié)方差
cor(x, use=, method= )
參數(shù) | 描述 |
---|---|
x | 矩陣或數(shù)據(jù)框 |
use | 指定缺失數(shù)據(jù)的處理方式 |
method | 指定相關(guān)系數(shù)的類型 |
- 偏相關(guān):在控制一個或多個定量變量時涮毫,另外兩個定量變量之間的相互關(guān)系瞬欧。
ggm包中的pcor()函數(shù)計算偏相關(guān)系數(shù)贷屎,pcor(u, s) - 其他類型的相關(guān)
polycor包中的hetcor()函數(shù):可以計算一種混合的相關(guān)矩陣。
7.3.2 相關(guān)性的顯著性檢驗
cor.test(x, y, alternative = , method = )
7.3.3 相關(guān)關(guān)系的可視化
correlogram相關(guān)圖
7.4 t檢驗
兩個組進(jìn)行比較
7.4.1 獨立樣本的t檢驗
t.test (y ~ x, data)
7.4.2 非獨立樣本的t檢驗
t.test(y1,y2, paired=TRUE)
7.4.3 多于兩組的情況
方差分析(ANOVA)
7.5 組間差異的非參數(shù)檢驗
7.5.1 兩組的比較
兩組數(shù)據(jù)獨立艘虎,使用Wilcoxon秩和檢驗(Mann-Whitney U檢驗)
wilcox.test(y ~ x, data)
7.5.2 多于兩組的比較
kruskal.test(y ~ A, data)
friedman.test(y ~ A | B, data)