20180316(從有道遷移)
基本統(tǒng)計(jì)分析
-
描述性統(tǒng)計(jì)分析
- 常用庫(kù):
- 基礎(chǔ)方法summary;
- summary()函數(shù)提供了最小值摄职、最大值柴底、四分位數(shù)和數(shù)值型變量的均值蚯撩,以及因子向量和邏輯型向量的頻數(shù)統(tǒng)計(jì)
- 可以使用apply()函數(shù)或sapply()函數(shù)計(jì)算所選擇的任意數(shù)據(jù)集的描述性統(tǒng)計(jì)量
- sapply()函數(shù)顽素,其使用格式為
sapply(x,FUN,otions)
- x是數(shù)據(jù)框(或矩陣)
- FUN為一個(gè)任意的函數(shù), 可以插入的典型函數(shù)有mean咽弦、sd、var胁出、min型型、max、median全蝶、length闹蒜、range和quantile。
- 如果指定了options抑淫,它們將被傳遞給FUN
- 函數(shù)fivenum()可返回圖基五數(shù)總括(Tukey’s five-number summary绷落,即最小值、下四分位數(shù)丈冬、中位數(shù)嘱函、上四分位數(shù)和最大值)
- Hmisc包中的describe()函數(shù)可返回變量和觀測(cè)的數(shù)量甘畅、缺失值和唯一值的數(shù)目埂蕊、平均值、分位數(shù)疏唾,以及五個(gè)最大的值和五個(gè)最小的值
- pastecs包中有一個(gè)名為stat.desc()的函數(shù)蓄氧,它可以計(jì)算種類(lèi)繁多的描述性統(tǒng)計(jì)量。
- 使用格式:
stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
- x是一個(gè)數(shù)據(jù)框或時(shí)間序列
- 若basic=TRUE(默認(rèn)值)槐脏,則計(jì)算其中所有值喉童、空值、缺失值的數(shù)量顿天,以及最小值堂氯、最大值蔑担、值域,還有總和
- 若desc=TRUE(同樣也是默認(rèn)值)咽白,則計(jì)算中位數(shù)啤握、平均數(shù)、平均數(shù)的標(biāo)準(zhǔn)誤晶框、平均數(shù)置信度為95%的置信區(qū)間排抬、方差、標(biāo)準(zhǔn)差以及變異系數(shù)
- 若norm=TRUE(不是默認(rèn)的)授段,則返回正態(tài)分布統(tǒng)計(jì)量蹲蒲,包括偏度和峰度(以及它們的統(tǒng)計(jì)顯著程度)和Shapiro–Wilk正態(tài)檢驗(yàn)結(jié)果
- 使用格式:
- psych包擁有一個(gè)名為describe()的函數(shù),它可以計(jì)算非缺失值的數(shù)量侵贵、平均數(shù)届搁、標(biāo)準(zhǔn)差、中位數(shù)窍育、截尾均值咖祭、絕對(duì)中位差、最小值蔫骂、最大值么翰、值域、偏度辽旋、峰度和平均值的標(biāo)準(zhǔn)誤差
- 基礎(chǔ)方法summary;
- 分組計(jì)算描述性統(tǒng)計(jì)量
在比較多組個(gè)體或觀測(cè)時(shí)浩嫌,關(guān)注的焦點(diǎn)經(jīng)常是各組的描述性統(tǒng)計(jì)信息,而不是樣本整體的描述性統(tǒng)計(jì)信息
-
可以使用aggregate()函數(shù)來(lái)分組獲取描述性統(tǒng)計(jì)量
- 如果有多個(gè)分組變量补胚,可以使用by=list(name1=groupvar1, name2=groupvar2, ... , groupvarN)這樣的語(yǔ)句
aggregate(mtcars[vars],by=list(am=mtcars$am),mean) aggregate(mtcars[vars],by=list(am=mtcars$am),sd)
-
aggregate()僅允許在每次調(diào)用中使用平均數(shù)码耐、標(biāo)準(zhǔn)差這樣的單返回值函數(shù),無(wú)法一次返回若干個(gè)統(tǒng)計(jì)量溶其。要完成這項(xiàng)任務(wù)骚腥,可以使用by()函數(shù)。格式:
by(data,INDICES,FUN)
- data是一個(gè)數(shù)據(jù)框或矩陣
- INDICES是一個(gè)因子或因子組成的列表瓶逃,定義了分組
- FUN是任意函數(shù)
mystats <- function(x,na.omit=FALSE){ if (na.omit) x <- x[!is.na(x)] m <- mean(x) n <- length(x) s <- sd(x) skew <- sum((x-m)^3/s^3)/n kurt <- sum((x-m)^4/s^4)/n - 3 return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt)) } dstats <- function(x)sapply(x, mystats) myvars <- c("mpg", "hp", "wt") by(mtcars[myvars], mtcars$am, dstats)
-
doBy包中summaryBy()函數(shù)的使用格式為:
summaryBy(formula,data=dataframe,FUN=function)
束铭,其中formula接受以下的格式:var1+var2+var3+...+varN ~ group1+group2+...+groupNsummaryBy(mpg+hp+wt~am,data=mtcars,FUN=mystats)
psych包中的describe.by()函數(shù)可計(jì)算和describe相同的描述性統(tǒng)計(jì)量,只是按照一個(gè)或多個(gè)分組變量分層,
describe.by(mtcars[vars],mtcars$am)
,describe.by()函數(shù)不允許指定任意函數(shù),若存在一個(gè)以上的分組變量厢绝,你可以使用list(groupvar1, groupvar2, ... , groupvarN)來(lái)表示它們契沫。但這僅在分組變量交叉后不出現(xiàn)空白單元時(shí)有效.-
reshape包靈活地按組導(dǎo)出描述性統(tǒng)計(jì)量,步驟
- 融合數(shù)據(jù)框:
dfm <- melt(dataframe,measure.vars=y,id.vars=g)
,其中的dataframe包含著數(shù)據(jù)昔汉,y是一個(gè)向量懈万,指明了要進(jìn)行概述的數(shù)值型變量(默認(rèn)使用所有變量),而g是由一個(gè)或多個(gè)分組變量組成的向量 - 重鑄數(shù)據(jù): cast(dfm,groupvar1+...+groupvarN+ variable ~ .,FUN)
library(reshape) dstats <- function(x)(c(n=length(x), mean=mean(x), sd=sd(x))) dfm <- melt(mtcars, measure.vars=c("mpg", "hp", "wt"), id.vars=c("am", "cyl")) cast(dfm, am + cyl + variable ~ ., dstats)
- 融合數(shù)據(jù)框:
- 常用庫(kù):
-
類(lèi)別型變量的頻數(shù)表和列聯(lián)表
-
生成頻數(shù)表函數(shù),用于創(chuàng)建和處理列聯(lián)表的函數(shù)如下
函 數(shù) 描 述 table(var1, var2, …, varN) 使用 N 個(gè)類(lèi)別型變量(因子)創(chuàng)建一個(gè) N 維列聯(lián)表 xtabs(formula, data) 根據(jù)一個(gè)公式和一個(gè)矩陣或數(shù)據(jù)框創(chuàng)建一個(gè) N 維列聯(lián)表 prop.table(table, margins) 依m(xù)argins定義的邊際列表將表中條目表示為分?jǐn)?shù)形式 margin.table(table, margins) 依m(xù)argins定義的邊際列表計(jì)算表中條目的和 addmargins(table, margins) 將概述邊margins(默認(rèn)是求和結(jié)果)放入表中 ftable(table) 創(chuàng)建一個(gè)緊湊的“平鋪”式列聯(lián)表
-
一維列聯(lián)表
- 可以使用table()函數(shù)生成簡(jiǎn)單的頻數(shù)統(tǒng)計(jì)表
mytable <- table(Arthritis$Improved) ## 結(jié)果 ## None Some Marked ## 42 14 28
- 可以用prop.table()將這些頻數(shù)轉(zhuǎn)化為比例值
prop.table(mytable) ## 結(jié)果 ## None Some Marked ## 0.5000000 0.1666667 0.3333333
- 可以使用table()函數(shù)生成簡(jiǎn)單的頻數(shù)統(tǒng)計(jì)表
-
二維列聯(lián)表
對(duì)于二維列聯(lián)表会通,table()函數(shù)的使用格式為:
mytable <- table(A,B)
, 其中口予,A是行變量,B是列變量涕侈。-
對(duì)于xtabs()函數(shù)可使用公式風(fēng)格的輸入創(chuàng)建列聯(lián)表苹威,格式為:
mytable <- xtabs(~ A+B,data=mydata)
,mydata是一個(gè)矩陣或數(shù)據(jù)框驾凶。要進(jìn)行交叉分類(lèi)的變量應(yīng)出現(xiàn)在公式的右側(cè)(即~符號(hào)的右方)牙甫,以+作為分隔符。若某個(gè)變量寫(xiě)在公式的左側(cè)调违,則其為一個(gè)頻數(shù)向量(在數(shù)據(jù)已經(jīng)被表格化時(shí)很有用)窟哺。mytable <- xtabs(~ Treatment + Improved,data=Arthritis)
-
margin.table()和prop.table()函數(shù)分別生成邊際頻數(shù)和比例
## 下標(biāo)1指代table()語(yǔ)句中的第一個(gè)變量。 margin.table(mytable,1) #row sums ## 下標(biāo)2指代table()語(yǔ)句中的第二個(gè)變量 margin.table(mytable, 2) # column sums prop.table(mytable) # cell proportions prop.table(mytable, 1) # row proportions prop.table(mytable, 2) # column proportions
-
使用addmargins()函數(shù)為這些表格添加邊際和
## 在使用addmargins()時(shí)技肩,默認(rèn)行為是為表中所有的變量創(chuàng)建邊際和 addmargins(mytable) # add row and column sums to table addmargins(prop.table(mytable)) ## 僅添加了各行的和 addmargins(prop.table(mytable, 1), 2) ## 僅添加了各列的和 addmargins(prop.table(mytable, 2), 1)
==table()函數(shù)默認(rèn)忽略缺失值(NA)且轨。要在頻數(shù)統(tǒng)計(jì)中將NA視為一個(gè)有效的類(lèi)別,請(qǐng)?jiān)O(shè)定參數(shù)useNA="ifany"虚婿。==
-
使用gmodels包中的CrossTable()函數(shù)也可以創(chuàng)建二維列聯(lián)表
- CrossTable()函數(shù)有很多選項(xiàng)旋奢,可以做許多事情:計(jì)算(行、列然痊、單元格)的百分比至朗;指定小數(shù)位數(shù);進(jìn)行卡方剧浸、Fisher和McNemar獨(dú)立性檢驗(yàn)锹引;計(jì)算期望和(皮爾遜、標(biāo)準(zhǔn)化唆香、調(diào)整的標(biāo)準(zhǔn)化)殘差嫌变;將缺失值作為一種有效值;進(jìn)行行和列標(biāo)題的標(biāo)注躬它;生成SAS或SPSS風(fēng)格的輸出腾啥。參閱help(CrossTable)以了解詳情
library(gmodels) CrossTable(Arthritis$Treatment,Arthritis$Improved)
-
多維列聯(lián)表
- table()和xtabs()都可以基于三個(gè)或更多的類(lèi)別型變量生成多維列聯(lián)表。margin.table()冯吓、prop.table()和addmargins()函數(shù)可以自然地推廣到高于二維的情況倘待。另外,ftable()函數(shù)可以以一種緊湊而吸引人的方式輸出多維列聯(lián)表
-
獨(dú)立性檢驗(yàn)
-
卡方獨(dú)立性檢驗(yàn)
- 使用chisq.test()函數(shù)對(duì)二維表的行變量和列變量進(jìn)行卡方獨(dú)立性檢驗(yàn)
- 這里的p值表示從總體中抽取的樣本行變量與列變量是相互獨(dú)立的概率
mytable <- xtabs(~Treatment+Improved,data=Arthritis) chisq.test(mytable) ## result 治療情況和改善情況不獨(dú)立 Pearson's Chi-squared test data: mytable X-squared = 13.055, df = 2, p-value = 0.001463 mytable2 <- xtabs(~Sex+Improved,data=Arthritis) chisq.test(mytable2) ## result 性別和改善情況獨(dú)立 Pearson's Chi-squared test data: mytable2 X-squared = 4.8407, df = 2, p-value = 0.08889 Warning message: In chisq.test(mytable2) : Chi-squared近似算法有可能不準(zhǔn) ## 產(chǎn)生警告信息的原因是桑谍,mytable2中的6個(gè)單元格之一(男性 - 一定程度上的改善)有一個(gè)小于5的值延柠,這可能會(huì)使卡方近似無(wú)效
-
Fisher精確檢驗(yàn)
- 使用fisher.test()函數(shù)進(jìn)行Fisher精確檢驗(yàn)。
- Fisher精確檢驗(yàn)的原假設(shè)是:邊界固定的列聯(lián)表中行和列是相互獨(dú)立的锣披。
- fisher.test()函數(shù)可以在任意行列數(shù)大于等于2的二維列聯(lián)表上使用,但不能用于2×2的列聯(lián)表
- 調(diào)用格式為fisher.test(mytable),其中的mytable是一個(gè)二維列聯(lián)表
fisher.test(mytable) ## result Fisher's Exact Test for Count Data data: mytable p-value = 0.001393 alternative hypothesis: two.sided
-
Cochran-Mantel–Haenszel檢驗(yàn)
- mantelhaen.test()函數(shù)可用來(lái)進(jìn)行Cochran—Mantel—Haenszel卡方檢驗(yàn).
- 其原假設(shè)是雹仿,兩個(gè)名義變量在第三個(gè)變量的每一層中都是條件獨(dú)立的增热。
- 下列代碼可以檢驗(yàn)治療情況和改善情況在性別的每一水平下是否獨(dú)立。此檢驗(yàn)假設(shè)不存在三階交互作用(治療情況×改善情況×性別)
mytable3 <- xtabs(~Treatment+Improved+Sex,data=Arthritis) mantelhaen.test(mytable3) ## result 結(jié)果表明胧辽,患者接受的治療與得到的改善在性別的每一水平下并不獨(dú)立 ## 即峻仇,分性別來(lái)看,用藥治療的患者較接受安慰劑的患者有了更多的改善 Cochran-Mantel-Haenszel test data: mytable3 Cochran-Mantel-Haenszel M^2 = 14.632, df = 2, p-value = 0.0006647
-
關(guān)聯(lián)資料:
-
-
相關(guān)性的度量
顯著性檢驗(yàn)評(píng)估了是否存在充分的證據(jù)以拒絕變量間相互獨(dú)立的原假設(shè)邑商。如果可以拒絕原假設(shè)摄咆,那么自然而然地轉(zhuǎn)向用以衡量相關(guān)性強(qiáng)弱的相關(guān)性度量
-
vcd包中的assocstats()函數(shù)可以用來(lái)計(jì)算二維列聯(lián)表的phi系數(shù)、列聯(lián)系數(shù)和Cramer’s V系數(shù)
library(vcd) assocstats(mytable) X^2 df P(> X^2) Likelihood Ratio 13.530 2 0.0011536 Pearson 13.055 2 0.0014626 Phi-Coefficient : NA Contingency Coeff.: 0.367 Cramer's V : 0.394 ## 總體來(lái)說(shuō)人断,較大的值意味著較強(qiáng)的相關(guān)性
-
相關(guān)資料
-
-
結(jié)果的可視化
- ca包中的對(duì)應(yīng)分析函數(shù)允許使用多種幾何表示可視地探索列聯(lián)表中行和列之間的關(guān)系
-
將表轉(zhuǎn)換為扁平格式
## 可以使用以下代碼提供的函數(shù)將R中的表轉(zhuǎn)換回扁平的數(shù)據(jù)格式 table2falt <- function(mytable){ df <- as.data.frame(table) rows <- dim(df)[1] cols <- dim(df)[2] x <- NULL for (i in 1:rows){ for (j in 1:df$Freq[i]){ row <- df[i,c(1:(cols-1))] x <- rbind(x,row) } } row.names[x] <- c(1:dim(x)[1]) return(x) }
-
相關(guān)
- 相關(guān)系數(shù)可以用來(lái)描述定量變量之間的關(guān)系吭从。
- 相關(guān)系數(shù)的符號(hào)
(±)
表明關(guān)系的方向(正相關(guān)或負(fù)相關(guān)),其值的大小表示關(guān)系的強(qiáng)弱程度(完全不相關(guān)時(shí)為0恶迈,完全相關(guān)時(shí)為1)涩金。
-
相關(guān)的類(lèi)型
-
Pearson、Spearman和Kendall相關(guān)
Pearson積差相關(guān)系數(shù)衡量了兩個(gè)定量變量之間的線性相關(guān)程度暇仲。
Spearman等級(jí)相關(guān)系數(shù)則衡量分級(jí)定序變量之間的相關(guān)程度步做。
Kendall’s Tau相關(guān)系數(shù)也是一種非參數(shù)的等級(jí)相關(guān)度量
-
cor()函數(shù)可以計(jì)算這三種相關(guān)系數(shù),而cov()函數(shù)可用來(lái)計(jì)算協(xié)方差奈附,以下為相關(guān)系數(shù)有關(guān)的參數(shù):
參 數(shù) 描 述 x 矩陣或數(shù)據(jù)框 use 指定缺失數(shù)據(jù)的處理方式全度。</br>可選的方式為all.obs(假設(shè)不存在缺失數(shù)據(jù)——遇到缺失數(shù)據(jù)時(shí)將報(bào)錯(cuò))、</br>everything(遇到缺失數(shù)據(jù)時(shí)斥滤,相關(guān)系數(shù)的計(jì)算結(jié)果將被設(shè)為missing)讼载、</br>complete.obs(行刪除)以及 pairwise.complete.obs(成對(duì)刪除,pairwise deletion)</br>默認(rèn)參數(shù)為use="everything" method 指定相關(guān)系數(shù)的類(lèi)型中跌。</br>可選類(lèi)型為pearson咨堤、spearman或kendall </br>默認(rèn)參數(shù)為method="pearson" -
示例
states <- state.x77[,1:6] ## 計(jì)算Pearson積差相關(guān)系數(shù) cor(states) Population Income Illiteracy Life Exp Murder Population 1.00000000 0.2082276 0.1076224 -0.06805195 0.3436428 Income 0.20822756 1.0000000 -0.4370752 0.34025534 -0.2300776 Illiteracy 0.10762237 -0.4370752 1.0000000 -0.58847793 0.7029752 Life Exp -0.06805195 0.3402553 -0.5884779 1.00000000 -0.7808458 Murder 0.34364275 -0.2300776 0.7029752 -0.78084575 1.0000000 HS Grad -0.09848975 0.6199323 -0.6571886 0.58221620 -0.4879710 HS Grad Population -0.09848975 Income 0.61993232 Illiteracy -0.65718861 Life Exp 0.58221620 Murder -0.48797102 HS Grad 1.00000000 ## 計(jì)算方差和協(xié)方差 cov(states) Population Income Illiteracy Life Exp Murder Population 19931683.7588 571229.7796 292.8679592 -407.8424612 5663.523714 Income 571229.7796 377573.3061 -163.7020408 280.6631837 -521.894286 Illiteracy 292.8680 -163.7020 0.3715306 -0.4815122 1.581776 Life Exp -407.8425 280.6632 -0.4815122 1.8020204 -3.869480 Murder 5663.5237 -521.8943 1.5817755 -3.8694804 13.627465 HS Grad -3551.5096 3076.7690 -3.2354694 6.3126849 -14.549616 HS Grad Population -3551.509551 Income 3076.768980 Illiteracy -3.235469 Life Exp 6.312685 Murder -14.549616 HS Grad 65.237894 ## 計(jì)算Spearman等級(jí)相關(guān)系數(shù) cor(states,method="spearman") Population Income Illiteracy Life Exp Murder HS Grad Population 1.0000000 0.1246098 0.3130496 -0.1040171 0.3457401 -0.3833649 Income 0.1246098 1.0000000 -0.3145948 0.3241050 -0.2174623 0.5104809 Illiteracy 0.3130496 -0.3145948 1.0000000 -0.5553735 0.6723592 -0.6545396 Life Exp -0.1040171 0.3241050 -0.5553735 1.0000000 -0.7802406 0.5239410 Murder 0.3457401 -0.2174623 0.6723592 -0.7802406 1.0000000 -0.4367330 HS Grad -0.3833649 0.5104809 -0.6545396 0.5239410 -0.4367330 1.0000000
-
偏相關(guān)
- 偏相關(guān)是指在控制一個(gè)或多個(gè)定量變量時(shí),另外兩個(gè)定量變量之間的相互關(guān)系漩符。
- 可以使用ggm包中的pcor()函數(shù)計(jì)算偏相關(guān)系數(shù)一喘,格式
pcor(u,S)
,其中:- u是一個(gè)數(shù)值向量,前兩個(gè)數(shù)值表示要計(jì)算相關(guān)系數(shù)的變量下標(biāo)嗜暴,其余的數(shù)值為條件變量(即要排除影響的變量)的下標(biāo)凸克。
- S為變量的協(xié)方差陣
- 示例
library(ggm) ## 在控制了收入、文盲率和高中畢業(yè)率時(shí),人口和謀殺率的偏相關(guān)系數(shù) pcor(c(1,5,2,3,6),cov(states))
-
其他類(lèi)型的相關(guān)
- polycor包中的hetcor()函數(shù)可以計(jì)算一種混合的相關(guān)矩陣闷沥,其中包括數(shù)值型變量的Pearson積差相關(guān)系數(shù)萎战、數(shù)值型變量和有序變量之間的多系列相關(guān)系數(shù)、有序變量之間的多分格相關(guān)系數(shù)以及二分變量之間的四分相關(guān)系數(shù)
-
-
相關(guān)性的顯著性檢驗(yàn)
在計(jì)算好相關(guān)系數(shù)以后舆逃,可以進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)蚂维。常用的原假設(shè)為變量間不相關(guān)(即總體的相關(guān)系數(shù)為0)戳粒。
-
可以使用默認(rèn)包的cor.test()函數(shù)對(duì)單個(gè)的Pearson、Spearman和Kendall相關(guān)系數(shù)進(jìn)行檢驗(yàn)虫啥。簡(jiǎn)化后的使用格式為:cor.test(x,y,alternative=,method=)
- x和y為要檢驗(yàn)相關(guān)性的變量
- alternative則用來(lái)指定進(jìn)行雙側(cè)檢驗(yàn)或單側(cè)檢驗(yàn)(取值為"two.side"蔚约、"less"或"greater")。當(dāng)研究的假設(shè)為總體的相關(guān)系數(shù)小于0時(shí)涂籽,請(qǐng)使用alternative="less"苹祟。在研究的假設(shè)為總體的相關(guān)系數(shù)大于0時(shí),應(yīng)使用alternative="greater"
- method用以指定要計(jì)算的相關(guān)類(lèi)型("pearson"评雌、"kendall"或"spearman")树枫。
-- 示例
## 檢驗(yàn)預(yù)期壽命和謀殺率的Pearson相關(guān)系數(shù)為0的原假設(shè) ## 假設(shè)總體的相關(guān)度為0,則預(yù)計(jì)在一千萬(wàn)次中只會(huì)有少于一次的機(jī)會(huì)見(jiàn)到0.703這樣大的樣本相關(guān)度(即p = 1.258e?08)景东。由于這種情況幾乎不可能發(fā)生砂轻,所以你可以拒絕原假設(shè),從而支持了要研究的猜想耐薯,即預(yù)期壽命和謀殺率之間的總體相關(guān)度不為0 cor.test(states[,3],states[,5]) Pearson's product-moment correlation data: states[, 3] and states[, 5] t = 6.8479, df = 48, p-value = 1.258e-08 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.5279280 0.8207295 sample estimates: cor 0.7029752
-
psych包中提供的corr.test()函數(shù)可以為Pearson舔清、Spearman或Kendall相關(guān)計(jì)算相關(guān)矩陣和顯著性水平,格式corr.test(x,use=,method=)
- 參數(shù)use=的取值可為"pairwise"或"complete"(分別表示對(duì)缺失值執(zhí)行成對(duì)刪除或行刪除)曲初。
- 參數(shù)method=的取值可為"pearson"(默認(rèn)值)体谒、"spearman"或"kendall"。
corr.test(states,use="complete") Call:corr.test(x = states, use = "complete") Correlation matrix Population Income Illiteracy Life Exp Murder HS Grad Population 1.00 0.21 0.11 -0.07 0.34 -0.10 Income 0.21 1.00 -0.44 0.34 -0.23 0.62 Illiteracy 0.11 -0.44 1.00 -0.59 0.70 -0.66 Life Exp -0.07 0.34 -0.59 1.00 -0.78 0.58 Murder 0.34 -0.23 0.70 -0.78 1.00 -0.49 HS Grad -0.10 0.62 -0.66 0.58 -0.49 1.00 Sample Size [1] 50 Probability values (Entries above the diagonal are adjusted for multiple tests.) Population Income Illiteracy Life Exp Murder HS Grad Population 0.00 0.59 1.00 1.0 0.10 1 Income 0.15 0.00 0.01 0.1 0.54 0 Illiteracy 0.46 0.00 0.00 0.0 0.00 0 Life Exp 0.64 0.02 0.00 0.0 0.00 0 Murder 0.01 0.11 0.00 0.0 0.00 0 HS Grad 0.50 0.00 0.00 0.0 0.00 0 To see confidence intervals of the correlations, print with the short=FALSE option
-
其他顯著性校驗(yàn)
- 在多元正態(tài)性的假設(shè)下臼婆,ggm包中的pcor.test()函數(shù)可以用來(lái)檢驗(yàn)在控制一個(gè)或多個(gè)額外變量時(shí)兩個(gè)變量之間的條件獨(dú)立性抒痒。
- psych包中的r.test()函數(shù)提供了多種實(shí)用的顯著性檢驗(yàn)方法。此函數(shù)可用來(lái)檢驗(yàn):
- 某種相關(guān)系數(shù)的顯著性颁褂;
- 兩個(gè)獨(dú)立相關(guān)系數(shù)的差異是否顯著故响;
- 兩個(gè)基于一個(gè)共享變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著;
- 兩個(gè)基于完全不同的變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著颁独。
-
t校驗(yàn)
-
獨(dú)立樣本的t校驗(yàn)
- 一個(gè)針對(duì)兩組的獨(dú)立樣本t檢驗(yàn)可以用于檢驗(yàn)兩個(gè)總體的均值相等的假設(shè)彩届。這里假設(shè)兩組數(shù)據(jù)是獨(dú)立的,并且是從正態(tài)總體中抽得誓酒。檢驗(yàn)的調(diào)用格式為:
- ```t.test( y ~ x,data)``,其中的y是一個(gè)數(shù)值型變量樟蠕,x是一個(gè)二分變量】扛蹋可選參數(shù)data的取值為一個(gè)包含了這些變量的矩陣或數(shù)據(jù)框寨辩。
-
t.test(y1,ye)
,其中的y1和y2為數(shù)值型向量(即各組的結(jié)果變量)。 - 此方法的t檢驗(yàn)?zāi)J(rèn)假定方差不相等歼冰,并使用Welsh的修正自由度靡狞。可以添加一個(gè)參數(shù)var.equal=TRUE以假定方差相等隔嫡,并使用合并方差估計(jì)甸怕。
- 默認(rèn)的備擇假設(shè)是雙側(cè)的(即均值不相等甘穿,但大小的方向不確定)±俑鳎可以添加一個(gè)參數(shù)alternative="less"或alternative="greater"來(lái)進(jìn)行有方向的檢驗(yàn)
- 示例:
## 一個(gè)假設(shè)方差不等的雙側(cè)檢驗(yàn)扒磁,比較了南方(group 1)和非南方(group 0)各州的監(jiān)禁概率 library(MASS) t.test(Prob ~ So,data=UScrime) Welch Two Sample t-test data: Prob by So t = -3.8954, df = 24.925, p-value = 0.0006506 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.03852569 -0.01187439 sample estimates: mean in group 0 mean in group 1 0.03851265 0.06371269 ## 根據(jù)結(jié)果你可以拒絕南方各州和非南方各州擁有相同監(jiān)禁概率的假設(shè)(p < .001)庆揪。
- 一個(gè)針對(duì)兩組的獨(dú)立樣本t檢驗(yàn)可以用于檢驗(yàn)兩個(gè)總體的均值相等的假設(shè)彩届。這里假設(shè)兩組數(shù)據(jù)是獨(dú)立的,并且是從正態(tài)總體中抽得誓酒。檢驗(yàn)的調(diào)用格式為:
-
非獨(dú)立樣本的t檢驗(yàn)
- 在兩組的觀測(cè)之間相關(guān)時(shí)式曲,你獲得的是一個(gè)非獨(dú)立組設(shè)計(jì)(dependent groups design)。前—后測(cè)設(shè)計(jì)(pre-post design)或重復(fù)測(cè)量設(shè)計(jì)(repeated measures design)同樣也會(huì)產(chǎn)生非獨(dú)立的組
- 非獨(dú)立樣本的t檢驗(yàn)假定組間的差異呈正態(tài)分布缸榛。對(duì)于本例吝羞,檢驗(yàn)的調(diào)用格式為:
-
t.test(y1,y2,paired=TRUE)
,其中y1和y2為兩個(gè)非獨(dú)立組的數(shù)值向量
-
- 示例
sapply(UScrime[c("U1","U2")],function(x){c(mean=mean(x),sd=sd(x))}) with(UScrime,t.test(U1,U2,paired=TRUE)) Paired t-test data: U1 and U2 t = 32.407, df = 46, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 57.67003 65.30870 sample estimates: mean of the differences 61.48936 ## 差異的均值(61.5)足夠大内颗,可以保證拒絕年長(zhǎng)和年輕男性的平均失業(yè)率相同的假設(shè)钧排。年輕男性的失業(yè)率更高。事實(shí)上均澳,若總體均值相等恨溜,獲取一個(gè)差異如此大的樣本的概率小于0.000 000 000 000 000 22(即2.2e?16)
-
多于兩組的t校驗(yàn)情況
- 如果想在多于兩個(gè)的組之間進(jìn)行比。如果能夠假設(shè)數(shù)據(jù)是從正態(tài)總體中獨(dú)立抽樣而得的找前,可以使用方差分析(ANOVA)糟袁。ANOVA是一套覆蓋了許多實(shí)驗(yàn)設(shè)計(jì)和準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)的綜合方法
-
-
組間差異的非參數(shù)檢驗(yàn)
如果數(shù)據(jù)無(wú)法滿足t檢驗(yàn)或ANOVA的參數(shù)假設(shè),可以轉(zhuǎn)而使用非參數(shù)方法
==當(dāng)t檢驗(yàn)的假設(shè)合理時(shí)躺盛,參數(shù)檢驗(yàn)的功效更強(qiáng)(更容易發(fā)現(xiàn)存在的差異)项戴。而非參數(shù)檢驗(yàn)在假設(shè)非常不合理時(shí)(如對(duì)于等級(jí)有序數(shù)據(jù))更適用==
-
兩組的比較
- 若兩組數(shù)據(jù)獨(dú)立,可以使用Wilcoxon秩和檢驗(yàn)(更廣為人知的名字是Mann–Whitney U檢驗(yàn))來(lái)評(píng)估觀測(cè)是否是從相同的概率分布中抽得的(即槽惫,在一個(gè)總體中獲得更高得分的概率是否比另一個(gè)總體要大)
- 格式:
wilcoxo.test(y ~ x,data)
周叮,其中的y是數(shù)值型變量,而x是一個(gè)二分變量界斜。 - 調(diào)用格式或?yàn)椋?code>wilcoxo.test(y1,y2)仿耽,其中的y1和y2為各組的結(jié)果變量。
- 可選參數(shù)data的取值為一個(gè)包含了這些變量的矩陣或數(shù)據(jù)框各薇。
- 默認(rèn)進(jìn)行一個(gè)雙側(cè)檢驗(yàn)项贺。可以添加參數(shù)exact來(lái)進(jìn)行精確檢驗(yàn)得糜,指定alternative="less"或alternative="greater"進(jìn)行有方向的檢驗(yàn)
- 示例敬扛。。朝抖。啥箭。
-
多于兩組的比較
- 單向設(shè)計(jì)(one-way design),可以使用參數(shù)或非參數(shù)的方法來(lái)解決這個(gè)問(wèn)題治宣。
- 如果無(wú)法滿足ANOVA設(shè)計(jì)的假設(shè)急侥,那么可以使用非參數(shù)方法來(lái)評(píng)估組間的差異砌滞。如果各組獨(dú)立,則Kruskal—Wallis檢驗(yàn)將是一種實(shí)用的方法坏怪。如果各組不獨(dú)立(如重復(fù)測(cè)量設(shè)計(jì)或隨機(jī)區(qū)組設(shè)計(jì))贝润,那么Friedman檢驗(yàn)會(huì)更合適。
- Kruskal–Wallis檢驗(yàn)的調(diào)用格式為:
kruskal.test(y ~ A,data)
,其中的y是一個(gè)數(shù)值型結(jié)果變量铝宵,A是一個(gè)擁有兩個(gè)或更多水平的分組變量(grouping variable)打掘。
(若有兩個(gè)水平,則它與Mann–Whitney U檢驗(yàn)等價(jià)鹏秋。) - Friedman檢驗(yàn)的調(diào)用格式為:
friedman.test(y ~ A|B, data)
,其中的y是數(shù)值型結(jié)果變量尊蚁,A是一個(gè)分組變量,而B(niǎo)是一個(gè)用以認(rèn)定匹配觀測(cè)的區(qū)組變量(blocking
variable) - 一種更為優(yōu)雅的方法是在控制犯第一類(lèi)錯(cuò)誤的概率(發(fā)現(xiàn)一個(gè)事實(shí)上并不存在的差異的概率)的前提下,執(zhí)行可以同步進(jìn)行的多組比較侣夷,這樣可以直接完成所有組之間的成對(duì)比較横朋。npmc包提供了所需要的非參數(shù)多組比較程序
-