R action 7

20180316（從有道遷移）

基本統(tǒng)計(jì)分析

描述性統(tǒng)計(jì)分析
1. 常用庫(kù)：
  1. 基礎(chǔ)方法summary；
    - summary()函數(shù)提供了最小值摄职、最大值柴底、四分位數(shù)和數(shù)值型變量的均值蚯撩，以及因子向量和邏輯型向量的頻數(shù)統(tǒng)計(jì)
    - 可以使用apply()函數(shù)或sapply()函數(shù)計(jì)算所選擇的任意數(shù)據(jù)集的描述性統(tǒng)計(jì)量
    - sapply()函數(shù)顽素，其使用格式為sapply(x,FUN,otions)
      - x是數(shù)據(jù)框（或矩陣）
      - FUN為一個(gè)任意的函數(shù), 可以插入的典型函數(shù)有mean咽弦、sd、var胁出、min型型、max、median全蝶、length闹蒜、range和quantile。
      - 如果指定了options抑淫，它們將被傳遞給FUN
    - 函數(shù)fivenum()可返回圖基五數(shù)總括（Tukey’s five-number summary绷落，即最小值、下四分位數(shù)丈冬、中位數(shù)嘱函、上四分位數(shù)和最大值）
  2. Hmisc包中的describe()函數(shù)可返回變量和觀測(cè)的數(shù)量甘畅、缺失值和唯一值的數(shù)目埂蕊、平均值、分位數(shù)疏唾，以及五個(gè)最大的值和五個(gè)最小的值
  3. pastecs包中有一個(gè)名為stat.desc()的函數(shù)蓄氧，它可以計(jì)算種類(lèi)繁多的描述性統(tǒng)計(jì)量。
    - 使用格式：stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
    - x是一個(gè)數(shù)據(jù)框或時(shí)間序列
    - 若basic=TRUE（默認(rèn)值）槐脏，則計(jì)算其中所有值喉童、空值、缺失值的數(shù)量顿天，以及最小值堂氯、最大值蔑担、值域，還有總和
    - 若desc=TRUE（同樣也是默認(rèn)值）咽白，則計(jì)算中位數(shù)啤握、平均數(shù)、平均數(shù)的標(biāo)準(zhǔn)誤晶框、平均數(shù)置信度為95%的置信區(qū)間排抬、方差、標(biāo)準(zhǔn)差以及變異系數(shù)
    - 若norm=TRUE（不是默認(rèn)的）授段，則返回正態(tài)分布統(tǒng)計(jì)量蹲蒲，包括偏度和峰度（以及它們的統(tǒng)計(jì)顯著程度）和Shapiro–Wilk正態(tài)檢驗(yàn)結(jié)果
  4. psych包擁有一個(gè)名為describe()的函數(shù)，它可以計(jì)算非缺失值的數(shù)量侵贵、平均數(shù)届搁、標(biāo)準(zhǔn)差、中位數(shù)窍育、截尾均值咖祭、絕對(duì)中位差、最小值蔫骂、最大值么翰、值域、偏度辽旋、峰度和平均值的標(biāo)準(zhǔn)誤差
2. 分組計(jì)算描述性統(tǒng)計(jì)量
  1. 在比較多組個(gè)體或觀測(cè)時(shí)浩嫌，關(guān)注的焦點(diǎn)經(jīng)常是各組的描述性統(tǒng)計(jì)信息，而不是樣本整體的描述性統(tǒng)計(jì)信息
  2. 可以使用aggregate()函數(shù)來(lái)分組獲取描述性統(tǒng)計(jì)量
    - 如果有多個(gè)分組變量补胚，可以使用by=list(name1=groupvar1, name2=groupvar2, ... , groupvarN)這樣的語(yǔ)句
```
aggregate(mtcars[vars],by=list(am=mtcars$am),mean)
aggregate(mtcars[vars],by=list(am=mtcars$am),sd)
```
  3. aggregate()僅允許在每次調(diào)用中使用平均數(shù)码耐、標(biāo)準(zhǔn)差這樣的單返回值函數(shù)，無(wú)法一次返回若干個(gè)統(tǒng)計(jì)量溶其。要完成這項(xiàng)任務(wù)骚腥，可以使用by()函數(shù)。格式:by(data,INDICES,FUN)
    - data是一個(gè)數(shù)據(jù)框或矩陣
    - INDICES是一個(gè)因子或因子組成的列表瓶逃，定義了分組
    - FUN是任意函數(shù)
```
mystats <- function(x,na.omit=FALSE){
  if (na.omit)
    x <- x[!is.na(x)]
  m <- mean(x)
  n <- length(x)
  s <- sd(x)
  skew <- sum((x-m)^3/s^3)/n
  kurt <- sum((x-m)^4/s^4)/n - 3
  return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))
}

dstats <- function(x)sapply(x, mystats)
myvars <- c("mpg", "hp", "wt")
by(mtcars[myvars], mtcars$am, dstats)
```
  4. doBy包中summaryBy()函數(shù)的使用格式為:summaryBy(formula,data=dataframe,FUN=function)束铭，其中formula接受以下的格式：var1+var2+var3+...+varN ~ group1+group2+...+groupN
```
summaryBy(mpg+hp+wt~am,data=mtcars,FUN=mystats)
```
  5. psych包中的describe.by()函數(shù)可計(jì)算和describe相同的描述性統(tǒng)計(jì)量，只是按照一個(gè)或多個(gè)分組變量分層,describe.by(mtcars[vars],mtcars$am),describe.by()函數(shù)不允許指定任意函數(shù),若存在一個(gè)以上的分組變量厢绝，你可以使用list(groupvar1, groupvar2, ... , groupvarN)來(lái)表示它們契沫。但這僅在分組變量交叉后不出現(xiàn)空白單元時(shí)有效.
  6. reshape包靈活地按組導(dǎo)出描述性統(tǒng)計(jì)量，步驟
    - 融合數(shù)據(jù)框: dfm <- melt(dataframe,measure.vars=y,id.vars=g),其中的dataframe包含著數(shù)據(jù)昔汉，y是一個(gè)向量懈万，指明了要進(jìn)行概述的數(shù)值型變量（默認(rèn)使用所有變量），而g是由一個(gè)或多個(gè)分組變量組成的向量
    - 重鑄數(shù)據(jù): cast(dfm,groupvar1+...+groupvarN+ variable ~ .,FUN)
```
library(reshape)
dstats <- function(x)(c(n=length(x), mean=mean(x), sd=sd(x)))
dfm <- melt(mtcars, measure.vars=c("mpg", "hp", "wt"), 
            id.vars=c("am", "cyl"))
cast(dfm, am + cyl + variable ~ ., dstats)
```

類(lèi)別型變量的頻數(shù)表和列聯(lián)表

==https://en.wikipedia.org/wiki/Contingency_table==

生成頻數(shù)表函數(shù)，用于創(chuàng)建和處理列聯(lián)表的函數(shù)如下

函數(shù)	描述
table(var1, var2, …, varN)	使用 N 個(gè)類(lèi)別型變量（因子）創(chuàng)建一個(gè) N 維列聯(lián)表
xtabs(formula, data)	根據(jù)一個(gè)公式和一個(gè)矩陣或數(shù)據(jù)框創(chuàng)建一個(gè) N 維列聯(lián)表
prop.table(table, margins)	依m(xù)argins定義的邊際列表將表中條目表示為分?jǐn)?shù)形式
margin.table(table, margins)	依m(xù)argins定義的邊際列表計(jì)算表中條目的和
addmargins(table, margins)	將概述邊margins（默認(rèn)是求和結(jié)果）放入表中
ftable(table)	創(chuàng)建一個(gè)緊湊的“平鋪”式列聯(lián)表

一維列聯(lián)表

可以使用table()函數(shù)生成簡(jiǎn)單的頻數(shù)統(tǒng)計(jì)表

mytable <- table(Arthritis$Improved)

## 結(jié)果
## None   Some Marked 
## 42     14     28

可以用prop.table()將這些頻數(shù)轉(zhuǎn)化為比例值

prop.table(mytable)

## 結(jié)果
## None      Some    Marked 
## 0.5000000 0.1666667 0.3333333

二維列聯(lián)表
- 對(duì)于二維列聯(lián)表会通，table()函數(shù)的使用格式為：mytable <- table(A,B), 其中口予，A是行變量，B是列變量涕侈。
- 對(duì)于xtabs()函數(shù)可使用公式風(fēng)格的輸入創(chuàng)建列聯(lián)表苹威，格式為：mytable <- xtabs(~ A+B,data=mydata)，mydata是一個(gè)矩陣或數(shù)據(jù)框驾凶。要進(jìn)行交叉分類(lèi)的變量應(yīng)出現(xiàn)在公式的右側(cè)（即~符號(hào)的右方）牙甫，以+作為分隔符。若某個(gè)變量寫(xiě)在公式的左側(cè)调违，則其為一個(gè)頻數(shù)向量（在數(shù)據(jù)已經(jīng)被表格化時(shí)很有用）窟哺。
```
mytable <- xtabs(~ Treatment + Improved,data=Arthritis)
```
- margin.table()和prop.table()函數(shù)分別生成邊際頻數(shù)和比例
```
## 下標(biāo)1指代table()語(yǔ)句中的第一個(gè)變量。
margin.table(mytable,1) #row sums
## 下標(biāo)2指代table()語(yǔ)句中的第二個(gè)變量
margin.table(mytable, 2) # column sums
prop.table(mytable) # cell proportions
prop.table(mytable, 1) # row proportions
prop.table(mytable, 2) # column proportions
```
- 使用addmargins()函數(shù)為這些表格添加邊際和
```
## 在使用addmargins()時(shí)技肩，默認(rèn)行為是為表中所有的變量創(chuàng)建邊際和
addmargins(mytable) # add row and column sums to table

addmargins(prop.table(mytable))
## 僅添加了各行的和
addmargins(prop.table(mytable, 1), 2)
## 僅添加了各列的和
addmargins(prop.table(mytable, 2), 1)
```
==table()函數(shù)默認(rèn)忽略缺失值（NA）且轨。要在頻數(shù)統(tǒng)計(jì)中將NA視為一個(gè)有效的類(lèi)別，請(qǐng)?jiān)O(shè)定參數(shù)useNA="ifany"虚婿。==
使用gmodels包中的CrossTable()函數(shù)也可以創(chuàng)建二維列聯(lián)表
- CrossTable()函數(shù)有很多選項(xiàng)旋奢，可以做許多事情：計(jì)算（行、列然痊、單元格）的百分比至朗；指定小數(shù)位數(shù)；進(jìn)行卡方剧浸、Fisher和McNemar獨(dú)立性檢驗(yàn)锹引；計(jì)算期望和（皮爾遜、標(biāo)準(zhǔn)化唆香、調(diào)整的標(biāo)準(zhǔn)化）殘差嫌变；將缺失值作為一種有效值；進(jìn)行行和列標(biāo)題的標(biāo)注躬它；生成SAS或SPSS風(fēng)格的輸出腾啥。參閱help(CrossTable)以了解詳情
```
library(gmodels)
CrossTable(Arthritis$Treatment,Arthritis$Improved)
```
多維列聯(lián)表
- table()和xtabs()都可以基于三個(gè)或更多的類(lèi)別型變量生成多維列聯(lián)表。margin.table()冯吓、prop.table()和addmargins()函數(shù)可以自然地推廣到高于二維的情況倘待。另外，ftable()函數(shù)可以以一種緊湊而吸引人的方式輸出多維列聯(lián)表
獨(dú)立性檢驗(yàn)
1. 卡方獨(dú)立性檢驗(yàn)
  - 使用chisq.test()函數(shù)對(duì)二維表的行變量和列變量進(jìn)行卡方獨(dú)立性檢驗(yàn)
  - 這里的p值表示從總體中抽取的樣本行變量與列變量是相互獨(dú)立的概率
```
mytable <- xtabs(~Treatment+Improved,data=Arthritis)
chisq.test(mytable)


## result  治療情況和改善情況不獨(dú)立
            Pearson's Chi-squared test

data:  mytable
X-squared = 13.055, df = 2, p-value = 0.001463


mytable2 <- xtabs(~Sex+Improved,data=Arthritis)
chisq.test(mytable2)
## result  性別和改善情況獨(dú)立
        Pearson's Chi-squared test

data:  mytable2
X-squared = 4.8407, df = 2, p-value = 0.08889

Warning message:
In chisq.test(mytable2) : Chi-squared近似算法有可能不準(zhǔn)

## 產(chǎn)生警告信息的原因是桑谍，mytable2中的6個(gè)單元格之一（男性 - 一定程度上的改善）有一個(gè)小于5的值延柠，這可能會(huì)使卡方近似無(wú)效
```
2. Fisher精確檢驗(yàn)
  - 使用fisher.test()函數(shù)進(jìn)行Fisher精確檢驗(yàn)。
  - Fisher精確檢驗(yàn)的原假設(shè)是：邊界固定的列聯(lián)表中行和列是相互獨(dú)立的锣披。
  - fisher.test()函數(shù)可以在任意行列數(shù)大于等于2的二維列聯(lián)表上使用，但不能用于2×2的列聯(lián)表
  - 調(diào)用格式為fisher.test(mytable)，其中的mytable是一個(gè)二維列聯(lián)表
```
fisher.test(mytable)
## result
        Fisher's Exact Test for Count Data

data:  mytable
p-value = 0.001393
alternative hypothesis: two.sided
```
3. Cochran-Mantel–Haenszel檢驗(yàn)
  - mantelhaen.test()函數(shù)可用來(lái)進(jìn)行Cochran—Mantel—Haenszel卡方檢驗(yàn).
  - 其原假設(shè)是雹仿，兩個(gè)名義變量在第三個(gè)變量的每一層中都是條件獨(dú)立的增热。
  - 下列代碼可以檢驗(yàn)治療情況和改善情況在性別的每一水平下是否獨(dú)立。此檢驗(yàn)假設(shè)不存在三階交互作用（治療情況×改善情況×性別）
```
mytable3 <- xtabs(~Treatment+Improved+Sex,data=Arthritis)
mantelhaen.test(mytable3)

## result 結(jié)果表明胧辽，患者接受的治療與得到的改善在性別的每一水平下并不獨(dú)立
## 即峻仇，分性別來(lái)看，用藥治療的患者較接受安慰劑的患者有了更多的改善
        Cochran-Mantel-Haenszel test

data:  mytable3
Cochran-Mantel-Haenszel M^2 = 14.632, df = 2, p-value = 0.0006647
```
4. 關(guān)聯(lián)資料：
  - ==https://zh.wikipedia.org/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C==
  - ==http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C==
相關(guān)性的度量

顯著性檢驗(yàn)評(píng)估了是否存在充分的證據(jù)以拒絕變量間相互獨(dú)立的原假設(shè)邑商。如果可以拒絕原假設(shè)摄咆，那么自然而然地轉(zhuǎn)向用以衡量相關(guān)性強(qiáng)弱的相關(guān)性度量
1. vcd包中的assocstats()函數(shù)可以用來(lái)計(jì)算二維列聯(lián)表的phi系數(shù)、列聯(lián)系數(shù)和Cramer’s V系數(shù)
```
library(vcd)

assocstats(mytable)
                    X^2 df  P(> X^2)
Likelihood Ratio 13.530  2 0.0011536
Pearson          13.055  2 0.0014626

Phi-Coefficient   : NA 
Contingency Coeff.: 0.367 
Cramer's V        : 0.394 

## 總體來(lái)說(shuō)人断，較大的值意味著較強(qiáng)的相關(guān)性
```
2. 相關(guān)資料
  - ==https://zh.wikipedia.org/wiki/Phi%E7%9B%B8%E9%97%9C%E4%BF%82%E6%95%B8==
  - ==https://en.wikipedia.org/wiki/Cram%C3%A9r%27s_V==
結(jié)果的可視化
- ca包中的對(duì)應(yīng)分析函數(shù)允許使用多種幾何表示可視地探索列聯(lián)表中行和列之間的關(guān)系

將表轉(zhuǎn)換為扁平格式

## 可以使用以下代碼提供的函數(shù)將R中的表轉(zhuǎn)換回扁平的數(shù)據(jù)格式

table2falt <- function(mytable){
    df <- as.data.frame(table)
    rows <- dim(df)[1]
    cols <- dim(df)[2]
    x <- NULL
    for (i in 1:rows){
        for (j in 1:df$Freq[i]){
            row <- df[i,c(1:(cols-1))]
            x <- rbind(x,row)
        }
    }
    row.names[x] <- c(1:dim(x)[1])
    return(x)
}

相關(guān)

相關(guān)系數(shù)可以用來(lái)描述定量變量之間的關(guān)系吭从。
相關(guān)系數(shù)的符號(hào)(±)表明關(guān)系的方向（正相關(guān)或負(fù)相關(guān)），其值的大小表示關(guān)系的強(qiáng)弱程度（完全不相關(guān)時(shí)為0恶迈，完全相關(guān)時(shí)為1）涩金。

相關(guān)的類(lèi)型

Pearson、Spearman和Kendall相關(guān)

Pearson積差相關(guān)系數(shù)衡量了兩個(gè)定量變量之間的線性相關(guān)程度暇仲。
Spearman等級(jí)相關(guān)系數(shù)則衡量分級(jí)定序變量之間的相關(guān)程度步做。
Kendall’s Tau相關(guān)系數(shù)也是一種非參數(shù)的等級(jí)相關(guān)度量

cor()函數(shù)可以計(jì)算這三種相關(guān)系數(shù)，而cov()函數(shù)可用來(lái)計(jì)算協(xié)方差奈附，以下為相關(guān)系數(shù)有關(guān)的參數(shù)：

參數(shù)	描述
x	矩陣或數(shù)據(jù)框
use	指定缺失數(shù)據(jù)的處理方式全度。</br>可選的方式為all.obs（假設(shè)不存在缺失數(shù)據(jù)——遇到缺失數(shù)據(jù)時(shí)將報(bào)錯(cuò)）、</br>everything（遇到缺失數(shù)據(jù)時(shí)斥滤，相關(guān)系數(shù)的計(jì)算結(jié)果將被設(shè)為missing）讼载、</br>complete.obs（行刪除）以及 pairwise.complete.obs（成對(duì)刪除，pairwise deletion）</br>默認(rèn)參數(shù)為use="everything"
method	指定相關(guān)系數(shù)的類(lèi)型中跌。</br>可選類(lèi)型為pearson咨堤、spearman或kendall </br>默認(rèn)參數(shù)為method="pearson"

示例

states <- state.x77[,1:6]

## 計(jì)算Pearson積差相關(guān)系數(shù)
cor(states)
            Population     Income Illiteracy    Life Exp     Murder
Population  1.00000000  0.2082276  0.1076224 -0.06805195  0.3436428
Income      0.20822756  1.0000000 -0.4370752  0.34025534 -0.2300776
Illiteracy  0.10762237 -0.4370752  1.0000000 -0.58847793  0.7029752
Life Exp   -0.06805195  0.3402553 -0.5884779  1.00000000 -0.7808458
Murder      0.34364275 -0.2300776  0.7029752 -0.78084575  1.0000000
HS Grad    -0.09848975  0.6199323 -0.6571886  0.58221620 -0.4879710
               HS Grad
Population -0.09848975
Income      0.61993232
Illiteracy -0.65718861
Life Exp    0.58221620
Murder     -0.48797102
HS Grad     1.00000000

## 計(jì)算方差和協(xié)方差
cov(states)
              Population      Income   Illiteracy     Life Exp      Murder
Population 19931683.7588 571229.7796  292.8679592 -407.8424612 5663.523714
Income       571229.7796 377573.3061 -163.7020408  280.6631837 -521.894286
Illiteracy      292.8680   -163.7020    0.3715306   -0.4815122    1.581776
Life Exp       -407.8425    280.6632   -0.4815122    1.8020204   -3.869480
Murder         5663.5237   -521.8943    1.5817755   -3.8694804   13.627465
HS Grad       -3551.5096   3076.7690   -3.2354694    6.3126849  -14.549616
                HS Grad
Population -3551.509551
Income      3076.768980
Illiteracy    -3.235469
Life Exp       6.312685
Murder       -14.549616
HS Grad       65.237894

## 計(jì)算Spearman等級(jí)相關(guān)系數(shù)
cor(states,method="spearman")
           Population     Income Illiteracy   Life Exp     Murder    HS Grad
Population  1.0000000  0.1246098  0.3130496 -0.1040171  0.3457401 -0.3833649
Income      0.1246098  1.0000000 -0.3145948  0.3241050 -0.2174623  0.5104809
Illiteracy  0.3130496 -0.3145948  1.0000000 -0.5553735  0.6723592 -0.6545396
Life Exp   -0.1040171  0.3241050 -0.5553735  1.0000000 -0.7802406  0.5239410
Murder      0.3457401 -0.2174623  0.6723592 -0.7802406  1.0000000 -0.4367330
HS Grad    -0.3833649  0.5104809 -0.6545396  0.5239410 -0.4367330  1.0000000

偏相關(guān)
1. 偏相關(guān)是指在控制一個(gè)或多個(gè)定量變量時(shí)，另外兩個(gè)定量變量之間的相互關(guān)系漩符。
2. 可以使用ggm包中的pcor()函數(shù)計(jì)算偏相關(guān)系數(shù)一喘，格式pcor(u,S),其中:
  - u是一個(gè)數(shù)值向量，前兩個(gè)數(shù)值表示要計(jì)算相關(guān)系數(shù)的變量下標(biāo)嗜暴，其余的數(shù)值為條件變量（即要排除影響的變量）的下標(biāo)凸克。
  - S為變量的協(xié)方差陣
3. 示例
```
library(ggm)
## 在控制了收入、文盲率和高中畢業(yè)率時(shí),人口和謀殺率的偏相關(guān)系數(shù)
pcor(c(1,5,2,3,6),cov(states))
```
其他類(lèi)型的相關(guān)
- polycor包中的hetcor()函數(shù)可以計(jì)算一種混合的相關(guān)矩陣闷沥，其中包括數(shù)值型變量的Pearson積差相關(guān)系數(shù)萎战、數(shù)值型變量和有序變量之間的多系列相關(guān)系數(shù)、有序變量之間的多分格相關(guān)系數(shù)以及二分變量之間的四分相關(guān)系數(shù)

相關(guān)性的顯著性檢驗(yàn)
- 在計(jì)算好相關(guān)系數(shù)以后舆逃，可以進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)蚂维。常用的原假設(shè)為變量間不相關(guān)（即總體的相關(guān)系數(shù)為0）戳粒。
- 可以使用默認(rèn)包的cor.test()函數(shù)對(duì)單個(gè)的Pearson、Spearman和Kendall相關(guān)系數(shù)進(jìn)行檢驗(yàn)虫啥。簡(jiǎn)化后的使用格式為：cor.test(x,y,alternative=,method=)
  - x和y為要檢驗(yàn)相關(guān)性的變量
  - alternative則用來(lái)指定進(jìn)行雙側(cè)檢驗(yàn)或單側(cè)檢驗(yàn)（取值為"two.side"蔚约、"less"或"greater"）。當(dāng)研究的假設(shè)為總體的相關(guān)系數(shù)小于0時(shí)涂籽，請(qǐng)使用alternative="less"苹祟。在研究的假設(shè)為總體的相關(guān)系數(shù)大于0時(shí)，應(yīng)使用alternative="greater"
  - method用以指定要計(jì)算的相關(guān)類(lèi)型（"pearson"评雌、"kendall"或"spearman"）树枫。
    -- 示例
```
## 檢驗(yàn)預(yù)期壽命和謀殺率的Pearson相關(guān)系數(shù)為0的原假設(shè)
## 假設(shè)總體的相關(guān)度為0，則預(yù)計(jì)在一千萬(wàn)次中只會(huì)有少于一次的機(jī)會(huì)見(jiàn)到0.703這樣大的樣本相關(guān)度（即p = 1.258e?08）景东。由于這種情況幾乎不可能發(fā)生砂轻，所以你可以拒絕原假設(shè)，從而支持了要研究的猜想耐薯，即預(yù)期壽命和謀殺率之間的總體相關(guān)度不為0

cor.test(states[,3],states[,5])

        Pearson's product-moment correlation

data:  states[, 3] and states[, 5]
t = 6.8479, df = 48, p-value = 1.258e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.5279280 0.8207295
sample estimates:
      cor 
0.7029752 
```
- psych包中提供的corr.test()函數(shù)可以為Pearson舔清、Spearman或Kendall相關(guān)計(jì)算相關(guān)矩陣和顯著性水平，格式corr.test(x,use=,method=)
  - 參數(shù)use=的取值可為"pairwise"或"complete"（分別表示對(duì)缺失值執(zhí)行成對(duì)刪除或行刪除）曲初。
  - 參數(shù)method=的取值可為"pearson"（默認(rèn)值）体谒、"spearman"或"kendall"。
```
corr.test(states,use="complete")
Call:corr.test(x = states, use = "complete")
Correlation matrix 
           Population Income Illiteracy Life Exp Murder HS Grad
Population       1.00   0.21       0.11    -0.07   0.34   -0.10
Income           0.21   1.00      -0.44     0.34  -0.23    0.62
Illiteracy       0.11  -0.44       1.00    -0.59   0.70   -0.66
Life Exp        -0.07   0.34      -0.59     1.00  -0.78    0.58
Murder           0.34  -0.23       0.70    -0.78   1.00   -0.49
HS Grad         -0.10   0.62      -0.66     0.58  -0.49    1.00
Sample Size 
[1] 50
Probability values (Entries above the diagonal are adjusted for multiple tests.) 
           Population Income Illiteracy Life Exp Murder HS Grad
Population       0.00   0.59       1.00      1.0   0.10       1
Income           0.15   0.00       0.01      0.1   0.54       0
Illiteracy       0.46   0.00       0.00      0.0   0.00       0
Life Exp         0.64   0.02       0.00      0.0   0.00       0
Murder           0.01   0.11       0.00      0.0   0.00       0
HS Grad          0.50   0.00       0.00      0.0   0.00       0

To see confidence intervals of the correlations, print with the short=FALSE option
```
- 其他顯著性校驗(yàn)
  - 在多元正態(tài)性的假設(shè)下臼婆，ggm包中的pcor.test()函數(shù)可以用來(lái)檢驗(yàn)在控制一個(gè)或多個(gè)額外變量時(shí)兩個(gè)變量之間的條件獨(dú)立性抒痒。
  - psych包中的r.test()函數(shù)提供了多種實(shí)用的顯著性檢驗(yàn)方法。此函數(shù)可用來(lái)檢驗(yàn)：
    - 某種相關(guān)系數(shù)的顯著性颁褂；
    - 兩個(gè)獨(dú)立相關(guān)系數(shù)的差異是否顯著故响；
    - 兩個(gè)基于一個(gè)共享變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著；
    - 兩個(gè)基于完全不同的變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著颁独。

t校驗(yàn)
1. 獨(dú)立樣本的t校驗(yàn)
  1. 一個(gè)針對(duì)兩組的獨(dú)立樣本t檢驗(yàn)可以用于檢驗(yàn)兩個(gè)總體的均值相等的假設(shè)彩届。這里假設(shè)兩組數(shù)據(jù)是獨(dú)立的，并且是從正態(tài)總體中抽得誓酒。檢驗(yàn)的調(diào)用格式為：
    - ```t.test( y ~ x,data)``,其中的y是一個(gè)數(shù)值型變量樟蠕，x是一個(gè)二分變量】扛蹋可選參數(shù)data的取值為一個(gè)包含了這些變量的矩陣或數(shù)據(jù)框寨辩。
    - t.test(y1,ye),其中的y1和y2為數(shù)值型向量（即各組的結(jié)果變量）。
    - 此方法的t檢驗(yàn)?zāi)J(rèn)假定方差不相等歼冰，并使用Welsh的修正自由度靡狞。可以添加一個(gè)參數(shù)var.equal=TRUE以假定方差相等隔嫡，并使用合并方差估計(jì)甸怕。
    - 默認(rèn)的備擇假設(shè)是雙側(cè)的（即均值不相等甘穿，但大小的方向不確定）±俑鳎可以添加一個(gè)參數(shù)alternative="less"或alternative="greater"來(lái)進(jìn)行有方向的檢驗(yàn)
  2. 示例：
```
## 一個(gè)假設(shè)方差不等的雙側(cè)檢驗(yàn)扒磁，比較了南方（group 1）和非南方（group 0）各州的監(jiān)禁概率

library(MASS)
t.test(Prob ~ So,data=UScrime)

        Welch Two Sample t-test

data:  Prob by So
t = -3.8954, df = 24.925, p-value = 0.0006506
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.03852569 -0.01187439
sample estimates:
mean in group 0 mean in group 1 
     0.03851265      0.06371269 
     
## 根據(jù)結(jié)果你可以拒絕南方各州和非南方各州擁有相同監(jiān)禁概率的假設(shè)（p < .001）庆揪。     
```
2. 非獨(dú)立樣本的t檢驗(yàn)
  1. 在兩組的觀測(cè)之間相關(guān)時(shí)式曲，你獲得的是一個(gè)非獨(dú)立組設(shè)計(jì)（dependent groups design）。前—后測(cè)設(shè)計(jì)（pre-post design）或重復(fù)測(cè)量設(shè)計(jì)（repeated measures design）同樣也會(huì)產(chǎn)生非獨(dú)立的組
  2. 非獨(dú)立樣本的t檢驗(yàn)假定組間的差異呈正態(tài)分布缸榛。對(duì)于本例吝羞，檢驗(yàn)的調(diào)用格式為：
    - t.test(y1,y2,paired=TRUE)，其中y1和y2為兩個(gè)非獨(dú)立組的數(shù)值向量
  3. 示例
```
sapply(UScrime[c("U1","U2")],function(x){c(mean=mean(x),sd=sd(x))})

with(UScrime,t.test(U1,U2,paired=TRUE))

        Paired t-test

data:  U1 and U2
t = 32.407, df = 46, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 57.67003 65.30870
sample estimates:
mean of the differences 
               61.48936 
               
## 差異的均值（61.5）足夠大内颗，可以保證拒絕年長(zhǎng)和年輕男性的平均失業(yè)率相同的假設(shè)钧排。年輕男性的失業(yè)率更高。事實(shí)上均澳，若總體均值相等恨溜，獲取一個(gè)差異如此大的樣本的概率小于0.000 000 000 000 000 22（即2.2e?16）
```
3. 多于兩組的t校驗(yàn)情況
  1. 如果想在多于兩個(gè)的組之間進(jìn)行比。如果能夠假設(shè)數(shù)據(jù)是從正態(tài)總體中獨(dú)立抽樣而得的找前，可以使用方差分析（ANOVA）糟袁。ANOVA是一套覆蓋了許多實(shí)驗(yàn)設(shè)計(jì)和準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)的綜合方法
組間差異的非參數(shù)檢驗(yàn)

如果數(shù)據(jù)無(wú)法滿足t檢驗(yàn)或ANOVA的參數(shù)假設(shè)，可以轉(zhuǎn)而使用非參數(shù)方法

==當(dāng)t檢驗(yàn)的假設(shè)合理時(shí)躺盛，參數(shù)檢驗(yàn)的功效更強(qiáng)（更容易發(fā)現(xiàn)存在的差異）项戴。而非參數(shù)檢驗(yàn)在假設(shè)非常不合理時(shí)（如對(duì)于等級(jí)有序數(shù)據(jù)）更適用==
1. 兩組的比較
  1. 若兩組數(shù)據(jù)獨(dú)立，可以使用Wilcoxon秩和檢驗(yàn)（更廣為人知的名字是Mann–Whitney U檢驗(yàn)）來(lái)評(píng)估觀測(cè)是否是從相同的概率分布中抽得的（即槽惫，在一個(gè)總體中獲得更高得分的概率是否比另一個(gè)總體要大）
  2. 格式：wilcoxo.test(y ~ x,data)周叮，其中的y是數(shù)值型變量，而x是一個(gè)二分變量界斜。
  3. 調(diào)用格式或?yàn)椋?code>wilcoxo.test(y1,y2)仿耽，其中的y1和y2為各組的結(jié)果變量。
  4. 可選參數(shù)data的取值為一個(gè)包含了這些變量的矩陣或數(shù)據(jù)框各薇。
  5. 默認(rèn)進(jìn)行一個(gè)雙側(cè)檢驗(yàn)项贺。可以添加參數(shù)exact來(lái)進(jìn)行精確檢驗(yàn)得糜，指定alternative="less"或alternative="greater"進(jìn)行有方向的檢驗(yàn)
  6. 示例敬扛。。朝抖。啥箭。
2. 多于兩組的比較
  1. 單向設(shè)計(jì)（one-way design），可以使用參數(shù)或非參數(shù)的方法來(lái)解決這個(gè)問(wèn)題治宣。
  2. 如果無(wú)法滿足ANOVA設(shè)計(jì)的假設(shè)急侥，那么可以使用非參數(shù)方法來(lái)評(píng)估組間的差異砌滞。如果各組獨(dú)立，則Kruskal—Wallis檢驗(yàn)將是一種實(shí)用的方法坏怪。如果各組不獨(dú)立（如重復(fù)測(cè)量設(shè)計(jì)或隨機(jī)區(qū)組設(shè)計(jì)）贝润，那么Friedman檢驗(yàn)會(huì)更合適。
  3. Kruskal–Wallis檢驗(yàn)的調(diào)用格式為：kruskal.test(y ~ A,data),其中的y是一個(gè)數(shù)值型結(jié)果變量铝宵，A是一個(gè)擁有兩個(gè)或更多水平的分組變量（grouping variable）打掘。
    （若有兩個(gè)水平，則它與Mann–Whitney U檢驗(yàn)等價(jià)鹏秋。）
  4. Friedman檢驗(yàn)的調(diào)用格式為:friedman.test(y ~ A|B, data),其中的y是數(shù)值型結(jié)果變量尊蚁，A是一個(gè)分組變量，而B(niǎo)是一個(gè)用以認(rèn)定匹配觀測(cè)的區(qū)組變量（blocking
    variable）
  5. 一種更為優(yōu)雅的方法是在控制犯第一類(lèi)錯(cuò)誤的概率（發(fā)現(xiàn)一個(gè)事實(shí)上并不存在的差異的概率）的前提下,執(zhí)行可以同步進(jìn)行的多組比較侣夷，這樣可以直接完成所有組之間的成對(duì)比較横朋。npmc包提供了所需要的非參數(shù)多組比較程序

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市百拓，隨后出現(xiàn)的幾起案子琴锭，更是在濱河造成了極大的恐慌，老刑警劉巖衙传，帶你破解...
沈念sama閱讀 218,451評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件决帖，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡粪牲，警方通過(guò)查閱死者的電腦和手機(jī)古瓤，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,172評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)腺阳，“玉大人落君，你說(shuō)我怎么就攤上這事⊥ひ” “怎么了绎速？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,782評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)焙蚓。經(jīng)常有香客問(wèn)我纹冤，道長(zhǎng)，這世上最難降的妖魔是什么购公？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,709評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任萌京，我火速辦了婚禮，結(jié)果婚禮上宏浩，老公的妹妹穿的比我還像新娘知残。我一直安慰自己吆鹤，他們只是感情好栏笆，可當(dāng)我...
茶點(diǎn)故事閱讀 67,733評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著擒权，像睡著了一般保屯。火紅的嫁衣襯著肌膚如雪单旁。梳的紋絲不亂的頭發(fā)上已球，一...
開(kāi)封第一講書(shū)人閱讀 51,578評(píng)論 1贊 305
城市分裂傳說(shuō)
那天宽菜，我揣著相機(jī)與錄音，去河邊找鬼净神。笑死何吝，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的强挫。我是一名探鬼主播岔霸，決...
沈念sama閱讀 40,320評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼薛躬，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼俯渤！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起型宝，我...
開(kāi)封第一講書(shū)人閱讀 39,241評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤八匠，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后趴酣，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體梨树，經(jīng)...
沈念sama閱讀 45,686評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,878評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年岖寞，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了抡四。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,992評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡仗谆，死狀恐怖指巡，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情隶垮，我是刑警寧澤藻雪，帶...
沈念sama閱讀 35,715評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站狸吞，受9級(jí)特大地震影響勉耀，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蹋偏，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,336評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一便斥、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧威始，春花似錦枢纠、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,912評(píng)論 0贊 22
一樁弒父案京郑，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)宅广。三九已至，卻和暖如春些举，著一層夾襖步出監(jiān)牢的瞬間跟狱，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,040評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工户魏，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留驶臊，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,173評(píng)論 3贊 370
代替公主和親
正文我出身青樓叼丑，卻偏偏與公主長(zhǎng)得像关翎，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子鸠信，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,947評(píng)論 2贊 355

R action 7

基本統(tǒng)計(jì)分析

推薦閱讀更多精彩內(nèi)容