R action 7

20180316(從有道遷移)

基本統(tǒng)計(jì)分析

  1. 描述性統(tǒng)計(jì)分析

    1. 常用庫(kù):
      1. 基礎(chǔ)方法summary;
        • summary()函數(shù)提供了最小值摄职、最大值柴底、四分位數(shù)和數(shù)值型變量的均值蚯撩,以及因子向量和邏輯型向量的頻數(shù)統(tǒng)計(jì)
        • 可以使用apply()函數(shù)或sapply()函數(shù)計(jì)算所選擇的任意數(shù)據(jù)集的描述性統(tǒng)計(jì)量
        • sapply()函數(shù)顽素,其使用格式為sapply(x,FUN,otions)
          • x是數(shù)據(jù)框(或矩陣)
          • FUN為一個(gè)任意的函數(shù), 可以插入的典型函數(shù)有mean咽弦、sd、var胁出、min型型、max、median全蝶、length闹蒜、range和quantile。
          • 如果指定了options抑淫,它們將被傳遞給FUN
        • 函數(shù)fivenum()可返回圖基五數(shù)總括(Tukey’s five-number summary绷落,即最小值、下四分位數(shù)丈冬、中位數(shù)嘱函、上四分位數(shù)和最大值)
      2. Hmisc包中的describe()函數(shù)可返回變量和觀測(cè)的數(shù)量甘畅、缺失值和唯一值的數(shù)目埂蕊、平均值、分位數(shù)疏唾,以及五個(gè)最大的值和五個(gè)最小的值
      3. pastecs包中有一個(gè)名為stat.desc()的函數(shù)蓄氧,它可以計(jì)算種類(lèi)繁多的描述性統(tǒng)計(jì)量。
        • 使用格式:stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
        • x是一個(gè)數(shù)據(jù)框或時(shí)間序列
        • 若basic=TRUE(默認(rèn)值)槐脏,則計(jì)算其中所有值喉童、空值、缺失值的數(shù)量顿天,以及最小值堂氯、最大值蔑担、值域,還有總和
        • 若desc=TRUE(同樣也是默認(rèn)值)咽白,則計(jì)算中位數(shù)啤握、平均數(shù)、平均數(shù)的標(biāo)準(zhǔn)誤晶框、平均數(shù)置信度為95%的置信區(qū)間排抬、方差、標(biāo)準(zhǔn)差以及變異系數(shù)
        • 若norm=TRUE(不是默認(rèn)的)授段,則返回正態(tài)分布統(tǒng)計(jì)量蹲蒲,包括偏度和峰度(以及它們的統(tǒng)計(jì)顯著程度)和Shapiro–Wilk正態(tài)檢驗(yàn)結(jié)果
      4. psych包擁有一個(gè)名為describe()的函數(shù),它可以計(jì)算非缺失值的數(shù)量侵贵、平均數(shù)届搁、標(biāo)準(zhǔn)差、中位數(shù)窍育、截尾均值咖祭、絕對(duì)中位差、最小值蔫骂、最大值么翰、值域、偏度辽旋、峰度和平均值的標(biāo)準(zhǔn)誤差
    2. 分組計(jì)算描述性統(tǒng)計(jì)量
      1. 在比較多組個(gè)體或觀測(cè)時(shí)浩嫌,關(guān)注的焦點(diǎn)經(jīng)常是各組的描述性統(tǒng)計(jì)信息,而不是樣本整體的描述性統(tǒng)計(jì)信息

      2. 可以使用aggregate()函數(shù)來(lái)分組獲取描述性統(tǒng)計(jì)量

        • 如果有多個(gè)分組變量补胚,可以使用by=list(name1=groupvar1, name2=groupvar2, ... , groupvarN)這樣的語(yǔ)句
        aggregate(mtcars[vars],by=list(am=mtcars$am),mean)
        aggregate(mtcars[vars],by=list(am=mtcars$am),sd)
        
      3. aggregate()僅允許在每次調(diào)用中使用平均數(shù)码耐、標(biāo)準(zhǔn)差這樣的單返回值函數(shù),無(wú)法一次返回若干個(gè)統(tǒng)計(jì)量溶其。要完成這項(xiàng)任務(wù)骚腥,可以使用by()函數(shù)。格式:by(data,INDICES,FUN)

        • data是一個(gè)數(shù)據(jù)框或矩陣
        • INDICES是一個(gè)因子或因子組成的列表瓶逃,定義了分組
        • FUN是任意函數(shù)
          mystats <- function(x,na.omit=FALSE){
            if (na.omit)
              x <- x[!is.na(x)]
            m <- mean(x)
            n <- length(x)
            s <- sd(x)
            skew <- sum((x-m)^3/s^3)/n
            kurt <- sum((x-m)^4/s^4)/n - 3
            return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))
          }
          
          dstats <- function(x)sapply(x, mystats)
          myvars <- c("mpg", "hp", "wt")
          by(mtcars[myvars], mtcars$am, dstats)
          
          
      4. doBy包中summaryBy()函數(shù)的使用格式為:summaryBy(formula,data=dataframe,FUN=function)束铭,其中formula接受以下的格式:var1+var2+var3+...+varN ~ group1+group2+...+groupN

        summaryBy(mpg+hp+wt~am,data=mtcars,FUN=mystats)
        
      5. psych包中的describe.by()函數(shù)可計(jì)算和describe相同的描述性統(tǒng)計(jì)量,只是按照一個(gè)或多個(gè)分組變量分層,describe.by(mtcars[vars],mtcars$am),describe.by()函數(shù)不允許指定任意函數(shù),若存在一個(gè)以上的分組變量厢绝,你可以使用list(groupvar1, groupvar2, ... , groupvarN)來(lái)表示它們契沫。但這僅在分組變量交叉后不出現(xiàn)空白單元時(shí)有效.

      6. reshape包靈活地按組導(dǎo)出描述性統(tǒng)計(jì)量,步驟

        • 融合數(shù)據(jù)框: dfm <- melt(dataframe,measure.vars=y,id.vars=g),其中的dataframe包含著數(shù)據(jù)昔汉,y是一個(gè)向量懈万,指明了要進(jìn)行概述的數(shù)值型變量(默認(rèn)使用所有變量),而g是由一個(gè)或多個(gè)分組變量組成的向量
        • 重鑄數(shù)據(jù): cast(dfm,groupvar1+...+groupvarN+ variable ~ .,FUN)
          library(reshape)
          dstats <- function(x)(c(n=length(x), mean=mean(x), sd=sd(x)))
          dfm <- melt(mtcars, measure.vars=c("mpg", "hp", "wt"), 
                      id.vars=c("am", "cyl"))
          cast(dfm, am + cyl + variable ~ ., dstats)
          
  2. 類(lèi)別型變量的頻數(shù)表和列聯(lián)表

    • ==https://en.wikipedia.org/wiki/Contingency_table==

    • 生成頻數(shù)表函數(shù),用于創(chuàng)建和處理列聯(lián)表的函數(shù)如下

      函 數(shù) 描 述
      table(var1, var2, …, varN) 使用 N 個(gè)類(lèi)別型變量(因子)創(chuàng)建一個(gè) N 維列聯(lián)表
      xtabs(formula, data) 根據(jù)一個(gè)公式和一個(gè)矩陣或數(shù)據(jù)框創(chuàng)建一個(gè) N 維列聯(lián)表
      prop.table(table, margins) 依m(xù)argins定義的邊際列表將表中條目表示為分?jǐn)?shù)形式
      margin.table(table, margins) 依m(xù)argins定義的邊際列表計(jì)算表中條目的和
      addmargins(table, margins) 將概述邊margins(默認(rèn)是求和結(jié)果)放入表中
      ftable(table) 創(chuàng)建一個(gè)緊湊的“平鋪”式列聯(lián)表
    1. 一維列聯(lián)表

      • 可以使用table()函數(shù)生成簡(jiǎn)單的頻數(shù)統(tǒng)計(jì)表
        mytable <- table(Arthritis$Improved)
        
        ## 結(jié)果
        ## None   Some Marked 
        ## 42     14     28 
        
      • 可以用prop.table()將這些頻數(shù)轉(zhuǎn)化為比例值
        prop.table(mytable)
        
        ## 結(jié)果
        ## None      Some    Marked 
        ## 0.5000000 0.1666667 0.3333333 
        
    2. 二維列聯(lián)表

      • 對(duì)于二維列聯(lián)表会通,table()函數(shù)的使用格式為:mytable <- table(A,B), 其中口予,A是行變量,B是列變量涕侈。

      • 對(duì)于xtabs()函數(shù)可使用公式風(fēng)格的輸入創(chuàng)建列聯(lián)表苹威,格式為:mytable <- xtabs(~ A+B,data=mydata),mydata是一個(gè)矩陣或數(shù)據(jù)框驾凶。要進(jìn)行交叉分類(lèi)的變量應(yīng)出現(xiàn)在公式的右側(cè)(即~符號(hào)的右方)牙甫,以+作為分隔符。若某個(gè)變量寫(xiě)在公式的左側(cè)调违,則其為一個(gè)頻數(shù)向量(在數(shù)據(jù)已經(jīng)被表格化時(shí)很有用)窟哺。

        mytable <- xtabs(~ Treatment + Improved,data=Arthritis)
        
      • margin.table()和prop.table()函數(shù)分別生成邊際頻數(shù)和比例

        ## 下標(biāo)1指代table()語(yǔ)句中的第一個(gè)變量。
        margin.table(mytable,1) #row sums
        ## 下標(biāo)2指代table()語(yǔ)句中的第二個(gè)變量
        margin.table(mytable, 2) # column sums
        prop.table(mytable) # cell proportions
        prop.table(mytable, 1) # row proportions
        prop.table(mytable, 2) # column proportions
        
      • 使用addmargins()函數(shù)為這些表格添加邊際和

        ## 在使用addmargins()時(shí)技肩,默認(rèn)行為是為表中所有的變量創(chuàng)建邊際和
        addmargins(mytable) # add row and column sums to table
        
        addmargins(prop.table(mytable))
        ## 僅添加了各行的和
        addmargins(prop.table(mytable, 1), 2)
        ## 僅添加了各列的和
        addmargins(prop.table(mytable, 2), 1)
        
        
    3. ==table()函數(shù)默認(rèn)忽略缺失值(NA)且轨。要在頻數(shù)統(tǒng)計(jì)中將NA視為一個(gè)有效的類(lèi)別,請(qǐng)?jiān)O(shè)定參數(shù)useNA="ifany"虚婿。==

    4. 使用gmodels包中的CrossTable()函數(shù)也可以創(chuàng)建二維列聯(lián)表

      • CrossTable()函數(shù)有很多選項(xiàng)旋奢,可以做許多事情:計(jì)算(行、列然痊、單元格)的百分比至朗;指定小數(shù)位數(shù);進(jìn)行卡方剧浸、Fisher和McNemar獨(dú)立性檢驗(yàn)锹引;計(jì)算期望和(皮爾遜、標(biāo)準(zhǔn)化唆香、調(diào)整的標(biāo)準(zhǔn)化)殘差嫌变;將缺失值作為一種有效值;進(jìn)行行和列標(biāo)題的標(biāo)注躬它;生成SAS或SPSS風(fēng)格的輸出腾啥。參閱help(CrossTable)以了解詳情
      library(gmodels)
      CrossTable(Arthritis$Treatment,Arthritis$Improved)
      
    5. 多維列聯(lián)表

      • table()和xtabs()都可以基于三個(gè)或更多的類(lèi)別型變量生成多維列聯(lián)表。margin.table()冯吓、prop.table()和addmargins()函數(shù)可以自然地推廣到高于二維的情況倘待。另外,ftable()函數(shù)可以以一種緊湊而吸引人的方式輸出多維列聯(lián)表
    6. 獨(dú)立性檢驗(yàn)

      1. 卡方獨(dú)立性檢驗(yàn)

        • 使用chisq.test()函數(shù)對(duì)二維表的行變量和列變量進(jìn)行卡方獨(dú)立性檢驗(yàn)
        • 這里的p值表示從總體中抽取的樣本行變量與列變量是相互獨(dú)立的概率
        mytable <- xtabs(~Treatment+Improved,data=Arthritis)
        chisq.test(mytable)
        
        
        ## result  治療情況和改善情況不獨(dú)立
                    Pearson's Chi-squared test
        
        data:  mytable
        X-squared = 13.055, df = 2, p-value = 0.001463
        
        
        mytable2 <- xtabs(~Sex+Improved,data=Arthritis)
        chisq.test(mytable2)
        ## result  性別和改善情況獨(dú)立
                Pearson's Chi-squared test
        
        data:  mytable2
        X-squared = 4.8407, df = 2, p-value = 0.08889
        
        Warning message:
        In chisq.test(mytable2) : Chi-squared近似算法有可能不準(zhǔn)
        
        ## 產(chǎn)生警告信息的原因是桑谍,mytable2中的6個(gè)單元格之一(男性 - 一定程度上的改善)有一個(gè)小于5的值延柠,這可能會(huì)使卡方近似無(wú)效
        
      2. Fisher精確檢驗(yàn)

        • 使用fisher.test()函數(shù)進(jìn)行Fisher精確檢驗(yàn)。
        • Fisher精確檢驗(yàn)的原假設(shè)是:邊界固定的列聯(lián)表中行和列是相互獨(dú)立的锣披。
        • fisher.test()函數(shù)可以在任意行列數(shù)大于等于2的二維列聯(lián)表上使用,但不能用于2×2的列聯(lián)表
        • 調(diào)用格式為fisher.test(mytable),其中的mytable是一個(gè)二維列聯(lián)表
        fisher.test(mytable)
        ## result
                Fisher's Exact Test for Count Data
        
        data:  mytable
        p-value = 0.001393
        alternative hypothesis: two.sided
        
      3. Cochran-Mantel–Haenszel檢驗(yàn)

        • mantelhaen.test()函數(shù)可用來(lái)進(jìn)行Cochran—Mantel—Haenszel卡方檢驗(yàn).
        • 其原假設(shè)是雹仿,兩個(gè)名義變量在第三個(gè)變量的每一層中都是條件獨(dú)立的增热。
        • 下列代碼可以檢驗(yàn)治療情況和改善情況在性別的每一水平下是否獨(dú)立。此檢驗(yàn)假設(shè)不存在三階交互作用(治療情況×改善情況×性別)
        mytable3 <- xtabs(~Treatment+Improved+Sex,data=Arthritis)
        mantelhaen.test(mytable3)
        
        ## result 結(jié)果表明胧辽,患者接受的治療與得到的改善在性別的每一水平下并不獨(dú)立
        ## 即峻仇,分性別來(lái)看,用藥治療的患者較接受安慰劑的患者有了更多的改善
                Cochran-Mantel-Haenszel test
        
        data:  mytable3
        Cochran-Mantel-Haenszel M^2 = 14.632, df = 2, p-value = 0.0006647
        
        
      4. 關(guān)聯(lián)資料:

    7. 相關(guān)性的度量

      顯著性檢驗(yàn)評(píng)估了是否存在充分的證據(jù)以拒絕變量間相互獨(dú)立的原假設(shè)邑商。如果可以拒絕原假設(shè)摄咆,那么自然而然地轉(zhuǎn)向用以衡量相關(guān)性強(qiáng)弱的相關(guān)性度量

      1. vcd包中的assocstats()函數(shù)可以用來(lái)計(jì)算二維列聯(lián)表的phi系數(shù)、列聯(lián)系數(shù)和Cramer’s V系數(shù)

        library(vcd)
        
        assocstats(mytable)
                            X^2 df  P(> X^2)
        Likelihood Ratio 13.530  2 0.0011536
        Pearson          13.055  2 0.0014626
        
        Phi-Coefficient   : NA 
        Contingency Coeff.: 0.367 
        Cramer's V        : 0.394 
        
        ## 總體來(lái)說(shuō)人断,較大的值意味著較強(qiáng)的相關(guān)性
        
      2. 相關(guān)資料

    8. 結(jié)果的可視化

      • ca包中的對(duì)應(yīng)分析函數(shù)允許使用多種幾何表示可視地探索列聯(lián)表中行和列之間的關(guān)系
    9. 將表轉(zhuǎn)換為扁平格式

      ## 可以使用以下代碼提供的函數(shù)將R中的表轉(zhuǎn)換回扁平的數(shù)據(jù)格式
      
      table2falt <- function(mytable){
          df <- as.data.frame(table)
          rows <- dim(df)[1]
          cols <- dim(df)[2]
          x <- NULL
          for (i in 1:rows){
              for (j in 1:df$Freq[i]){
                  row <- df[i,c(1:(cols-1))]
                  x <- rbind(x,row)
              }
          }
          row.names[x] <- c(1:dim(x)[1])
          return(x)
      }
      
      
  3. 相關(guān)

    • 相關(guān)系數(shù)可以用來(lái)描述定量變量之間的關(guān)系吭从。
    • 相關(guān)系數(shù)的符號(hào)(±)表明關(guān)系的方向(正相關(guān)或負(fù)相關(guān)),其值的大小表示關(guān)系的強(qiáng)弱程度(完全不相關(guān)時(shí)為0恶迈,完全相關(guān)時(shí)為1)涩金。
    1. 相關(guān)的類(lèi)型

      • Pearson、Spearman和Kendall相關(guān)

        1. Pearson積差相關(guān)系數(shù)衡量了兩個(gè)定量變量之間的線性相關(guān)程度暇仲。

        2. Spearman等級(jí)相關(guān)系數(shù)則衡量分級(jí)定序變量之間的相關(guān)程度步做。

        3. Kendall’s Tau相關(guān)系數(shù)也是一種非參數(shù)的等級(jí)相關(guān)度量

        4. cor()函數(shù)可以計(jì)算這三種相關(guān)系數(shù),而cov()函數(shù)可用來(lái)計(jì)算協(xié)方差奈附,以下為相關(guān)系數(shù)有關(guān)的參數(shù):

          參 數(shù) 描 述
          x 矩陣或數(shù)據(jù)框
          use 指定缺失數(shù)據(jù)的處理方式全度。</br>可選的方式為all.obs(假設(shè)不存在缺失數(shù)據(jù)——遇到缺失數(shù)據(jù)時(shí)將報(bào)錯(cuò))、</br>everything(遇到缺失數(shù)據(jù)時(shí)斥滤,相關(guān)系數(shù)的計(jì)算結(jié)果將被設(shè)為missing)讼载、</br>complete.obs(行刪除)以及 pairwise.complete.obs(成對(duì)刪除,pairwise deletion)</br>默認(rèn)參數(shù)為use="everything"
          method 指定相關(guān)系數(shù)的類(lèi)型中跌。</br>可選類(lèi)型為pearson咨堤、spearman或kendall </br>默認(rèn)參數(shù)為method="pearson"
        5. 示例

          states <- state.x77[,1:6]
          
          ## 計(jì)算Pearson積差相關(guān)系數(shù)
          cor(states)
                      Population     Income Illiteracy    Life Exp     Murder
          Population  1.00000000  0.2082276  0.1076224 -0.06805195  0.3436428
          Income      0.20822756  1.0000000 -0.4370752  0.34025534 -0.2300776
          Illiteracy  0.10762237 -0.4370752  1.0000000 -0.58847793  0.7029752
          Life Exp   -0.06805195  0.3402553 -0.5884779  1.00000000 -0.7808458
          Murder      0.34364275 -0.2300776  0.7029752 -0.78084575  1.0000000
          HS Grad    -0.09848975  0.6199323 -0.6571886  0.58221620 -0.4879710
                         HS Grad
          Population -0.09848975
          Income      0.61993232
          Illiteracy -0.65718861
          Life Exp    0.58221620
          Murder     -0.48797102
          HS Grad     1.00000000
          
          ## 計(jì)算方差和協(xié)方差
          cov(states)
                        Population      Income   Illiteracy     Life Exp      Murder
          Population 19931683.7588 571229.7796  292.8679592 -407.8424612 5663.523714
          Income       571229.7796 377573.3061 -163.7020408  280.6631837 -521.894286
          Illiteracy      292.8680   -163.7020    0.3715306   -0.4815122    1.581776
          Life Exp       -407.8425    280.6632   -0.4815122    1.8020204   -3.869480
          Murder         5663.5237   -521.8943    1.5817755   -3.8694804   13.627465
          HS Grad       -3551.5096   3076.7690   -3.2354694    6.3126849  -14.549616
                          HS Grad
          Population -3551.509551
          Income      3076.768980
          Illiteracy    -3.235469
          Life Exp       6.312685
          Murder       -14.549616
          HS Grad       65.237894
          
          ## 計(jì)算Spearman等級(jí)相關(guān)系數(shù)
          cor(states,method="spearman")
                     Population     Income Illiteracy   Life Exp     Murder    HS Grad
          Population  1.0000000  0.1246098  0.3130496 -0.1040171  0.3457401 -0.3833649
          Income      0.1246098  1.0000000 -0.3145948  0.3241050 -0.2174623  0.5104809
          Illiteracy  0.3130496 -0.3145948  1.0000000 -0.5553735  0.6723592 -0.6545396
          Life Exp   -0.1040171  0.3241050 -0.5553735  1.0000000 -0.7802406  0.5239410
          Murder      0.3457401 -0.2174623  0.6723592 -0.7802406  1.0000000 -0.4367330
          HS Grad    -0.3833649  0.5104809 -0.6545396  0.5239410 -0.4367330  1.0000000
          
      • 偏相關(guān)

        1. 偏相關(guān)是指在控制一個(gè)或多個(gè)定量變量時(shí),另外兩個(gè)定量變量之間的相互關(guān)系漩符。
        2. 可以使用ggm包中的pcor()函數(shù)計(jì)算偏相關(guān)系數(shù)一喘,格式pcor(u,S),其中:
          • u是一個(gè)數(shù)值向量,前兩個(gè)數(shù)值表示要計(jì)算相關(guān)系數(shù)的變量下標(biāo)嗜暴,其余的數(shù)值為條件變量(即要排除影響的變量)的下標(biāo)凸克。
          • S為變量的協(xié)方差陣
        3. 示例
          library(ggm)
          ## 在控制了收入、文盲率和高中畢業(yè)率時(shí),人口和謀殺率的偏相關(guān)系數(shù)
          pcor(c(1,5,2,3,6),cov(states))
          
      • 其他類(lèi)型的相關(guān)

        • polycor包中的hetcor()函數(shù)可以計(jì)算一種混合的相關(guān)矩陣闷沥,其中包括數(shù)值型變量的Pearson積差相關(guān)系數(shù)萎战、數(shù)值型變量和有序變量之間的多系列相關(guān)系數(shù)、有序變量之間的多分格相關(guān)系數(shù)以及二分變量之間的四分相關(guān)系數(shù)
    2. 相關(guān)性的顯著性檢驗(yàn)

      • 在計(jì)算好相關(guān)系數(shù)以后舆逃,可以進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)蚂维。常用的原假設(shè)為變量間不相關(guān)(即總體的相關(guān)系數(shù)為0)戳粒。

      • 可以使用默認(rèn)包的cor.test()函數(shù)對(duì)單個(gè)的Pearson、Spearman和Kendall相關(guān)系數(shù)進(jìn)行檢驗(yàn)虫啥。簡(jiǎn)化后的使用格式為:cor.test(x,y,alternative=,method=)

        • x和y為要檢驗(yàn)相關(guān)性的變量
        • alternative則用來(lái)指定進(jìn)行雙側(cè)檢驗(yàn)或單側(cè)檢驗(yàn)(取值為"two.side"蔚约、"less"或"greater")。當(dāng)研究的假設(shè)為總體的相關(guān)系數(shù)小于0時(shí)涂籽,請(qǐng)使用alternative="less"苹祟。在研究的假設(shè)為總體的相關(guān)系數(shù)大于0時(shí),應(yīng)使用alternative="greater"
        • method用以指定要計(jì)算的相關(guān)類(lèi)型("pearson"评雌、"kendall"或"spearman")树枫。
          -- 示例
        ## 檢驗(yàn)預(yù)期壽命和謀殺率的Pearson相關(guān)系數(shù)為0的原假設(shè)
        ## 假設(shè)總體的相關(guān)度為0,則預(yù)計(jì)在一千萬(wàn)次中只會(huì)有少于一次的機(jī)會(huì)見(jiàn)到0.703這樣大的樣本相關(guān)度(即p = 1.258e?08)景东。由于這種情況幾乎不可能發(fā)生砂轻,所以你可以拒絕原假設(shè),從而支持了要研究的猜想耐薯,即預(yù)期壽命和謀殺率之間的總體相關(guān)度不為0
        
        cor.test(states[,3],states[,5])
        
                Pearson's product-moment correlation
        
        data:  states[, 3] and states[, 5]
        t = 6.8479, df = 48, p-value = 1.258e-08
        alternative hypothesis: true correlation is not equal to 0
        95 percent confidence interval:
         0.5279280 0.8207295
        sample estimates:
              cor 
        0.7029752 
        
      • psych包中提供的corr.test()函數(shù)可以為Pearson舔清、Spearman或Kendall相關(guān)計(jì)算相關(guān)矩陣和顯著性水平,格式corr.test(x,use=,method=)

        • 參數(shù)use=的取值可為"pairwise"或"complete"(分別表示對(duì)缺失值執(zhí)行成對(duì)刪除或行刪除)曲初。
        • 參數(shù)method=的取值可為"pearson"(默認(rèn)值)体谒、"spearman"或"kendall"。
          corr.test(states,use="complete")
          Call:corr.test(x = states, use = "complete")
          Correlation matrix 
                     Population Income Illiteracy Life Exp Murder HS Grad
          Population       1.00   0.21       0.11    -0.07   0.34   -0.10
          Income           0.21   1.00      -0.44     0.34  -0.23    0.62
          Illiteracy       0.11  -0.44       1.00    -0.59   0.70   -0.66
          Life Exp        -0.07   0.34      -0.59     1.00  -0.78    0.58
          Murder           0.34  -0.23       0.70    -0.78   1.00   -0.49
          HS Grad         -0.10   0.62      -0.66     0.58  -0.49    1.00
          Sample Size 
          [1] 50
          Probability values (Entries above the diagonal are adjusted for multiple tests.) 
                     Population Income Illiteracy Life Exp Murder HS Grad
          Population       0.00   0.59       1.00      1.0   0.10       1
          Income           0.15   0.00       0.01      0.1   0.54       0
          Illiteracy       0.46   0.00       0.00      0.0   0.00       0
          Life Exp         0.64   0.02       0.00      0.0   0.00       0
          Murder           0.01   0.11       0.00      0.0   0.00       0
          HS Grad          0.50   0.00       0.00      0.0   0.00       0
          
          To see confidence intervals of the correlations, print with the short=FALSE option
          
      • 其他顯著性校驗(yàn)

        • 在多元正態(tài)性的假設(shè)下臼婆,ggm包中的pcor.test()函數(shù)可以用來(lái)檢驗(yàn)在控制一個(gè)或多個(gè)額外變量時(shí)兩個(gè)變量之間的條件獨(dú)立性抒痒。
        • psych包中的r.test()函數(shù)提供了多種實(shí)用的顯著性檢驗(yàn)方法。此函數(shù)可用來(lái)檢驗(yàn):
          • 某種相關(guān)系數(shù)的顯著性颁褂;
          • 兩個(gè)獨(dú)立相關(guān)系數(shù)的差異是否顯著故响;
          • 兩個(gè)基于一個(gè)共享變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著;
          • 兩個(gè)基于完全不同的變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著颁独。
  4. t校驗(yàn)

    1. 獨(dú)立樣本的t校驗(yàn)

      1. 一個(gè)針對(duì)兩組的獨(dú)立樣本t檢驗(yàn)可以用于檢驗(yàn)兩個(gè)總體的均值相等的假設(shè)彩届。這里假設(shè)兩組數(shù)據(jù)是獨(dú)立的,并且是從正態(tài)總體中抽得誓酒。檢驗(yàn)的調(diào)用格式為:
        • ```t.test( y ~ x,data)``,其中的y是一個(gè)數(shù)值型變量樟蠕,x是一個(gè)二分變量】扛蹋可選參數(shù)data的取值為一個(gè)包含了這些變量的矩陣或數(shù)據(jù)框寨辩。
        • t.test(y1,ye),其中的y1和y2為數(shù)值型向量(即各組的結(jié)果變量)。
        • 此方法的t檢驗(yàn)?zāi)J(rèn)假定方差不相等歼冰,并使用Welsh的修正自由度靡狞。可以添加一個(gè)參數(shù)var.equal=TRUE以假定方差相等隔嫡,并使用合并方差估計(jì)甸怕。
        • 默認(rèn)的備擇假設(shè)是雙側(cè)的(即均值不相等甘穿,但大小的方向不確定)±俑鳎可以添加一個(gè)參數(shù)alternative="less"或alternative="greater"來(lái)進(jìn)行有方向的檢驗(yàn)
      2. 示例:
        ## 一個(gè)假設(shè)方差不等的雙側(cè)檢驗(yàn)扒磁,比較了南方(group 1)和非南方(group 0)各州的監(jiān)禁概率
        
        library(MASS)
        t.test(Prob ~ So,data=UScrime)
        
                Welch Two Sample t-test
        
        data:  Prob by So
        t = -3.8954, df = 24.925, p-value = 0.0006506
        alternative hypothesis: true difference in means is not equal to 0
        95 percent confidence interval:
         -0.03852569 -0.01187439
        sample estimates:
        mean in group 0 mean in group 1 
             0.03851265      0.06371269 
             
        ## 根據(jù)結(jié)果你可以拒絕南方各州和非南方各州擁有相同監(jiān)禁概率的假設(shè)(p < .001)庆揪。     
        
    2. 非獨(dú)立樣本的t檢驗(yàn)

      1. 在兩組的觀測(cè)之間相關(guān)時(shí)式曲,你獲得的是一個(gè)非獨(dú)立組設(shè)計(jì)(dependent groups design)。前—后測(cè)設(shè)計(jì)(pre-post design)或重復(fù)測(cè)量設(shè)計(jì)(repeated measures design)同樣也會(huì)產(chǎn)生非獨(dú)立的組
      2. 非獨(dú)立樣本的t檢驗(yàn)假定組間的差異呈正態(tài)分布缸榛。對(duì)于本例吝羞,檢驗(yàn)的調(diào)用格式為:
        • t.test(y1,y2,paired=TRUE),其中y1和y2為兩個(gè)非獨(dú)立組的數(shù)值向量
      3. 示例
        sapply(UScrime[c("U1","U2")],function(x){c(mean=mean(x),sd=sd(x))})
        
        with(UScrime,t.test(U1,U2,paired=TRUE))
        
                Paired t-test
        
        data:  U1 and U2
        t = 32.407, df = 46, p-value < 2.2e-16
        alternative hypothesis: true difference in means is not equal to 0
        95 percent confidence interval:
         57.67003 65.30870
        sample estimates:
        mean of the differences 
                       61.48936 
                       
        ## 差異的均值(61.5)足夠大内颗,可以保證拒絕年長(zhǎng)和年輕男性的平均失業(yè)率相同的假設(shè)钧排。年輕男性的失業(yè)率更高。事實(shí)上均澳,若總體均值相等恨溜,獲取一個(gè)差異如此大的樣本的概率小于0.000 000 000 000 000 22(即2.2e?16)
        
        
    3. 多于兩組的t校驗(yàn)情況

      1. 如果想在多于兩個(gè)的組之間進(jìn)行比。如果能夠假設(shè)數(shù)據(jù)是從正態(tài)總體中獨(dú)立抽樣而得的找前,可以使用方差分析(ANOVA)糟袁。ANOVA是一套覆蓋了許多實(shí)驗(yàn)設(shè)計(jì)和準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)的綜合方法
  5. 組間差異的非參數(shù)檢驗(yàn)

    如果數(shù)據(jù)無(wú)法滿足t檢驗(yàn)或ANOVA的參數(shù)假設(shè),可以轉(zhuǎn)而使用非參數(shù)方法

    ==當(dāng)t檢驗(yàn)的假設(shè)合理時(shí)躺盛,參數(shù)檢驗(yàn)的功效更強(qiáng)(更容易發(fā)現(xiàn)存在的差異)项戴。而非參數(shù)檢驗(yàn)在假設(shè)非常不合理時(shí)(如對(duì)于等級(jí)有序數(shù)據(jù))更適用==

    1. 兩組的比較

      1. 若兩組數(shù)據(jù)獨(dú)立,可以使用Wilcoxon秩和檢驗(yàn)(更廣為人知的名字是Mann–Whitney U檢驗(yàn))來(lái)評(píng)估觀測(cè)是否是從相同的概率分布中抽得的(即槽惫,在一個(gè)總體中獲得更高得分的概率是否比另一個(gè)總體要大)
      2. 格式:wilcoxo.test(y ~ x,data)周叮,其中的y是數(shù)值型變量,而x是一個(gè)二分變量界斜。
      3. 調(diào)用格式或?yàn)椋?code>wilcoxo.test(y1,y2)仿耽,其中的y1和y2為各組的結(jié)果變量。
      4. 可選參數(shù)data的取值為一個(gè)包含了這些變量的矩陣或數(shù)據(jù)框各薇。
      5. 默認(rèn)進(jìn)行一個(gè)雙側(cè)檢驗(yàn)项贺。可以添加參數(shù)exact來(lái)進(jìn)行精確檢驗(yàn)得糜,指定alternative="less"或alternative="greater"進(jìn)行有方向的檢驗(yàn)
      6. 示例敬扛。。朝抖。啥箭。
    2. 多于兩組的比較

      1. 單向設(shè)計(jì)(one-way design),可以使用參數(shù)或非參數(shù)的方法來(lái)解決這個(gè)問(wèn)題治宣。
      2. 如果無(wú)法滿足ANOVA設(shè)計(jì)的假設(shè)急侥,那么可以使用非參數(shù)方法來(lái)評(píng)估組間的差異砌滞。如果各組獨(dú)立,則Kruskal—Wallis檢驗(yàn)將是一種實(shí)用的方法坏怪。如果各組不獨(dú)立(如重復(fù)測(cè)量設(shè)計(jì)或隨機(jī)區(qū)組設(shè)計(jì))贝润,那么Friedman檢驗(yàn)會(huì)更合適。
      3. Kruskal–Wallis檢驗(yàn)的調(diào)用格式為:kruskal.test(y ~ A,data),其中的y是一個(gè)數(shù)值型結(jié)果變量铝宵,A是一個(gè)擁有兩個(gè)或更多水平的分組變量(grouping variable)打掘。
        (若有兩個(gè)水平,則它與Mann–Whitney U檢驗(yàn)等價(jià)鹏秋。)
      4. Friedman檢驗(yàn)的調(diào)用格式為:friedman.test(y ~ A|B, data),其中的y是數(shù)值型結(jié)果變量尊蚁,A是一個(gè)分組變量,而B(niǎo)是一個(gè)用以認(rèn)定匹配觀測(cè)的區(qū)組變量(blocking
        variable)
      5. 一種更為優(yōu)雅的方法是在控制犯第一類(lèi)錯(cuò)誤的概率(發(fā)現(xiàn)一個(gè)事實(shí)上并不存在的差異的概率)的前提下,執(zhí)行可以同步進(jìn)行的多組比較侣夷,這樣可以直接完成所有組之間的成對(duì)比較横朋。npmc包提供了所需要的非參數(shù)多組比較程序
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市百拓,隨后出現(xiàn)的幾起案子琴锭,更是在濱河造成了極大的恐慌,老刑警劉巖衙传,帶你破解...
    沈念sama閱讀 218,451評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件决帖,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡粪牲,警方通過(guò)查閱死者的電腦和手機(jī)古瓤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)腺阳,“玉大人落君,你說(shuō)我怎么就攤上這事⊥ひ” “怎么了绎速?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,782評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)焙蚓。 經(jīng)常有香客問(wèn)我纹冤,道長(zhǎng),這世上最難降的妖魔是什么购公? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,709評(píng)論 1 294
  • 正文 為了忘掉前任萌京,我火速辦了婚禮,結(jié)果婚禮上宏浩,老公的妹妹穿的比我還像新娘知残。我一直安慰自己吆鹤,他們只是感情好栏笆,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著擒权,像睡著了一般保屯。 火紅的嫁衣襯著肌膚如雪单旁。 梳的紋絲不亂的頭發(fā)上已球,一...
    開(kāi)封第一講書(shū)人閱讀 51,578評(píng)論 1 305
  • 那天宽菜,我揣著相機(jī)與錄音,去河邊找鬼净神。 笑死何吝,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的强挫。 我是一名探鬼主播岔霸,決...
    沈念sama閱讀 40,320評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼薛躬,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼俯渤!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起型宝,我...
    開(kāi)封第一講書(shū)人閱讀 39,241評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤八匠,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后趴酣,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體梨树,經(jīng)...
    沈念sama閱讀 45,686評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評(píng)論 3 336
  • 正文 我和宋清朗相戀三年岖寞,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了抡四。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,992評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡仗谆,死狀恐怖指巡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情隶垮,我是刑警寧澤藻雪,帶...
    沈念sama閱讀 35,715評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站狸吞,受9級(jí)特大地震影響勉耀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蹋偏,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評(píng)論 3 330
  • 文/蒙蒙 一便斥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧威始,春花似錦枢纠、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,912評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)宅广。三九已至,卻和暖如春些举,著一層夾襖步出監(jiān)牢的瞬間跟狱,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,040評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工户魏, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留驶臊,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,173評(píng)論 3 370
  • 正文 我出身青樓叼丑,卻偏偏與公主長(zhǎng)得像关翎,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鸠信,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容