1. 相關(guān)性檢驗(yàn)
得出相關(guān)系數(shù)我們并不一定能得出數(shù)據(jù)之間的相關(guān)水平葫松,這時(shí)候我們會(huì)進(jìn)行相關(guān)性檢驗(yàn)來進(jìn)行量化。
置信區(qū)間:confidence interval,是指由由樣本統(tǒng)計(jì)量所構(gòu)成的總體參數(shù)的估計(jì)區(qū)間。在統(tǒng)計(jì)學(xué)中负间,一個(gè)概率樣本的置信區(qū)間是對(duì)這個(gè)樣本的某個(gè)總體參數(shù)的區(qū)間估計(jì)。置信區(qū)間展現(xiàn)的是這個(gè)參數(shù)的真實(shí)值有一定概率落在測(cè)量結(jié)果的周圍的程度姜凄。置信區(qū)間給出的是被測(cè)量參數(shù)的測(cè)量值的可信程度政溃。簡(jiǎn)單來說就是只有概率還不行,還得知道概率發(fā)生的范圍态秧。例如董虱,如果在一次大選中某人的支持率為55%,而置信水平0.95以上的置信區(qū)間是(50%,60%)屿聋,那么他的真實(shí)支持率有百分之九十五的機(jī)率空扎,落在百分之五十和百分之六十之間藏鹊,因此他的真實(shí)支持率不足一半的可能性小于百分之5润讥。
1.1 單組檢驗(yàn)(cor.test函數(shù))
cor.test函數(shù)每次只能檢測(cè)一組變量。它有四個(gè)重要的參數(shù)盘寡,x和y是需要檢測(cè)的相關(guān)性的變量楚殿,alternative參數(shù)指明是進(jìn)行兩邊檢驗(yàn)(two.sided)或正相關(guān)檢驗(yàn)(greater)或負(fù)相關(guān)檢驗(yàn)(less)。method參數(shù)選擇算法(Pearson竿痰、Spearman脆粥、Kendall)
cor.test(state.x77[,3],state.x77[,5]) #檢驗(yàn)state.x77數(shù)據(jù)集的第三列和第五列的相關(guān)性
1.2 多組變量檢驗(yàn)(corr.test函數(shù))
psych包中的corr.test可以一次性檢驗(yàn)多組變量,可以遞歸計(jì)算整個(gè)數(shù)據(jù)集影涉。
library(psych)#載入包
corr.test(state.x77)#計(jì)算各列之間的相關(guān)系數(shù)和相關(guān)性檢驗(yàn)
該函數(shù)不僅計(jì)算了相關(guān)系數(shù)变隔,而且計(jì)算了相關(guān)性檢驗(yàn)的值
1.3 偏相關(guān)檢驗(yàn)(pcor.test函數(shù))
偏相關(guān)
library(ggm)
x<-pcor(c(1,5,2,3,6),cov(state.x77))
pcor.test(x,3,50)
1.4 分組數(shù)據(jù)的相關(guān)性檢驗(yàn)(t.test函數(shù))
1.4.1 兩組數(shù)據(jù)
t檢驗(yàn)適用于樣本含量較小,總體方差未知的正態(tài)分布數(shù)據(jù)
UScrime數(shù)據(jù)集是美國七個(gè)州的刑罰制度對(duì)犯罪率影響的數(shù)據(jù)集蟹倾。
t檢驗(yàn)使用t.test()函數(shù),格式為y~x匣缘,其中y是數(shù)值型變量猖闪,x是二分型變量。波浪線后面是分組變量肌厨,南方和北方分成兩組培慌,做了t檢驗(yàn)。
library(MASS)#加載數(shù)據(jù)集
UScrime
t.test(Prob~So,data=UScrime)#通過So列進(jìn)行分組柑爸,對(duì)Prob列數(shù)據(jù)進(jìn)行t檢驗(yàn)
1.4.2 多于兩組數(shù)據(jù)
如果想在多余兩個(gè)組的數(shù)據(jù)中進(jìn)行比較吵护,數(shù)據(jù)符合正態(tài)分布我們就用方差分析,如果不符合正態(tài)分布則用非參數(shù)的方法表鳍。在相關(guān)性檢驗(yàn)中馅而,我們可以用參數(shù)方法和非參數(shù) 方法。統(tǒng)計(jì)分析方法包括參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)譬圣,
- 參數(shù)檢驗(yàn):參數(shù)檢驗(yàn)用爪,Parametric tests,是在總體分布形式已知的情況下胁镐,對(duì)總體分布的參數(shù)如均值偎血、方差等進(jìn)行推斷的方法。也就是數(shù)據(jù)分布已知盯漂,比如滿足正態(tài)分布颇玷。
- 非參數(shù)檢驗(yàn):稱為Nonparametric tests,在總體方差未知或知道甚少的情況下就缆,利用樣本數(shù)據(jù)對(duì)總體分布形態(tài)等進(jìn)行推斷的方法帖渠。由于非參數(shù)檢驗(yàn)方法在推斷過程中不涉及有關(guān)總體分布的參數(shù),因而得名為“非參數(shù)”檢驗(yàn)竭宰。