《Discovering Statistics Using R》筆記7-Pearson相關(guān)系數(shù)

筆記說明

讀《Discovering Statistics Using R》第六章 Correlation中的6.3-6.5.4.2節(jié)做的筆記虎韵。另外涉及第四章散點圖的內(nèi)容社痛。主要是介紹Pearson相關(guān)系數(shù)馒索。

示例數(shù)據(jù)

有個心理學(xué)家對考試焦慮對考試成績的影響比較感興趣下翎。她設(shè)計了一個量表評估考試焦慮程度顽冶。考試前用量表測量學(xué)生的焦慮程度(變量Anxiety)岩喷,用成績百分位數(shù)反映考試表現(xiàn)(變量Exam)。數(shù)據(jù)在這里:Exam Anxiety
Revise變量表示修改所花的時間

#數(shù)據(jù)導(dǎo)入
library(rio)
examData <- import("data/Exam Anxiety.dat")
str(examData)
## 'data.frame':    103 obs. of  5 variables:
##  $ Code   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Revise : int  4 11 27 53 4 22 16 21 25 18 ...
##  $ Exam   : int  40 65 80 80 40 70 20 55 50 40 ...
##  $ Anxiety: num  86.3 88.7 70.2 61.3 89.5 ...
##  $ Gender : chr  "Male" "Female" "Male" "Male" ...

散點圖

進行兩個定量變量的相關(guān)性分析的第一步應(yīng)當(dāng)是做兩個變量的散點圖:

#散點圖
library(ggplot2)
scatter <- ggplot(examData, aes(Anxiety, Exam)) + geom_point()

從散點圖可以看出一些趨勢监憎。低水平的焦慮與好成績相關(guān)聯(lián)纱意,而高水平的焦慮對應(yīng)成績的方差很大。

協(xié)方差與Pearson相關(guān)系數(shù)

協(xié)方差(covariance)可以衡量成對出現(xiàn)的兩變量間線性關(guān)系的強度鲸阔。
cov(x,y)=\frac{\Sigma(x_i-\overline{x}) (y_i-\overline{y}) }{N-1}
計算兩個變量的協(xié)方差可以評估兩個變量間的線性相關(guān)關(guān)系偷霉。
協(xié)方差為正表示當(dāng)x偏離\overline{x}時,(平均來說)y以同樣的方向偏離\overline{y}褐筛。
協(xié)方差為負表示當(dāng)x偏離\overline{x}時类少,(平均來說)y以相反的方向偏離\overline{y}
可以用cov()計算協(xié)方差:

> cov(examData$Anxiety,examData$Exam)
[1] -196.554

協(xié)方差受到量綱影響且不容易直接解讀渔扎,對協(xié)方差進行標準化后得到線性相關(guān)系數(shù):
r=cor(X,Y)=\frac{cov(X,Y) }{sd(X)sd(Y)}
線性相關(guān)系數(shù)消除了量綱的影響硫狞。取值范圍為[-1, 1],相關(guān)系數(shù)絕對值越接近1表示線性相關(guān)的程度越強晃痴,相關(guān)系數(shù)為0表示無線性相關(guān)關(guān)系残吩。
由上式定義的r稱為皮爾森相關(guān)系數(shù)(pearson correlation coefficient)。有時也用R來表示倘核。一般來說在回歸的語境下使用大寫的R代表復(fù)相關(guān)系數(shù)(multiple correlation coefficient)泣侮;另外,當(dāng)我們使用r^2時也經(jīng)常使用大寫的R紧唱。樣本person相關(guān)系數(shù)用r表示活尊,總體person相關(guān)系數(shù)用ρ表示隶校。

Pearson相關(guān)系數(shù)的假設(shè)檢驗與區(qū)間估計

對Pearson相關(guān)系數(shù)的假設(shè)檢驗的無效假設(shè)為總體相關(guān)系數(shù)ρ=0,備擇假設(shè)為總體相關(guān)系數(shù)ρ≠0蛹锰。有兩種方法進行假設(shè)檢驗深胳。實際應(yīng)用的時候通常使用t檢驗來進行假設(shè)檢驗,利用Fisher-Z變換來進行區(qū)間估計:
1宁仔、Z檢驗稠屠。
如果抽樣分布符合正態(tài)分布,可以利用Z值進行假設(shè)檢驗翎苫。應(yīng)用到pearson相關(guān)系數(shù)時有一個問題:r的抽樣分布不符合正態(tài)分布权埠。根據(jù)Fisher大神,對r進行Fisher-Z變換后得到統(tǒng)計量z_r近似服從正態(tài)分布:
z_r=\frac{1}{2} ln(\frac{1+r}{1-r})z_r=tanh^{-1}r
其中tanh^{-1}為反雙曲正切函數(shù)
變換后的z_r近似服從均值為\frac{1}{2} ln(\frac{1+ρ}{1-ρ})煎谍,標準差為\frac{1} {\sqrt{N-3}}的正態(tài)分布攘蔽。
進而可以對z_r進行Z檢驗:
z=\frac{z_r}{SE_{z_r}}=z_r\sqrt{N-3}
利用Fisher-Z變換得到的z_r我們可以對相關(guān)系數(shù)的進行區(qū)間估計。
z_r的95%置信區(qū)間的上下限可以由z_r±1.96SE_{z_r}求得呐粘。
r=tanhz_r
雙曲正切函數(shù)是單調(diào)的满俗,因此r的95%置信區(qū)間的上下限可以由z_r的95%置信區(qū)間的上下限通過雙曲正切函數(shù)求出。

2作岖、t檢驗
實際上Pearson相關(guān)系數(shù)的假設(shè)檢驗通常不使用上述方法唆垃,而是用t檢驗完成。
檢驗統(tǒng)計量t_r服從自由度為N-2的t分布:
t_r=\frac{r-0}{S_r}
其中S_r=\sqrt{\frac {1-r^2}{N-2}}

Pearson相關(guān)系數(shù)的假設(shè)

如果只要Pearson相關(guān)系數(shù)能夠準確衡量兩個變量之間的線性相關(guān)關(guān)系痘儡,那么只要求數(shù)據(jù)滿足定距變量即可辕万。(定距變量的數(shù)據(jù)可以進行分類、排序沉删、加減運算渐尿,不要求乘除運算。定距變量值之間的差值有實際意義)
如果要說明Pearson相關(guān)系數(shù)有統(tǒng)計學(xué)意義矾瑰。則需要滿足更多的假設(shè):需要變量滿足定距變量砖茸,并且服從正態(tài)分布(我學(xué)過的教材中講相關(guān)系數(shù)檢驗假設(shè)兩個變量滿足二元正態(tài)分布。二元正態(tài)分布的數(shù)據(jù)在散點圖上顯示出橢圓形的輪廓形狀)殴穴。
如果不符合這兩條凉夯,則應(yīng)該考慮使用其他相關(guān)系數(shù)或者使用bootstrapping.

用R計算相關(guān)系數(shù)

R中常用的可以計算相關(guān)系數(shù)的函數(shù)有:cor()cor.test()采幌, rcorr()恍涂。
前兩個函數(shù)是R自帶的,rcorr()Hmisc包中的函數(shù)植榕,使用前需先加載包再沧。
這三個函數(shù)能夠?qū)崿F(xiàn)的相關(guān)功能見下圖:


表中的Spearman,Kendall是另外兩種相關(guān)系數(shù),會在之后介紹尊残。
本次筆記省略rcorr()的介紹炒瘸。
cor()用法:
cor(x, y, use = "string", method = "correlation type")

  • x 為數(shù)值型變量或一個由數(shù)值型變量構(gòu)成的dataframe
  • y 為數(shù)值型變量(若x為dataframe則y可不指定)
  • use:指定缺失數(shù)據(jù)如何處理:
    (1)"everything" :如果分析涉及的變量有缺失值淤堵,則函數(shù)返回NA。默認如此處理顷扩。
    (2)"all.obs":使用所有樣本拐邪,若有缺失值則會報錯。
    (3)"complete.obs":使用所有變量均未缺失的樣本進行相關(guān)系數(shù)計算隘截。
    (4)"pairwise.complete.obs":計算某2個變量相關(guān)系數(shù)時使用這2個變量均未缺失的樣本計算扎阶。
  • method:指定計算哪種相關(guān)系數(shù) "pearson" "spearman" "kendall"。默認為pearson婶芭。若想計算多種可以用c()如:c("pearson","spearman")
    例:使用cor()計算各數(shù)值型變量之間的Pearson相關(guān)系數(shù)东臀。
    由于變量Gender不是數(shù)值型變量,需舍棄犀农。
cor(examData[,c("Exam","Anxiety","Revise")])

生成各數(shù)值變量之間的相關(guān)系數(shù)矩陣

##               Exam    Anxiety     Revise
## Exam     1.0000000 -0.4409934  0.3967207
## Anxiety -0.4409934  1.0000000 -0.7092493
## Revise   0.3967207 -0.7092493  1.0000000

可以使用R自帶的pairs()生成散點圖矩陣:

pairs(examData[,c("Exam","Anxiety","Revise")])

cor.test()用法:
cor.test(x, y, alternative = "string", method = "correlation type", conf.level = 0.95)

  • x為數(shù)值型變量
  • y為數(shù)值型變量 x y長度需相同惰赋。
  • alternative:指定備擇假設(shè)類型:
    (1)"two.sided"指定雙側(cè)檢驗,默認為此
    (2)"less"指定單側(cè)檢驗呵哨,預(yù)計相關(guān)系數(shù)為負
    (3)”greater“指定單側(cè)檢驗赁濒,預(yù)計相關(guān)系數(shù)為正
  • method:指定計算哪種相關(guān)系數(shù) "pearson" "spearman" "kendall"。默認為pearson孟害。若想計算多種可以用c()如:c("pearson","spearman")
  • conf.level:指定相關(guān)系數(shù)置信區(qū)間長度默認為0.95 只計算pearson相關(guān)系數(shù)的置信區(qū)間且需要至少4對數(shù)據(jù)拒炎。
    例:
cor.test(examData$Anxiety,examData$Exam)
##  Pearson's product-moment correlation
## 
## data:  examData$Anxiety and examData$Exam
## t = -4.938, df = 101, p-value = 3.128e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.5846244 -0.2705591
## sample estimates:
##        cor 
## -0.4409934 

cor.test()對pearson相關(guān)系數(shù)的假設(shè)檢驗使用的方法為上面介紹的t檢驗,計算置信區(qū)間使用的方法是上面介紹的Fisher-Z變換挨务。

警惕對相關(guān)系數(shù)進行因果關(guān)系解讀

解讀相關(guān)系數(shù)時需要注意相關(guān)并不意味著因果關(guān)系(causality)击你。原因有二:
1、混雜變量問題耘子。在相關(guān)分析中,可能存在其他變量影響結(jié)果球切。
2谷誓、因果關(guān)系的方向問題。相關(guān)分析中無法分辨兩個變量哪個是因哪個是果吨凑。

決定系數(shù)

Pearson相關(guān)系數(shù)的平方R^2稱為決定系數(shù)(coefficient of determination).決定系數(shù)表示一個變量的總變異中與另一個變量共享的部分占比(the amount of variability in one variable that is shared by the other)捍歪。
舉例來說:在剛才考試焦慮程度和考試表現(xiàn)的分析中,考試表現(xiàn)在不同人之間存在變異鸵钝〔诰剩可以用離均差平方和來代表考試表現(xiàn)的總變異程度。R^2表示了考試表現(xiàn)得總變異中與考試焦慮共享的比例恩商。在本例中R^2=0.194.
當(dāng)解釋R^2時很多人會解讀為因果關(guān)系变逃,“考試焦慮能解釋考試表現(xiàn)19.4%的變異”(the variance in y accounted for by x或the variation in one variable explained by the other)。雖然決定系數(shù)是效應(yīng)實際重要性的很有用的測量怠堪,但注意它并不能用來推導(dǎo)因果關(guān)系揽乱。
計算決定系數(shù):

cor(examData[,c("Exam","Anxiety","Revise")])^2
##             Exam   Anxiety    Revise
## Exam    1.0000000 0.1944752 0.1573873
## Anxiety 0.1944752 1.0000000 0.5030345
## Revise  0.1573873 0.5030345 1.0000000
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末名眉,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子凰棉,更是在濱河造成了極大的恐慌损拢,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撒犀,死亡現(xiàn)場離奇詭異福压,居然都是意外死亡,警方通過查閱死者的電腦和手機或舞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門荆姆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人嚷那,你說我怎么就攤上這事胞枕。” “怎么了魏宽?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵腐泻,是天一觀的道長。 經(jīng)常有香客問我队询,道長派桩,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任蚌斩,我火速辦了婚禮铆惑,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘送膳。我一直安慰自己员魏,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布叠聋。 她就那樣靜靜地躺著撕阎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪碌补。 梳的紋絲不亂的頭發(fā)上虏束,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機與錄音厦章,去河邊找鬼镇匀。 笑死,一個胖子當(dāng)著我的面吹牛袜啃,可吹牛的內(nèi)容都是我干的捆等。 我是一名探鬼主播蛾绎,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼涵亏,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了冀值?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤宫屠,失蹤者是張志新(化名)和其女友劉穎列疗,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體浪蹂,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡抵栈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了坤次。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片古劲。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖缰猴,靈堂內(nèi)的尸體忽然破棺而出产艾,到底是詐尸還是另有隱情,我是刑警寧澤滑绒,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布闷堡,位于F島的核電站,受9級特大地震影響疑故,放射性物質(zhì)發(fā)生泄漏杠览。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一纵势、第九天 我趴在偏房一處隱蔽的房頂上張望踱阿。 院中可真熱鬧,春花似錦钦铁、人聲如沸软舌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽佛点。三九已至,卻和暖如春躏仇,著一層夾襖步出監(jiān)牢的瞬間恋脚,已是汗流浹背腺办。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工焰手, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人怀喉。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓书妻,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子躲履,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353