筆記說明
讀《Discovering Statistics Using R》第六章 Correlation中的6.5.5-6.5.6節(jié)做的筆記塑娇。主要是介紹Spearman相關(guān)系數(shù)和Kendall’s tau相關(guān)系數(shù)。
示例數(shù)據(jù)
設(shè)我們想要驗(yàn)證一個(gè)理論:創(chuàng)造力更強(qiáng)的人可以講出更厲害的故事州叠。有這么一個(gè)比賽“the World's Biggest Liar competition”每年舉辦一次即硼。作者收集了68個(gè)參賽者的比賽名次數(shù)據(jù)并讓他們做了一份考察創(chuàng)造力的量表,滿分60分。數(shù)據(jù)在這里:The Biggest Liar.dat
library(rio)
liarData <- import("data/The Biggest Liar.dat")
str(liarData)
## 'data.frame': 68 obs. of 3 variables:
## $ Creativity: int 53 36 31 43 30 41 32 54 47 50 ...
## $ Position : int 1 3 4 2 4 1 4 1 2 2 ...
## $ Novice : int 0 1 0 0 1 0 0 1 1 0 ...
Position即為比賽名次傻唾,Creativity即為創(chuàng)造力評分。
由于position變量為定序變量承耿,而Pearson相關(guān)系數(shù)要求數(shù)據(jù)為定距變量冠骄,不適合使用Pearson相關(guān)系數(shù)。
仍然是先做一個(gè)散點(diǎn)圖看一下數(shù)據(jù)情況:
#散點(diǎn)圖
library(ggplot2)
scatter <- ggplot(liarData, aes(Creativity, Position)) + geom_point()
Spearman相關(guān)系數(shù)
Spearman相關(guān)系數(shù) 是一個(gè)非參數(shù)統(tǒng)計(jì)量加袋,也稱為Spearman's rho凛辣,可用于數(shù)據(jù)違反參數(shù)假設(shè)(例如正態(tài)性假設(shè))的情形。計(jì)算Spearman相關(guān)系數(shù)時(shí)首先將原始數(shù)據(jù)從小到達(dá)排序編秩职烧,對排序后的秩次計(jì)算Pearson相關(guān)系數(shù)即為原數(shù)據(jù)的Spearman相關(guān)系數(shù)扁誓。
和Pearson相關(guān)系數(shù)一樣,Spearman相關(guān)系數(shù)可以使用cor()
蚀之、cor.test()
進(jìn)行計(jì)算和檢驗(yàn)蝗敢,只需指定method='spearman'
即可:
cor(liarData$Creativity, liarData$Position, method = 'spearman')
## [1] -0.3732184
cor.test(liarData$Creativity, liarData$Position,method = 'spearman')
## Spearman's rank correlation rho
##
## data: liarData$Creativity and liarData$Position
## S = 71948, p-value = 0.00172
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.3732184
##
## Warning message:
## In cor.test.default(liarData$Creativity, liarData$Position, method = "spearman") :
## 無法給連結(jié)計(jì)算精確p值
cor.test()
對Spearman相關(guān)系數(shù)的結(jié)果和Pearson相關(guān)系數(shù)的很像。但沒有置信區(qū)間(如果需要計(jì)算置信區(qū)間可以用bootstrap法足删,見之后章節(jié)的筆記)
Kendall's tau相關(guān)系數(shù)
Kendall's tau, 寿谴,也是一個(gè)非參數(shù)相關(guān)系數(shù),當(dāng)樣本量較小失受,排序編秩時(shí)相同秩次的數(shù)又比較多時(shí)使用讶泰。
Spearman相關(guān)系數(shù)和Kendall's tau相關(guān)系數(shù)都是非參數(shù)相關(guān)系數(shù)咏瑟,雖然Spearman相關(guān)系數(shù)更多見,有文獻(xiàn)(Howell,1997)表明Kendall's tau相關(guān)系數(shù)實(shí)際上是總體相關(guān)關(guān)系更好的估計(jì)痪署。
示例數(shù)據(jù)中Position
變量有很多值都是編秩時(shí)秩次相同的码泞,上面用cor.test()
計(jì)算并檢驗(yàn)Spearman相關(guān)系數(shù)時(shí)結(jié)果中有一條warning中所說的“連結(jié)”就是指tied ranks,秩次相同的情況有些多惠桃。
和之前介紹的其他兩個(gè)相關(guān)系數(shù)一樣浦夷,Kendall's tau相關(guān)系數(shù)可以使用cor()
、cor.test()
進(jìn)行計(jì)算和檢驗(yàn)辜王,只需指定method='kendall'
即可:
#Kendall's tau相關(guān)系數(shù)
cor(liarData$Creativity, liarData$Position, method = 'kendall')
cor.test(liarData$Creativity, liarData$Position,method = 'kendall')
## Kendall's rank correlation tau
##
## data: liarData$Creativity and liarData$Position
## z = -3.2252, p-value = 0.001259
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
## tau
## -0.3002413