相關(guān)性(correlation)是指兩個隨機(jī)變量之間的關(guān)系,可以衡量兩個變量間關(guān)系的強(qiáng)弱和方向舶担。一般我們常用的是皮爾森相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)坡疼。
皮爾森相關(guān)系數(shù)(pearson correlation coefficient, PCC)是衡量兩個連續(xù)型變量的線性相關(guān)關(guān)系。
斯皮爾曼相關(guān)系數(shù)(spearman's rank correlation coefficient, SCC)是衡量兩變量之間的單調(diào)關(guān)系衣陶,兩個變量同時變化柄瑰,但是并非同樣速率變化闸氮,即并非一定是線性關(guān)系。
某些情況下兩種結(jié)果是一致的:
當(dāng)不完全是線性關(guān)系時:
另外狱意,當(dāng)有離群點時湖苞,兩者的處理是明顯不同的。創(chuàng)建一個數(shù)據(jù)集详囤,并且加上離群點:
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1
# 加入離群點
x2 <- c(x1, 14)
y2 <- c(y1, 14)
# Plot
par(mfrow=c(1,2))
plot(x1, y1, main="No outlier", col = 4, pch = 7, cex = 0.8)
plot(x2, y2, main="With outlier", col = 6, pch = 7, cex = 0.8)
# Calculate correlations
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)
相關(guān)系數(shù)輸出:
即在沒有離群點的時候财骨,兩者都是0.44;但是當(dāng)存在離群點之后藏姐,pearson系數(shù)變成了0.69隆箩,但是spearman仍是0.44。spearman系數(shù)會考慮這種存在離群點的情況羔杨,更加穩(wěn)定捌臊。
參考:
(1) https://stats.stackexchange.com/questions/11746/what-could-cause-big-differences-in-correlation-coefficient-between-pearsons-an
(2) https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/a-comparison-of-the-pearson-and-spearman-correlation-methods/
歡迎大家關(guān)注啊兜材!