一、ggplot 相關(guān)系數(shù)圖
前言
相關(guān)系數(shù)圖是對(duì)相關(guān)系數(shù)矩陣進(jìn)行可視化的趟庄,用于展示多組變量之間的相關(guān)性。
根據(jù)數(shù)據(jù)的分布特征坛猪,可以應(yīng)用不同的相關(guān)系數(shù)計(jì)算方法沸柔,如 pearson
倾哺、spearman
璃搜、Kendall
等
相關(guān)系數(shù)矩陣的可視化圖形铸史,可以是熱圖庐橙、氣泡圖假勿、方塊圖、橢圓圖态鳖,也可以是純數(shù)字文本形式转培,等等。
下面我們介紹它們的繪制方法
示例
我們首先使用 ggplot2
包提供的函數(shù)來繪制這些圖形
先計(jì)算相關(guān)系數(shù)矩陣
mat <- as.data.frame(round(cor(mtcars), 2))
mat$var1 <- rownames(mat)
data <- gather(mat, key = "var2", value = "corr", -var1)
1. 熱圖
library(RColorBrewer)
# 獲取 5 個(gè)顏色
my_color <- brewer.pal(5, "Spectral")
ggplot(data, aes(var1, var2, fill = corr)) +
geom_tile(colour = "black") +
scale_fill_gradientn(colours = my_color)
2. 氣泡圖
ggplot(data, aes(var1, var2, fill = corr)) +
geom_point(aes(size = abs(corr)), shape = 21, colour = "black") +
scale_fill_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE)
3. 方塊圖
只要設(shè)置參數(shù) shape = 22
浆竭,就可以換成方塊了
geom_point(aes(size = abs(corr)), shape = 22, colour = "black")
4. 設(shè)置標(biāo)簽
使用 geom_text
添加標(biāo)簽
geom_text(aes(label = corr), size = 3, colour = "black", alpha = 0.7)
為正負(fù)相關(guān)設(shè)置不同的顏色
geom_point(aes(fill = corr > 0, size = corr), shape = 21)
5. 混合繪圖
如果想繪制上三角或下三角該怎么做浸须?
ggplot2
并沒有提供相應(yīng)的操作,但是我們可以手動(dòng)對(duì)數(shù)據(jù)進(jìn)行處理邦泄,將對(duì)應(yīng)的數(shù)據(jù)賦值為 NA
比如删窒,我想繪制下三角。首先顺囊,把上三角賦值為 NA
mat <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:10) {
for (j in (i+1):11) {
mat[i,j] <- NA
}
}
然后將變量名的順序固定為行名順序
mat$var1 <- rownames(mat)
data <- gather(mat, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat)),
var2 = factor(var2, levels = rownames(mat)))
然后繪制圖形
my_color <- brewer.pal(5, "Spectral")
ggplot(data, aes(var1, var2)) +
geom_point(aes(fill = corr, size = corr), shape = 21) +
geom_text(aes(label = corr), size = 3, colour = "white") +
scale_fill_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE) +
theme(legend.position = "none")
如果想將文本和形狀分別繪制在上三角和下三角肌索,操作也是類似的,只是要多添加一個(gè)上三角矩陣特碳。
mat1 <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:10) {
for (j in (i+1):11) {
mat1[i,j] <- NA
}
}
mat2 <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:11) {
for (j in 1:i) {
mat2[i,j] <- NA
}
}
mat1$var1 <- rownames(mat1)
data1 <- gather(mat1, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat1)),
var2 = factor(var2, levels = rownames(mat1)))
mat2$var1 <- rownames(mat2)
data2 <- gather(mat2, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat2)),
var2 = factor(var2, levels = rownames(mat2)))
my_color <- brewer.pal(5, "Spectral")
ggplot(data1, aes(var1, var2)) +
geom_point(aes(fill = corr, size = corr), shape = 21) +
geom_text(data = data2, aes(label = corr, colour = corr), size = 5) +
scale_fill_gradientn(colours = my_color) +
scale_colour_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE) +
theme(legend.position = "none")
如果要將對(duì)角線換成變量名诚亚,也很簡(jiǎn)單
mat1 <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:11) {
for (j in i:11) {
mat1[i,j] <- NA
}
}
mat2 <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:11) {
for (j in 1:i) {
mat2[i,j] <- NA
}
}
var_name <- data1 %>%
filter(var1 == var2)
mat1$var1 <- rownames(mat1)
data1 <- gather(mat1, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat1)),
var2 = factor(var2, levels = rownames(mat1)))
mat2$var1 <- rownames(mat2)
data2 <- gather(mat2, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat2)),
var2 = factor(var2, levels = rownames(mat2)))
my_color <- brewer.pal(5, "Spectral")
ggplot(data1, aes(var1, var2)) +
geom_point(aes(fill = corr, size = corr), shape = 21) +
#geom_point(data = data2, aes(fill = corr, size = corr), shape = 23) +
geom_text(data = data2, aes(label = corr, colour = corr), size = 5) +
geom_text(data = var_name, aes(label = var1), size = 5) +
scale_fill_gradientn(colours = my_color) +
scale_colour_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE) +
scale_x_discrete(position = 't') +
theme(
legend.position = "none",
axis.title = element_blank()
)
方塊配圓形
geom_point(data = data2, aes(fill = corr, size = corr), shape = 22) +
# geom_text(data = data2, aes(label = corr, colour = corr), size = 5) +
熱圖配圓形
ggplot(data1, aes(var1, var2)) +
geom_tile(data = data2, aes(fill = corr), na.rm = TRUE) +
geom_text(data = data2, aes(label = corr), colour = "black", size = 5) +
geom_point(aes(fill = corr, size = corr), shape = 21) +
geom_text(data = var_name, aes(label = var1), size = 5) +
scale_fill_gradientn(colours = my_color, na.value = "white") +
scale_colour_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE) +
scale_x_discrete(position = 't') +
theme(
panel.background = element_blank(),
legend.position = "none",
axis.title = element_blank()
)
注意晕换,需要將 geom_tile
放在最前面,同時(shí)設(shè)置 na.value
參數(shù)的值
代碼:https://github.com/dxsbiocc/learn/blob/main/R/plot/corr_plot.R
總結(jié)一下站宗,其實(shí)用 ggplot2
做個(gè)性化繪圖沒那么難闸准,重要的是理解其中的原理。
二梢灭、corrplot 相關(guān)系數(shù)圖
前言
前面恕汇,我們介紹了如何使用 ggplot2
來繪制相關(guān)系數(shù)圖,這節(jié)或辖,我們將介紹用 corrplot
包繪制相關(guān)系數(shù)圖
corrplot
主要用于圖形化展示相關(guān)系數(shù)矩陣、置信區(qū)間枣接,同時(shí)還包含一些矩陣排序算法颂暇。同時(shí)能夠以簡(jiǎn)單的方式,選擇顏色但惶、文本標(biāo)簽和布局等
安裝導(dǎo)入
if (!require(corrplot)) {
install.packages("corrplot")
}
library(corrplot)
可視化方法
corrplot
包含 7
種可視化方法耳鸯,可使用 method
參數(shù)來進(jìn)行選擇,參數(shù)值如下
-
circle
:圓形
mat <- cor(mtcars)
corrplot(mat, method = "circle")
-
square
:方形
corrplot(mat, method = "square")
-
ellipse
:橢圓
corrplot(mat, method = "ellipse")
-
number
:數(shù)值
corrplot(mat, method = "number")
-
shade
:陰影
corrplot(mat, method = "shade")
-
color
:熱圖
corrplot(mat, method = "color")
-
pie
:餅圖
corrplot(mat, method = "pie")
默認(rèn)情況下膀曾,使用紅藍(lán)兩種顏色县爬,正相關(guān)顯示為藍(lán)色,負(fù)相關(guān)為紅色添谊,顏色的強(qiáng)度和圖形的大小與相關(guān)性成正比
布局方式
corrplot
有三種布局方式财喳,通過 type
參數(shù)設(shè)置
-
full
: 默認(rèn)值,繪制整個(gè)相關(guān)系數(shù)矩陣 -
upper
: 繪制上三角矩陣 -
lower
: 繪制下三角矩陣
例如斩狱,上三角
corrplot(mat, method = "circle", type = "upper")
下三角
corrplot(mat, method = "circle", type = "lower")
那如何將不同圖形混合繪制呢耳高?
corrplot
提供了一個(gè)封裝函數(shù) corrplot.mixed
,用于繪制混合圖形
該函數(shù)通過 lower
, upper
兩個(gè)參數(shù)指定上下三角的類型所踊,例如
corrplot.mixed(mat)
默認(rèn)繪制上三角為圓形下三角為數(shù)字的圖形
設(shè)置對(duì)角線標(biāo)簽放置的位置 tl.pos
和對(duì)角線圖像類型 diag
tl.pos
可以是 lt
泌枪、d
、n
秕岛,分別表示放在左側(cè)碌燕、對(duì)角線或不顯示
diag
可以是 u
、l
继薛、n
分別表示與上修壕、下三角一致或不繪制
corrplot.mixed(mat, tl.pos = "lt", diag = 'l')
設(shè)置顏色,其中 tl.col
為對(duì)角線標(biāo)簽顏色遏考,lower.col
和 upper.col
分別表示上叠殷、下三角的顏色
library(RColorBrewer)
corrplot.mixed(mat, lower = "ellipse", upper = "circle", tl.col = "black",
lower.col = brewer.pal(5, "Spectral"),
upper.col = brewer.pal(5, "Set2"))
矩陣重排
我們可以根據(jù)相關(guān)系數(shù)對(duì)矩陣進(jìn)行重排,從矩陣中找到隱藏的結(jié)構(gòu)和模式诈皿。
corrplot
有 4
種排序方法林束,通過 order
參數(shù)設(shè)置:
-
AOE
:特征向量的角度順序 -
FPC
:第一主成分順序 -
hclust
:層次聚類的順序像棘,可以使用hclust.method
參數(shù)設(shè)置距離度量方法 -
alphabet
:字母表順序
corrplot(mat, order = "AOE")
corrplot(mat, order = "hclust")
對(duì)于 hclust
方式,可以為聚類結(jié)果繪制矩形壶冒,使用 addrect
參數(shù)來指定需要繪制矩形的數(shù)量
corrplot(mat, order = "hclust", hclust.method = "median", addrect = 3)
根據(jù)聚類結(jié)果缕题,將顏色設(shè)置為 3
種,同時(shí)更改背景色
corrplot(mat, order = "hclust", hclust.method = "median", addrect = 3,
col = brewer.pal(3, "Set1"), bg = brewer.pal(7, "Set2")[7])
設(shè)置文本標(biāo)簽及圖例
cl.*
參數(shù)是設(shè)置顏色圖例的參數(shù)胖腾,tl.*
是設(shè)置文本圖例的參數(shù)
例如烟零,tl.col
和 tl.srt
用來設(shè)置文本標(biāo)簽的顏色和旋轉(zhuǎn)
corrplot(mat, order = "FPC", cl.pos = "b", tl.srt = 45)
corrplot(mat, order = "FPC", cl.ratio = 0.2, cl.align = "l")
corrplot(mat, order = "hclust", type = "lower",
tl.pos = 'd', tl.cex = 1.25, tl.srt = 45, tl.col = "black")
缺失值處理
默認(rèn)情況下,corrplot
會(huì)將 NA
值渲染為 ?
可以使用 na.label
參數(shù)設(shè)置 NA
值的顯示
mat2 <- mat
diag(mat2) <- NA
corrplot(mat2)
corrplot(mat2, na.label = "*")
plotmath 表達(dá)式
可以在文本標(biāo)簽前面加上 :
咸作、=
锨阿、$
字符前綴,來激活 plotmath
表達(dá)式渲染
mat2 <- mat[1:5,1:5]
colnames(mat2) <- c("alpha", "beta", ":alpha+beta", ":a[0]", "=a[beta]")
rownames(mat2) <- c("alpha", "beta", NA, "$a[0]", "$ a[beta]")
corrplot(mat2)
添加顯著性檢驗(yàn)
我們還可以在圖像中添加顯著性信息记罚。首先墅诡,使用 cor.mtest
計(jì)算顯著性 p
值和置信區(qū)間
> pmat <- cor.mtest(mtcars, conf.level = .95)
> str(pmat)
List of 3
$ p : num [1:11, 1:11] 0.00 6.11e-10 9.38e-10 1.79e-07 1.78e-05 ...
$ lowCI: num [1:11, 1:11] 1 -0.926 -0.923 -0.885 0.436 ...
$ uppCI: num [1:11, 1:11] 1 -0.716 -0.708 -0.586 0.832 ...
然后將計(jì)算結(jié)果中的 p
值傳遞給 p.mat
參數(shù),同時(shí)設(shè)置顯著性水平 sig.level
桐智,高于該值的相關(guān)系數(shù)被認(rèn)為是不顯著的
corrplot(mat, p.mat = pmat$p, sig.level = 0.05)
可以看到末早,不顯著的相關(guān)系數(shù)被畫 Ⅹ
了,我們可以設(shè)置 insig = "blank"
不顯示不顯著的點(diǎn)
corrplot(mat, p.mat = pmat$p, sig.level = 0.05,
insig = "blank")
insig
參數(shù)還支持其他值
pch
: 默認(rèn)值-
p-value
: 顯示 p 值
n
: 不做任何操作-
label_sig
: 用 * 來表示顯著性
搭配 sig.level
使用说庭,按照等級(jí)繪制多個(gè) *
corrplot(mat, p.mat = pmat$p, sig.level = c(.001, .01, .05),
insig = "label_sig", pch.cex = 0.9, pch.col = "white")
pch
參數(shù)可以設(shè)置顯著的點(diǎn)的顯示文本
corrplot(mat, p.mat = pmat$p, sig.level = 0.05, pch = "p < 0.05",
insig = "label_sig", pch.cex = 0.7, pch.col = "white")
顯示置信區(qū)間
根據(jù)上一步計(jì)算出的置信上下限然磷,我們可以展示變量之間的置信區(qū)間
使用 lowCI.mat
和 uppCI.mat
來設(shè)置置信區(qū)間的上下限,使用 plotCI
參數(shù)來設(shè)置顯示的圖形刊驴,支持 n
(不顯示), square
, circle
, rect
四種類型
corrplot(mat, lowCI.mat = pmat$lowCI, uppCI.mat = pmat$uppCI,
order = "hclust", plotCI = "rect", cl.pos = "n")
最后姿搜,需要說明的一點(diǎn)是,該包不只是針對(duì)相關(guān)系數(shù)矩陣捆憎,也可以繪制其他類型的矩陣
例如
ran <- round(matrix(runif(225, -100,100), 15))
corrplot(ran, is.corr = FALSE, method = "ellipse", cl.lim = c(-100, 100))
如果行列數(shù)不一致痪欲,可以使用 win.asp
參數(shù)將圖形調(diào)整為正方形
ran <- matrix(rnorm(70), ncol = 7)
corrplot(ran, is.corr = FALSE, win.asp = .7, method = "circle")