關(guān)于相關(guān)性称近,表示數(shù)據(jù)之間的相互依賴關(guān)系造虎。但需要注意傅蹂,數(shù)據(jù)具有相關(guān)性不一定意味著具有因果關(guān)系。
相關(guān)性在組學(xué)數(shù)據(jù)挖掘中應(yīng)用非常廣算凿,如樣本的重復(fù)檢驗(yàn)份蝴、基因的共表達(dá)分析、微生物群落的共發(fā)生網(wǎng)絡(luò)分析等氓轰。
相關(guān)性分析其實(shí)較為簡(jiǎn)單婚夫,用R語(yǔ)言自帶的cor()函數(shù)非常容易計(jì)算得到兩兩變量間的相關(guān)系數(shù)。下面我們就來(lái)看下如何用R語(yǔ)言實(shí)現(xiàn)相關(guān)性計(jì)算并繪制帶有顯著性星標(biāo)的相關(guān)性熱圖署鸡。
1.相關(guān)系數(shù)計(jì)算
以R自帶的數(shù)據(jù)集mtcars為例案糙,直接計(jì)算矩陣或數(shù)據(jù)框?qū)?yīng)列之間的相關(guān)性系數(shù)镐躲。
#查看范例數(shù)據(jù)的前6行;
head(mtcars)
#計(jì)算mtcars數(shù)據(jù)框的相關(guān)性系數(shù);
cor<- cor(mtcars)
class(cor)
#查看得到相關(guān)性系數(shù)矩陣的前5行侍筛,前5列萤皂;
cor[1:5,1:5]
2.繪圖樣式
#安裝R包;
install.packages("corrplot")
#載入相關(guān)R包匣椰;
library(corrplot)
#默認(rèn)的繪制方法是 "circle",圖形的樣式還可以是"square"裆熙、"ellipse"、"pie"和"color"等禽笑,其中method = "number"時(shí)入录,只顯示相關(guān)性系數(shù);
corrplot(cor, method = "square")
#可繪制lower佳镜、lower僚稿、full三種布局方式的熱圖,當(dāng)然也可以混合顯示蟀伸;
corrplot.mixed(cor, lower = "square", upper = "circle", tl.col = "black")
3.聚類順序調(diào)整
#常見(jiàn)的排序方式有 "AOE", "FPC", "hclust", "alphabet"蚀同;
#"AOE" 是指按特征向量的角度排序(angular order of the eigenvectors);
#"FPC" 是按照 first principal component 的順序排序;
#"hclust"是按照分層聚類的結(jié)果排序啊掏;
#"alphabet"按照名稱字母順序排序蠢络。
corrplot(cor, order = "hclust")
#如果是選"hclust",還可以根據(jù)聚類結(jié)果添加矩形框迟蜜;
corrplot(cor, order = "hclust", addrect = 2)
4.調(diào)整顏色
#自定義漸變顏色刹孔;
col2 <- colorRampPalette(c("#77C034","white" ,"#C388FE"),alpha = TRUE)
#使用這些漸變顏色;
#addgrid.col調(diào)整網(wǎng)格顏色娜睛;
#outoutline指定圖形描邊髓霞;
corrplot(cor, order = "hclust", addgrid.col = "grey70",type = "upper",
outline = "orange",col = col2(100),method = "square",diag = F)
#Tips:這里的col2的對(duì)象類型是函數(shù)!
col2(100)
class(col2)
#自定義文本標(biāo)簽顏色:
#tl.* 系列參數(shù)用于調(diào)整文本標(biāo)簽畦戒;
#tl.col (text label color) 調(diào)整文字標(biāo)簽顏色;
#tl.srt (text label string rotation) 調(diào)標(biāo)簽角度(橫軸方向)方库;
#tl.cex調(diào)字體大小兢交;
#使用r自帶顏色集cm.colors的效果如下薪捍;
corrplot(cor, order = "hclust",col = cm.colors(100),method = "square",
tl.col="black",tl.cex = 0.8)
5.圖例調(diào)整
# cl.* 系列參數(shù)用于調(diào)整圖例;
#cl.ratio 調(diào)整顏色條的寬度配喳;
#cl.align調(diào)整顏色條刻度標(biāo)簽的對(duì)齊方式;
#cl.length指定顏色條標(biāo)簽個(gè)數(shù)凳干;
corrplot(cor, order = "hclust",col = col2(100),method = "circle",
cl.length=5,addgrid.col = NA,outline = "grey60",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)
#繪制上三角熱圖晴裹;
corrplot(cor, order = "hclust",col = col2(100),method = "square",
cl.length=5, type = "upper",diag = F,
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)
#去掉圖例和標(biāo)簽;
corrplot(cor, order = "hclust",col = col2(100),method = "square",
tl.col="black",tl.cex = 0.8,cl.pos = "n",tl.pos = "n")
6.顯示數(shù)值
#添加顯著性標(biāo)記:
#使用cor.mtest做顯著性檢驗(yàn)救赐;
res1 <- cor.mtest(mtcars, conf.level = .95)
res2 <- cor.mtest(mtcars, conf.level = .99)
#提取p值矩陣涧团;
p.mat = res1$p
p.mat[1:5,1:5]
#指定顯著性水平,不顯著的為空白只磷;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = .05,insig = "blank",addgrid.col="white")
#顯示P值;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = -1,pch.cex=1,
insig = "p-value", pch.col = "white")
#顯示相關(guān)系數(shù)泌绣;
#par(lty=2)可指定線的粗細(xì)钮追,遺憾的是會(huì)作用到圖例的線條;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
cl.length=5,addgrid.col="white",cl.pos = "r",
addCoef.col="black",number.cex=0.6,number.digits=1,number.font=1,
tl.col="black",tl.cex = 0.8,cl.ratio = 0.2)
#缺失值的展示阿迈,默認(rèn)是用“元媚?”,也可以自定義;
#corrplot(cor, na.label = "NA")
7.添加顯著性星標(biāo)標(biāo)記
#insig為"p-value",不顯著的格子顯示p值;
#insig為"label_sig",可用于顯示不同顯著水平的星標(biāo)苗沧;
#insig為"pch" (default),不顯著的格子顯示pch值對(duì)應(yīng)圖形刊棕;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = c(.001, .01, .05),outline="white",
insig = "label_sig",pch.cex = 1.2, pch.col = "white")
8.推薦另一個(gè)R包ggcor
上文的corrplot包是基于R基礎(chǔ)繪圖函數(shù)創(chuàng)建的,那么又沒(méi)有基于ggplot2的呢待逞?有甥角,比如相對(duì)應(yīng)的ggcorrplot包,不過(guò)我這里推薦另一個(gè)R包:ggcor 识樱。
#安裝方法:
# install.packages("devtools")
devtools::install_github("houyunhuang/ggcor")
#載入R包嗤无;
library(ggcor)
library(ggplot2)
#直接快速繪制整個(gè)相關(guān)性熱圖;
quickcor(mtcars, cluster = TRUE,cor.test = TRUE) +
geom_colour() +
geom_mark(size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 1)
#直接繪制上三角熱圖怜庸;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_colour(data = get_data(type = "upper")) +
geom_mark(data = get_data( type = "upper"),size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)
#直接繪制上三角“方塊”熱圖翁巍;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_square(data = get_data(type = "upper")) +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(size = 0.6)
#直接繪制上三角“氣泡”熱圖;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_circle2(data = get_data(type = "upper"),colour="white") +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)
拓展閱讀
方差(Variance):每個(gè)樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)休雌,用于衡量一個(gè)變量的數(shù)據(jù)和期望值離散程度灶壶,公式如下,其中杈曲,σ2 即D(X)驰凛、Var(V),為總體方差担扑,X為變量恰响,μ為總體均值,N為總體個(gè)數(shù)涌献。
或
協(xié)方差(Covariance):用于衡量?jī)蓚€(gè)變量的總體誤差胚宦。而方差可看作是協(xié)方差的一種特例,即當(dāng)兩個(gè)變量是相同的時(shí)候燕垃。公式如下:
可以看出枢劝,若X,Y正相關(guān)(變換趨勢(shì)相同)卜壕,則協(xié)方差值為正您旁;變化趨勢(shì)相反則協(xié)方差值為負(fù)。
相關(guān)系數(shù)(Pearson):相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的指標(biāo)轴捎,而相關(guān)關(guān)系是一種非確定性的關(guān)系鹤盒,數(shù)據(jù)具有相關(guān)性不能推出有因果關(guān)系蚕脏。相關(guān)系數(shù)的計(jì)算公式如下:
其中,公式的分子為X侦锯,Y兩個(gè)變量的協(xié)方差驼鞭,Var(X)和Var(Y)分別是這兩個(gè)變量的方差。當(dāng)X,Y的相關(guān)程度最高時(shí)尺碰,即X,Y趨近相同時(shí)挣棕,很容易發(fā)現(xiàn)分子和分母相同,即r=1葱蝗。
好啦穴张,本次就分享到這里啦,不知對(duì)你有沒(méi)有啟發(fā)呢两曼?