相關(guān)性熱圖的繪制及意義

關(guān)于相關(guān)性炕倘,表示數(shù)據(jù)之間的相互依賴關(guān)系。但需要注意瘤运,數(shù)據(jù)具有相關(guān)性不一定意味著具有因果關(guān)系窍霞。

相關(guān)性在組學(xué)數(shù)據(jù)挖掘中應(yīng)用非常廣,如樣本的重復(fù)檢驗拯坟、基因的共表達(dá)分析但金、微生物群落的共發(fā)生網(wǎng)絡(luò)分析等。


相關(guān)性分析其實較為簡單郁季,用R語言自帶的cor()函數(shù)非常容易計算得到兩兩變量間的相關(guān)系數(shù)冷溃。下面我們就來看下如何用R語言實現(xiàn)相關(guān)性計算并繪制帶有顯著性星標(biāo)的相關(guān)性熱圖钱磅。

1.相關(guān)系數(shù)計算

以R自帶的數(shù)據(jù)集mtcars為例,直接計算矩陣或數(shù)據(jù)框?qū)?yīng)列之間的相關(guān)性系數(shù)似枕。

#查看范例數(shù)據(jù)的前6行盖淡;
head(mtcars)

image
#計算mtcars數(shù)據(jù)框的相關(guān)性系數(shù);
cor<- cor(mtcars)
class(cor)
#查看得到相關(guān)性系數(shù)矩陣的前5行,前5列凿歼;
cor[1:5,1:5]

image

2.繪圖樣式

#安裝R包褪迟;
install.packages("corrplot")

#載入相關(guān)R包;
library(corrplot)
#默認(rèn)的繪制方法是 "circle",圖形的樣式還可以是"square"答憔、"ellipse"味赃、"pie"和"color"等,其中method = "number"時虐拓,只顯示相關(guān)性系數(shù)心俗;
corrplot(cor, method = "square")

image
#可繪制lower、lower蓉驹、full三種布局方式的熱圖另凌,當(dāng)然也可以混合顯示;
corrplot.mixed(cor, lower = "square", upper = "circle", tl.col = "black")

3.聚類順序調(diào)整

#常見的排序方式有 "AOE", "FPC", "hclust", "alphabet"戒幔;
#"AOE" 是指按特征向量的角度排序(angular order of the eigenvectors);
#"FPC" 是按照 first principal component 的順序排序吠谢;
#"hclust"是按照分層聚類的結(jié)果排序;
#"alphabet"按照名稱字母順序排序诗茎。
corrplot(cor, order = "hclust")

image
#如果是選"hclust"工坊,還可以根據(jù)聚類結(jié)果添加矩形框;
corrplot(cor, order = "hclust", addrect = 2)

4.調(diào)整顏色

#自定義漸變顏色敢订;

col2 <- colorRampPalette(c("#77C034","white" ,"#C388FE"),alpha = TRUE)

#使用這些漸變顏色王污;
#addgrid.col調(diào)整網(wǎng)格顏色;
#outoutline指定圖形描邊楚午;
corrplot(cor, order = "hclust", addgrid.col = "grey70",type = "upper",
outline = "orange",col = col2(100),method = "square",diag = F)

image
#Tips:這里的col2的對象類型是函數(shù)昭齐!
col2(100)
class(col2)
#自定義文本標(biāo)簽顏色:
#tl.* 系列參數(shù)用于調(diào)整文本標(biāo)簽;
#tl.col (text label color) 調(diào)整文字標(biāo)簽顏色;
#tl.srt (text label string rotation) 調(diào)標(biāo)簽角度(橫軸方向)矾柜;
#tl.cex調(diào)字體大汹寮荨;
#使用r自帶顏色集cm.colors的效果如下怪蔑;
corrplot(cor, order = "hclust",col = cm.colors(100),method = "square",
tl.col="black",tl.cex = 0.8)

image

5.圖例調(diào)整

# cl.* 系列參數(shù)用于調(diào)整圖例里覆;
#cl.ratio 調(diào)整顏色條的寬度;
#cl.align調(diào)整顏色條刻度標(biāo)簽的對齊方式缆瓣;
#cl.length指定顏色條標(biāo)簽個數(shù)喧枷;
corrplot(cor, order = "hclust",col = col2(100),method = "circle",
cl.length=5,addgrid.col = NA,outline = "grey60",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)

image
#繪制上三角熱圖;
corrplot(cor, order = "hclust",col = col2(100),method = "square",
cl.length=5, type = "upper",diag = F,
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)

image
#去掉圖例和標(biāo)簽;
corrplot(cor, order = "hclust",col = col2(100),method = "square",
tl.col="black",tl.cex = 0.8,cl.pos = "n",tl.pos = "n")

6.顯示數(shù)值

#添加顯著性標(biāo)記:
#使用cor.mtest做顯著性檢驗隧甚;
res1 <- cor.mtest(mtcars, conf.level = .95)
res2 <- cor.mtest(mtcars, conf.level = .99)

#提取p值矩陣车荔;
p.mat = res1$p
p.mat[1:5,1:5]

image
#指定顯著性水平,不顯著的為空白;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = .05,insig = "blank",addgrid.col="white")

image
#顯示P值戚扳;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = -1,pch.cex=1,
insig = "p-value", pch.col = "white")

#顯示相關(guān)系數(shù)夸赫;
#par(lty=2)可指定線的粗細(xì),遺憾的是會作用到圖例的線條咖城;

corrplot(cor, order = "hclust",col = col2(100),method = "color",
cl.length=5,addgrid.col="white",cl.pos = "r",
addCoef.col="black",number.cex=0.6,number.digits=1,number.font=1,
tl.col="black",tl.cex = 0.8,cl.ratio = 0.2)

image
#缺失值的展示茬腿,默認(rèn)是用“?”,也可以自定義宜雀;
#corrplot(cor, na.label = "NA")

7.添加顯著性星標(biāo)標(biāo)記

#insig為"p-value",不顯著的格子顯示p值;
#insig為"label_sig",可用于顯示不同顯著水平的星標(biāo)切平;
#insig為"pch" (default),不顯著的格子顯示pch值對應(yīng)圖形;

corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = c(.001, .01, .05),outline="white",
insig = "label_sig",pch.cex = 1.2, pch.col = "white")

image

8.推薦另一個R包ggcor

上文的corrplot包是基于R基礎(chǔ)繪圖函數(shù)創(chuàng)建的辐董,那么又沒有基于ggplot2的呢悴品?有,比如相對應(yīng)的ggcorrplot包简烘,不過我這里推薦另一個R包:ggcor 苔严。

#安裝方法:
# install.packages("devtools")
devtools::install_github("houyunhuang/ggcor")
#載入R包;
library(ggcor)
library(ggplot2)
#直接快速繪制整個相關(guān)性熱圖孤澎;
quickcor(mtcars, cluster = TRUE,cor.test = TRUE) +
geom_colour() +
geom_mark(size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 1)

image
#直接繪制上三角熱圖届氢;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_colour(data = get_data(type = "upper")) +
geom_mark(data = get_data( type = "upper"),size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)

image
#直接繪制上三角“方塊”熱圖;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_square(data = get_data(type = "upper")) +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(size = 0.6)

image
#直接繪制上三角“氣泡”熱圖覆旭;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_circle2(data = get_data(type = "upper"),colour="white") +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)

image

拓展閱讀

方差(Variance):每個樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)退子,用于衡量一個變量的數(shù)據(jù)和期望值離散程度,公式如下型将,其中寂祥,σ2 即D(X)、Var(V)七兜,為總體方差丸凭,X為變量,μ為總體均值腕铸,N為總體個數(shù)惜犀。

image

image

協(xié)方差(Covariance):用于衡量兩個變量的總體誤差。而方差可看作是協(xié)方差的一種特例恬惯,即當(dāng)兩個變量是相同的時候向拆。公式如下:

image

可以看出,若X酪耳,Y正相關(guān)(變換趨勢相同),則協(xié)方差值為正;變化趨勢相反則協(xié)方差值為負(fù)碗暗。

相關(guān)系數(shù)(Pearson):相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的指標(biāo)颈将,而相關(guān)關(guān)系是一種非確定性的關(guān)系,數(shù)據(jù)具有相關(guān)性不能推出有因果關(guān)系言疗。相關(guān)系數(shù)的計算公式如下:

image

其中晴圾,公式的分子為X,Y兩個變量的協(xié)方差噪奄,Var(X)和Var(Y)分別是這兩個變量的方差死姚。當(dāng)X,Y的相關(guān)程度最高時,即X,Y趨近相同時勤篮,很容易發(fā)現(xiàn)分子和分母相同都毒,即r=1。

好啦碰缔,本次就分享到這里啦账劲,不知對你有沒有啟發(fā)呢

作者:wanghaihua888
鏈接:http://www.reibang.com/p/9a53928c2ce4
來源:簡書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)金抡,非商業(yè)轉(zhuǎn)載請注明出處瀑焦。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市梗肝,隨后出現(xiàn)的幾起案子榛瓮,更是在濱河造成了極大的恐慌,老刑警劉巖巫击,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件榆芦,死亡現(xiàn)場離奇詭異,居然都是意外死亡喘鸟,警方通過查閱死者的電腦和手機(jī)匆绣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來什黑,“玉大人崎淳,你說我怎么就攤上這事°蛋眩” “怎么了拣凹?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長恨豁。 經(jīng)常有香客問我嚣镜,道長,這世上最難降的妖魔是什么橘蜜? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任菊匿,我火速辦了婚禮付呕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘跌捆。我一直安慰自己徽职,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布佩厚。 她就那樣靜靜地躺著姆钉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪抄瓦。 梳的紋絲不亂的頭發(fā)上潮瓶,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機(jī)與錄音钙姊,去河邊找鬼毯辅。 笑死,一個胖子當(dāng)著我的面吹牛摸恍,可吹牛的內(nèi)容都是我干的悉罕。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼立镶,長吁一口氣:“原來是場噩夢啊……” “哼壁袄!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起媚媒,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤嗜逻,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后缭召,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體栈顷,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年嵌巷,在試婚紗的時候發(fā)現(xiàn)自己被綠了萄凤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡搪哪,死狀恐怖靡努,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情晓折,我是刑警寧澤惑朦,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站漓概,受9級特大地震影響漾月,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜胃珍,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一梁肿、第九天 我趴在偏房一處隱蔽的房頂上張望蜓陌。 院中可真熱鬧,春花似錦栈雳、人聲如沸护奈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至痴奏,卻和暖如春蛀骇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背读拆。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工擅憔, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人檐晕。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓暑诸,卻偏偏與公主長得像,于是被迫代替她去往敵國和親辟灰。 傳聞我的和親對象是個殘疾皇子个榕,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 相關(guān)性分析 相關(guān)性分析是指對兩個或多個具備相關(guān)性的變量元素進(jìn)行分析,從而衡量兩個變量因素的相關(guān)密切程度芥喇。相關(guān)性分析...
    果蠅飼養(yǎng)員的生信筆記閱讀 47,370評論 10 103
  • 關(guān)于相關(guān)性西采,表示數(shù)據(jù)之間的相互依賴關(guān)系。但需要注意继控,數(shù)據(jù)具有相關(guān)性不一定意味著具有因果關(guān)系械馆。 相關(guān)性在組學(xué)數(shù)據(jù)挖掘...
    wanghaihua888閱讀 17,050評論 0 15
  • 獲取代碼和更佳閱讀體驗獲取,請移步:相關(guān)性分析 | R語言 -- 兩個變量的相關(guān)性分析[https://mp.we...
    生信擺渡閱讀 44,054評論 0 65
  • 久違的晴天武通,家長會霹崎。 家長大會開好到教室時,離放學(xué)已經(jīng)沒多少時間了冶忱。班主任說已經(jīng)安排了三個家長分享經(jīng)驗尾菇。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,492評論 16 22
  • 今天感恩節(jié)哎,感謝一直在我身邊的親朋好友朗和。感恩相遇错沽!感恩不離不棄。 中午開了第一次的黨會眶拉,身份的轉(zhuǎn)變要...
    迷月閃星情閱讀 10,551評論 0 11