表達(dá)譜分析中,經(jīng)常會使用到相關(guān)性分析谷婆,探索一組基因間的共表達(dá)特征慨蛙。例如辽聊,這些基因間的表達(dá)是否存在較強(qiáng)的協(xié)同性,一個基因表達(dá)值的改變是否與另一個基因表達(dá)值改變顯著相關(guān)期贫,它們之間是共激活還是抑制關(guān)系等跟匆。
對于相關(guān)性分析結(jié)果的可視化,通常有多種方法通砍,例如相關(guān)性散點圖玛臂、弦圖、共表達(dá)網(wǎng)絡(luò)圖封孙。本篇教程則主要帶大家了解如何基于基因表達(dá)值的相關(guān)性迹冤,繪制弦圖。
如下弦圖來自文獻(xiàn)“CUL4B promotes prostate cancer progression by forming positive feedback loop with SOX4”虎忌,共涉及了7個基因泡徙。圖中的連線就代表了基因間表達(dá)值的相關(guān)性信息,紅色代表正相關(guān)膜蠢,綠色代表負(fù)相關(guān)堪藐,顏色越深或連線越粗代表相關(guān)強(qiáng)度越高。從圖中可以看出挑围,這幾個基因間以較強(qiáng)的正相關(guān)關(guān)系占主導(dǎo)礁竞,暗示它們之間的共激活關(guān)系,或者在相似的生物學(xué)過程中發(fā)揮作用杉辙。
接下來,就模仿該文獻(xiàn)的樣式蜘矢,繪制基因表達(dá)相關(guān)性弦圖狂男。
作圖原始數(shù)據(jù)、R代碼等硼端,可點擊這里獲取并淋。
計算基因表達(dá)值的相關(guān)性
為了繪制弦圖,首先需要計算基因表達(dá)值的相關(guān)性珍昨。
來看提供的示例數(shù)據(jù)“gene_FPKM.txt”县耽,記錄了6個基因在30個樣本中的表達(dá)值(FPKM值)信息。將該基因表達(dá)值矩陣讀入到R中镣典,計算基因表達(dá)值的Pearson相關(guān)性兔毙。
#讀取基因表達(dá)值數(shù)據(jù)
gene <- read.delim('gene_FPKM.txt', row.names = 1, sep = '\t')
gene <- t(gene) #轉(zhuǎn)置數(shù)據(jù),使行為樣本兄春,列為基因
#表達(dá)值進(jìn)行l(wèi)og(1+)轉(zhuǎn)化澎剥,使數(shù)據(jù)更服從正態(tài)分布,減少離散度極大值影響
gene <- log(gene+1)
#基因表達(dá)值的相關(guān)性分析赶舆,以Pearson相關(guān)系數(shù)為例
gene_cor <- cor(gene, method = 'pearson')
#去除基因的自相關(guān)哑姚,也就是對角線的值
diag(gene_cor) <- 0
gene_cor #最終的基因間表達(dá)值Pearson相關(guān)性矩陣
初步計算了6個基因間表達(dá)值的Pearson相關(guān)系數(shù)祭饭,正值代表正相關(guān),負(fù)值代表負(fù)相關(guān)叙量,絕對值越大代表相關(guān)強(qiáng)度越高倡蝙。
繪制相關(guān)性弦圖
再對上述得到的相關(guān)性矩陣做個轉(zhuǎn)換,得到一種兩兩對應(yīng)的結(jié)構(gòu)绞佩,如下示例寺鸥。
#將獲得的相關(guān)性矩陣轉(zhuǎn)換為兩兩對應(yīng)的數(shù)據(jù)框結(jié)構(gòu)
gene_cor <- reshape2::melt(gene_cor)
gene_cor <- subset(gene_cor, value != 0) #去除0值的相關(guān)性
head(gene_cor) #前兩列是兩個基因名稱,第三列為兩個基因的相關(guān)性
最后品山,可通過circlize包中的方法繪制弦圖胆建,circlize包是R語言中繪制弦圖的一款非常優(yōu)秀的R包。
#繪制弦圖
library(circlize)
chordDiagram(gene_cor,
annotationTrack = c('grid', 'name', 'axis'), #繪制外周圓弧區(qū)肘交,顯示名稱和刻度軸
grid.col = c(GABRD = 'green3', PLVAP = 'red', CDKN3 = 'orange', CDC25C = 'purple', UBE2T = 'skyblue', SKA1 = 'blue'), #定義基因顏色
col = colorRamp2(c(-1, 0, 1), c('green', 'white', 'red'), transparency = 0.5), #根據(jù)相關(guān)性大小展示連線的顏色范圍
annotationTrackHeight = c(0.05, 0.05), #名稱離圓弧的距離笆载,以及圓弧的寬度
)
這樣弦圖就得到了,連線表示了6個基因間表達(dá)值的Pearson相關(guān)性信息酸些,紅色代表正相關(guān)宰译,綠色代表負(fù)相關(guān),顏色越深或連線越粗代表相關(guān)強(qiáng)度越高魄懂。