圖形解讀的一般原則:從圖的基本構造入手抖拴,拆解圖的橫軸代表什么、縱軸代表什么蓉冈、幾何對象如點轩触、線、柱代表什么和對象的屬性如顏色大小代表什么家夺,理解了各個部分脱柱,再整體解讀圖中的差異。
熱圖是一種很常見的圖拉馋,其基本原則是用顏色代表數字榨为,讓數據呈現更直觀、對比更明顯煌茴。常用來表示不同樣品組代表性基因的表達差異随闺、不同樣品組代表性化合物的含量差異、不同樣品之間的兩兩相似性蔓腐。實際上矩乐,任何一個表格數據都可以轉換為熱圖展示。
熱圖基本解讀
熱圖通過將數據矩陣中的各個值按一定規(guī)律映射為顏色展示回论,利用顏色變化來可視化比較數據散罕。當應用于數值矩陣時,熱圖中每個單元格的顏色展示的是行變量和列變量交叉處的數據值的大锌亍欧漱;若行為基因,列為樣品葬燎,則是對應基因在對應樣品的表達值误甚;若行和列都為樣品,展示的可能是對應的兩個樣品之間的相關性谱净。
數字映射到顏色可以分為線性映射和區(qū)間映射窑邦。線性映射是每個值都對應一個顏色,區(qū)間映射是把數值劃分為不同的區(qū)間塊岳遥,每個區(qū)間塊的所有數字采用同一個顏色顯示奕翔。兩者沒有優(yōu)劣好壞之分,具體使用取決于展示意圖浩蓉。
來源:https://datavizcatalogue.com/methods/heatmap.html ?
在使用顏色可視化數值表格的基礎上派继,熱圖可以增加行和列的色塊展示相關的行或列注釋信息,如展示樣品的取樣部位捻艳、取樣人驾窟、樣品性別等屬性,樣品聚類熱圖配合樣品來源的批次信息是初步判斷樣品受批次效應影響程度的一個方式认轨,如下面宏基因組菌群圖譜熱圖所示绅络。
OTU豐度隨生長期變化熱圖
下圖是劉永鑫老師發(fā)表的一篇封面文章 水稻微生物組時間序列分析中的一副熱圖,展示了不同菌在不同生長時期的豐度變化模式。
從橫軸的注釋和標記可以看出恩急,每一列對應于采樣時水稻在田地里的生長天數杉畜;
從縱軸的文字可以看出,每一行是一種關注的菌衷恭。
每個框的顏色代表對應菌群在對應采樣時間的豐度信息此叠。
從圖例可以看出,豐度值采用按行歸一化 (scale
)之后的相對表達變化(Z-score
)進行展示随珠。
Z-score
是常用的數據歸一化方式灭袁,用來展示數據相比于均值上調或下調了多少倍的標準差 (X-mean)/SD
。此處反應的是OTU
的相對豐度變化窗看。通常采用Z-scaore
而不是絕對表達量進行熱圖展示是為了更好的反應變化趨勢茸歧,也是為了規(guī)避數據表中數值區(qū)間變化較大時導致的熱圖中顏色分配不均勻和顏色區(qū)分度變弱的影響。在R語言 - 熱圖美化中講述過其如何獲得和用途是什么显沈。
原文描述:
Heatmap showing the relative abundances of the top 23 age-predictive biomarker bacterial classes against rice residence time in the field.
來源文章鏈接:
http://engine.scichina.com/publisher/scp/journal/SCLS/61/6/10.1007/s11427-018-9284-4?slug=fulltext
Metaphlan2獲得的宏基因組物種豐度圖譜
圖中每一行代表一種菌或菌群软瞎,每一列是一個樣品。從整體來看拉讯,圖中大致有4
個比較亮的區(qū)域代表在對應樣品中表達豐度高的4
個菌群集合铜涉。結合列層級聚類圖來看,4
個高豐度菌群集合分別來自于4組樣品(對應于分支圖的藍遂唧、綠、紅吊奢、黃)盖彭。最左側藍色分支所在大支構成復雜一些,可能是樣品異質性導致页滚。
列注釋還展示了樣品的屬性信息包括Visit number
, Body site
, Gender
, Dataset
召边。從圖中可以看出,不同數據集來源的數據在聚類后分布均勻裹驰,沒體現出數據來源偏好性即可以認為批次效應影響不大隧熙。性別的影響也不大。Body site
的分布與聚類相似度比較高幻林,對于這個的解釋需要看原文-MetaPhlAn2 for enhanced metagenomic taxonomic profiling中圖形標題和正文的描述了贞盯。
原文描述:
MetaPhlAn2 characterization of all skin shotgun metagenomes available to date from the HMP and newly sequenced samples.
來源文章鏈接:
https://www.nature.com/articles/nmeth.3589?proof=true
樣本相關性熱圖
樣本相關性熱圖為對稱熱圖,每個單元格代表一個相關性值沪饺,具體是哪種類型的相關性可從圖例 (Legend
)獲取躏敢。一般結合層級聚類展示,樣品相似度高的聚在一起整葡。同時標記樣品自身的分組件余、處理信息,查看樣品聚類結果是否與生物分組吻合、差別在哪啼器、各個生物重復的一致性怎么樣旬渠、各個生物重復是與自己組的樣品一致性高還是與其它組樣品一致性高,這些可以反映處理的批次的影響和樣品質量的好壞端壳。
下圖來源于一篇Cell文章 ——Clustered Spearman correlation matrix for different RNA-seq replicates for no treatment and KLA 1h告丢,其主旨是比較不同品系小鼠對基因表達和轉錄因子結合研究的影響差異有多大。圖中展示了不同品系小鼠的野生型和KLA處理組基因表達譜Spearman
相似性熱圖更哄。從對角線處的16-宮格可以看出芋齿,小鼠品系比處理方式對表達量的影響更大。
原文描述:
Clustered Spearman correlation matrix for different RNA-seq replicates for no treatment and KLA 1h.
來源文章鏈接:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6003872/
OTU與表型相關性熱圖
下圖展示的是糖尿病人的菌群(OTU
)和檢測指標之間的Spearman
相關性成翩。
每一列代表一種菌觅捆,每一行是一個臨床檢測指標。
藍色是負相關麻敌,紅色是正相關栅炒。
寫文章時就可以看圖說話,解釋為什么一些菌跟一些指標正相關术羔,跟其他指標負相關赢赊,其潛在生物影響和意義是什么。
方格中標記的數值代表P-value
级历。
原文描述:
Association between differentially abundant OTUs and clinical biomarkers relevant for diabetes in the total group of 268 individuals. The taxa names indicate the lowest taxonomic affiliation available for the OTUs in the Greengenes database.The colour key indicates Spearman’s ρ and the numbers in the cells represent p values <0.05. Spearman’s ρ and associated p values.
來源文章鏈接:
https://link.springer.com/article/10.1007/s00125-018-4550-1#Fig3
GSEA富集結果的熱圖展示
GSEA富集分析有其經典展示方式释移,具體見一文掌握GSEA,超詳細教程寥殖。但如果要展示的富集條目很多玩讳,樣品也很多時,熱圖不失為一個很好的方式嚼贡。
熱圖中每一行代表一個富集的GO條目熏纯,每一列為一種癌癥樣品;
顏色表示標準化富集分數(normalized enrichment score
)(也可以展示表示富集顯著性的FDR值)粤策。
GSEA富集是針對每個癌癥樣品中的基因與Myc/MycN表達的相關性進行的分析樟澜。
考慮到多重假設檢驗的問題,在GSEA分析前叮盘,先對GO條目根據其包含的基因集的重合度進行了去重秩贰。
(保留的條目基因集重合小于75%) 。
原文描述:
Heatmap shows clustering of tumor types based on top 100 most positively correlated gene sets from gene ontology molecular function category for MYC. the heatmap is colored by the normalized enrichment score of a gene set for a tumor type. Gray cells indicate lack of enrichment. Dots below tumor type denote high MYC amplification, while plus signs denote high mRNA expression. Blue lines on the heatmaps mark gene sets corresponding to the canonical MYC signature, orange lines correspond to the non-canonical MYC signature, and yellow lines correspond to neuronal function, found in MYCN only. Tables contain main gene sets found in each cluster category. One asterisk marks a WNT signaling gene set, and two asterisks mark a metabolic gene set.
來源文章鏈接:
https://www.sciencedirect.com/science/article/pii/S2405471218300978#fig6
熱圖繪制
統(tǒng)計圖就是把數據映射到幾何形狀如點熊户、線萍膛、柱的美學屬性如顏色、大小嚷堡、形狀上蝗罗。這是理解圖的關鍵艇棕,也是畫圖的關鍵。熱圖繪制需要的數據與最后呈現的熱圖一般是一致的串塑,數據中每一行對應于熱圖中每一行沼琉,數據中每一列對應于熱圖每一列。如果做了聚類分析桩匪,順序可能會變打瘪。