heat map(熱圖)一詞相信大家肯定不會陌生续徽,在很多重量級科學(xué)論文中非常常見翻翩。使用heat map可以容易展示多組分之間關(guān)系或相關(guān)性遥巴,也能展示基因表達前后差異伍玖。heat map其實還蘊含不少分析的秘訣,這么高大上的heat map是怎樣實現(xiàn)的呢钞艇?
熱圖的應(yīng)用性很廣,在介紹熱圖繪制工具之前豪硅,小編先給大家科普科普哩照,講講有關(guān)熱圖的基本概念、歷史懒浮、用途飘弧。
Heat map的基本概念
Heatmap是熱圖,也叫熱力圖砚著,可以用顏色變化來反映二維矩陣或表格中的數(shù)據(jù)信息次伶,可以直觀地將數(shù)據(jù)值的大小以定義的顏色深淺表示出來。熱圖使復(fù)雜的數(shù)據(jù)可視化和一目了然稽穆。通常根據(jù)需要將數(shù)據(jù)進行物種或樣品間豐度相似性聚類冠王,將聚類后數(shù)據(jù)表示在熱圖上,可將高豐度和低豐度的物種分塊聚集舌镶,通過顏色梯度及相似程度來反映多個樣品在各分類水平上群落組成的相似性和差異性柱彻。結(jié)果可有彩虹色和黑紅色兩種選擇。
熱圖有兩類:集群熱圖(cluster heat map)和空間熱圖(spatial heat map)餐胀。在集群熱圖里哟楷,圖片大小固定在單元格里,制定成一個包含行和列的矩陣否灾。單元格大小是可任意調(diào)節(jié)卖擅。而在空間熱圖里,在一個空間里大小和位置都固定好的墨技。
Heatmap的生成原理可以這樣概括惩阶,先為離散點設(shè)定一個半徑,創(chuàng)建一個緩沖區(qū)健提;再對每個離散點的緩沖區(qū)琳猫,使用漸進的灰度帶(完整的灰度帶是0-255),從內(nèi)至外私痹、從淺至深填充脐嫂;因為灰度值可以疊加统刮,數(shù)值越大則顏色越深,在灰度帶中顯得越白账千。實際上可選擇ARGB模型中任一通道作為疊加灰度值侥蒙,從而對于有緩沖區(qū)交叉的區(qū)域,可疊加灰度值匀奏,因而緩沖區(qū)交叉的越多鞭衩,灰度值越大,這塊區(qū)域越“熱”娃善。最后论衍,用疊加后的灰度值為索引,從一條有256色的色帶中映射顏色聚磺,并對顏色重新著色坯台,從而實現(xiàn)熱圖。
灰度帶
彩色帶
熱圖的歷史
熱圖其實并不是一種新的概念瘫寝,可以追溯到19世紀(jì)蜒蕾。
熱圖起源于數(shù)據(jù)矩陣中二維數(shù)值的顯示。較大的數(shù)值用較小的深灰色或黑色方塊(像素)表示焕阿。在1873年Lona就使用了陰影矩陣將巴黎各區(qū)的社會上統(tǒng)計數(shù)據(jù)實現(xiàn)了可視化咪啡。在1957年Sneath展示了聚類分析的結(jié)果,通過對矩陣的行和列進行置換暮屡,根據(jù)聚類將相似數(shù)值放置在彼此的附近撤摸。之后Jacques Bertin使用了類似方法顯示出符合格特曼尺度的數(shù)據(jù),他將集群樹連接到數(shù)據(jù)矩陣的行和列褒纲,這一想法來自于1973年Robert?Ling愁溜。Robert?Ling使用了打印機的字符來表示不同灰度,即一個像素就有一個字符寬度外厂。在1994年Leland?Wilkinson開發(fā)了第一個計算機程序(SYSTAT)冕象,用于制作高分辨率彩色圖形的集群熱圖。在1991年汁蝶,軟件設(shè)計師Cormac Kinney注冊了“heatmap”商標(biāo)渐扮,發(fā)明了一種用2D圖形顯示實時金融市場信息的工具。如今掖棉,熱圖仍然可以手工形式墓律、Excel電子表格或使用像Hotjar這樣的專業(yè)軟件創(chuàng)建。
熱圖的4種類型
第一種幔亥,生物學(xué)熱圖耻讽,通常用在分子生物學(xué)范疇,可以顯示從DNA微陣列獲得的大量可比較樣本(不同狀態(tài)下的細胞帕棉、不同患者的樣本)中的很多基因的表達水平针肥。
第二種桅锄,樹形圖羔巢,是數(shù)據(jù)的2D分層分區(qū),在視覺上類似于熱圖。
第三種绪妹,馬賽克圖狞换,是一種平鋪熱圖苟呐,用于表示雙向或更高方式的數(shù)據(jù)表汪厨,與樹形圖一樣,鑲嵌在圖中的矩形區(qū)域是分層組成蜂厅。意味著這些區(qū)域是矩形匪凡。
第四種,密度函數(shù)可視化圖掘猿,用來表示出圖中點密度的熱圖锹雏,使人們能夠獨立在變焦參數(shù)感知點的密度。在2015年P(guān)errot等人提出的一種方法术奖,通過使用Spark和Hadoop等大數(shù)據(jù)基礎(chǔ)設(shè)備,利用密度函數(shù)可看到幾十億個點轻绞。
熱圖在各個領(lǐng)域內(nèi)的用途
熱圖通過眾多數(shù)據(jù)點信息采记,匯聚成直觀可視化顏色效果,至今熱圖被廣泛應(yīng)用在不同領(lǐng)域和范疇政勃,比如氣象預(yù)報唧龄、醫(yī)療成像、機房溫度等奸远,甚至應(yīng)用于競技體育領(lǐng)域的數(shù)據(jù)分析既棺。
觀看一場世界杯足球競賽時,評委們通常利用熱圖了解到champion隊伍中門將懒叛、后衛(wèi)丸冕、中場和前鋒的跑位,讓我們一目了然地看到多名球員在比賽中跑位的差異薛窥。
氣象局還可利用熱圖判斷地震震源位置胖烛,可清楚看出哪些地方是地震高發(fā)區(qū)(頻率最高)。
還可結(jié)合百度地圖和熱圖诅迷,就可利用熱圖看到金融商圈佩番,將商家的坐標(biāo)采集下來,根據(jù)坐標(biāo)點進行聚類罢杉√宋罚看下面這張圖,紅色表示商家較多的地方滩租,我們就可知道哪些是金融商圈赋秀。
那么利朵,在生物學(xué)領(lǐng)域上熱圖提供什么用處呢?
熱圖經(jīng)常用于展示多個基因在不同樣本的表達水平沃琅,然后通過聚類等方式查看實驗組和對照組特有的方式哗咆。
如上圖所示,每一列代表一個樣本益眉,每一行代表一個基因晌柬,顏色代表表達量(這張圖的圖例看出,顏色越偏紅色郭脂,數(shù)值越大年碘,基因表達量越高)。
熱圖還可用于展示其他物質(zhì)的豐度展鸡,如某細菌的相對豐度屿衅、代謝組不同物質(zhì)的含量。當(dāng)然熱圖還有一個重要的用處是展現(xiàn)出不同指標(biāo)莹弊、不同樣本等之間的相關(guān)性涤久。
以上這圖就是相關(guān)性熱圖,顏色深淺代表著相關(guān)系數(shù)的大小忍弛,越接近白色說明相關(guān)性越弱响迂,偏藍(負(fù)相關(guān))或偏紅(正相關(guān)),顏色越淺說明相關(guān)性越弱细疚。在相關(guān)性計算中除了相關(guān)系數(shù)外蔗彤,我們還看到p值是否顯著。如果把P值表示出來疯兼,可以在方格內(nèi)加入*號或具體數(shù)值然遏。但是由于我們在上圖看到不同的兩個指標(biāo)之間的關(guān)系是被重復(fù)展現(xiàn)2次,所以有時候我們只需展現(xiàn)一半(對角線以上或以下)的一半圖形就夠了吧彪。就像下圖所示:
好了待侵,這篇就講到這里,下一篇將為你揭曉更多有關(guān)熱圖的奧秘姨裸。