熱圖
這是熱圖拓提,行是gene,列是RNA-seq樣本刽肠。這個數(shù)據(jù)已經(jīng)通過兩種方式進(jìn)行了修飾愿题,因此我們可以從中獲得一些見解。
- 相對豐度(relative abundances)已經(jīng)被縮放(scaled)痹栖。這是在每個基因的基礎(chǔ)上進(jìn)行的(其他熱圖一次縮放所有的基因)扎附。這很容易看出樣本X比樣本z含有更多/更少的Y基因。舉個例子结耀,很容易看出樣本1比其他樣本表達(dá)量更高留夜。然而,這種特定的縮放意味著我們不能跨基因進(jìn)行比較图甜。樣本1中的暗紅色條并不意味著樣本1中Y基因比其他基因更容易轉(zhuǎn)錄碍粥,只是比其他樣本表達(dá)量高。
將行/基因按相似性進(jìn)行分組黑毅。這些基因在樣本2中轉(zhuǎn)錄最多(在樣本4中轉(zhuǎn)錄最少)嚼摩。這些基因在樣本1中轉(zhuǎn)錄最多(在樣本4中最少)。這些基因在樣本2中轉(zhuǎn)錄最多(在樣本3中轉(zhuǎn)錄最少)矿瘦≌砻妫“聚類”不是偶然的,而是由于一個計算機(jī)程序試圖把“相似的”東西放在一起缚去。
沒有聚類數(shù)據(jù)會像這樣潮秘,數(shù)據(jù)看起來混亂很難去解釋。
沒有聚類和縮放易结,將會變成這樣枕荞,注意到一個基因是高轉(zhuǎn)錄的柜候,它是異常值,以至于無法看到其他基因的表達(dá)躏精。
- 這個熱圖已經(jīng)被縮放和聚類渣刷。縮放是“全局”的——不是每行/基因 而是對于 所有行 /基因矗烛。我們可以使用“全局”縮放辅柴,因為我們沒有異常值。聚類是根據(jù)列/樣本和行/基因進(jìn)行的瞭吃。按列聚類可以表明這些樣本的表達(dá)是相似的碌嘀,按行聚類可以表明這些基因的表達(dá)是相似的。沒有聚類和縮放看上去是混亂的虱而。
如果我們在第一個熱圖中使用全局縮放會怎樣?
這一異常值極大地扭曲了縮放筏餐,以至于不能看到其他基因开泽。同時牡拇,注意到聚類的變化和基因有一個新的順序∧侣桑縮放可以影響兩件事:
基因的顏色有多鮮艷惠呼,你是否可以比較它們
聚類
怎樣縮放
Z值縮放法
- 無論你是通過基因還是全局,最常見的方法是"Z-Score- Scaling"(Z值縮放法)峦耘,因為從技術(shù)上講剔蹋,它會把數(shù)據(jù)轉(zhuǎn)換成“Z-Score”(z值)
6個樣本的RNA-seq的read,
- 計算平均數(shù)(16.5)
- 每個值減去平均數(shù)
計算標(biāo)準(zhǔn)差(6.28)
-
除以標(biāo)準(zhǔn)偏差(注意辅髓,軸上的刻度發(fā)生了變化)
- 數(shù)據(jù)過去從-8到+8∑溃現(xiàn)在是-1.2到1.2之間
Z值縮放公式:
不管原始數(shù)據(jù)的變化如何,除以標(biāo)準(zhǔn)偏差就可以確保數(shù)據(jù)范圍得到縮小洛口。為什么我們要縮小數(shù)據(jù)的范圍矫付,因為我們只能辨別有限顏色的深淺。范圍越大第焰,色度的差異就越微妙买优。通過對數(shù)據(jù)進(jìn)行縮放,我們使用的色度更少挺举,更容易看到:“樣本1比樣本2有更多的轉(zhuǎn)錄……”
如果有一個異常值杀赢,那個標(biāo)準(zhǔn)差將會變非常大,也就是Z值的分母變大湘纵,接近于零的值會被壓縮到很多脂崔,用幾個色度很難將它們分開。
當(dāng)我們使用異常值對數(shù)據(jù)集進(jìn)行“全局縮放”時梧喷,我們看到其中一個基因明顯高度表達(dá)脱篙,但我們看不出其他基因有什么不同娇钱。
怎樣聚類
聚類主要有兩種類型:
層次(hierarchical)
K-means
層次聚類(hierarchical clustering)
- 見10聚類筆記
總結(jié)
縮放數(shù)據(jù)(either per gene,per sample, or globally)
-
聚類數(shù)據(jù)(either by gene,or sample, or both gene and sample)聚類數(shù)據(jù)
層次聚類
K-means