森嚴(yán)森語:
生活中很多時(shí)候我都習(xí)慣于不知所以而為之躏仇,其結(jié)果通常壞焰手。原因在于經(jīng)常的盲目自信和偶爾不愿承認(rèn)自己的無知。
上篇推文介紹了利用Origin繪制熱圖的方法船响,推文一經(jīng)發(fā)出见间,我就察覺到這是極其草率的。原因在于我自己壓根兒還沒有搞清楚熱圖的來龍去脈馅袁,就拿一堆亂七八糟的數(shù)據(jù)亂搞一通荒辕。
我覺得草率抵窒,還有幾點(diǎn):
于是哪亿,這兩天就試圖寫一篇關(guān)于熱圖細(xì)節(jié)性問題的推文蝇棉,以期擴(kuò)展對熱圖的認(rèn)知。
事先說好钝吮,這篇推文可能還是不能說的很清楚奇瘦。因?yàn)橄旅娴挠行┯^點(diǎn)我沒有去找源頭戳气。
【進(jìn)入正題】
先上一組數(shù)據(jù)瓶您。還是使用上篇推文中的數(shù)據(jù)。
先不著急可視化呀袱,先來想一個(gè)問題贸毕,這個(gè)數(shù)據(jù)是什么呢?
因?yàn)槲艺襾淼臄?shù)據(jù)夜赵,我肯定知道這是tpm值明棍。先不管什么是tpm值。
再想一個(gè)問題寇僧,tpm能不能直接拿來做熱圖摊腋?如果不能直接拿來用,要進(jìn)行怎樣的處理嘁傀?
此時(shí)顯然還不能回答這樣的問題。
【基本的認(rèn)知】
不管上面的數(shù)據(jù)到底是什么细办,都知道這些數(shù)據(jù)來自于RNA-Seq橙凳,那就先來想為什么要做RNA-Seq?
這個(gè)問題比較好回答笑撞。
當(dāng)條銹菌侵染小麥后會(huì)出現(xiàn)表型的變化岛啸。
這時(shí),我們會(huì)以常理推測表型出現(xiàn)變化茴肥,很大程度上是由于小麥被條銹菌侵染后坚踩,小麥的某些蛋白含量出現(xiàn)了變化,而影響蛋白含量變化的直接原因就是來自基因表達(dá)的變化炉爆。于是堕虹,我們就要想辦法測量小麥被條銹菌侵染后小麥全部基因表達(dá)變化的基因列表。
這就需要進(jìn)行RNA-Seq了芬首。
【RNA-Seq】
RNA-Seq之后赴捞,通常會(huì)得到count和tpm值。較早些時(shí)候進(jìn)行RNA-Seq后郁稍,可能會(huì)得到除了count之外的FPKM值或RPKM值赦政。
這里長話短說。
實(shí)際上RNA-Seq之后并不會(huì)直接得到FPKM值耀怜、RPKM值或tpm值恢着。那為什么會(huì)有這些值出現(xiàn)呢?
思考一個(gè)問題:
gene1有1000條測序reads财破,gene2有10000條測序reads掰派,那么是不是可以說
gene2的表達(dá)量一定比gene1高?
顯然左痢,沒那么簡單靡羡。至少我們可以考慮到造成這種情況的一部分原因在于gene1和gene2的長度不一樣系洛,此時(shí),就需要對mapping到gene的reads count進(jìn)行矯正略步。
再思考一個(gè)問題:
gene1有1000條測序reads描扯,條銹菌侵染后gene1有2000條測序reads,那么是
不是可以說gene1的表達(dá)量在條銹菌侵染后發(fā)生了變化呢趟薄?
至少這個(gè)時(shí)候就需要考慮整體測序量的問題绽诚,同樣需要矯正。
至此杭煎,就產(chǎn)生了FPKM值恩够、RPKM值或tpm值。
【FPKM值羡铲、RPKM值或tpm值的概念】
RPKM:Reads Per Kilobase per Million
FPKM:Fragments Per Kilobase per Million
TPM:Transcripts Per Kilobase Million
這里具體的理解和推導(dǎo)就不重復(fù)了玫鸟,感興趣的可以去下面鏈接仔細(xì)查看。
https://zhuanlan.zhihu.com/p/325902055
https://zhuanlan.zhihu.com/p/38536790
https://zhuanlan.zhihu.com/p/50811365
https://www.plob.org/article/16013.html
https://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/
http://www.reibang.com/p/cecc5bc62105
(部分內(nèi)容參考以上來源)
扯的有點(diǎn)遠(yuǎn)犀勒。
FPKM屎飘、RPKM和TPM都是對數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化之后的數(shù)值。目前來說贾费,主流使用TPM值钦购。具體的答案可在上面的鏈接中尋找。
【回歸主題】
迫不及待就像作圖褂萧,已經(jīng)知道押桃,上述我展示的數(shù)據(jù)就是經(jīng)過標(biāo)準(zhǔn)化的tpm值了,這個(gè)值是可以直接拿來熱圖可視化的导犹。話不多說唱凯,直接出圖。
這個(gè)結(jié)果其實(shí)還蠻不錯(cuò)谎痢。乍一看感覺挺像那么回事磕昼。但是仔細(xì)一看,還是存在一些問題节猿。這么看可能不是很明顯票从。我們換種效果再看。
可以很直觀的發(fā)現(xiàn)滨嘱,圖中紅色圈內(nèi)和綠色圈內(nèi)的tpm值命名相差很大峰鄙,但是在顏色上很難區(qū)分,這就沒有達(dá)到我們要進(jìn)行比較的目的太雨。
而且這種情況通常很難避免吟榴。這時(shí)候就需要在tpm的基礎(chǔ)上進(jìn)一步處理。之所以可以對tpm值進(jìn)行進(jìn)一步處理囊扳,是因?yàn)楦嗟臅r(shí)候我們并不關(guān)心基因表達(dá)量的高低吩翻,我們更關(guān)心的是類似小麥gene1在pst侵染之后表達(dá)趨勢的問題梅惯。
通常我們會(huì)對tpm值進(jìn)行取對數(shù)、正態(tài)標(biāo)準(zhǔn)化和0-1標(biāo)準(zhǔn)化仿野。
【對數(shù)轉(zhuǎn)換】
取對數(shù)時(shí),我們經(jīng)常在論文中看到log2(tpm+1)她君,實(shí)質(zhì)上這個(gè)底數(shù)我們可以取2脚作,也可以取e或10.?
之所以不用log2(tpm)是因?yàn)楹芏鄷r(shí)候我們得到不少基因在某些sample中沒有表達(dá),即tpm值為0缔刹,而對數(shù)的真數(shù)不能為0球涛,于是,一般的校镐,我們會(huì)進(jìn)行l(wèi)og2(tpm+1)來處理亿扁。
這里我分別取底數(shù)為2和10來看看。
底數(shù)取2或10似乎沒什么變化鸟廓,但是可以很明顯的看到剛才紅色圈和綠色圈內(nèi)的色差很容易區(qū)分了从祝。
這樣就達(dá)到目的了。
需要思考一個(gè)問題:
此時(shí)引谜,同一gene在不同sample間牍陌,或者同一sample中不同gene的表達(dá)量
是否可以比較?
【正態(tài)標(biāo)準(zhǔn)化】
這里通常需要思考员咽,要進(jìn)行行標(biāo)準(zhǔn)化還是列標(biāo)準(zhǔn)化毒涧?很顯然,行標(biāo)準(zhǔn)化與列標(biāo)準(zhǔn)化是不同的贝室。
行標(biāo)準(zhǔn)化后契讲,可以比較每個(gè)gene在不同sample中的表達(dá)情況。但滑频,行與行之間絕對數(shù)值不能再進(jìn)行比較了捡偏。
列標(biāo)準(zhǔn)化后,可以比較每個(gè)sample中不同gene的表達(dá)情況峡迷。但霹琼,列與列之間絕對數(shù)值不能再進(jìn)行比較了。
不過凉当,不管進(jìn)行列標(biāo)準(zhǔn)化還是行標(biāo)準(zhǔn)化枣申,表達(dá)趨勢是可以在跨行列進(jìn)行比較的。通過下圖來體會(huì)一下看杭。
【0-1標(biāo)準(zhǔn)化】
0-1標(biāo)準(zhǔn)化和正態(tài)標(biāo)準(zhǔn)化類似忠藤,同樣,通過下圖進(jìn)行體會(huì)楼雹。
能發(fā)現(xiàn)什么呢模孩?
對行進(jìn)行0-1標(biāo)準(zhǔn)化后尖阔,使得每一行表達(dá)量最高值為1,最低值為0榨咐;
對列進(jìn)行0-1標(biāo)準(zhǔn)化后介却,使得每一列表達(dá)量最高值為1,最低值為0块茁。
【聚類】
對tpm值進(jìn)行以上三種方式的轉(zhuǎn)換之后齿坷,使得可視化效果極大地改善,但是数焊,有時(shí)為了對表達(dá)模式進(jìn)一步分析永淌,就需要聚類分析,以便通過熱圖可視化挑選最優(yōu)的候選基因進(jìn)行后續(xù)研究佩耳。那就聚類看看
可以看到遂蛀,通過行聚類,將表達(dá)趨勢相似的行聚類到一起干厚,這樣看起來就更舒服了李滴。
先寫到這里,關(guān)于熱圖蛮瞄,以后應(yīng)該還會(huì)寫悬嗓。
-----------“但愿每次回憶,對生活都不感到負(fù)疚裕坊“瘢”-----------