本文圖片引用自生信技能樹(shù)乳怎,小潔老師的課件济似,關(guān)注微信公眾號(hào):生信技能樹(shù)嘹狞、生信星球
熱圖heatmaps
什么是熱圖
本質(zhì)上它是用顏色直觀的表現(xiàn)一個(gè)數(shù)值矩陣,圖上每一個(gè)小方格都是一個(gè)數(shù)值磺樱,按一條預(yù)設(shè)好的色彩變化尺(稱為色鍵纳猫,Color Key),來(lái)給每個(gè)數(shù)值分配顏色竹捉,雖然看起來(lái)眼花芜辕,但道理卻很簡(jiǎn)單。使用時(shí)块差,不必局限于基因鑒別上下調(diào)侵续,所有實(shí)驗(yàn)涉及矩陣數(shù)據(jù)表達(dá)都可以用熱圖可視化表達(dá)
熱圖的輸入數(shù)據(jù)必須是數(shù)值型數(shù)據(jù)框或者矩陣,顏色的變化顯示數(shù)值的大小
當(dāng)我有一個(gè)二維矩陣憾儒,例如:
這是一個(gè)TCGA肺腺癌的基因表達(dá)譜(logCPM询兴,前5個(gè)基因、5個(gè)樣本)起趾。我想以直觀的方式觀察這個(gè)二維矩陣,怎么辦警儒?
這個(gè)時(shí)候就要用到熱圖了训裆。這個(gè)矩陣的熱圖(前50個(gè)基因眶根、50個(gè)樣本):
每1個(gè)格子代表橫軸樣本名與縱軸基因?qū)?yīng)的數(shù)值,顏色顯示按照?qǐng)D右邊的色鍵標(biāo)準(zhǔn)顯示边琉。
圖中直接看很難看出什么信息属百,能不能對(duì)行和列進(jìn)行排序,把相似的排到一起 這樣不就能直觀地反應(yīng)信息了嗎变姨?當(dāng)然排序的方法有很多族扰,你可以自己排,也可以使用聚類的方法定欧。所謂聚類的方法 就是對(duì)行列(可以都聚類渔呵,也可以只對(duì)行聚類,或者只對(duì)列聚類)進(jìn)行聚類砍鸠,把聚到同一類的放到一起扩氢。 圖二 就是對(duì) 樣本和基因都進(jìn)行了層次聚類,距離較近的放到一起爷辱。聚類只是改變了數(shù)值的位置录豺,對(duì)應(yīng)的樣本和基因位置也隨著數(shù)值改變,相當(dāng)于根據(jù)數(shù)據(jù)大小把矩陣中的排列順序改變
可以只對(duì)基因進(jìn)行聚類饭弓,也可以只對(duì)樣本聚類双饥,但是注意樣本聚類后干預(yù)組和對(duì)照組的樣本可能會(huì)互相夾雜,簡(jiǎn)單來(lái)說(shuō)聚類決定了每個(gè)樣本的位置弟断,而不是分組決定了每個(gè)樣本的位置
散點(diǎn)圖和箱線圖
散點(diǎn)圖就是橫縱坐標(biāo)的對(duì)應(yīng)數(shù)值兢哭,可以根據(jù)類型區(qū)分顏色,iris中1列為例
箱線圖弱化橫坐標(biāo),強(qiáng)化分組
輸入數(shù)據(jù)是1個(gè)數(shù)值型向量和1個(gè)有重復(fù)值且不能太多的字符串向量
箱線圖中圖像的意義箱子內(nèi)包含50%的數(shù)據(jù)夫嗓,中間黑線表示數(shù)值的中位數(shù)迟螺,箱子越扁,說(shuō)明組內(nèi)差異越小舍咖,箱子越大矩父,說(shuō)明組內(nèi)差異越大。還可以在組見(jiàn)加P值對(duì)比
圖片引用自生信技能樹(shù)排霉,小潔老師的課件關(guān)注微信生信技能樹(shù)窍株、生信星球
火山圖
用來(lái)顯示limma差異分析的結(jié)果
logFC
Foldchange(FC):處理組平均值/對(duì)照組平均值
logFoldchange(logFC):FC取log2
非常羞恥的復(fù)習(xí)下初中數(shù)學(xué)
logFC的意義就是,處理組比對(duì)照組表達(dá)差別2的logFC倍攻柠,所以logFC一般為個(gè)位數(shù)球订。,logFC>0,表明處理組基因比對(duì)照組表達(dá)多瑰钮,<0冒滩,表明處理組比對(duì)照組表達(dá)少
logFC為火山圖的橫坐標(biāo),絕對(duì)值決定差異基因的數(shù)量浪谴,取閾值一般為±0.585 开睡、1因苹、1.5、1.75篇恒、2
什么是P值扶檐?
https://zhuanlan.zhihu.com/p/74698448
簡(jiǎn)單來(lái)說(shuō),對(duì)于基因表達(dá)來(lái)說(shuō)胁艰,
我們做一個(gè)假定:處理組一個(gè)基因的表達(dá)與對(duì)照組相同
P=1時(shí)款筑,無(wú)論測(cè)了幾組樣本都100%相同,差異性為0.
P=0.5時(shí)腾么,有50%的可能表達(dá)不同奈梳,差異性一般般。
P=0.05時(shí)哮翘,有95%的可能表達(dá)不同颈嚼,差異性很大。
P<0.01時(shí)饭寺,有大于99%的可能表達(dá)不同阻课,差異性顯著!
-log10(Pvalue)為火山圖的縱坐標(biāo),意義如上圖艰匙。一般P<0.01限煞,-log10(0.01)=2,一般取>2為顯著差異
主成分分析PCA
簡(jiǎn)單的了解內(nèi)容
主成分分析,旨在利用降維的思想员凝,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)(即主成分)署驻。
舉個(gè)例子:iris數(shù)據(jù)集里,每1列代表一個(gè)指標(biāo)健霹,4列就是4個(gè)指標(biāo)旺上,如果不進(jìn)行降維分析的化,我們得到的圖糖埋,就如下圖所示宣吱,可以看出a與bc,差異性大瞳别,bc有一定的交集征候。我們可以想象,如果有10000列祟敛,那么將很難分辨組間的相關(guān)性疤坝。
主成分分析就是將上圖中4個(gè)指標(biāo),降維成2個(gè)主成分馆铁,如何轉(zhuǎn)換我們以后進(jìn)一步學(xué)習(xí)跑揉,這樣就將線變成了點(diǎn),如下圖所示