注:讀懂圖片的主要方法是看懂橫軸和縱軸象颖。
1.1 熱圖
輸入數(shù)據(jù)是數(shù)值型矩陣、數(shù)據(jù)框
顏色的深淺表示數(shù)值的大小辉阶,上方/左側(cè)有聚類
分類:
①相關(guān)性熱圖:數(shù)值大小即為相關(guān)性高低练链;
②差異基因熱圖:有分組翔脱,一行是一個(gè)基因在n個(gè)樣本中的表達(dá)量,一列是一個(gè)樣本中所有基因的表達(dá)量媒鼓;
一個(gè)基因在不同樣本間的表達(dá)量差異才是重點(diǎn)(橫著比較)
1.2 散點(diǎn)圖&箱線圖
散點(diǎn)圖的橫坐標(biāo)index(數(shù)值下標(biāo))届吁,沒(méi)有任何意義;每個(gè)點(diǎn)表示數(shù)據(jù)中某個(gè)列的某個(gè)值
箱線圖:橫坐標(biāo)是分組(重復(fù)值)绿鸣,縱坐標(biāo)是數(shù)值型向量疚沐。
單個(gè)基因在兩組之間的表達(dá)量差異 —— 箱線圖
多基因的差異分析:主要根據(jù)logFC和P.value;
log2(FC) = log(x)-log(y)潮模;(logFC取值無(wú)特定值亮蛔,可以設(shè)為mean+2sd)
log(x) —— 處理組表達(dá)量的log值的平均值;
log(y) —— 對(duì)照組表達(dá)量的log值的平均值擎厢;
? logFC>0,treat > control,基因表達(dá)量上升蒿叠;
? logFC<0,treat < control神得,基因表達(dá)量上升;
而上調(diào)基因和下調(diào)基因時(shí)指表達(dá)量顯著上升/下降的基因:P值
P.value :P值越小偷仿,-log10(P.value)越大哩簿,差異越顯著;
P.value值的范圍:p <0.01
1.3 PCA主成分分析
主成分分析也稱主分量分析酝静,旨在利用降維的思想节榜, 把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)(即主成分) 。
根據(jù)這些主成分對(duì)樣本進(jìn)行聚類别智,代表樣本的點(diǎn)在坐標(biāo)軸上距離越遠(yuǎn)宗苍,說(shuō)明樣本差異越大
每個(gè)小點(diǎn)為一個(gè)樣本,每個(gè)顏色為一個(gè)分組亿遂,大點(diǎn)為整組的中心點(diǎn)浓若。小點(diǎn)與小點(diǎn)之間的距離表示相似性渺杉。
最完美的分組:各自分組無(wú)重疊蛇数,組內(nèi)樣本比較集中,組間距離大是越。
【補(bǔ)】橫縱的Dim:主成分的占比耳舅。一般在別的統(tǒng)計(jì)分析中橫縱坐標(biāo)總共得占90%之上的才算有統(tǒng)計(jì)學(xué)意義的數(shù)據(jù)。但此處只需要觀察兩個(gè)分組間的差異即可倚评。
1.4 火山圖
主要用于展示基因表達(dá)水平差異浦徊。
輸入數(shù)據(jù): "logFC", "P.Value","change"
① change是定義顏色的,也可以不加天梧;
② "logFC"(橫軸), "P.Value"(縱軸)是差異基因分析產(chǎn)生的列盔性。
橫軸logFC:log2 fold change差異表達(dá)倍數(shù),正負(fù)代表基因表達(dá)量的上下調(diào)呢岗,差異越大越靠近X軸邊緣冕香。
縱軸是P.Value經(jīng)“-log10( )”處理的結(jié)果,理論上P值越小表示越顯著后豫,即y軸值越大就表示差異越顯著悉尾。