三四十頁的轉(zhuǎn)錄組的測序報告不知該如何入手,眾多分析結(jié)果不知該關(guān)注哪些氨距?今天我們就從RPKM到KEGG棘劣,慢慢給你講解。
01 什么是RPKM值寡喝?
02 如何看懂火山圖勒奇?
03 MA plot和火山圖有什么區(qū)別?
04?為什么要做主成分分析格二?
05??從熱圖尋找差異基因
06 GO富集分析的作用
07 KEGG Pathway富集分析
08 KEGG代謝通路圖
09 總結(jié):我們能通過轉(zhuǎn)錄組測序獲得哪些信息顶猜?
01 什么是RPKM值痘括?
RPKM值用于衡量基因的表達量,在轉(zhuǎn)錄組測序結(jié)題報告中的表達量的比較分析均以RPKM值為基礎(chǔ)挠日。
RPKM的定義:
RPKM是Reads Per Kilobase per Million mapped reads的縮寫肆资,代表每百萬reads中來自于某基因每千堿基長度的reads數(shù)灶芝。RPKM是將比對到基因的read數(shù)除以比對到基因組上的所有read數(shù)(以million為單位)與RNA的長度(以KB為單位)夜涕。
其公式為:
為什么選擇RPKM?
在衡量基因表達量時酸役,若是單純以比對到的read數(shù)來計算基因的表達量涣澡,在統(tǒng)計上是不合理的丧诺。因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高抗愁,如此一來,序列長的基因永遠會被認為表達量較高沫屡,而錯估基因真正的表達量沮脖,所以Ali Mortazavi等人在2008年提出以RPKM在估計基因的表達量芯急。
RPKM值能消除基因長度和測序量差異對計算基因表達的影響志于,計算得到的基因表達量可直接用于比較不同樣品間的基因表達差異废睦。
當(dāng)然,RPKM值只是量化基因表達的方式之一奈应,除此之外還有FPKM杖挣、TPM等方式刚陡。
02 如何看懂火山圖?
轉(zhuǎn)錄組測序最重要的目的就是尋找差異表達基因歌殃。標(biāo)準(zhǔn)的火山圖(volcano plot)常用于展示顯著差異表達的基因氓皱。
上圖中波材,每個點代表一個基因身隐,橫軸代表基因在不同樣本中表達倍數(shù)的變化,橫坐標(biāo)是log2(Fold Change)躲因,縱軸代表基因表達量變化差異的統(tǒng)計學(xué)顯著性,縱坐標(biāo)是-log10(P value)搞监。
通常將基因表達變化2倍作為差異表達的閾值琐驴,在圖中就是平行于Y軸的兩條線X=1和X=-1绝淡,在X=-1左側(cè)的點是下調(diào)超過2倍的基因苍姜,在X=1右側(cè)的點是上調(diào)超過2倍的基因。此外馍乙,平行于X軸有一條虛線Y=1.30丝格,即-log10(0.05)棵譬,在虛線上方的點表示有顯著性订咸,因此在X=1右側(cè)、Y=1.30上方的點(紅色的點)就是表達量顯著上調(diào)的基因骆撇,在X=-1左側(cè)然眼、Y=1.30上方的點(綠色的點)就是表達量顯著下調(diào)的基因高每,此外,一些關(guān)注的基因還會標(biāo)出基因名稱爷怀。
03?MA plot和火山圖有什么區(qū)別运授?
MA plot看起來有點像躺著的火山圖。MA plot中柒室,縱坐標(biāo)logFC(在火山圖的介紹中已經(jīng)解釋過)是log2 (Fold Change)逗宜,用于衡量基因表達上下調(diào)纺讲;橫坐標(biāo)則是logCPM?即log2(counts per million),用于衡量基因的表達量逢渔。
CPM即Counts Per Million肃廓,計算公式為CPM=C/N*1000000粟判,設(shè)C為比對到 某個基因的 reads 數(shù)(read count)档礁,N 為比對到所有基因的總reads數(shù)吝沫。在某些情況下惨险,我們只想了解每個基因被覆蓋到的相對reads數(shù),而不希望對其做長度校正栅受,就會使用這個指標(biāo)屏镊。
MA plot目前貌似還沒有一個中文譯名痰腮,但簡而言之膀值,它的X軸是基因在兩個樣本中的豐度平均值误辑,Y軸表示基因表達差異巾钉。相比之下秘案,MA plot充分展示了基因豐度和表達變化之間的關(guān)系踏烙。我們可以看到,藍色兩條線的上方和下方辟癌,分別代表上下調(diào)差異表達基因黍少;越靠右下或者右上的點处面,就是豐度越高而且變化幅度越大的基因魂角。
04?為什么要做主成分分析?
我們通過測序獲得了大量的測量數(shù)據(jù)访忿,用于分析基因表達規(guī)律海铆。多變量大樣本無疑會為我們的研究提供豐富的信息挣惰,但也在一定程度上增加了問題分析的復(fù)雜性憎茂,對分析帶來不便。因此需要找到一個合理的方法廊酣,在減少需要分析變量的同時亡驰,避免原有信息的損失,以達到對所收集數(shù)據(jù)進行全面分析的目的戒职。
主成分分析便是一種降維的方法洪燥,它將多個變量簡化為少數(shù)乳乌、具有代表性的綜合變量汉操,以便于對整體基因表達情況進行描述、分析芒篷。通過主成分分析可以更直觀的看到不同樣本的整體差異针炉。
在上圖中篡帕,3種細胞(HCT116赂苗、MKN45、SGC7901猜谚,各3個重復(fù))通過主成分分析赌渣,可以很明顯的聚成3類魏铅。
05 從熱圖尋找差異基因
熱圖(heatmap)是對實驗數(shù)據(jù)分布情況進行分析的直觀可視化方法,可以用來進行基因表達差異的全局展示坚芜,還可以對數(shù)據(jù)和樣品進行聚類览芳。
熱圖中X軸表示不同樣本,Y軸表示不同基因鸿竖,每一個小方格表示某個樣本的某個基因沧竟,方格的顏色表示基因的表達量的高低铸敏,如下圖所示,紅色表示高表達悟泵,綠色表示低表達杈笔,表達量越高或越低糕非,顏色越紅或越綠蒙具。要找差異基因,只需比較同一基因在不同樣本對應(yīng)的顏色差異即可朽肥。
熱圖同時還給出了樣本和基因的聚類關(guān)系禁筏,如果關(guān)心樣本(或基因)在檢測到的表達量水平如何分類,相關(guān)關(guān)系如何衡招,可以選擇相應(yīng)的條件聚類融师,也可以兩者都選擇。
由于完整的熱圖通常較大蚁吝,不利于查找感興趣的基因旱爆,也不利于展示研究關(guān)注的基因【阶拢可以進一步將基因上下調(diào)差異較顯著的部分截取放大怀伦。
06?GO富集分析的作用
通過表達量分析,我們可以找到許多差異表達的基因山林,接下來想要找到這些差異基因的功能房待,可以對基因進行GO富集分析。
GO即Gene Ontology驼抹,http://www.geneontology.org桑孩,是一個將全世界所有與基因有關(guān)的研究結(jié)果進行分類匯總的綜合數(shù)據(jù)庫,利用GO 數(shù)據(jù)庫框冀,可以對于一個或一組基因按照其參與的BP(Biological Process, 生物過程)流椒、MF(Molecular Function, 分子功能) 及CC(Cellular Component, 細胞組分) 三個方面進行分類注釋。
GO注釋有助于理解基因背后的生物學(xué)意義明也,即差異表達基因與哪些生物學(xué)功能相關(guān)宣虾。通過尋找哪些差異表達基因?qū)儆谝粋€共同的GO功能分支,并用統(tǒng)計學(xué)方法檢驗結(jié)果是否具有統(tǒng)計學(xué)意義温数,從而得出差異表達基因主要參與了哪些生物功能或途徑绣硝。
07??KEGG Pathway富集分析
KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫撑刺,它有助于研究者把基因及表達信息作為一個整體網(wǎng)絡(luò)進行研究鹉胖。
與GO分析法(應(yīng)用單個基因的GO分類信息)不同,通路分析法利用的資源是許多已經(jīng)研究清楚的基因之間的相互作用,即生物學(xué)通路甫菠。通過KEGG Pathway顯著性富集能確定差異表達的基因參與了哪些生化代謝通路和信號轉(zhuǎn)導(dǎo)通路败许,并通過統(tǒng)計學(xué)方法計算哪些通路與基因表達的變化最為相關(guān)。
在上面這張KEGG pathway富集圖中淑蔚,X軸表示富集的顯著性(用-log10(P value)表示市殷,該值越大說明富集越顯著),Y軸表示富集的KEGG Terms(在GO富集圖中則為GO Term)刹衫,圓點大小表示該KEGG pathway包含的差異基因數(shù)目醋寝,圓點深淺表示Rich factor(富集因子),也就是富集的程度(Rich factor=輸入的差異基因列表中富集到該pathway的基因數(shù)/該pathway的所有基因數(shù))带迟。
通俗的說就是音羞,橫軸越往右表示富集越顯著,縱軸代表不同的信號通路仓犬,點越大表示富集到該通路的基因越多嗅绰。該圖表示與對照組相比,實驗組中多數(shù)差異表達基因以高顯著性富集到礦質(zhì)元素吸收這條通路搀继,說明實驗組中某種處理主要影響了礦質(zhì)元素的吸收窘面。
08?KEGG代謝通路圖
知道了差異表達基因主要富集到哪個通路之后,若想了解這些差異表達基因是如何影響這些通路所代表的代謝功能叽躯,我們可以對某一個代謝通路圖進行分析财边。
如下圖方框表示KEGG數(shù)據(jù)庫中對于該通路的所有基因,紅色標(biāo)注為差異基因列表中富集到該特定生物學(xué)途徑的基因点骑,綠色框的基因產(chǎn)物都屬于本次轉(zhuǎn)錄組所測物種含有的背景基因酣难,白色框的基因產(chǎn)物表示不屬于本次所測物種的基因。
圖中小圓圈表示分子化合物(非蛋白)黑滴,箭頭表示化學(xué)反應(yīng)憨募,虛線箭頭表示間接反應(yīng),+p袁辈、+u表示磷酸化菜谣、泛素化等修飾,具體如下圖所示吵瞻。這樣就可以直接的看出差異表達基因是如何影響代謝功能了葛菇。
09? 總結(jié):我們能通過轉(zhuǎn)錄組測序獲得哪些信息?
1.不同樣品中差異表達的基因
2.不同樣品的差異表達背后是哪些生物學(xué)功能或途徑發(fā)生了變化
3.不同樣品的生物學(xué)功能是怎樣發(fā)生變化的(通過哪些通路調(diào)控)