轉(zhuǎn)錄組解釋轉(zhuǎn)載

三四十頁的轉(zhuǎn)錄組的測序報告不知該如何入手,眾多分析結(jié)果不知該關(guān)注哪些氨距?今天我們就從RPKM到KEGG棘劣,慢慢給你講解。


01 什么是RPKM值寡喝?

02 如何看懂火山圖勒奇?

03 MA plot和火山圖有什么區(qū)別?

04?為什么要做主成分分析格二?

05??從熱圖尋找差異基因

06 GO富集分析的作用

07 KEGG Pathway富集分析

08 KEGG代謝通路圖

09 總結(jié):我們能通過轉(zhuǎn)錄組測序獲得哪些信息顶猜?


01 什么是RPKM值痘括?

RPKM值用于衡量基因的表達量,在轉(zhuǎn)錄組測序結(jié)題報告中的表達量的比較分析均以RPKM值為基礎(chǔ)挠日。

RPKM的定義:

RPKM是Reads Per Kilobase per Million mapped reads的縮寫肆资,代表每百萬reads中來自于某基因每千堿基長度的reads數(shù)灶芝。RPKM是將比對到基因的read數(shù)除以比對到基因組上的所有read數(shù)(以million為單位)與RNA的長度(以KB為單位)夜涕。

其公式為:

為什么選擇RPKM?

在衡量基因表達量時酸役,若是單純以比對到的read數(shù)來計算基因的表達量涣澡,在統(tǒng)計上是不合理的丧诺。因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高抗愁,如此一來,序列長的基因永遠會被認為表達量較高沫屡,而錯估基因真正的表達量沮脖,所以Ali Mortazavi等人在2008年提出以RPKM在估計基因的表達量芯急。

RPKM值能消除基因長度和測序量差異對計算基因表達的影響志于,計算得到的基因表達量可直接用于比較不同樣品間的基因表達差異废睦。

當(dāng)然,RPKM值只是量化基因表達的方式之一奈应,除此之外還有FPKM杖挣、TPM等方式刚陡。

02 如何看懂火山圖?

轉(zhuǎn)錄組測序最重要的目的就是尋找差異表達基因歌殃。標(biāo)準(zhǔn)的火山圖(volcano plot)常用于展示顯著差異表達的基因氓皱。

上圖中波材,每個點代表一個基因身隐,橫軸代表基因在不同樣本中表達倍數(shù)的變化,橫坐標(biāo)是log2(Fold Change)躲因,縱軸代表基因表達量變化差異的統(tǒng)計學(xué)顯著性,縱坐標(biāo)是-log10(P value)搞监。

通常將基因表達變化2倍作為差異表達的閾值琐驴,在圖中就是平行于Y軸的兩條線X=1和X=-1绝淡,在X=-1左側(cè)的點是下調(diào)超過2倍的基因苍姜,在X=1右側(cè)的點是上調(diào)超過2倍的基因。此外馍乙,平行于X軸有一條虛線Y=1.30丝格,即-log10(0.05)棵譬,在虛線上方的點表示有顯著性订咸,因此在X=1右側(cè)、Y=1.30上方的點(紅色的點)就是表達量顯著上調(diào)的基因骆撇,在X=-1左側(cè)然眼、Y=1.30上方的點(綠色的點)就是表達量顯著下調(diào)的基因高每,此外,一些關(guān)注的基因還會標(biāo)出基因名稱爷怀。

03?MA plot和火山圖有什么區(qū)別运授?

MA plot看起來有點像躺著的火山圖。MA plot中柒室,縱坐標(biāo)logFC(在火山圖的介紹中已經(jīng)解釋過)是log2 (Fold Change)逗宜,用于衡量基因表達上下調(diào)纺讲;橫坐標(biāo)則是logCPM?即log2(counts per million),用于衡量基因的表達量逢渔。

CPM即Counts Per Million肃廓,計算公式為CPM=C/N*1000000粟判,設(shè)C為比對到 某個基因的 reads 數(shù)(read count)档礁,N 為比對到所有基因的總reads數(shù)吝沫。在某些情況下惨险,我們只想了解每個基因被覆蓋到的相對reads數(shù),而不希望對其做長度校正栅受,就會使用這個指標(biāo)屏镊。

MA plot目前貌似還沒有一個中文譯名痰腮,但簡而言之膀值,它的X軸是基因在兩個樣本中的豐度平均值误辑,Y軸表示基因表達差異巾钉。相比之下秘案,MA plot充分展示了基因豐度和表達變化之間的關(guān)系踏烙。我們可以看到,藍色兩條線的上方和下方辟癌,分別代表上下調(diào)差異表達基因黍少;越靠右下或者右上的點处面,就是豐度越高而且變化幅度越大的基因魂角。

04?為什么要做主成分分析?

我們通過測序獲得了大量的測量數(shù)據(jù)访忿,用于分析基因表達規(guī)律海铆。多變量大樣本無疑會為我們的研究提供豐富的信息挣惰,但也在一定程度上增加了問題分析的復(fù)雜性憎茂,對分析帶來不便。因此需要找到一個合理的方法廊酣,在減少需要分析變量的同時亡驰,避免原有信息的損失,以達到對所收集數(shù)據(jù)進行全面分析的目的戒职。

主成分分析便是一種降維的方法洪燥,它將多個變量簡化為少數(shù)乳乌、具有代表性的綜合變量汉操,以便于對整體基因表達情況進行描述、分析芒篷。通過主成分分析可以更直觀的看到不同樣本的整體差異针炉。


在上圖中篡帕,3種細胞(HCT116赂苗、MKN45、SGC7901猜谚,各3個重復(fù))通過主成分分析赌渣,可以很明顯的聚成3類魏铅。

05 從熱圖尋找差異基因

熱圖(heatmap)是對實驗數(shù)據(jù)分布情況進行分析的直觀可視化方法,可以用來進行基因表達差異的全局展示坚芜,還可以對數(shù)據(jù)和樣品進行聚類览芳。

熱圖中X軸表示不同樣本,Y軸表示不同基因鸿竖,每一個小方格表示某個樣本的某個基因沧竟,方格的顏色表示基因的表達量的高低铸敏,如下圖所示,紅色表示高表達悟泵,綠色表示低表達杈笔,表達量越高或越低糕非,顏色越紅或越綠蒙具。要找差異基因,只需比較同一基因在不同樣本對應(yīng)的顏色差異即可朽肥。

熱圖同時還給出了樣本和基因的聚類關(guān)系禁筏,如果關(guān)心樣本(或基因)在檢測到的表達量水平如何分類,相關(guān)關(guān)系如何衡招,可以選擇相應(yīng)的條件聚類融师,也可以兩者都選擇。

由于完整的熱圖通常較大蚁吝,不利于查找感興趣的基因旱爆,也不利于展示研究關(guān)注的基因【阶拢可以進一步將基因上下調(diào)差異較顯著的部分截取放大怀伦。


06?GO富集分析的作用

通過表達量分析,我們可以找到許多差異表達的基因山林,接下來想要找到這些差異基因的功能房待,可以對基因進行GO富集分析。

GO即Gene Ontology驼抹,http://www.geneontology.org桑孩,是一個將全世界所有與基因有關(guān)的研究結(jié)果進行分類匯總的綜合數(shù)據(jù)庫,利用GO 數(shù)據(jù)庫框冀,可以對于一個或一組基因按照其參與的BP(Biological Process, 生物過程)流椒、MF(Molecular Function, 分子功能) 及CC(Cellular Component, 細胞組分) 三個方面進行分類注釋。

GO注釋有助于理解基因背后的生物學(xué)意義明也,即差異表達基因與哪些生物學(xué)功能相關(guān)宣虾。通過尋找哪些差異表達基因?qū)儆谝粋€共同的GO功能分支,并用統(tǒng)計學(xué)方法檢驗結(jié)果是否具有統(tǒng)計學(xué)意義温数,從而得出差異表達基因主要參與了哪些生物功能或途徑绣硝。

07??KEGG Pathway富集分析

KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫撑刺,它有助于研究者把基因及表達信息作為一個整體網(wǎng)絡(luò)進行研究鹉胖。

與GO分析法(應(yīng)用單個基因的GO分類信息)不同,通路分析法利用的資源是許多已經(jīng)研究清楚的基因之間的相互作用,即生物學(xué)通路甫菠。通過KEGG Pathway顯著性富集能確定差異表達的基因參與了哪些生化代謝通路和信號轉(zhuǎn)導(dǎo)通路败许,并通過統(tǒng)計學(xué)方法計算哪些通路與基因表達的變化最為相關(guān)。

在上面這張KEGG pathway富集圖中淑蔚,X軸表示富集的顯著性(用-log10(P value)表示市殷,該值越大說明富集越顯著),Y軸表示富集的KEGG Terms(在GO富集圖中則為GO Term)刹衫,圓點大小表示該KEGG pathway包含的差異基因數(shù)目醋寝,圓點深淺表示Rich factor(富集因子),也就是富集的程度(Rich factor=輸入的差異基因列表中富集到該pathway的基因數(shù)/該pathway的所有基因數(shù))带迟。

通俗的說就是音羞,橫軸越往右表示富集越顯著,縱軸代表不同的信號通路仓犬,點越大表示富集到該通路的基因越多嗅绰。該圖表示與對照組相比,實驗組中多數(shù)差異表達基因以高顯著性富集到礦質(zhì)元素吸收這條通路搀继,說明實驗組中某種處理主要影響了礦質(zhì)元素的吸收窘面。

08?KEGG代謝通路圖

知道了差異表達基因主要富集到哪個通路之后,若想了解這些差異表達基因是如何影響這些通路所代表的代謝功能叽躯,我們可以對某一個代謝通路圖進行分析财边。

如下圖方框表示KEGG數(shù)據(jù)庫中對于該通路的所有基因,紅色標(biāo)注為差異基因列表中富集到該特定生物學(xué)途徑的基因点骑,綠色框的基因產(chǎn)物都屬于本次轉(zhuǎn)錄組所測物種含有的背景基因酣难,白色框的基因產(chǎn)物表示不屬于本次所測物種的基因。


圖中小圓圈表示分子化合物(非蛋白)黑滴,箭頭表示化學(xué)反應(yīng)憨募,虛線箭頭表示間接反應(yīng),+p袁辈、+u表示磷酸化菜谣、泛素化等修飾,具體如下圖所示吵瞻。這樣就可以直接的看出差異表達基因是如何影響代謝功能了葛菇。


09? 總結(jié):我們能通過轉(zhuǎn)錄組測序獲得哪些信息?

1.不同樣品中差異表達的基因

2.不同樣品的差異表達背后是哪些生物學(xué)功能或途徑發(fā)生了變化

3.不同樣品的生物學(xué)功能是怎樣發(fā)生變化的(通過哪些通路調(diào)控)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末橡羞,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子济舆,更是在濱河造成了極大的恐慌卿泽,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異签夭,居然都是意外死亡齐邦,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門第租,熙熙樓的掌柜王于貴愁眉苦臉地迎上來措拇,“玉大人,你說我怎么就攤上這事慎宾∝は牛” “怎么了?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵趟据,是天一觀的道長券犁。 經(jīng)常有香客問我,道長汹碱,這世上最難降的妖魔是什么粘衬? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮咳促,結(jié)果婚禮上稚新,老公的妹妹穿的比我還像新娘。我一直安慰自己跪腹,他們只是感情好枷莉,可當(dāng)我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著尺迂,像睡著了一般笤妙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上噪裕,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天蹲盘,我揣著相機與錄音,去河邊找鬼膳音。 笑死蛹疯,一個胖子當(dāng)著我的面吹牛承绸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼巢价,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了汤功?” 一聲冷哼從身側(cè)響起姜骡,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎想罕,沒想到半個月后悠栓,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年惭适,在試婚紗的時候發(fā)現(xiàn)自己被綠了笙瑟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡癞志,死狀恐怖往枷,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情凄杯,我是刑警寧澤错洁,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站盾舌,受9級特大地震影響墓臭,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜妖谴,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一窿锉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧膝舅,春花似錦嗡载、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至技潘,卻和暖如春遥巴,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背享幽。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工铲掐, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人值桩。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓摆霉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親奔坟。 傳聞我的和親對象是個殘疾皇子携栋,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容