劉小澤寫于19.3.19
通常做富集分析時(shí),我們會(huì)遇到兩種方法Pathway和GSEA眼五,它們到底有什么區(qū)別妆艘?
前言
我們通過(guò)差異分析會(huì)得到一些差異基因彤灶,那么如何知道這些基因是做什么的,都影響了處理組哪些過(guò)程批旺?Pathway和GSEA都是為了說(shuō)明這個(gè)問(wèn)題的幌陕。但是它們之間存在著很大的不同。因?yàn)橹拔乙彩谴嬖谝苫笃螅裉炻?tīng)人講起搏熄,于是查了一下
原文在此:https://advaitabio.com/ipathwayguide/pathway-analysis-vs-gene-set-analysis/
另外結(jié)合了一下自己的認(rèn)識(shí)
關(guān)于pathway
Wiki的解釋:A series of interactions among molecules in a cell that leads to a certain product or a change in a cell
pathway主要描述了一種機(jī)理或者現(xiàn)象,可以有信號(hào)通路暇赤、代謝通路等等心例,它的結(jié)果由點(diǎn)(nodes)和線(edges)組成,目的是描述某些現(xiàn)象鞋囊、相互作用和依賴性止后。Pathway是一種描述細(xì)胞、組織或個(gè)體內(nèi)的基因溜腐、蛋白或代謝產(chǎn)物互作關(guān)系的模型译株,并不是簡(jiǎn)單地基因列表。我們都知道有KEGG是做富集分析通路注釋的挺益,但是還有一些數(shù)據(jù)庫(kù)歉糜,比如Reactome、Biocarta等也可以做pathway分析
關(guān)于GSEA
GSEA方法由Broad Institute提出的富集方法望众,核心是基因集(gene set)匪补,它就是無(wú)序、無(wú)結(jié)構(gòu)的一組基因黍檩,我們可以將這些基因定義成參與特定生物過(guò)程(例如:細(xì)胞周期)叉袍、存在于某個(gè)位置(例如:1號(hào)染色體)、與什么疾病有關(guān)(例如:乳腺癌)刽酱,或者直接可以取某個(gè)pathway中存在的一些就因(例如:參與KEGG細(xì)胞周期通路的128個(gè)基因)喳逛。可以看到棵里,基因集除了僅僅包含了一些基因以外润文,似乎沒(méi)有什么定義,也正因?yàn)檫@樣殿怜,基因集的定義可以更加廣泛典蝌,主要看人為需求。
Molecular Signatures Database (MSigDB)數(shù)據(jù)庫(kù)中就包含了超過(guò)17,000個(gè)這樣的基因集分布在8大類別中(如:H: hallmark gene sets头谜、C1: positional gene sets骏掀、C2:curated gene sets、C3 : motif gene sets、C4 : computational gene sets截驮、C5 : GO gene sets笑陈、C6 : oncogenic signatures、C7 : immunologic signatures)葵袭,讓富集分析不僅可以從GO涵妥、KEGG這樣的功能角度出發(fā),還可以結(jié)合位置坡锡、表達(dá)量變化趨勢(shì)等進(jìn)行研究蓬网,更加拓展了富集分析的范疇。
有6種情況需要pathway分析更多
第一種:想知道基因是怎么相互作用時(shí)
上面??說(shuō)到了鹉勒,pathway與基因集之間一個(gè)關(guān)鍵的不同就是基因集是無(wú)序的帆锋,而pathway是用于描述某個(gè)過(guò)程、機(jī)制或者現(xiàn)象的復(fù)雜模型贸弥。
左邊??的圖【KEGG MAPK pathway 】畫出了各種基因和基因產(chǎn)物(胞內(nèi)/外/膜內(nèi))的位置窟坐、互作類型(激活、抑制绵疲、磷酸化等)哲鸳、信號(hào)傳遞方向等等;右圖【MSigDB gene set corresponding to the KEGG MAPK pathway 】只是可以讓我們知道有這些基因盔憨。
第二種:想充分利用差異基因在不同樣本表達(dá)量改變的大小和方向時(shí)
早期的基因集分析方法是采用ORA(Over-Representation Analysis)的方法徙菠,一系列差異基因作為輸入,然后看這個(gè)列表中的基因是過(guò)表達(dá)還是低表達(dá)(比如可以看logFC值郁岩,F(xiàn)C=處理組表達(dá)量/對(duì)照組表達(dá)量)婿奔。這個(gè)需要事先定義一個(gè)閾值用來(lái)決定哪個(gè)基因作為差異基因(就像定義logFC=2還是等于1.5,都是人為定義的)问慎。然后基于每個(gè)pathway中DE (Differentially expressed)基因的富集程度來(lái)評(píng)估每種pathway的重要性萍摊,富集程度越高的pathway更可能與給定的條件真正相關(guān)。簡(jiǎn)而言之如叼,這種方法很大程度上依賴于定義DE的標(biāo)準(zhǔn)冰木,包括統(tǒng)計(jì)方法和閾值的選擇。
二代方法FCS(Functional Class Scoring )是基于所有基因表達(dá)量來(lái)消除DE選擇標(biāo)準(zhǔn)的依賴性笼恰,其背后的假設(shè)是:除了表達(dá)量變化比較大的基因以外踊沸,還有一些變化小卻可能其協(xié)同作用的基因也是重要的。主要方法包括:GSEA [25], Catmap [3], GlobalTest [10], sigPathway [28], SAFE [2], GSA [7], Category [17], PADOG [26], PCOT2 [19], FunCluster [14], SAM-GS [4]社证。如果基因變化與表型存在相似性逼龟,那么FCS可以基于整體表達(dá)量
第三種:當(dāng)想了解pathway的種類和其中各種聯(lián)系的方向時(shí)
基因集的方法將pathway的聯(lián)系視作無(wú)序排列,基因之間的關(guān)系也沒(méi)有結(jié)構(gòu)化追葡,這樣就丟棄了大量關(guān)于pathway描述的生物過(guò)程的信息腺律,目前已經(jīng)開(kāi)發(fā)了一些基于拓?fù)涞姆椒ㄞ榷蹋胍诜治鲋屑由线@部分信息,也就是除了基因表達(dá)變化以外匀钧,還考慮每個(gè)pathway的所有基因的位置篡诽、作用以及互作信息。
第一種這樣的方法是Impact Analysis[5]榴捡,然后又陸續(xù)開(kāi)發(fā)了30多種工具:us (Pathway-Express [5, 18], SPIA [27], ROntoTools [29], BLMA [22, 23]), as well as others (NetGSA [24], TopoGSA [9], TopologyGSA [20], DEGraph [16], PWEA [15], PathOlogist [11], GGEA [8], cepaORA, cepaGSA [12, 13], PathNet [6], etc.
第四種:想預(yù)測(cè)或解釋下游/通路影響
基因集只是考慮某一pathway上的一組基因,并忽略了基因在通路上的位置朱浴,因此存在生物學(xué)解釋的限制吊圾。如果某個(gè)通路由單個(gè)基因產(chǎn)物觸發(fā)或通過(guò)單一受體激活,并且不產(chǎn)生特定的蛋白翰蠢,那么這個(gè)通路可能受到很大的影響甚至完全關(guān)閉项乒。
例如:胰島素通路中不存在胰島素受體( insulin receptor, INSR)【圖中黃色的節(jié)點(diǎn)】,那么整個(gè)通路將會(huì)關(guān)閉(左圖)梁沧。相反檀何,如果幾個(gè)基因參與到一個(gè)通路,但是只出現(xiàn)在下游的某個(gè)地方廷支,那么它們的表達(dá)水平可能不會(huì)對(duì)這個(gè)通路產(chǎn)生那么嚴(yán)重的影響频鉴。【也就是說(shuō)恋拍,了解基因所處的位置是很重要的】垛孔。如果使用基因集分析,那么它只能考訴你這組通路的基因是否在所有差異基因中富集施敢,而不能告訴我們差異基因的變化是否會(huì)影響整個(gè)通路周荐。
第五種:想尋找實(shí)驗(yàn)中明顯被影響的機(jī)制
一些基因會(huì)具有多種功能或者參與到許多的通路,另外在每個(gè)通路中發(fā)揮的作用不同僵娃。例如概作,上面右圖中顯示的INSR(黃色節(jié)點(diǎn))同樣也是作為酪氨酸激酶受體蛋白參與Adherens Junction通路。如果INSR的表達(dá)發(fā)生改變默怨,Adherens Junction通路可能并不會(huì)發(fā)生太大的影響讯榕,因?yàn)镮NSR僅僅是其中一個(gè)受體。
如果使用基因集先壕,它不會(huì)考慮這些信息瘩扼,如果不結(jié)合其他方法,僅僅用基因集分析時(shí)很難判斷Adherens Junction通路或者胰島素通路的變化幅度垃僚。
目前基因集雖然很全集绰,但是其中各個(gè)通路中各種基因的互作關(guān)系還是沒(méi)有被好好利用。而Pathway可以作為這一點(diǎn)的補(bǔ)充谆棺,因此如果想探究某一個(gè)特定的分子機(jī)制栽燕,首選還是pathway分析罕袋。
下面是iPathway的截圖,其中對(duì)GSE47363數(shù)據(jù)集進(jìn)行了pathway分析碍岔。實(shí)驗(yàn)利用了miRNA(miR-542-3p)處理細(xì)胞浴讯,想要理解這個(gè)miRNA的作用。利用iPathway Guide 分析了處理組和對(duì)照組中表達(dá)量變化涉及的通路分析蔼啦。圖中紅色的部分是自動(dòng)推斷了所有信號(hào)與不同基因的依賴關(guān)系得到的機(jī)制榆纽,從而做出的判斷。而這個(gè)結(jié)果是不能從GSEA分析得到的捏肢。
第六種:想要結(jié)果結(jié)合最新的知識(shí)做出判斷
隨著數(shù)據(jù)量的增加奈籽,我們對(duì)各種通路的理解也在不斷加深。因此可以根據(jù)不斷更新的知識(shí)鸵赫,在pathway圖上增加衣屏、刪除或者重新定向通路。而基因集是不能感知這種變化的辩棒,基因集能做的是:只要pathway中涉及相同的基因狼忱,即使它們之間相互作用隨著我們研究的深入發(fā)生了改變,GSEA還是提供相同的結(jié)果一睁。
如果只看上面6個(gè)特定钻弄,那么pathway分析好像更勝一籌,pathway具有更明確的生物學(xué)意義以及更準(zhǔn)確的結(jié)果卖局,但是為什么還要使用基因集富集分析(GSEA)呢斧蜕?
想用GSEA第一種原因:想尋求更快的結(jié)果
GSEA的結(jié)果更加簡(jiǎn)單,因?yàn)椴缓腥魏蔚耐負(fù)浣Y(jié)構(gòu)信息砚偶,它們也更容易理解批销。通過(guò)計(jì)算富集的p值或者FCS打分(GSEA中提供的)就可以初步看下這一組基因是否可能與表型有關(guān)
想用GSEA第二種原因:當(dāng)有自己定義的基因集
基因集分析不存在任何依賴關(guān)系,這也可能是一個(gè)優(yōu)勢(shì)染坯。如果我們知道了一組基因可以在某一個(gè)通路中有協(xié)同作用均芽,就可以快速將讓它們定義為"基因集",然后找到與表型可能的相關(guān)性单鹿。當(dāng)然掀宋,其中可能會(huì)包含一些比較"隨意”或者相關(guān)性不那么大的基因,就會(huì)妨礙對(duì)真正生物學(xué)通路的理解仲锄。
References
- Marit Ackermann and Korbinian Strimmer. A general modular framework for gene set enrichment analysis. BMC Bioinformatics, 10(1):1, 2009.
- William T. Barry, Andrew B. Nobel, and Fred Wright. Significance analysis of functional categories in gene expression studies: a structured permutation approach. Bioinformatics, 21(9):1943–1949, May 2005.
- Thomas Breslin, Patrik Eden, and Morten Krogh. Comparing functional annotation analyses with Catmap. BMC Bioinformatics, 5(1):193, 2004.
- Irina Dinu, John D Potter, Thomas Mueller, Qi Liu, Adeniyi J Adewale, Gian S Jhangri, Gunilla Einecke, Konrad S Famulski, Philip Halloran, and Yutaka Yasui. Improving gene set analysis of microarray data by SAM-GS. BMC Bioinformatics, 8(1):242, 2007.
- Sorin Draghici, Purvesh Khatri, Adi L Tarca, Kashyap Amin, Arina Done, Calin Voichita, Constantin Georgescu, and Roberto Romero. A systems biology approach for pathway level analysis.Genome Research, 17(10):1537–1545, 2007.
- Bhaskar Dutta, Anders Wallqvist, and Jaques Reifman. PathNet: A tool for pathway analysis using topological information. Source Code for Biology and Medicine,7(1):10, 2012.
- Bradley Efron and Robert Tibshirani. On testing the significance of sets of genes.The Annals of Applied Statistics, 1(1):107–129, 2007.
- Ludwig Geistlinger, Gergely Csaba, Robert Kuffner, Nicola Mulder, and Ralf Zimmer.From sets to graphs: towards a realistic enrichment analysis of transcriptomic systems. Bioinformatics, 27(13):i366–i373, 2011.
- Enrico Glaab, Ana?s Baudot, Natalio Krasnogor, and Alfonso Valencia. TopoGSA: network topological gene set analysis. Bioinformatics, 26(9):1271–1272, 2010.
- Jelle J. Goeman, Sara A. van deGeer,Floor deKort, and Hans C. vanHouwelingen. A global test for groups of genes: testing association with a clinical outcome. Bioinformatics, 20(1):93–99, 2004.
- Greenblum, S. Efroni, C.Schaefer, and K. Buetow. The PathOlogist: an automated tool for pathway-centric analysis. BMC Bioinformatics, 12(1):133, 2011.
- Zuguang Gu, Jialin Liu, Kunming Cao, Junfeng Zhang, and Jin Wang. Centrality-based pathway enrichment: a systematic approach for finding significant pathways dominated by key genes.BMC systems biology, 6(1):56, 2012.
- Zuguang Gu and JinWang. Cepa: an R package for finding significant pathways weighted by multiple network centralities. Bioinformatics, 29(5):658–660, 2013.
- Corneliu Henegar, Raffaella Cancello, Sophie Rome, Hubert Vidal, Karine Clement, and Jean-Daniel Zucker. Clustering biological annotations and gene expression data to identify putatively co-regulated biological processes. Journal of bioinformatics and computational biology, 4(04):833–852, 2006.
- Jui-Hung Hung, Troy W Whitfield, Tun-Hsiang Yang, Zhenjun Hu, Zhiping Weng, and Charles DeLisi. Identification of functional modules that correlate with phenotypic difference: the influence of network topology.Genome Biology, 11(2):R23, 2010.
- Laurent Jacob, Pierre Neuvial, and Sandrine Dudoit. Gains inpower from structured two-sample tests of means on graphs. Arxiv preprint arXiv:1009.5173, 2010.
- Zhen Jiang and Robert Gentleman. Extensions to gene set enrichment. Bioinformatics, 23(3):306–313, 2007.
- Purvesh Khatri, Sorin Draghici, Adi L Tarca, Sonia S Hassan, and Roberto Romero. A system biology approach for the steady-state analysis of gene signaling networks. In CIARP’07 Proceedings of the 12th Iberoamerican conference on Progress in pattern recognition, image analysis and applications, pages32–41, Valparaiso, Chile, 13-16 November 2007. ACM.
- Sek Won Kong, William T Pu, and Peter J Park. A multivariate approach for integrating genome-wide expression data and biological knowledge. Bioinformatics, 22(19):2373–2380, 2006.
- Maria S Massa, Monica Chiogna, and Chiara Romualdi. Gene set analysis exploiting the topology of a pathway. BMC Systems Biology, 4(1):121, 2010.
- Cristina Mitrea, Zeinab Taghavi, Behzad Bokanizad, Samer Hanoudi, Rebecca Tagett, Michele Donato, Calin Voichita, and Sorin Draghici. Methods and approaches in the topology-based analysis of biological pathways. Frontiers in Physiology, 4:278, 2013.
- Tin Nguyen and Sorin Draghici. BLMA: A package for bi-level meta-analysis. Bioconductor, 2017. R package.
- Tin Nguyen, Rebecca Tagett, Michele Donato, Cristina Mitrea, and Sorin Draghici. A novel bi-level meta-analysis approach-applied to biological pathway analysis. Bioinformatics, 32(3):409–416, 2016.
- Ali Shojaie and George Michailidis. Analysis of Gene Sets Based on the Underlying Regulatory Net- work. Journal of Computational Biology,16(3):407–426, 2009.
- Aravind Subramanian, Pablo Tamayo, Vamsi K. Mootha, Sayan Mukherjee, Benjamin L. Ebert, Michael A. Gillette, Amanda Paulovich, Scott L. Pomeroy, Todd R. Golub, Eric S. Lander, and Jill P.Mesirov. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression. Proceeding of TheNational Academy of Sciences of the Unites States of America, 102(43):15545–15550, 2005.
- Adi L Tarca, Sorin Draghici, Gaurav Bhatti, and Roberto Romero. Down-weighting overlapping genes improves gene set analysis. BMC Bioinformatics, 13(1):136, 2012.
- Adi L Tarca, Sorin Draghici, Purvesh Khatri, Sonia S Hassan, Pooja Mittal, Jung-sun Kim, Chong Jai Kim, Juan Pedro Kusanovic, and Roberto Romero. A novel signaling pathway impact analysis. Bioinformatics, 25(1):75–82, 2009.
- Lu Tian, Steven A.Greenberg, Sek WonKong, Josiah Altschuler, Isaac S. Kohane, and Peter J. Park. Discovering statistically significant pathways in expression profiling studies. Proceedingof TheNational Academy of Sciences of the USA, 102(38):13544–13549, 2005.
- Calin Voichita, Michele Donato, and Sorin Draghici. Incorporating gene significance in the impact analysis of signaling pathways. In Machine Learning and Applications (ICMLA), 2012 11th International Conference on, volume1, pages126–131, Boca Raton, FL, USA, 12-15 December 2012.
歡迎關(guān)注我們的公眾號(hào)~_~
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩劲妙,打造生信星球,想讓它成為一個(gè)不拽術(shù)語(yǔ)儒喊、通俗易懂的生信知識(shí)平臺(tái)镣奋。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com