nature protocols上發(fā)了一篇文章,題目為"Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap", 手把手將哪些只會(huì)實(shí)驗(yàn)的人如何通過點(diǎn)擊鼠標(biāo)的方式學(xué)會(huì)通路分析叠必,挖掘他們高通量測序結(jié)果,包括轉(zhuǎn)錄組, 基因組和 蛋白組學(xué)宝磨。
文章用到的軟件為:
- g:Profiler (https://biit.cs.ut.ee/gprofiler/)
- GSEA (http://software.broadinstitute.org/gsea/)
- Cytoscape (http://www.cytoscape.org/)
- EnrichmentMap (http://www.baderlab.org/Software/EnrichmentMap)
基本流程為:
文章的PDF版本一共有38頁疯潭,基本上20多頁內(nèi)容都是講如何通過鼠標(biāo)點(diǎn)點(diǎn)點(diǎn)的方式實(shí)現(xiàn)富集分析两蟀,我翻譯了其中對我有用的部分概说。
概念定義
富集分析必知的幾個(gè)概念:
- 通路(pathway): 共同完成特定生物學(xué)過程的所有基因
- 基因集(gene set): 一組相關(guān)基因。通路基因集包括一個(gè)通路里的所有基因嚣伐√桥猓基因集可以按照不同作用進(jìn)行組合,例如細(xì)胞定位相關(guān)基因轩端,某個(gè)代謝通路的基因
- 目標(biāo)基因表: 組學(xué)分析后輸出給通路分析的一組基因
- 排序基因表:一些組學(xué)分析中放典,基因還可以按照某個(gè)打分進(jìn)行排序,例如RNA-seq后的p值基茵,倍數(shù)變化等奋构,能夠?yàn)橥贩治鎏峁└嗟男畔ⅰτ谝粋€(gè)富集的通路而言拱层,通路里的基因會(huì)聚集在排序表的一端弥臼,得分累加值會(huì)比通路基因集隨機(jī)在排序表中出現(xiàn)的得分高。
- 通路富集分析:一種統(tǒng)計(jì)學(xué)方法根灯,用于找到基因表或目標(biāo)基因表所顯著性富集的通路径缅。
- 多重試驗(yàn)校正:如果獨(dú)立進(jìn)行了多次的富集分析,那么每次富集分析都會(huì)得到一個(gè)p值烙肺。為了降低假陽性纳猪,需要進(jìn)行多重試驗(yàn)校正對每個(gè)單獨(dú)富集分析試驗(yàn)中的p值進(jìn)行調(diào)整。
- 前臨界點(diǎn)基因(leading-edge gene): 在GSEA分析中桃笙,導(dǎo)致通路富集的一組基因氏堤。
富集分析資源
基因集數(shù)據(jù)庫:
- Gene Ontology(GO):
- Molecular Signatures Database(MSigDB): GSEA工作組維護(hù)的基因集數(shù)據(jù)庫,人類用的比較多搏明,尤其是hallmakr基因集鼠锈。
生化通路數(shù)據(jù)庫
- Reactome
- Panther
- NetPath
- HumanCyc
- National Cancer Institute Pathway Interaction Database
- KEGG
通路元數(shù)據(jù)庫
- Pathway Common
- WikiPathways
富集分析的優(yōu)勢和局限性
相對于只分析單個(gè)基因,轉(zhuǎn)錄本或蛋白熏瞄,通路富集分析有如下幾個(gè)優(yōu)點(diǎn):
- 整合了更多的數(shù)據(jù)脚祟,在統(tǒng)計(jì)上更加可靠
- 數(shù)據(jù)降維谬以,將原本上千或上萬的基因或基因組區(qū)域合并成更小的通路或者系統(tǒng)
- 結(jié)果更加容易解讀
- 不同來源的數(shù)據(jù)更加容易比較
- 能夠?qū)⒉煌愋偷臄?shù)據(jù)(RNA, DNA或蛋白)投影到同類型的通路上
然而通路富集分析也存在缺陷:
- 你需要保證用于富集分析的基因集有很強(qiáng)的生物學(xué)信號(hào)强饮。如果一個(gè)通路里只有幾個(gè)基因比較重要,那么富集分析就失效了为黎。
- 通路通常是人為定義邮丰,因此不同的基因集數(shù)據(jù)庫可能存在沖突
- 一些統(tǒng)計(jì)學(xué)方法,例如Fisher精確試驗(yàn)在統(tǒng)計(jì)學(xué)上更容易找到寬泛的通路铭乾,你需要在分析時(shí)限定基因集上下限
- 一些多功能的基因可能會(huì)出現(xiàn)在多個(gè)通路上剪廉,建議在后續(xù)分析時(shí)剔除
- 通路數(shù)據(jù)庫通常是有人為偏誤的,可能A通路的研究就是比B通路研究的深刻炕檩,甚至有些基因壓根就沒有被注釋到斗蒋,這些基因就需要單獨(dú)進(jìn)行研究捌斧。
- 大部分富集分析都有一個(gè)不切實(shí)際的前提,也就是基因和通路間是相互獨(dú)立的泉沾,但是基因其實(shí)存在共表達(dá)捞蚂,或者某些通路是類似的。但是FDR(多重試驗(yàn)校正)不在乎這件事情跷究,如果你的通路里面存在過多的相似通路姓迅,那么校正之后的結(jié)果就會(huì)變得很少。不過俊马,在前期探索性分析中還是能用的丁存,后續(xù)分析可以自定義一個(gè)重抽樣方法來更好的預(yù)測錯(cuò)誤率。
試驗(yàn)設(shè)計(jì)
通路分析的好壞取決于你實(shí)驗(yàn)設(shè)計(jì)的好壞柴我,我一致堅(jiān)持認(rèn)為"garbage in, garbage out"解寝。要是實(shí)驗(yàn)設(shè)計(jì)太差,那么你可能得到由于試驗(yàn)偏誤或者其他混淆因子產(chǎn)生的無意義結(jié)果屯换。下面就是作者給出的關(guān)于試驗(yàn)設(shè)計(jì)的一些建議编丘。
試驗(yàn)條件
實(shí)驗(yàn)條件必須定義為主要的觀測變化,通常是實(shí)驗(yàn)者感興趣的和生物學(xué)相關(guān)的處理彤悔。例如腫瘤和正常組織嘉抓,處理和未處理,比較不同的疾病亞型晕窑,或者時(shí)間序列等抑片。
重復(fù)數(shù)
實(shí)驗(yàn)重復(fù)非常重要,尤其是生物學(xué)重復(fù)杨赤,請至少做3個(gè)生物學(xué)重復(fù)吧敞斋。對于哪些變異特別大的設(shè)計(jì),比如說腫瘤樣本疾牲,請?zhí)峁└嘀貜?fù)吧植捎。
混淆因子
我們應(yīng)該盡量避免和實(shí)驗(yàn)無關(guān)的因素或者至少在不同條件下達(dá)到平衡,這樣次啊能保證利用了廣義線性模型的統(tǒng)計(jì)學(xué)方法能夠?qū)@些因子進(jìn)行矯正阳柔。常見的混淆因子如測序深度焰枢, 核酸提取流程 和年齡等。盡管我們不可能完全地在實(shí)驗(yàn)設(shè)計(jì)中將試驗(yàn)信號(hào)中混淆因子分離舌剂,但是提前知道可能的因素有助于提高試驗(yàn)設(shè)計(jì)济锄。統(tǒng)計(jì)學(xué)方法中的聚類和PCA分析可以幫助我們找到這些未知的因素。例如霍转,實(shí)驗(yàn)組和對照組應(yīng)該離得遠(yuǎn)遠(yuǎn)的荐绝,而不會(huì)因?yàn)榕涡?yīng)聚在一起。
離群值
離群樣本指的是和其他樣本差異過大的樣本避消,一般是實(shí)驗(yàn)問題或者技術(shù)問題造成低滩,比如說污染或者混樣召夹。當(dāng)然,也有可能是極端生物學(xué)現(xiàn)象恕沫,比如說腫瘤樣本有異常擴(kuò)增的表型戳鹅。我們可以用PCA或者無監(jiān)督聚類的方式找到這種離群值。通路分析可以在有無離群值的情況下的進(jìn)行昏兆,確保分析結(jié)果的魯棒性枫虏。系統(tǒng)性移除離群值有助于降低實(shí)驗(yàn)的變異度。
試驗(yàn)敏感度
一些實(shí)驗(yàn)方法的敏感度會(huì)發(fā)生變化爬虱。舉個(gè)例子隶债,對于基因表達(dá)定量分析,顯然測序深度越高跑筝,重復(fù)數(shù)越多死讹,得到的差異表達(dá)基因也就越可靠。雖然大部分人沒有錢測5個(gè)樣本曲梗,但是3個(gè)還得保證吧赞警。如果你研究可變剪切,那么對你的測序深度要求就更高了虏两。
選擇通路基因集數(shù)據(jù)庫
考慮到通路分析結(jié)果可讀性愧旦,作者建議先用如下的通路基因集進(jìn)行分析,GO的BP(biological process), Reactome的人工審校分子通路(molecular pathways), 對于人類定罢,Panther, HumanCyc和NetPath都是很好的資源笤虫。(GO的BP注釋包括人工審校結(jié)果和電子注釋)
根據(jù)證據(jù)代號(hào)過濾GO通路
許多自動(dòng)化數(shù)據(jù)分析得到GO基因注釋并沒有得到人工審查,因此它們的證據(jù)代號(hào)(evidence code)登記為IEA (inferred from electronic annotation). 早期文獻(xiàn)對這些數(shù)據(jù)非常謹(jǐn)慎的解釋這些IEA標(biāo)識(shí)的基因祖凫。但是近期研究發(fā)現(xiàn)琼蚯,這些IEA GO注釋結(jié)果和人工審查的數(shù)據(jù)一樣可靠。如果你研究的是模式動(dòng)植物惠况,那么建議你分別比較過濾IEA和不過IEA的富集結(jié)果遭庶,來提高你結(jié)果的可靠性。如果是那些研究一般的物種稠屠,那么你也只能把IEA注釋加上了峦睡。移除IEA標(biāo)記的注釋還可能對那些研究比較深入的生物學(xué)過程造成影響
使用非通路基因集
可以使用不同類型的數(shù)據(jù)集來解釋不同的問題,但是請分開分析完箩,也就是不要在一次通路分析中加入各種各樣的基因集赐俗,這樣子會(huì)由于多重試驗(yàn)矯正導(dǎo)致假陰性的提高拉队。
選擇合適的基因集大小
對于那些基因數(shù)不怎么多的通路弊知,作者建議在分析中排除。一般而言粱快,這些通路相對較大的通路是冗余的存在秩彤,而且在后期解釋比較麻煩叔扼,甚至還會(huì)讓多重試驗(yàn)校正更加嚴(yán)格。對于那些基因數(shù)很多的通路漫雷,作者同樣建議移除瓜富,畢竟類似于metabolism 的寬泛概念在最后的解讀中也沒啥意義。
如果分析人類表達(dá)量數(shù)據(jù)降盹,作者建議剔除基因集小于10~15的基因和大于200~500的基因与柑,有些文獻(xiàn)會(huì)把上線提高到200~2000。(PS: Y叔從clusterProfiler的最小值是10蓄坏,最大值是500)价捧。
對于非人類物種或者非表達(dá)量數(shù)據(jù),由于不同的通路的研究程度不盡相同涡戳,所以集合的大小可以按需調(diào)整结蟋,但需要有文獻(xiàn)或者試驗(yàn)的支持。一個(gè)比較好的做法是渔彰,看其中幾個(gè)和試驗(yàn)相關(guān)的通路的基因集數(shù)目來確定上下限嵌屎。
使用最新的通路數(shù)據(jù)集
富集分析結(jié)果依賴于分析中使用的基因集,最多許多研究用到的通路分析嚴(yán)重的收到了過時(shí)資源的影響恍涂。為了提高研究的可重復(fù)性和透明性宝惰,研究者需要在文獻(xiàn)中標(biāo)明分析日期,富集分析軟件版本再沧,用到的基因集數(shù)據(jù)庫和分析參數(shù)掌测。研究者最好把自己分析基因表和完整的富集通路表列在附件中。
選擇基因標(biāo)識(shí)符
在不同的數(shù)據(jù)庫中产园,基因可能會(huì)有不同的標(biāo)識(shí)符(ID)汞斧。這些基因標(biāo)識(shí)符可能會(huì)出現(xiàn)沖突,甚至還會(huì)過期什燕。對于人類粘勒,作者推薦使用Entrez基因數(shù)據(jù)庫的編號(hào),或者是HUGO Gene命名委員會(huì)的官方符號(hào)屎即。由于基因符號(hào)會(huì)隨時(shí)間變化庙睡,因此要對同時(shí)維護(hù)基因符合和Entrez基因iD。 g:Profiler和g:Convert工具能夠?qū)崿F(xiàn)多種基因編號(hào)到標(biāo)準(zhǔn)標(biāo)號(hào)的轉(zhuǎn)換技俐。
非預(yù)期通路結(jié)果和試驗(yàn)設(shè)計(jì)
如果在你的通路分析中得到一些意外結(jié)果乘陪,這或許意味著你的試驗(yàn)設(shè)計(jì)、生成數(shù)據(jù)或分析出現(xiàn)了問題雕擂。舉個(gè)例子啡邑,細(xì)胞凋亡(apoptosis)通路富集意味著實(shí)驗(yàn)的某些步驟導(dǎo)致了過多的細(xì)胞死亡。因此井赌,你需要對你的實(shí)驗(yàn)過程進(jìn)行調(diào)整谤逼,重新獲取數(shù)據(jù)贵扰,用于后續(xù)分析。