「nature protocols」組學(xué)數(shù)據(jù)的通路富集分析和可視化: g:Profiler, GSEA, Cytoscape 和 EnrichmentMap

nature protocols上發(fā)了一篇文章,題目為"Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap", 手把手將哪些只會(huì)實(shí)驗(yàn)的人如何通過點(diǎn)擊鼠標(biāo)的方式學(xué)會(huì)通路分析叠必,挖掘他們高通量測序結(jié)果,包括轉(zhuǎn)錄組, 基因組和 蛋白組學(xué)宝磨。

文章用到的軟件為:

基本流程為:

分析流程

文章的PDF版本一共有38頁疯潭,基本上20多頁內(nèi)容都是講如何通過鼠標(biāo)點(diǎn)點(diǎn)點(diǎn)的方式實(shí)現(xiàn)富集分析两蟀,我翻譯了其中對我有用的部分概说。


概念定義

富集分析必知的幾個(gè)概念:

  • 通路(pathway): 共同完成特定生物學(xué)過程的所有基因
  • 基因集(gene set): 一組相關(guān)基因。通路基因集包括一個(gè)通路里的所有基因嚣伐√桥猓基因集可以按照不同作用進(jìn)行組合,例如細(xì)胞定位相關(guān)基因轩端,某個(gè)代謝通路的基因
  • 目標(biāo)基因表: 組學(xué)分析后輸出給通路分析的一組基因
  • 排序基因表:一些組學(xué)分析中放典,基因還可以按照某個(gè)打分進(jìn)行排序,例如RNA-seq后的p值基茵,倍數(shù)變化等奋构,能夠?yàn)橥贩治鎏峁└嗟男畔ⅰτ谝粋€(gè)富集的通路而言拱层,通路里的基因會(huì)聚集在排序表的一端弥臼,得分累加值會(huì)比通路基因集隨機(jī)在排序表中出現(xiàn)的得分高。
  • 通路富集分析:一種統(tǒng)計(jì)學(xué)方法根灯,用于找到基因表或目標(biāo)基因表所顯著性富集的通路径缅。
  • 多重試驗(yàn)校正:如果獨(dú)立進(jìn)行了多次的富集分析,那么每次富集分析都會(huì)得到一個(gè)p值烙肺。為了降低假陽性纳猪,需要進(jìn)行多重試驗(yàn)校正對每個(gè)單獨(dú)富集分析試驗(yàn)中的p值進(jìn)行調(diào)整。
  • 前臨界點(diǎn)基因(leading-edge gene): 在GSEA分析中桃笙,導(dǎo)致通路富集的一組基因氏堤。

富集分析資源

基因集數(shù)據(jù)庫:

  • Gene Ontology(GO):
  • Molecular Signatures Database(MSigDB): GSEA工作組維護(hù)的基因集數(shù)據(jù)庫,人類用的比較多搏明,尤其是hallmakr基因集鼠锈。

生化通路數(shù)據(jù)庫

  • Reactome
  • Panther
  • NetPath
  • HumanCyc
  • National Cancer Institute Pathway Interaction Database
  • KEGG

通路元數(shù)據(jù)庫

  • Pathway Common
  • WikiPathways

富集分析的優(yōu)勢和局限性

相對于只分析單個(gè)基因,轉(zhuǎn)錄本或蛋白熏瞄,通路富集分析有如下幾個(gè)優(yōu)點(diǎn):

  • 整合了更多的數(shù)據(jù)脚祟,在統(tǒng)計(jì)上更加可靠
  • 數(shù)據(jù)降維谬以,將原本上千或上萬的基因或基因組區(qū)域合并成更小的通路或者系統(tǒng)
  • 結(jié)果更加容易解讀
  • 不同來源的數(shù)據(jù)更加容易比較
  • 能夠?qū)⒉煌愋偷臄?shù)據(jù)(RNA, DNA或蛋白)投影到同類型的通路上

然而通路富集分析也存在缺陷:

  • 你需要保證用于富集分析的基因集有很強(qiáng)的生物學(xué)信號(hào)强饮。如果一個(gè)通路里只有幾個(gè)基因比較重要,那么富集分析就失效了为黎。
  • 通路通常是人為定義邮丰,因此不同的基因集數(shù)據(jù)庫可能存在沖突
  • 一些統(tǒng)計(jì)學(xué)方法,例如Fisher精確試驗(yàn)在統(tǒng)計(jì)學(xué)上更容易找到寬泛的通路铭乾,你需要在分析時(shí)限定基因集上下限
  • 一些多功能的基因可能會(huì)出現(xiàn)在多個(gè)通路上剪廉,建議在后續(xù)分析時(shí)剔除
  • 通路數(shù)據(jù)庫通常是有人為偏誤的,可能A通路的研究就是比B通路研究的深刻炕檩,甚至有些基因壓根就沒有被注釋到斗蒋,這些基因就需要單獨(dú)進(jìn)行研究捌斧。
  • 大部分富集分析都有一個(gè)不切實(shí)際的前提,也就是基因和通路間是相互獨(dú)立的泉沾,但是基因其實(shí)存在共表達(dá)捞蚂,或者某些通路是類似的。但是FDR(多重試驗(yàn)校正)不在乎這件事情跷究,如果你的通路里面存在過多的相似通路姓迅,那么校正之后的結(jié)果就會(huì)變得很少。不過俊马,在前期探索性分析中還是能用的丁存,后續(xù)分析可以自定義一個(gè)重抽樣方法來更好的預(yù)測錯(cuò)誤率。

試驗(yàn)設(shè)計(jì)

通路分析的好壞取決于你實(shí)驗(yàn)設(shè)計(jì)的好壞柴我,我一致堅(jiān)持認(rèn)為"garbage in, garbage out"解寝。要是實(shí)驗(yàn)設(shè)計(jì)太差,那么你可能得到由于試驗(yàn)偏誤或者其他混淆因子產(chǎn)生的無意義結(jié)果屯换。下面就是作者給出的關(guān)于試驗(yàn)設(shè)計(jì)的一些建議编丘。

試驗(yàn)條件

實(shí)驗(yàn)條件必須定義為主要的觀測變化,通常是實(shí)驗(yàn)者感興趣的和生物學(xué)相關(guān)的處理彤悔。例如腫瘤和正常組織嘉抓,處理和未處理,比較不同的疾病亞型晕窑,或者時(shí)間序列等抑片。

重復(fù)數(shù)

實(shí)驗(yàn)重復(fù)非常重要,尤其是生物學(xué)重復(fù)杨赤,請至少做3個(gè)生物學(xué)重復(fù)吧敞斋。對于哪些變異特別大的設(shè)計(jì),比如說腫瘤樣本疾牲,請?zhí)峁└嘀貜?fù)吧植捎。

混淆因子

我們應(yīng)該盡量避免和實(shí)驗(yàn)無關(guān)的因素或者至少在不同條件下達(dá)到平衡,這樣次啊能保證利用了廣義線性模型的統(tǒng)計(jì)學(xué)方法能夠?qū)@些因子進(jìn)行矯正阳柔。常見的混淆因子如測序深度焰枢, 核酸提取流程 和年齡等。盡管我們不可能完全地在實(shí)驗(yàn)設(shè)計(jì)中將試驗(yàn)信號(hào)中混淆因子分離舌剂,但是提前知道可能的因素有助于提高試驗(yàn)設(shè)計(jì)济锄。統(tǒng)計(jì)學(xué)方法中的聚類和PCA分析可以幫助我們找到這些未知的因素。例如霍转,實(shí)驗(yàn)組和對照組應(yīng)該離得遠(yuǎn)遠(yuǎn)的荐绝,而不會(huì)因?yàn)榕涡?yīng)聚在一起。

離群值

離群樣本指的是和其他樣本差異過大的樣本避消,一般是實(shí)驗(yàn)問題或者技術(shù)問題造成低滩,比如說污染或者混樣召夹。當(dāng)然,也有可能是極端生物學(xué)現(xiàn)象恕沫,比如說腫瘤樣本有異常擴(kuò)增的表型戳鹅。我們可以用PCA或者無監(jiān)督聚類的方式找到這種離群值。通路分析可以在有無離群值的情況下的進(jìn)行昏兆,確保分析結(jié)果的魯棒性枫虏。系統(tǒng)性移除離群值有助于降低實(shí)驗(yàn)的變異度。

試驗(yàn)敏感度

一些實(shí)驗(yàn)方法的敏感度會(huì)發(fā)生變化爬虱。舉個(gè)例子隶债,對于基因表達(dá)定量分析,顯然測序深度越高跑筝,重復(fù)數(shù)越多死讹,得到的差異表達(dá)基因也就越可靠。雖然大部分人沒有錢測5個(gè)樣本曲梗,但是3個(gè)還得保證吧赞警。如果你研究可變剪切,那么對你的測序深度要求就更高了虏两。

選擇通路基因集數(shù)據(jù)庫

考慮到通路分析結(jié)果可讀性愧旦,作者建議先用如下的通路基因集進(jìn)行分析,GO的BP(biological process), Reactome的人工審校分子通路(molecular pathways), 對于人類定罢,Panther, HumanCyc和NetPath都是很好的資源笤虫。(GO的BP注釋包括人工審校結(jié)果和電子注釋)

根據(jù)證據(jù)代號(hào)過濾GO通路

許多自動(dòng)化數(shù)據(jù)分析得到GO基因注釋并沒有得到人工審查,因此它們的證據(jù)代號(hào)(evidence code)登記為IEA (inferred from electronic annotation). 早期文獻(xiàn)對這些數(shù)據(jù)非常謹(jǐn)慎的解釋這些IEA標(biāo)識(shí)的基因祖凫。但是近期研究發(fā)現(xiàn)琼蚯,這些IEA GO注釋結(jié)果和人工審查的數(shù)據(jù)一樣可靠。如果你研究的是模式動(dòng)植物惠况,那么建議你分別比較過濾IEA和不過IEA的富集結(jié)果遭庶,來提高你結(jié)果的可靠性。如果是那些研究一般的物種稠屠,那么你也只能把IEA注釋加上了峦睡。移除IEA標(biāo)記的注釋還可能對那些研究比較深入的生物學(xué)過程造成影響

使用非通路基因集

可以使用不同類型的數(shù)據(jù)集來解釋不同的問題,但是請分開分析完箩,也就是不要在一次通路分析中加入各種各樣的基因集赐俗,這樣子會(huì)由于多重試驗(yàn)矯正導(dǎo)致假陰性的提高拉队。

選擇合適的基因集大小

對于那些基因數(shù)不怎么多的通路弊知,作者建議在分析中排除。一般而言粱快,這些通路相對較大的通路是冗余的存在秩彤,而且在后期解釋比較麻煩叔扼,甚至還會(huì)讓多重試驗(yàn)校正更加嚴(yán)格。對于那些基因數(shù)很多的通路漫雷,作者同樣建議移除瓜富,畢竟類似于metabolism 的寬泛概念在最后的解讀中也沒啥意義。

如果分析人類表達(dá)量數(shù)據(jù)降盹,作者建議剔除基因集小于10~15的基因和大于200~500的基因与柑,有些文獻(xiàn)會(huì)把上線提高到200~2000。(PS: Y叔從clusterProfiler的最小值是10蓄坏,最大值是500)价捧。

對于非人類物種或者非表達(dá)量數(shù)據(jù),由于不同的通路的研究程度不盡相同涡戳,所以集合的大小可以按需調(diào)整结蟋,但需要有文獻(xiàn)或者試驗(yàn)的支持。一個(gè)比較好的做法是渔彰,看其中幾個(gè)和試驗(yàn)相關(guān)的通路的基因集數(shù)目來確定上下限嵌屎。

使用最新的通路數(shù)據(jù)集

富集分析結(jié)果依賴于分析中使用的基因集,最多許多研究用到的通路分析嚴(yán)重的收到了過時(shí)資源的影響恍涂。為了提高研究的可重復(fù)性和透明性宝惰,研究者需要在文獻(xiàn)中標(biāo)明分析日期,富集分析軟件版本再沧,用到的基因集數(shù)據(jù)庫和分析參數(shù)掌测。研究者最好把自己分析基因表和完整的富集通路表列在附件中。

選擇基因標(biāo)識(shí)符

在不同的數(shù)據(jù)庫中产园,基因可能會(huì)有不同的標(biāo)識(shí)符(ID)汞斧。這些基因標(biāo)識(shí)符可能會(huì)出現(xiàn)沖突,甚至還會(huì)過期什燕。對于人類粘勒,作者推薦使用Entrez基因數(shù)據(jù)庫的編號(hào),或者是HUGO Gene命名委員會(huì)的官方符號(hào)屎即。由于基因符號(hào)會(huì)隨時(shí)間變化庙睡,因此要對同時(shí)維護(hù)基因符合和Entrez基因iD。 g:Profiler和g:Convert工具能夠?qū)崿F(xiàn)多種基因編號(hào)到標(biāo)準(zhǔn)標(biāo)號(hào)的轉(zhuǎn)換技俐。

非預(yù)期通路結(jié)果和試驗(yàn)設(shè)計(jì)

如果在你的通路分析中得到一些意外結(jié)果乘陪,這或許意味著你的試驗(yàn)設(shè)計(jì)、生成數(shù)據(jù)或分析出現(xiàn)了問題雕擂。舉個(gè)例子啡邑,細(xì)胞凋亡(apoptosis)通路富集意味著實(shí)驗(yàn)的某些步驟導(dǎo)致了過多的細(xì)胞死亡。因此井赌,你需要對你的實(shí)驗(yàn)過程進(jìn)行調(diào)整谤逼,重新獲取數(shù)據(jù)贵扰,用于后續(xù)分析。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末流部,一起剝皮案震驚了整個(gè)濱河市戚绕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌枝冀,老刑警劉巖舞丛,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異果漾,居然都是意外死亡瓷马,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門跨晴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來欧聘,“玉大人,你說我怎么就攤上這事端盆』持瑁” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵焕妙,是天一觀的道長蒋伦。 經(jīng)常有香客問我,道長焚鹊,這世上最難降的妖魔是什么痕届? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮末患,結(jié)果婚禮上研叫,老公的妹妹穿的比我還像新娘。我一直安慰自己璧针,他們只是感情好嚷炉,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著探橱,像睡著了一般申屹。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上隧膏,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天哗讥,我揣著相機(jī)與錄音,去河邊找鬼胞枕。 笑死杆煞,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播索绪,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼贫悄!你這毒婦竟也來了瑞驱?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對情侶失蹤窄坦,失蹤者是張志新(化名)和其女友劉穎唤反,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鸭津,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡彤侍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了逆趋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盏阶。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖闻书,靈堂內(nèi)的尸體忽然破棺而出名斟,到底是詐尸還是另有隱情,我是刑警寧澤魄眉,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布砰盐,位于F島的核電站,受9級(jí)特大地震影響坑律,放射性物質(zhì)發(fā)生泄漏岩梳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一晃择、第九天 我趴在偏房一處隱蔽的房頂上張望冀值。 院中可真熱鬧,春花似錦宫屠、人聲如沸池摧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽作彤。三九已至,卻和暖如春乌逐,著一層夾襖步出監(jiān)牢的瞬間竭讳,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工浙踢, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留绢慢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像胰舆,于是被迫代替她去往敵國和親骚露。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 我們統(tǒng)一選擇p<0.05而且abs(logFC)大于1的基因?yàn)轱@著差異表達(dá)基因集缚窿,對這個(gè)基因集用R包做KEGG/G...
    xuzhougeng閱讀 25,518評(píng)論 11 86
  • 文獻(xiàn)時(shí)間 2005.08 摘要 RNA表達(dá)數(shù)據(jù)的分析越來越普遍棘幸,從中提取生物相關(guān)的信息是一個(gè)很大的挑戰(zhàn)。我們提供了...
    康君愛上了蕊醬閱讀 1,488評(píng)論 0 3
  • 轉(zhuǎn)錄組學(xué)習(xí)一(軟件安裝) 轉(zhuǎn)錄組學(xué)習(xí)二(數(shù)據(jù)下載) 轉(zhuǎn)錄組學(xué)習(xí)三(數(shù)據(jù)質(zhì)控) 轉(zhuǎn)錄組學(xué)習(xí)四(參考基因組及gt...
    Dawn_WangTP閱讀 22,314評(píng)論 2 45
  • 雪染白的數(shù)萬年山頭倦零,融成涓涓細(xì)流误续,匯聚成千川之河,奔流遠(yuǎn)方扫茅。曾隨白云漂泊成美韻蹋嵌,停泊在山川之巔。曾隨清溪逐波...
    彌音之路閱讀 485評(píng)論 0 5
  • 我聽見有心臟跳動(dòng)的聲音 彼此地起伏 我聽見有心臟跳動(dòng)的聲音 洶涌地澎湃 我聽見有心臟跳動(dòng)的聲音 不住地回響 我聽見...
    丁義閱讀 529評(píng)論 0 0