三月week1文獻(xiàn)閱讀:
Pathway enrichment analysis and visualzation of omics data using g:Profiler,GSEA,Cytoscape and EnrichmentMap
通路富集分析和可視化組學(xué)的軟件數(shù)據(jù)使用:Profiler,GSEA,Cytoscape and EnrichmentMap
摘要
通路富集分析幫助研究人員在從基因組規(guī)模(組學(xué))實(shí)驗(yàn)中產(chǎn)生的基因列表獲得力學(xué)洞察力乒疏。這種方法超出了隨機(jī)情況下的預(yù)期,它可以識(shí)別出富集在基因列表中生物通路揖铜。作者們解釋了通路富集分析的步驟,并提出了一個(gè)實(shí)用的逐步指南,以幫助解釋RNA-seq和基因組測(cè)序?qū)嶒?yàn)產(chǎn)生的基因列表进鸠。該方案包括三個(gè)主要步驟:
- 從組學(xué)數(shù)據(jù)定義基因列表绽快,
- 富集通路的統(tǒng)計(jì)確定,
- 可視化和解釋結(jié)果刁绒。
描述了如何使用這個(gè)方案與已發(fā)表的差異表達(dá)基因和突變的癌癥基因例子結(jié)合;進(jìn)而闷营,這些方案可以應(yīng)用于不同類型的組學(xué)數(shù)據(jù)。該方案描述了可視化技術(shù)的創(chuàng)新知市,提供全面的背景和故障排除指南傻盟,并使用免費(fèi)和經(jīng)常更新的軟件,包括g:Profiler, Gene Set Enrichment Analysis (GSEA)嫂丙, Cytoscape和EnrichmentMap娘赴。完整的方案可以在大約4.5小時(shí)內(nèi)完成,并且是為沒有經(jīng)過(guò)生物信息學(xué)培訓(xùn)的生物學(xué)家設(shè)計(jì)的跟啤。
介紹 Indroduction
生物樣品中DNA诽表、RNA和蛋白質(zhì)的全面的綜合的定量現(xiàn)已成為常規(guī)。結(jié)果數(shù)據(jù)呈指數(shù)增長(zhǎng)隅肥,他們的分析幫助研究人員發(fā)現(xiàn)新的生物功能竿奏、基因型-表型關(guān)系和疾病機(jī)制。然而腥放,對(duì)這些數(shù)據(jù)的分析和解釋對(duì)許多研究人員來(lái)說(shuō)是一個(gè)重大挑戰(zhàn)泛啸。分析常常導(dǎo)致一長(zhǎng)串的基因,需要不切實(shí)際的大量手工文獻(xiàn)搜索來(lái)解釋秃症。解決這個(gè)問題的標(biāo)準(zhǔn)方法是通路富集分析候址,它將大的基因列表總結(jié)為更容易解釋的通路的小列表。使用幾種常見的統(tǒng)計(jì)檢驗(yàn)方法种柑,考慮實(shí)驗(yàn)中檢測(cè)到的基因數(shù)量岗仑、它們的相對(duì)排名以及注釋到感興趣的通路的基因數(shù)量,對(duì)實(shí)驗(yàn)基因列表中相對(duì)于預(yù)期的過(guò)度表達(dá)進(jìn)行統(tǒng)計(jì)檢驗(yàn)莹规。例如赔蒲,含有40%細(xì)胞周期基因的實(shí)驗(yàn)數(shù)據(jù)驚人地豐富,因?yàn)橹挥?%的人類蛋白編碼基因參與了這一過(guò)程。
? 在最近的一個(gè)例子中舞虱,我們使用通路富集分析來(lái)幫助確定polycomb repressive complex (PRC2)的組蛋白和DNA甲基化作為室管膜瘤(最常見的兒童期腦癌之一)的第一個(gè)合理治療靶點(diǎn)』都剩現(xiàn)有的藥物如5-氮雜替丁(5-azacytidine)可以靶向這一通路。5-氮雜替丁曾在一位晚期病人身上出于同情心使用矾兜,并阻止了快速轉(zhuǎn)移性腫瘤的生長(zhǎng)损趋。在另一個(gè)例子中,我們分析了自閉癥中罕見的拷貝數(shù)變異(CNVs)椅寺,并確定了幾個(gè)受基因缺失影響的重要通路浑槽,而通過(guò)對(duì)單個(gè)基因或loci的病例對(duì)照關(guān)聯(lián)測(cè)試,幾乎沒有發(fā)現(xiàn)顯著的命中返帕。這些例子說(shuō)明了利用通路富集分析可以獲得的對(duì)生物機(jī)制的有用見解桐玻。
方案發(fā)展Development of the protocol
該方案是為那些對(duì)解釋組學(xué)數(shù)據(jù)感興趣的實(shí)驗(yàn)生物學(xué)家設(shè)計(jì)的。它只需要學(xué)習(xí)和使用“點(diǎn)擊”計(jì)算機(jī)軟件的能力荆萤,但是高級(jí)用戶可以從我們作為補(bǔ)充方案1-4提供的自動(dòng)分析腳本中受益镊靴。我們以之前發(fā)表的人類基因表達(dá)和體細(xì)胞突變數(shù)據(jù)為例進(jìn)行分析;然而,我們的概念框架適用于分析來(lái)自大規(guī)模數(shù)據(jù)的任何生物體的基因或生物分子列表链韭,包括蛋白質(zhì)組學(xué)偏竟、基因組學(xué)、表觀基因組學(xué)和基因調(diào)控研究敞峭。我們?cè)谠S多項(xiàng)目中廣泛使用通路富集分析踊谋,并評(píng)估了許多可用的工具。我們?cè)谶@里介紹的軟件包是根據(jù)它們的易用性旋讹、免費(fèi)訪問殖蚕、高級(jí)功能、廣泛的文檔和最新的數(shù)據(jù)庫(kù)而選擇的骗村,它們是我們?cè)谘芯恐忻刻焓褂玫能浖油剩⑾蚝献髡吆蛯W(xué)生推薦。此外胚股,我們還向這些工具的開發(fā)人員提供了反饋笼痛,允許他們實(shí)現(xiàn)我們?cè)诎l(fā)布的分析中需要的特性。這些工具是g:Profiler, GSEA, Cytoscape和EnrichmentMap琅拌,都可以在網(wǎng)上免費(fèi)獲得:
●g:分析器(https://biit.cs.ut.ee/gprofiler/)
●GSEA(http://software.broadinstitute.org/gsea/)
●Cytoscape (http://www.cytoscape.org/)
●EnrichmentMap(http://www.baderlab.org/Software/EnrichmentMap)
流程概述 Overview of the procedure
本節(jié)概述了通路富集分析的主要階段缨伊。下面的過(guò)程提供了詳細(xì)的分步協(xié)議。通路富集分析包括三個(gè)主要階段(fig1;基本定義見Box1)
- 使用組學(xué)數(shù)據(jù)定義感興趣的基因列表进宝。組學(xué)實(shí)驗(yàn)在實(shí)驗(yàn)環(huán)境中全面測(cè)量基因的活性刻坊。考慮到實(shí)驗(yàn)設(shè)計(jì)党晋,得到的原始數(shù)據(jù)集通常需要計(jì)算處理谭胚,如標(biāo)準(zhǔn)化和評(píng)分徐块,以識(shí)別感興趣的基因。例如灾而,可以從RNA-seq數(shù)據(jù)得到兩組樣本間差異表達(dá)的基因列表胡控。其他類型的組學(xué)實(shí)驗(yàn),如基因表達(dá)微陣列旁趟、定量蛋白組學(xué)昼激、種系和體細(xì)胞基因組測(cè)序、全球DNA甲基化分析等锡搜,均可用于本方案;然而橙困,每種類型的數(shù)據(jù)可能需要特定的預(yù)處理步驟(參見“與其他方法的比較”一節(jié))。
Box 1 | Definitons |
---|
Pathway: 共同起作用以進(jìn)行生物過(guò)程的基因 |
Gene Set:包括通路中的所有基因耕餐》哺担基因集可以基于基因之間的各種關(guān)系,如細(xì)胞定位(如核基因)或酶功能(如蛋白激酶)蛾方。不包括蛋白質(zhì)相互作用等細(xì)節(jié)像捶。 |
Gene list of interest:感興趣的基因列表。從組學(xué)實(shí)驗(yàn)中獲得的基因列表桩砰,用于通路富集分析 |
Ranked gene list:在許多組學(xué)數(shù)據(jù)(如RNA-seq基因表達(dá)數(shù)據(jù))中,可以根據(jù)一定的評(píng)分(如差異表達(dá)水平)對(duì)基因進(jìn)行排序释簿,為通路富集分析提供更多信息亚隅。與在排序列表中隨機(jī)分布的路徑基因相比,在排序列表頂部聚集的基因富集的路徑得分更高 |
Pathway enrichment analysis:一種統(tǒng)計(jì)技術(shù)庶溶,用于識(shí)別在基因列表或感興趣的排序基因列表中顯著表示的通路 |
Multiple testing correction:成千上萬(wàn)的通路可以單獨(dú)進(jìn)行富集試驗(yàn)煮纵,這可能導(dǎo)致顯著富集P值,單獨(dú)出現(xiàn)偏螺。多次測(cè)試校正是一種統(tǒng)計(jì)技術(shù)糾正個(gè)別富集試驗(yàn)的P值行疏,以解決這個(gè)問題,并減少假陽(yáng)性富集的機(jī)會(huì)(Box 3)套像。 |
Leading-edge gene:在GSEA分析中酿联,在最大值或最大值之前的排序中發(fā)現(xiàn)的基因子集。這部分基因通常被定義為富集通路夺巩。 |
2.通路富集分析:統(tǒng)計(jì)方法用于識(shí)別從第1階段開始贞让,相對(duì)于隨機(jī)預(yù)期的基因列表中富集的通路。對(duì)給定數(shù)據(jù)庫(kù)中的所有通路進(jìn)行富集基因列表測(cè)試(參見Box2中的通路數(shù)據(jù)庫(kù)列表)柳譬。幾種已建立的通路富集分析方法是可用的喳张,使用哪一種方法取決于基因列表的類型(參見“與其他方法的比較”一節(jié))。
3.通路富集分析結(jié)果的可視化和解釋美澳。許多富集的通路可以在階段中被識(shí)別销部,通常包括同一通路的相關(guān)版本摸航。可視化可以幫助識(shí)別主要的生物學(xué)主題及其相互關(guān)系舅桩,以便進(jìn)行深入的研究和實(shí)驗(yàn)評(píng)價(jià)忙厌。
Box 2 | Pathway enrichment analysis resources |
---|
Pathway data bases:(通路數(shù)據(jù)庫(kù))我們列出了一些大型的、開放的和方便訪問的通路數(shù)據(jù)庫(kù)江咳,它們?yōu)橥犯患治鎏峁┝俗畲蟮膬r(jià)值逢净。有數(shù)百個(gè)pathway數(shù)據(jù)庫(kù)可供多種用途。 |
Gene set databases:(Gene set databases) |
●Gene Ontology(GO):GO提供了一套分層次組織成千上萬(wàn)的生物過(guò)程,標(biāo)準(zhǔn)化的術(shù)語(yǔ)分子功能和細(xì)胞組件,以及根據(jù)這些術(shù)語(yǔ)為多個(gè)物種策劃和預(yù)測(cè)基因注釋歼指。生物過(guò)程GO注釋是通路富集分析中最常用的資源爹土。 ●分子標(biāo)記數(shù)據(jù)庫(kù)(MSigDB): MSigDB是一個(gè)基于GO、通路踩身、管理胀茵、個(gè)體組學(xué)研究、序列基序挟阻、染色體位置琼娘、致癌和免疫表達(dá)標(biāo)記以及GSEA團(tuán)隊(duì)維護(hù)的各種計(jì)算分析的基因集數(shù)據(jù)庫(kù)(http://www.msigdb.org)。一個(gè)相對(duì)不冗余的“hallmark”基因集集合是可用的附鸽。該數(shù)據(jù)可用于多種通路富集方法 |
Detailed biochemical pathway databases:(詳細(xì)生化通路數(shù)據(jù)庫(kù))這些數(shù)據(jù)庫(kù)由一組管理員維護(hù)脱拼,他們手工收集詳細(xì)的通路信息,包括生化反應(yīng)坷备、基因調(diào)控事件和其他基因相互作用熄浓。信息可以導(dǎo)出或轉(zhuǎn)換為基因集格式。 |
●Reactome:人類最積極更新通用公共數(shù)據(jù)庫(kù)路徑(http://www.reactome.org)省撑。 |
●Panther:人類信號(hào)通路(http://pantherdb.org/pathway)赌蔑。 |
●NetPath:人類與關(guān)注癌癥信號(hào)通路和免疫學(xué)(http://www.netpath.org/)。 |
●HumanCyc:人類代謝通路(http://humancyc.org/)竟秫。 |
Pathway meta-databases:這些數(shù)據(jù)庫(kù)從多個(gè)原始路徑數(shù)據(jù)庫(kù)中收集詳細(xì)的路徑描述娃惯。 |
●Pathway Commons:從其他通路收集信息數(shù)據(jù)庫(kù),并提供標(biāo)準(zhǔn)化的格式(http://www.pathwaycommons.org)。 |
●WikiPathways:社區(qū)驅(qū)動(dòng)的通路,還包括與其他數(shù)據(jù)庫(kù)通路(http://www.wikipathways.org/) |
Pathway meta-databases:(元數(shù)據(jù)庫(kù)通路)這些數(shù)據(jù)庫(kù)從多個(gè)原始路徑數(shù)據(jù)庫(kù)中收集詳細(xì)的路徑描述肥败。 |
●通路Commons45:從其他途徑收集信息數(shù)據(jù)庫(kù),并提供標(biāo)準(zhǔn)化通路(http://www.pathwaycommons.org)趾浅。 |
●WikiPathways48:社區(qū)驅(qū)動(dòng)的通路,還包括與其他數(shù)據(jù)庫(kù)路徑(http://www.wikipathways.org/) |
Box 3 | Mutiple testing correction |
---|
在典型的通路富集分析中,重復(fù)的統(tǒng)計(jì)檢驗(yàn)僅憑偶然的機(jī)會(huì)就會(huì)得到一些顯著的P值拙吉。為了糾正這一點(diǎn)潮孽,Mutiple testing correction (多測(cè)試校正方法)系統(tǒng)地降低了從一系列測(cè)試中得出的每個(gè)P值的顯著性。在本方案中筷黔,g:Profiler和GSEA自動(dòng)對(duì)P值進(jìn)行多次測(cè)試校正往史。最常用的方法是hh -FDR(或簡(jiǎn)稱FDR)34。它是基于一種降序程序佛舱,使用未校正的p值閾值和測(cè)試次數(shù)來(lái)估計(jì)錯(cuò)誤富集的通路比總的富集的通路的比例椎例。例如挨决,假設(shè)100條通路P值<0.05富集,且FDR在P值<0.05時(shí)為5%订歪,則認(rèn)為其中5條通路可能富集錯(cuò)誤脖祈。另外,經(jīng)典的Bonferroni多重測(cè)試校正通過(guò)將顯著性閾值除以測(cè)試次數(shù)來(lái)調(diào)整顯著性閾值刷晋。在實(shí)際應(yīng)用中盖高,該方法將每個(gè)未校正的P值乘以所進(jìn)行的試驗(yàn)次數(shù),并應(yīng)用顯著性截止(例如眼虱,如果測(cè)試了100條通路喻奥,P值0.001將成為不顯著的Q值0.1)。該技術(shù)確保選擇至少一個(gè)錯(cuò)誤富集通路的概率低于校正后的P值閾值捏悬。Bonferroni校正通常被認(rèn)為對(duì)差異基因表達(dá)和通路富集分析過(guò)于保守撞蚕,因?yàn)椴糠旨訇?yáng)性結(jié)果是可以容忍的。重要的是过牙,Bonferroni和BHFDR都假設(shè)測(cè)試是獨(dú)立的甥厦,而由于基因重疊和串?dāng)_,通路通常是不獨(dú)立的寇钉。因此刀疙,雖然hh - fdr對(duì)通路分析的估計(jì)是不準(zhǔn)確的,但在實(shí)際應(yīng)用中摧莽,它們?nèi)匀豢梢杂糜诤Y選和假設(shè)生成庙洼,因此經(jīng)常使用。 |
Stage1:使用組學(xué)數(shù)據(jù)定義感興趣的基因列表 Stage1:defintion of a gene list of interest using omics data
? 公司實(shí)驗(yàn)生成的原始數(shù)據(jù),必須獲得能夠處理信息適合通路富集分析(補(bǔ)充1和2)镊辕。具體處理步驟是特定的組學(xué)實(shí)驗(yàn)類型和可能的標(biāo)準(zhǔn),因此通常直接面向?qū)崿F(xiàn),否則,在這種情況下,先進(jìn)的計(jì)算技能可能被需要用來(lái)進(jìn)行數(shù)據(jù)處理。已經(jīng)建立的組學(xué)技術(shù)可以使用標(biāo)準(zhǔn)的處理方法蚁袭,并且由生成數(shù)據(jù)的核心設(shè)備最方便地執(zhí)行征懈。從組學(xué)數(shù)據(jù)中定義基因列表有兩種主要方法:列表或排序列表。某些組學(xué)數(shù)據(jù)自然會(huì)產(chǎn)生一個(gè)基因列表揩悄,例如通過(guò)外顯子組測(cè)序確定的腫瘤中所有體細(xì)胞突變的基因卖哎,或者蛋白質(zhì)組學(xué)實(shí)驗(yàn)中所有與誘餌相互作用的蛋白質(zhì)。這樣的列表適合使用g:Profiler直接輸入通路富集分析(步驟6A)删性。其他組學(xué)數(shù)據(jù)自然會(huì)產(chǎn)生排序列表亏娜。例如,一個(gè)基因列表可以根據(jù)不同的基因進(jìn)行排序在全基因組CRISPR屏幕上的表達(dá)評(píng)分或敏感性蹬挺。一些通路富集分析方法是通過(guò)一個(gè)特定閾值(如fdr調(diào)整的P值<0.05和折疊改變的>2)來(lái)篩選一個(gè)排序的基因列表维贺。其他方法,如GSEA巴帮,旨在分析所有可用基因的排序列表溯泣,不需要閾值虐秋。全基因組排序表適用于使用GSEA進(jìn)行通路富集分析的輸入(步驟6B)。應(yīng)該使用g:Profiler分析部分(非全基因組)排序的基因列表垃沦。
? 作為一個(gè)例子客给,我們描述了對(duì)卵巢癌樣本的原始RNA-seq數(shù)據(jù)的分析,以定義一個(gè)排序的基因列表肢簿。DNA序列讀取是經(jīng)過(guò)質(zhì)量過(guò)濾的(例如靶剑,通過(guò)修剪去除低質(zhì)量的堿基),并映射到基因組范圍內(nèi)的一組參考轉(zhuǎn)錄本池充,以支持對(duì)每個(gè)轉(zhuǎn)錄本的讀取計(jì)數(shù)桩引。讀取計(jì)數(shù)在基因級(jí)別上進(jìn)行聚合(每個(gè)基因的計(jì)數(shù))。通常纵菌,RNA-seq數(shù)據(jù)可用于多個(gè)生物復(fù)制(三個(gè)或更多)的多個(gè)實(shí)驗(yàn)條件(兩個(gè)或更多阐污,例如,治療與控制)咱圆。對(duì)所有樣本的每個(gè)基因讀計(jì)數(shù)進(jìn)行標(biāo)準(zhǔn)化笛辟,以消除樣本之間不需要的技術(shù)差異,例如序苏,由于測(cè)序車道或每次測(cè)序運(yùn)行的總讀數(shù)的差異手幢。
? 接下來(lái),檢測(cè)每個(gè)基因的讀計(jì)數(shù)忱详,以確定樣本組之間的差異表達(dá)(例如围来,治療組與對(duì)照組)(補(bǔ)充協(xié)議1和2分別用于RNA-seq和微陣列數(shù)據(jù))。edgeR匈睁、DESeq监透、limma/voom和Cufflinks等軟件包實(shí)現(xiàn)了RNA-seq數(shù)據(jù)規(guī)范化和差異表達(dá)分析的過(guò)程。差異基因表達(dá)分析結(jié)果包括:
? (1)差異表達(dá)顯著性的P值;
? (2)通過(guò)使用Benjamini Hochberg假發(fā)現(xiàn)率(hh - fdr)程序(Box 3)對(duì)所有基因進(jìn)行多次檢測(cè)校正后的相關(guān)Q值(即調(diào)整后的P值);
? (3)效應(yīng)大小和表達(dá)方向的改變航唆,使上調(diào)的基因?yàn)殛?yáng)性胀蛮,位于列表的頂部,下調(diào)的基因?yàn)殛幮耘锤疲挥诹斜淼牡撞糠嗬牵1磉_(dá)為log-transform fold-change。
? 然后基因列表根據(jù)一個(gè)或多個(gè)這些值排名(例如,?log10乘以P值的符號(hào)對(duì)數(shù)轉(zhuǎn)換疊化)并使用通路富集分析研究
Stage2A階段:利用g:Profiler對(duì)基因列表進(jìn)行通路富集分析(步驟6A)Stage 2A:pathway enrichment analysis of a gene list using g:Profiler(Step 6A)
? 默認(rèn)分析實(shí)現(xiàn)g:Profiler和類似的基于web的工具搜索途徑的基因明顯富集(即占大多數(shù))感興趣的基因的固定列表,與基因組中所有基因(步驟6)(Box 4)任岸。富集的P值的通路計(jì)算使用Fisher正確概率法和多個(gè)測(cè)試校正應(yīng)用(Box3)再榄。
Box 4 | Statistical tests in pathway enrichment analysis |
---|
用于基因通路富集分析的常用統(tǒng)計(jì)檢驗(yàn)是基于超幾何分布的Fisher精確檢驗(yàn)。它決定了通路中相關(guān)基因的比例是否高于通路外基因的比例(即享潜、即背景基因集)困鸥。自該測(cè)試首次引入以來(lái),許多改進(jìn)的測(cè)試都利用了連續(xù)的實(shí)驗(yàn)分?jǐn)?shù)米碰,避免了應(yīng)用任意閾值窝革。我們將統(tǒng)計(jì)富集檢測(cè)的類型分類如下: |
1.排序與非排序檢測(cè)购城。排序與非排序檢測(cè)。排序測(cè)試將排序基因列表作為輸入虐译,而非排序檢測(cè)(如Fisher 's precision test)將感興趣的基因列表作為輸入瘪板。排序測(cè)試對(duì)于產(chǎn)生有意義的排序(如差異基因表達(dá))的實(shí)驗(yàn)更可取,因?yàn)榭梢员苊馊我忾撝灯岱獭?duì)于自然生成感興趣的基因列表的實(shí)驗(yàn)(例如侮攀,癌癥中的體細(xì)胞突變,與誘餌蛋白相互作用的蛋白質(zhì))厢拭,非排名測(cè)試是更可取的兰英。排名測(cè)試的例子包括在g:Profiler ' ordered查詢'選項(xiàng)中實(shí)現(xiàn)的修改過(guò)的Fisher精確測(cè)試,以及在GSEA中實(shí)現(xiàn)的修改過(guò)的Kolmogorov-Smirnov測(cè)試供鸠。 |
2.精確與基于排列的測(cè)試畦贸。精確測(cè)試使用數(shù)學(xué)模型(如分布)直接計(jì)算精確的P值±阄妫基于排列的測(cè)試?yán)脭?shù)據(jù)重采樣來(lái)估計(jì)經(jīng)驗(yàn)P值薄坏,通常表示為結(jié)果與實(shí)際數(shù)據(jù)相同或更好的排列數(shù)量,除以排列數(shù)量寨闹。例如胶坠,在病例對(duì)照研究中,我們可以將病例隨機(jī)化繁堡,并將對(duì)照標(biāo)記1000次沈善,每次重復(fù)通路富集分析,以了解我們觀察到相同或更強(qiáng)的通路富集信號(hào)的頻率椭蹄。排列測(cè)試可以定制以考慮特定的數(shù)據(jù)屬性和偏差闻牡。如果適用的話,最好進(jìn)行準(zhǔn)確的測(cè)試绳矩,因?yàn)檫@些測(cè)試可以快速計(jì)算出準(zhǔn)確的P值澈侠。然而,為特定的應(yīng)用程序設(shè)計(jì)正確的精確測(cè)試可能具有挑戰(zhàn)性埋酬,在這種情況下,自定義排列測(cè)試通常是首選的選項(xiàng)烧栋。 |
3.競(jìng)爭(zhēng)性和獨(dú)立的測(cè)試写妥。競(jìng)爭(zhēng)測(cè)試確定感興趣的基因列表是否豐富通路相對(duì)于背景中所有基因集。因此,每個(gè)通路基因列表中的“競(jìng)爭(zhēng)”富集的基因背景审姓。相比之下,獨(dú)立的測(cè)試計(jì)算統(tǒng)計(jì)獨(dú)特通路水平,忽視基因的背景珍特。例如,一個(gè)獨(dú)立的測(cè)試可以評(píng)估在一個(gè)給定的通路內(nèi)的基因表達(dá)是否在病例樣本中不同于對(duì)照樣本。競(jìng)爭(zhēng)通路富集分析是目前最流行的方法魔吐,通常適用于基因表達(dá)數(shù)據(jù)扎筒。然而莱找,如果單個(gè)基因差異不顯著,需要在通路基因集水平匯集以識(shí)別信號(hào)嗜桌,例如在分析罕見基因時(shí)奥溺,則必須使用自包含測(cè)試突變或其他低單基因計(jì)數(shù)的數(shù)據(jù)。在特定環(huán)境下骨宠,混合方法可能比獨(dú)立測(cè)試更可取浮定。例如,對(duì)于罕見的CNV數(shù)據(jù)层亿,糾正對(duì)全球CNV負(fù)擔(dān)的自包含檢測(cè)可導(dǎo)致更具體的生物學(xué)結(jié)果桦卒。最后,競(jìng)爭(zhēng)性富集測(cè)試(如Fisher’s precision test)忽略了基因之間的相關(guān)性匿又,而修改后的競(jìng)爭(zhēng)性測(cè)試(如Camera71)考慮到了這些因素方灾,因此通常會(huì)產(chǎn)生更嚴(yán)格的結(jié)果(例如,參見補(bǔ)充方案3)碌更。獨(dú)立測(cè)試不存在這個(gè)問題裕偿。 |
總之,如果數(shù)據(jù)中的基因可以進(jìn)行排序针贬,那么應(yīng)該使用排序測(cè)試击费。Fisher’s precision檢驗(yàn)通常用于未排序的基因列表,該檢驗(yàn)的修正版本可用于排序列表桦他。在大多數(shù)情況下蔫巩,競(jìng)爭(zhēng)性測(cè)試是足夠的,除非基因水平的信號(hào)很弱快压。 |
? g:Profiler還包括一個(gè)有序富集測(cè)試圆仔,它適用于按分?jǐn)?shù)排序的多達(dá)幾千個(gè)基因的列表,而基因組中的其他基因缺乏有意義的排序信號(hào)蔫劣。例如坪郭,顯著突變的基因可以根據(jù)癌癥驅(qū)動(dòng)預(yù)測(cè)方法的得分進(jìn)行排序。該分析在輸入基因的更大的子列表上重復(fù)了修正的Fisher精確測(cè)試脉幢,并報(bào)告了每個(gè)通路P值最大的子列表歪沃。g:Profiler搜索一組表示基因本體論(GO)術(shù)語(yǔ)、通路嫌松、網(wǎng)絡(luò)沪曙、調(diào)控元件和疾病表型的基因集∥幔可以選擇主要的基因集類別自定義搜索液走。
? 使用Fisher精確試驗(yàn)或相關(guān)試驗(yàn)的途徑富集方法需要對(duì)背景基因進(jìn)行定義以便進(jìn)行比較。所有帶注釋的蛋白質(zhì)編碼基因通常被用作默認(rèn)值。如果實(shí)驗(yàn)只能直接測(cè)量所有基因的一個(gè)子集缘眶,這將導(dǎo)致P值的不適當(dāng)膨脹和假陽(yáng)性結(jié)果嘱根。例如,在分析來(lái)自目標(biāo)測(cè)序或磷蛋白組學(xué)實(shí)驗(yàn)的數(shù)據(jù)時(shí)巷懈,設(shè)置自定義背景非常重要该抒。適當(dāng)?shù)淖远x背景將分別包括測(cè)序面板中的所有基因或所有已知的磷蛋白。
Stage2B階段:利用GSEA對(duì)序列基因列表進(jìn)行通路富集分析(步驟6B) Stage 2B:pathway enrichment analysis of a ranked gene list using GSEA(Step 6B)
? 在GSEA軟件(Step 6B) (Box 4)中對(duì)一個(gè)排序的基因列表進(jìn)行路徑富集分析砸喻,GSEA是一種無(wú)閾值的方法柔逼,它根據(jù)所有基因的差異表達(dá)等級(jí)或其他得分進(jìn)行分析,不需要事先進(jìn)行基因篩選割岛。GSEA特別適合愉适,當(dāng)基因組中的所有或大部分基因(例如RNA-seq數(shù)據(jù))都可以使用rank時(shí),推薦使用GSEA癣漆。然而维咸,不合適當(dāng)只有一小部分基因有等級(jí)可用時(shí),例如惠爽,在一個(gè)識(shí)別顯著突變的癌癥基因的實(shí)驗(yàn)中(2A階段;步驟6)癌蓖。
? GSEA搜索的是基因富集在排名基因列表的頂端或底部的路徑,其富集程度超出了單憑偶然因素的預(yù)期婚肆。例如租副,如果細(xì)胞周期中涉及到最高差異表達(dá)的基因,這表明細(xì)胞周期通路在實(shí)驗(yàn)中受到調(diào)控较性。相比之下用僧,如果細(xì)胞周期基因在整個(gè)排列列表中隨機(jī)分布,則細(xì)胞周期通路可能不會(huì)受到顯著調(diào)控赞咙。為了計(jì)算一個(gè)通路的富集分?jǐn)?shù)(ES)责循, GSEA逐步檢查從排名列表的頂部到底部的基因,如果一個(gè)基因是通路的一部分攀操,則增加ES院仿,否則降低分?jǐn)?shù)。這些運(yùn)行和的值被加權(quán)速和,因此在最頂端(和最底部)的序列基因中的富集被放大歹垫,而在更中等的序列基因中的富集則沒有被放大。ES分?jǐn)?shù)計(jì)算為運(yùn)行和的最大值颠放,并相對(duì)于通路大小進(jìn)行歸一化县钥,得到反映列表中通路富集程度的歸一化富集分?jǐn)?shù)(NES)。正的和負(fù)的NES值分別表示列表頂部和底部的富集慈迈。最后,基于排列的P值計(jì)算和修正為多個(gè)測(cè)試基于排列產(chǎn)生錯(cuò)誤發(fā)現(xiàn)率(FDR)Q值,范圍從0(非常重要)到1(不重要)(Box3)。同樣的執(zhí)行分析排名從底部的基因列表來(lái)確定富集在底部的列表中的通路。使用FDR Q值閾值(如Q < 0.05)選擇得到的通路痒留,使用NES進(jìn)行排序谴麦。此外,GSEA分析的“前沿”方面確定了對(duì)檢測(cè)到的通路富集信號(hào)貢獻(xiàn)最大的特定基因宿百。
? GSEA測(cè)定ES統(tǒng)計(jì)顯著性(P值)的方法有兩種:基因組排列和表型排列盟庞。
? 基因集排列檢測(cè)需要一個(gè)排序列表碧聪,GSEA將觀察到的通路ES與隨機(jī)取樣的匹配大小的基因集(例如,1000次)重復(fù)分析得到的分?jǐn)?shù)分布進(jìn)行比較面哼。
? 表型排列檢測(cè)需要所有樣本的表達(dá)數(shù)據(jù)(例如,生物復(fù)制)扫步,以及被稱為“表型”的樣本組的定義魔策,這些樣本組彼此進(jìn)行比較(例如,病例與對(duì)照;腫瘤與正常樣本對(duì)照)河胎。將觀察到的pathway ES與將樣本隨機(jī)打亂表型類別闯袒,并重復(fù)分析(如1000次)得到的分?jǐn)?shù)分布進(jìn)行比較,包括對(duì)排名基因列表和結(jié)果通路ES的計(jì)算游岳。
? 基因組排列推薦用于有限變異性和生物復(fù)制的研究政敢。(如:每種情況2到5個(gè))。在這種情況下胚迫,差異基因表達(dá)值應(yīng)該在GSEA之外計(jì)算喷户,使用的方法包括方差穩(wěn)定(如edgeR, DESeq和Limma/voom并在通路分析前導(dǎo)入GSEA軟件。表型排列應(yīng)該與更多的復(fù)制一起使用(例如访锻,每個(gè)條件至少10個(gè))褪尝。表型排列方法的主要優(yōu)點(diǎn)是,相對(duì)于基因組排列方法朗若,它在排列過(guò)程中保持了具有重要生物學(xué)基因相關(guān)性的基因組結(jié)構(gòu)恼五。
? 本方案只涵蓋基因組排列,因?yàn)樗m用于最常見的通路富集分析用例哭懈。表現(xiàn)型置換在計(jì)算上是昂貴的灾馒,而且,對(duì)于當(dāng)前版本的GSEA遣总,需要定制編程來(lái)分別計(jì)算ESs和差分表達(dá)式統(tǒng)計(jì)量睬罗,以實(shí)現(xiàn)數(shù)千種表現(xiàn)型隨機(jī)化。對(duì)于高級(jí)用戶旭斥,我們?yōu)檫@個(gè)過(guò)程提供了一個(gè)補(bǔ)充方案(補(bǔ)充方案4)
Stage3:通路富集分析結(jié)果可視化與解釋(步驟7-13) Stage 3:visualization and interpretation of pathway enrichment analysis results(Steps 7-13)
? 通路信息本質(zhì)上是冗余的容达,因?yàn)榛蚪?jīng)常參與多個(gè)通路,數(shù)據(jù)庫(kù)可能通過(guò)包含具有許多共享基因的一般和特定通路(如“細(xì)胞周期”和“細(xì)胞周期的m期”)來(lái)分層組織通路垂券。因此花盐,通路富集分析常常強(qiáng)調(diào)同一通路的多個(gè)版本羡滑。將冗通路徑折疊成一個(gè)單一的生物學(xué)主題可以簡(jiǎn)化解釋。我們建議使用EnrichmentMap算芯、ClueGO和其他等可視化方法來(lái)解決這種冗余柒昏。“Enrichment”是表示富集通路之間重疊的網(wǎng)絡(luò)可視化(fig 1)熙揍,而“富集圖”是指用Cytoscape創(chuàng)建可視化的應(yīng)用程序职祷。如果路徑共享許多基因,則路徑顯示為與線(邊)相連的圓圈(節(jié)點(diǎn))届囚。節(jié)點(diǎn)由ES著色有梆,邊緣的大小取決于連接通路共享的基因數(shù)量。網(wǎng)絡(luò)布局和聚類算法自動(dòng)將相似的路徑分組成主要的生物主題意系。mentmap軟件將包含pathway富集分析結(jié)果的文本文件和包含原始富集分析中使用的pathway基因集的文本文件作為輸入泥耀。交互探索通路ES(過(guò)濾節(jié)點(diǎn))和通路之間的連接(過(guò)濾邊緣)是可能的(步驟9A(xii和xiii)和9B(xiii和xiv))。多個(gè)富集分析結(jié)果可以同時(shí)顯示在一個(gè)富集圖中昔字,在這種情況下爆袍,每個(gè)富集點(diǎn)使用不同的顏色。如果選擇加載基因表達(dá)數(shù)據(jù)作郭,點(diǎn)擊通路節(jié)點(diǎn)陨囊,將顯示通路中所有基因的基因表達(dá)熱圖。
? 富集圖有助于識(shí)別有趣的路徑和主題夹攒。首先蜘醋,應(yīng)確定預(yù)期的主題,以幫助驗(yàn)證通路富集分析結(jié)果(陽(yáng)性對(duì)照)咏尝。例如压语,生長(zhǎng)相關(guān)通路和癌癥的其他特征有望在癌癥基因組數(shù)據(jù)集的分析中被識(shí)別出來(lái)。第二编检,以前與實(shí)驗(yàn)環(huán)境無(wú)關(guān)的通路作為潛在的發(fā)現(xiàn)被更仔細(xì)地評(píng)估胎食。首先應(yīng)該研究ESs最強(qiáng)的通路和主題,然后逐步減弱信號(hào)(步驟12)允懂。第三厕怜,更詳細(xì)地檢查有趣的通路,檢查通路內(nèi)的基因(例如蕾总,表達(dá)熱圖和GSEA前沿基因)粥航。此外,如果可以的話生百,可以使用PathVisio等工具递雀,在pathway Commons、Reactome蚀浆、KEGG或WikiPathways等數(shù)據(jù)庫(kù)的通路圖上覆蓋基因表達(dá)值缀程。如果沒有可用的圖表搜吧,可以使用STRING或GeneMANIA等工具與Cytoscape一起定義用于表達(dá)覆蓋的通路基因之間的相互作用網(wǎng)絡(luò)。這有助于在視覺上識(shí)別實(shí)驗(yàn)中變化最大的通路成分(如單基因或整個(gè)信號(hào)級(jí)聯(lián))(如差異表達(dá))杠输。此外赎败,可以通過(guò)整合基因組使用富集圖后分析工具對(duì)miRNA或轉(zhuǎn)錄因子進(jìn)行目標(biāo)檢測(cè)來(lái)尋找富集途徑的主調(diào)控因子.最后,可以發(fā)表通路富集分析結(jié)果來(lái)支持科學(xué)結(jié)論(例如蠢甲,兩種癌癥亞型的功能差異),或者用于假設(shè)生成或?qū)嶒?yàn)計(jì)劃据忘,以支持新通路的識(shí)別鹦牛。此網(wǎng)站(http://www.pathwa ycommons.org/guide/)提供了更多的途徑富集分析示例和對(duì)核心概念的更深入解釋。
優(yōu)勢(shì)和局限 Advantages and limitations
? 與單基因勇吊、轉(zhuǎn)錄本或蛋白質(zhì)分析相比曼追,組學(xué)數(shù)據(jù)的通路富集分析有幾個(gè)優(yōu)點(diǎn)。
首先汉规,它以兩種方式提高了統(tǒng)計(jì)能力:(i)它匯集了與給定細(xì)胞機(jī)制相關(guān)的所有基因和基因組區(qū)域的突變計(jì)數(shù)礼殊,提供了更多的計(jì)數(shù),這使得統(tǒng)計(jì)分析更加可靠;(ii)它將維度從數(shù)以萬(wàn)計(jì)的基因或數(shù)以百萬(wàn)計(jì)的基因組區(qū)域(如SNPs)減少到數(shù)量少得多的“系統(tǒng)”或“通路”针史,從而降低了多重假設(shè)檢驗(yàn)的成本晶伦。其次,結(jié)果往往更容易解釋啄枕,因?yàn)榉治鍪窃凇凹?xì)胞周期”等熟悉概念的層次上進(jìn)行的婚陪。第三,該方法可以幫助確定潛在的致病機(jī)制和藥物靶點(diǎn)频祝。第四泌参,從相關(guān)但不同的數(shù)據(jù)中獲得的結(jié)果可能更具可比性,因?yàn)榻Y(jié)果被投影到更小的共享特征空間(如常空,有限數(shù)量的通路)沽一;第五,該方法有助于整合不同的數(shù)據(jù)類型漓糙,如基因組學(xué)铣缠、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué),這些數(shù)據(jù)類型都可以映射到相同的路徑兼蜈。因此攘残,將疾病數(shù)據(jù)投射到已知的機(jī)制上增加了統(tǒng)計(jì)和解釋能力。
? 在解釋通路富集分析結(jié)果時(shí)为狸,通常包括本方案所涵蓋的結(jié)果時(shí)歼郭,需要考慮以下限制。根據(jù)組學(xué)數(shù)據(jù)類型(參見“應(yīng)用于不同組學(xué)數(shù)據(jù)”一節(jié))辐棒,還存在其他限制病曾。具體和可選的通路富集分析方法的優(yōu)缺點(diǎn)在“與替代方法的比較”一節(jié)中介紹牍蜂。
●富集分析對(duì)于多個(gè)基因具有強(qiáng)生物信號(hào)(如差異表達(dá))的通路更有效。例如泰涂,在轉(zhuǎn)錄組學(xué)實(shí)驗(yàn)中鲫竞,我們假設(shè)進(jìn)化已經(jīng)優(yōu)化了一個(gè)細(xì)胞,只有在需要的時(shí)候才表達(dá)一個(gè)通路逼蒙,而這個(gè)通路的激活或失活可以被識(shí)別為一個(gè)通路中許多基因的協(xié)調(diào)活動(dòng)从绘。活性僅受少數(shù)基因控制或不受基因表達(dá)(如翻譯后調(diào)控)控制的通路將永遠(yuǎn)不會(huì)被視為豐富的是牢。一些通路分析方法通過(guò)激活和抑制基因相互作用來(lái)構(gòu)建通路活性的定量模型僵井,其中包括未差異表達(dá)但仍是重要調(diào)控因子的基因。然而驳棱,這些方法需要具有詳細(xì)生化和調(diào)控基因的通路模型批什。
●通路邊界往往是任意的,不同的數(shù)據(jù)庫(kù)會(huì)對(duì)特定通路涉及哪些基因存在分歧社搅。通過(guò)使用多個(gè)數(shù)據(jù)庫(kù)驻债,可以分析多個(gè)路徑定義,其中一些可能比另一些更能解釋實(shí)驗(yàn)數(shù)據(jù)形葬。
●一些途徑富集方法合呐,如基于Fisher 's精確檢驗(yàn)的方法,在統(tǒng)計(jì)上更有可能識(shí)別出更大的途徑荷并。用戶可以通過(guò)選擇分析中考慮的基因集大小的上限來(lái)解決這個(gè)限制合砂。
●在基因列表中排名較高的多功能基因可能導(dǎo)致許多不同途徑的富集,其中一些途徑與實(shí)驗(yàn)無(wú)關(guān)源织。排除這些基因后重復(fù)分析翩伪,可能會(huì)發(fā)現(xiàn)富集過(guò)度依賴于其存在的通路,或證實(shí)通路富集的穩(wěn)健性谈息。
●通路數(shù)據(jù)庫(kù)缘屹,因此富集結(jié)果偏向于已知的通路。事實(shí)上侠仇,通路富集分析忽略了沒有通路注釋的基因轻姿,有時(shí)被稱為“基因組的暗物質(zhì)”,這些基因應(yīng)該單獨(dú)研究逻炊。例如互亮,非編碼RNA基因目前缺乏系統(tǒng)的注釋,不能直接用于通路富集分析
●大多數(shù)富集分析方法對(duì)基因之間以及通路之間的統(tǒng)計(jì)獨(dú)立性做出不切實(shí)際的假設(shè)余素。有些基因可能總是共同表達(dá)的(例如豹休,蛋白質(zhì)復(fù)合體中的基因),而有些通路有共同的基因桨吊。因此威根,標(biāo)準(zhǔn)的FDRs(假定測(cè)試之間具有統(tǒng)計(jì)獨(dú)立性)往往比理想情況更保守或更不保守凤巨。盡管如此,它們?nèi)匀粦?yīng)該被用于調(diào)整多個(gè)測(cè)試洛搀,并為探索性分析和假設(shè)生排序富集通路敢茁。自定義排列測(cè)試可能導(dǎo)致對(duì)錯(cuò)誤發(fā)現(xiàn)的更好估計(jì)(參見“與其他方法的比較”一節(jié))。
實(shí)驗(yàn)設(shè)計(jì) Experimental design
? 仔細(xì)的實(shí)驗(yàn)設(shè)計(jì)使通路富集分析受益匪淺留美。否則彰檬,分析可能會(huì)揭示由實(shí)驗(yàn)偏差或其他混雜因素造成的明顯有意義的結(jié)果。本節(jié)介紹了在執(zhí)行此方案之前必須考慮的一系列實(shí)驗(yàn)因素谎砾。
實(shí)驗(yàn)條件 Experimental conditions
? 實(shí)驗(yàn)條件必須明確僧叉,以便觀察到的主要變化是實(shí)驗(yàn)者想要監(jiān)測(cè)的反應(yīng),并且與感興趣的生物學(xué)問題相關(guān)(例如棺榔,腫瘤與正常、治療與未治療隘道、四種疾病亞型的比較症歇、時(shí)間序列)。
數(shù)量的復(fù)制 Number of replicates
? 生物復(fù)制是從不同的生物體或細(xì)胞系中獲得的獨(dú)立處理過(guò)的樣本谭梗,用于測(cè)量樣本之間的變異性并計(jì)算統(tǒng)計(jì)顯著性(P值)忘晤。缺乏復(fù)制(即每組一個(gè)樣本)將不允許魯棒估計(jì)信號(hào)的重要性。復(fù)制不足可能導(dǎo)致數(shù)據(jù)中缺乏信號(hào)(如無(wú)顯著差異表達(dá)的基因)激捏。在一組樣本中设塔,變異越大,就需要更多的生物復(fù)制來(lái)精確地測(cè)量信號(hào)远舅。對(duì)于變異性較低的系統(tǒng)(即在受控實(shí)驗(yàn)室條件下具有相同遺傳背景的模型生物闰蛔,或來(lái)自同一克隆的穩(wěn)定細(xì)胞系),每個(gè)條件至少推薦三到四個(gè)生物復(fù)制图柏,用于方差穩(wěn)定歸一化的差異分析序六。方差穩(wěn)定使用一個(gè)全局統(tǒng)計(jì)模型來(lái)“穩(wěn)定”基因方面的方差估計(jì),以減少由少數(shù)重復(fù)造成的誤差蚤吹。對(duì)于變異性較高的實(shí)驗(yàn)(如腫瘤樣本)例诀,需要更多的復(fù)制;理想情況下,應(yīng)使用正式的統(tǒng)計(jì)力計(jì)算(有時(shí)稱為敏感性測(cè)試)后的先導(dǎo)實(shí)驗(yàn)來(lái)確定識(shí)別差異表達(dá)基因或富集途徑信號(hào)所需的最小重復(fù)數(shù)裁着。由相同樣品的重復(fù)實(shí)驗(yàn)組成的技術(shù)復(fù)制通常不需要成熟的實(shí)驗(yàn)技術(shù)繁涂,如RNA-seq,它具有較低的技術(shù)變異性二驰,但對(duì)新技術(shù)有幫助扔罪。
混雜因素 Confounding factors
? 應(yīng)該避免與實(shí)驗(yàn)問題無(wú)關(guān)的因素之間的差異,或者至少在不同的條件下保持平衡诸蚕,以便統(tǒng)計(jì)技術(shù)(如廣義線性模型)能夠糾正每個(gè)因素步势。常見因素包括測(cè)序批次氧猬、核酸提取方案、受試者年齡等坏瘩。否則盅抚,可能無(wú)法準(zhǔn)確地將實(shí)驗(yàn)信號(hào)從實(shí)驗(yàn)響應(yīng)和混淆因素中分離出來(lái)。提前了解重要因素有助于正確的實(shí)驗(yàn)設(shè)計(jì)倔矾。統(tǒng)計(jì)探索性分析妄均,如聚類分析或主成分分析(PCA),可以幫助識(shí)別未知因素哪自。例如丰包,案例和控件應(yīng)該單獨(dú)集群,而不是通過(guò)處理批處理壤巷。
離群值 Outliers
? 由于主要的實(shí)驗(yàn)或技術(shù)問題邑彪,如污染或樣品混淆,離群樣本可能與其他樣本有很大的不同胧华〖闹ⅲ或者,它們可能呈現(xiàn)極端的生物學(xué)特征矩动,例如具有異常侵略性表型的腫瘤樣本有巧。使用PCA或聚類等統(tǒng)計(jì)技術(shù)可以無(wú)偏倚地識(shí)別離群樣本。通路富集分析應(yīng)該有或沒有異常值悲没,以確保穩(wěn)健的結(jié)果篮迎。系統(tǒng)地去除異常值可能有助于減少實(shí)驗(yàn)中的變異性。
實(shí)驗(yàn)靈敏度 Experimental sensitivity
? 一些實(shí)驗(yàn)方法可以調(diào)到更敏感或更不敏感示姿。例如甜橱,RNA-seq實(shí)驗(yàn)中的讀取數(shù)影響下游分析。為了量化具有適度變異性的生物系統(tǒng)中的基因表達(dá)峻凫,并測(cè)試具有方差穩(wěn)定的差異表達(dá)渗鬼,至少需要3到5次重復(fù)和1000萬(wàn)個(gè)圖譜解讀。為了研究剪接異構(gòu)體荧琼、檢測(cè)表達(dá)不良的基因或具有復(fù)雜細(xì)胞混合物(如手術(shù)切除標(biāo)本)的樣本譬胎,需要更大的測(cè)序深度,如5000 - 1億個(gè)映射讀圖命锄。
通路基因集數(shù)據(jù)庫(kù)的選擇Choice of pathway gene se database
? 我們建議在開始時(shí)只搜索富集通路基因集堰乔,因?yàn)檫@些基因集捕獲了熟悉的、容易解釋的正常細(xì)胞過(guò)程脐恩。來(lái)自Reactome镐侯、Panther、HumanCyc和NetPath的GO生物過(guò)程術(shù)語(yǔ)和人工調(diào)控的分子通路是很好的人類路徑資源(Box2)
篩選GO通路基因集 Filtering GO pathways gene sets
? GO中大量的基因注釋來(lái)自于自動(dòng)數(shù)據(jù)分析,并沒有經(jīng)過(guò)人類管理員的驗(yàn)證苟翻。這些有證據(jù)代碼“從電子注釋推斷”(IEA)韵卤。早期的文獻(xiàn)告誡人們不要分析和解釋IEA標(biāo)記的注釋,而最近的研究表明崇猫,這些注釋通常和人類管理員所作的注釋一樣可靠.對(duì)于來(lái)自人類和常見模型生物體的數(shù)據(jù)的高可信度分析(這些數(shù)據(jù)有許多手動(dòng)管理的注釋)沈条,我們通常建議比較分析版本(有和沒有過(guò)濾IEA注釋),以驗(yàn)證健壯性诅炉。然而蜡歹,IEA的注釋在研究較少的物種中占據(jù)了大部分信息,在這些情況下應(yīng)該默認(rèn)使用涕烧。刪除IEA編碼的注釋可能會(huì)使分析偏向于深入研究的生物學(xué)過(guò)程月而。
使用非通路基因集 Use of non-pathway gene sets
? 不同類型的基因組有助于回答各種各樣的問題。例如议纯,與microRNA和轉(zhuǎn)錄因子靶標(biāo)相對(duì)應(yīng)的非通路基因集可以用來(lái)發(fā)現(xiàn)重要的調(diào)控因子父款。然而,同時(shí)分析所有可用的基因集類型會(huì)降低數(shù)據(jù)的可解釋性瞻凤。這也可能導(dǎo)致假陰性铛漓,因?yàn)樗M(jìn)行的試驗(yàn)次數(shù)的增加增加了多次試驗(yàn)校正的效果,降低了單個(gè)通路的多次試驗(yàn)校正的顯著性鲫构。因此,我們建議對(duì)非途徑和途徑基因集分別進(jìn)行分析
基因集大小的考慮 Gene set size considerations
? 排除大量的小路徑往往是有益的玫坛,因?yàn)樗鼈兣c較大的路徑是冗余的结笨,解釋也比較復(fù)雜,而且它們的豐富性使得多重測(cè)試校正更加嚴(yán)格湿镀。大通路也應(yīng)該被排除炕吸,因?yàn)檫@些通路過(guò)于普遍(如“新陳代謝”),它們對(duì)結(jié)果的可解釋性沒有貢獻(xiàn)勉痴,當(dāng)使用某些統(tǒng)計(jì)富集方法(如Fisher’s exact test)時(shí)赫模,它們的統(tǒng)計(jì)意義可能會(huì)被夸大。對(duì)于分析人類基因表達(dá)數(shù)據(jù)蒸矛,我們通常建議排除小于 10-15個(gè)基因和(雖然在文獻(xiàn)中可以找到200 - 2000個(gè)基因的上限)大于 200-500個(gè)基因瀑罗。然而,對(duì)于非人類生物和其他類型的基因集雏掠,可能有不同的基因集大小分布斩祭,可能需要包括更大的集。通路的篩選依賴于實(shí)驗(yàn)環(huán)境乡话,因?yàn)椴煌纳飳W(xué)領(lǐng)域在通路數(shù)據(jù)庫(kù)中有不同的覆蓋范圍摧玫。我們可以通過(guò)檢測(cè)與實(shí)驗(yàn)相關(guān)的幾個(gè)感興趣的通路的大小來(lái)確定通路大小的上下界。
使用最新的通路基因集的重要性 Importance of using updated pathway gene sets
? 通路富集分析依賴于分析中使用的基因集和數(shù)據(jù)庫(kù)绑青,近年來(lái)許多利用途徑富集分析的研究受到過(guò)時(shí)資源的強(qiáng)烈影響诬像。為了提高研究的重現(xiàn)性和透明度屋群,研究人員應(yīng)在出版物中報(bào)告使用的通路富集分析軟件和基因集數(shù)據(jù)庫(kù)的分析日期和版本,以及所有分析參數(shù)坏挠。除了富集圖譜芍躏,作者還應(yīng)該考慮添加他們所研究的基因列表和完整的富集通路表作為補(bǔ)充信息。
基因標(biāo)識(shí)符的選擇 Choice of gene identifier
? 基因與許多不同的數(shù)據(jù)庫(kù)標(biāo)識(shí)符(id)相關(guān)聯(lián)癞揉。們建議使用明確纸肉、惟一和穩(wěn)定的id,因?yàn)橛行﹊d會(huì)隨著時(shí)間的推移而過(guò)時(shí)喊熟。對(duì)于人類基因柏肪,我們建議使用Entrez基因數(shù)據(jù)庫(kù)id(例如,4193對(duì)應(yīng)MDM2)或基因符號(hào)(MDM2是HUGO基因命名委員會(huì)推薦的官方符號(hào))芥牌。隨著基因符號(hào)的變化烦味,我們建議同時(shí)維護(hù)基因符號(hào)和Entrez基因id。Profiler和相關(guān)的g:Convert工具支持將多個(gè)ID類型自動(dòng)轉(zhuǎn)換為標(biāo)準(zhǔn)ID壁拉。
意想不到的通路結(jié)果和實(shí)驗(yàn)設(shè)計(jì) Unexpected pathway results and experimental design
? 通路分析中所揭示的意想不到的生物學(xué)主題可能表明實(shí)驗(yàn)設(shè)計(jì)谬俄、數(shù)據(jù)生成或分析存在問題。例如弃理,細(xì)胞凋亡通路的富集可能表明實(shí)驗(yàn)方案存在問題溃论,導(dǎo)致在樣品制備過(guò)程中細(xì)胞死亡增加。在這些情況下痘昌,在進(jìn)一步解釋數(shù)據(jù)之前钥勋,應(yīng)仔細(xì)審查實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)生成。
應(yīng)用于不同的組學(xué)數(shù)據(jù)Applicatin to diverse omics data
? 該協(xié)議使用RNA-seq data7和體細(xì)胞突變data6作為示例辆苔,因?yàn)檫@些數(shù)據(jù)類型經(jīng)常遇到算灸。然而,我們提出的通路富集分析的一般概念適用于許多可以生成基因列表的實(shí)驗(yàn)類型驻啤,如單細(xì)胞轉(zhuǎn)錄組學(xué)菲驴、CNVs、proteomics骑冗、phosphphoproteomics赊瞬、DNA甲基化和metabolomics66。大多數(shù)數(shù)據(jù)類型都需要修改方案贼涩,這里只簡(jiǎn)要討論一下森逮。對(duì)于某些數(shù)據(jù)類型,需要專門的計(jì)算方法來(lái)生成適合于通路富集分析的基因列表磁携,而對(duì)于其他數(shù)據(jù)類型褒侧,則需要專門的通路富集分析技術(shù)。必須考慮特定于數(shù)據(jù)類型和實(shí)驗(yàn)方法的問題,包括:
●對(duì)于某些數(shù)據(jù)類型闷供,建議使用不同的基因標(biāo)識(shí)符烟央。我們推薦蛋白質(zhì)的UniProt加入數(shù)(例如,MDM2的Q00987)和代謝物的人類代謝組數(shù)據(jù)庫(kù)id(例如歪脏,MDM2的Q00987)疑俭。, ATP記為HMDB00538)婿失。
●某些類型的組學(xué)實(shí)驗(yàn)通過(guò)設(shè)計(jì)只捕獲基因或蛋白質(zhì)的一個(gè)子集钞艇。為了解決這種有限的覆蓋,途徑富集分析必須定義一個(gè)自定義的背景基因集豪硅,該基因集可以在實(shí)驗(yàn)中測(cè)量哩照。例如,磷酸化蛋白組學(xué)實(shí)驗(yàn)只測(cè)量具有一個(gè)或多個(gè)磷酸化位點(diǎn)的蛋白懒浮,因此必須使用編碼磷酸化蛋白的一組基因作為自定義背景基因集飘弧。否則,通路富集分析將顯示激酶信號(hào)傳導(dǎo)和蛋白磷酸化等一般過(guò)程的P值過(guò)高砚著。
●ChIP-seq實(shí)驗(yàn)中轉(zhuǎn)錄因子結(jié)合位點(diǎn)等短非編碼基因組區(qū)域的通路富集分析需要進(jìn)一步考慮次伶。基因組區(qū)域必須映射到蛋白質(zhì)編碼基因稽穆,并糾正偏差冠王,如在較長(zhǎng)的基因中增加信號(hào)。GREAT67等工具會(huì)自動(dòng)執(zhí)行這兩項(xiàng)任務(wù)舌镶。
●跨越多個(gè)基因的大基因組間隔(例如版确,來(lái)自全基因組關(guān)聯(lián)、CNV和差異甲基化區(qū)域)需要專門的富集檢測(cè)乎折,如PLINK CNV基因集負(fù)載測(cè)試或INRICH。標(biāo)準(zhǔn)的富集測(cè)試常常揭示基因組中聚集的基因侵歇,由于每個(gè)基因被錯(cuò)誤地當(dāng)作獨(dú)立信號(hào)計(jì)算骂澄,這些基因的信號(hào)在統(tǒng)計(jì)上被嚴(yán)重夸大。與基因組位置相關(guān)的基因類型包括嗅覺受體惕虑、組蛋白坟冲、主要組織相容性復(fù)合體(MHC)成員和同源框轉(zhuǎn)錄因子。一個(gè)簡(jiǎn)單的解決方法是在富集分析之前溃蔫,從每個(gè)功能相同的基因組簇中只選擇一個(gè)有代表性的基因
●對(duì)于罕見的遺傳變異健提,病例對(duì)照途徑“burden”檢測(cè)是最合適的途徑富集分析方法(參見“與其他方法的比較”一節(jié))。
與其他方法的比較 Comparison to alternative methods
通路富集分析方法
? 本方案推薦使用g:Profiler和GSEA軟件進(jìn)行通路富集分析伟叛。g: profiler使用Fisher精確檢驗(yàn)分析基因列表私痹,使用修正的Fisher檢驗(yàn)對(duì)基因列表進(jìn)行排序。它通過(guò)R和Python編程語(yǔ)言提供圖形化web界面和訪問。該軟件經(jīng)常更新紊遵,基因集數(shù)據(jù)庫(kù)可以作為GMT文件下載(http://biit.cs.ut.ee/gprofiler)账千。GSEA使用基于排列的測(cè)試分析排序的基因列表。該軟件通常作為桌面應(yīng)用程序運(yùn)行(http://software.broadinstitute.org/gsea)暗膜。目前存在數(shù)百種通路富集分析工具匀奏,由于許多工具依賴于outof-date通路數(shù)據(jù)庫(kù),或者與最常用的工具相比缺乏獨(dú)特的特征;因此学搜,我們不在這里討論它們娃善。以下是可供選擇的自由通路富集分析軟件工具。盡管我們的協(xié)議中沒有涉及這些工具瑞佩,但我們建議使用以下工具聚磺,基于它們的易用性、獨(dú)特的特性或高級(jí)編程特性钉凌。
●Enrichr:這是一個(gè)基于web的富集分析工具non-ranked基因列表基于確切概率法咧最。它使用方便,具有豐富的交互式報(bào)告功能御雕,包括>100個(gè)基因集數(shù)據(jù)庫(kù)(稱為文庫(kù))矢沿,其中>18萬(wàn)個(gè)基因集在多個(gè)類別。功能類似于本協(xié)議中描述的g:Profiler web服務(wù)器酸纲。
●Camera:這個(gè)R Bioconductor包分析基因列表和糾正等inter-gene相關(guān)性明顯的基因co-expression數(shù)據(jù)捣鲸。該軟件可作為Bioconductor中的limma包的一部分使用(https://bioconductor.org/packages/release/bioc/html/limma.html;這是一個(gè)高級(jí)工具,需要編程專家;補(bǔ)充方案3)闽坡。
●GOseq:這個(gè)R Bioconductor包分析從RNA-seq實(shí)驗(yàn)栽惶,用戶修正如基因長(zhǎng)度等協(xié)變量選擇來(lái)基因列表(https://bioconductor.org/packages/release/bioc/html/goseq.html;這是一個(gè)高級(jí)工具,需要專門的編程知識(shí))
● Genomic Regions Enrichment of Annotations Tool (GREAT):與分析基因列表的常用方法不同疾嗅,GREAT分析基因組區(qū)域外厂,如DNA結(jié)合位點(diǎn),并將其與鄰近基因連接代承,進(jìn)行通路富集分析(http://bejerano.stanford.edu/great/public/html/)汁蝶。
可視化工具:
? 本方案建議使用富集圖進(jìn)行通路富集分析可視化,以幫助解釋论悴。EnrichmentMap是一個(gè)Cytoscape應(yīng)用程序掖棉,它可以將通路富集分析的結(jié)果可視化,并將途徑顯示為一個(gè)網(wǎng)絡(luò)膀估,其中重疊的途徑聚集在一起幔亥,以識(shí)別結(jié)果中的主要生物主題,從而簡(jiǎn)化解釋(http://www.baderlab.org/software/mentmap)察纯。兩個(gè)有用的可視化工具是:
●ClueGO:這個(gè)Cytoscape應(yīng)用程序在概念上類似于EnrichmentMap帕棉,提供了一個(gè)基于網(wǎng)絡(luò)的可視化针肥,以減少路徑富集分析結(jié)果的冗余。它還包括一個(gè)用于使用Fisher 's精確測(cè)試分析GO注釋的通路富集分析特性笤昨。然而祖驱,目前它只支持GO基因集。
●PathVisio:這個(gè)桌面應(yīng)用程序提供了一個(gè)互補(bǔ)EnrichmentMap和ClueGO可視化方法瞒窒。PathVisio使用戶能夠在感興趣的基因和蛋白質(zhì)相互作用的背景下直觀地解釋組學(xué)數(shù)據(jù)捺僻。根據(jù)用戶提供的組學(xué)數(shù)據(jù)(https://www.pathvisio.org), PathVisio顏色通路基因崇裁。這是PathVisio相對(duì)于mentmap和ClueGO的主要優(yōu)勢(shì)匕坯。
拓?fù)涓兄贩治龇椒═opology-aware pathway analysis methods
? 大多數(shù)通路富集分析方法對(duì)同一通路中的所有基因都進(jìn)行統(tǒng)一處理,忽略了基因間的相互作用拔稳。相比之下葛峻,拓?fù)涓兄椒@式地模擬基因間的相互作用。CePa巴比、GANPA和THINK-Back使用物理基因相互作用或共表達(dá)網(wǎng)絡(luò)為每個(gè)通路中的每個(gè)基因分配權(quán)重术奖。權(quán)重可以通過(guò)測(cè)量網(wǎng)絡(luò)中基因的重要程度,如度轻绞、基因連接數(shù)采记、中介中心度等來(lái)確定,可以集成到傳統(tǒng)的途徑富集分析方法中政勃,如GSEA唧龄。盡管調(diào)控和生化基因相互作用有用且可能更準(zhǔn)確,但與物理相互作用網(wǎng)絡(luò)和共表達(dá)相比奸远,調(diào)控和生化基因相互作用可用于更少的基因和通路既棺。我們預(yù)期這些方法將變得更有用,因?yàn)楦嗟幕蛳嗷プ饔玫耐緩绞窃谠敿?xì)的分子實(shí)驗(yàn)的特點(diǎn)懒叛。然而丸冕,目前從文獻(xiàn)中收集和整理高質(zhì)量和生物化學(xué)詳細(xì)的通路數(shù)據(jù)是復(fù)雜和昂貴的。因此薛窥,在可預(yù)見的未來(lái)胖烛,本方案中描述的通路富集分析方法可能仍將是最廣泛使用的方法
未來(lái)的角度 Future perspective
? 目前的通路富集分析方法為基因組學(xué)實(shí)驗(yàn)中活躍的途徑提供了一個(gè)有用的高層次概述。然而拆檬,這些方法考慮了一個(gè)只涉及基因集的簡(jiǎn)化通路視圖。下一代通路分析方法將整合更多的生物通路細(xì)節(jié)妥凳,建立基于多種類型基因組數(shù)據(jù)的多樣本檢測(cè)的通路模型竟贯,并考慮數(shù)據(jù)中的正調(diào)控關(guān)系和負(fù)調(diào)控關(guān)系嘴纺。例如爆惧,用單細(xì)胞RNA-seq數(shù)據(jù)參數(shù)化的定性數(shù)學(xué)模型可能有一天能夠準(zhǔn)確預(yù)測(cè)能夠治療正在研究的特定疾病的藥物組合
方案概述Overview of the protocol
? 這個(gè)循序漸進(jìn)的方案解釋了如何使用g:Profiler(過(guò)濾基因列表)和GSEA(未過(guò)濾的、全基因組的量没、排序的基因列表)完成通路富集分析,然后使用富集圖進(jìn)行可視化和解釋持际。為g:Profiler分析提供的示例數(shù)據(jù)是癌癥基因組圖譜(TCGA)外顯子測(cè)序數(shù)據(jù)中發(fā)現(xiàn)的12個(gè)類型的3200個(gè)腫瘤的頻繁體細(xì)胞單核苷酸變異(SNVs)基因列表沃琅。GSEA分析提供的示例數(shù)據(jù)是TCGA定義的兩種卵巢癌亞型的差異表達(dá)基因列表。
材料 Materials
設(shè)備Equipment
硬件Hardware
●可上網(wǎng)且內(nèi)存≥8gb的個(gè)人電腦蜘欲。1gb內(nèi)存足夠運(yùn)行GSEA分析;然而益眉,Cytoscape(需要運(yùn)行mentmap軟件)需要≥8gb 內(nèi)存。
軟件Software
●使用g:Profiler進(jìn)行通路富集分析的當(dāng)代web瀏覽器(如Chrome)(步驟6)姥份。
●g:Profiler(https://biit.cs.ut.ee/gprofiler/)
●運(yùn)行GSEA和Cytoscape需要Java標(biāo)準(zhǔn)版(http://www.oracle.com/technetwork/java/javase/downloads/index.html)
●GSEA桌面應(yīng)用程序(http://software.broadinstitute.org/gsea/downloads.jsp)用于通路富集分析(步驟6B)郭脂。
●富集圖可視化需要Cytoscape桌面應(yīng)用程序(http://www.cytoscape.org/download.php)和以下Cytoscape應(yīng)用程序:mentmap, v.3.1或更高;clusterMaker, v.0.9.5或更高;WordCloud, v.3.1.0或更高;AutoAnnotate,v,1.2.0或更高澈歉。通過(guò)從Cytoscape應(yīng)用程序商店安裝“EnrichmentMap Pipeline Collection”(http://apps.cytoscape.org/apps/mentmappipelinecollection)展鸡,可以方便地下載并一起安裝這些軟件程序。
輸入數(shù)據(jù)Input data
CRITICAL(重點(diǎn):):
? 我們提供了可下載的示例文件埃难,這些文件在整個(gè)方案中都被引用(補(bǔ)充表1-13)莹弊。我們建議在啟動(dòng)之前將所有這些文件保存在個(gè)人項(xiàng)目數(shù)據(jù)文件夾中。我們還建議創(chuàng)建一個(gè)額外的結(jié)果數(shù)據(jù)文件夾來(lái)保存在執(zhí)行協(xié)議時(shí)生成的文件涡尘。
●感興趣的基因列表或排序基因列表
? 步驟6A的示例數(shù)據(jù)忍弛。g:Profiler需要一個(gè)文本文件或電子表格中的每行一個(gè)基因列表,準(zhǔn)備復(fù)制并粘貼到web頁(yè)面:為此悟衩,我們使用TCGA外顯子組測(cè)序數(shù)據(jù)中發(fā)現(xiàn)的3200個(gè)12種類型腫瘤的頻繁體細(xì)胞SNVs基因剧罩。MuSiC癌癥驅(qū)動(dòng)突變檢測(cè)軟件被用于查找127癌癥驅(qū)動(dòng)基因顯示高于預(yù)期的基因突變頻率在癌癥樣本(補(bǔ)充表1,來(lái)自參考文獻(xiàn)6補(bǔ)充表4 的列B。)座泳』菸簦基因依據(jù)極影的重要性(FDR Q值)和突變頻率(沒有顯示)降序排名。
步驟6B的示例數(shù)據(jù)挑势。GSEA需要一個(gè)帶有基因評(píng)分的RNK文件镇防。RNK文件是一個(gè)兩列文本文件,第一列是基因id潮饱,第二列是基因得分来氧。基因組中的所有(或大部分)基因都需要有一個(gè)分?jǐn)?shù)香拉,而基因id需要匹配GMT文件中使用的那些啦扬。我們提供了TCGA中卵巢癌差異表達(dá)基因的排序列表(補(bǔ)充表2)。本隊(duì)列先前根據(jù)基因表達(dá)數(shù)據(jù)分為四種分子亞型凫碌,分別為分化型扑毡、免疫反應(yīng)型、間質(zhì)型和增殖型盛险。我們比較了免疫反應(yīng)性和間充質(zhì)亞型瞄摊,以證明該方案勋又。補(bǔ)充方案1的步驟5顯示了如何創(chuàng)建該文件。
●通路基因數(shù)據(jù)庫(kù)
- 步驟6A, g:Profiler維護(hù)來(lái)自多個(gè)來(lái)源的最新的通路基因集集换帜,不需要用戶進(jìn)一步輸入楔壤,但步驟6B (GSEA)需要通路基因集數(shù)據(jù)庫(kù)。補(bǔ)充表3包含一個(gè)用于標(biāo)準(zhǔn)GMT格式的通路富集分析的通路基因集數(shù)據(jù)庫(kù)惯驼,可從http://baderlab.org/GeneSets下載蹲嚣。該文件在2017年7月1日下載包含從8個(gè)數(shù)據(jù)來(lái)源的通路:GO、Reactome跳座、Panther端铛、NetPath、NCI79疲眷、MSigDB curated gene sets (C2 collection禾蚕,不包括Reactome和KEGG)、MSigDB Hallmark (H collection)和HumanCyc狂丝』幌可以從http://baderlab.org/GeneSets獲得每月更新一次的基因集。GMT文件是一個(gè)文本文件几颜,其中每一行代表一個(gè)單一通路的基因集倍试。每一行都包含一個(gè)通路ID、一個(gè)名稱和以制表符分隔的格式列出的相關(guān)基因蛋哭。
過(guò)程Procedure
軟件安裝 Software installation 時(shí)間5分鐘
1.從方案補(bǔ)充資料中下載所需的輸入輸出文件县习。
●創(chuàng)建兩個(gè)目錄,項(xiàng)目數(shù)據(jù)文件夾和結(jié)果數(shù)據(jù)文件夾谆趾。
●將下載的所有輸入和示例輸出文件放入項(xiàng)目數(shù)據(jù)文件夾躁愿。
●在完成方案的過(guò)程中,將新生成的文件放入結(jié)果數(shù)據(jù)文件夾沪蓬。
2 .安裝Java 8或更高彤钟。請(qǐng)遵循http://www.oracle.com/technetwork/java/javase/downloads/index.html上的Java JRE下載和安裝說(shuō)明
3.下載最新版本的GSEA。我們建議使用javaGSEA桌面應(yīng)用程序在http://www.broadinstitute.org/gsea/downloads.jsp上跷叉。需要免費(fèi)注冊(cè)逸雹。
4.從http://www.cytoscape.org下載最新版本的Cytoscape。Cytoscape v.3.6.0或更高的要求云挟。
5.所需的Cytoscape應(yīng)用程序梆砸。
●啟動(dòng)Cytoscape。
●進(jìn)入Apps→App Manager(即园欣,打開Apps菜單帖世,選擇item App Manager)。
●在Install Apps選項(xiàng)卡搜索欄中俊庇,搜索EnrichmentMap狮暑。
●點(diǎn)擊中心面板上的EnrichmentMap Pipline Colletion。驗(yàn)證它是v.1.0.0或更高辉饱。
●點(diǎn)擊Install按鈕搬男。
●轉(zhuǎn)到當(dāng)前已安裝選項(xiàng)卡,驗(yàn)證應(yīng)用程序(EnrichmentMap彭沼、clusterMaker2缔逛、WordCloud和AutoAnnotate)是否已安裝。
通路富集分析 Pathway enrichment analysis 3-20分鐘
6.可以使用g:Profiler(選項(xiàng)A)分析數(shù)十到數(shù)千個(gè)基因的平面(未排序的)基因列表姓惑。從組學(xué)數(shù)據(jù)編譯一個(gè)基因列表需要一個(gè)統(tǒng)計(jì)閾值褐奴。相比之下,全基因組基因列表適合使用GSEA進(jìn)行途徑富集分析(選項(xiàng)B)于毙。使用GSEA進(jìn)行分析的基因列表不需要使用統(tǒng)計(jì)閾值進(jìn)行預(yù)先篩選敦冬。部分、過(guò)濾排序的基因列表也可以用g:Profiler進(jìn)行分析唯沮。選擇步驟6A或6B脖旱,這取決于您擁有的基因列表的類型。
(A)利用g:Profiler對(duì)基因列表進(jìn)行通路富集分析
?(i)打開g:Profiler網(wǎng)站http://biit.cs.ut.ee/gprofiler/ (Fig. 2) 介蛉。
(ii) 將基因列表(補(bǔ)充表1)粘貼到屏幕左上角的查詢字段中萌庆。基因列表可以是空格分隔的币旧,也可以是每行一個(gè)践险。默認(rèn)情況下,用于分析的生物體是Homo sapiens吹菱。輸入列表可以包含基因和蛋白質(zhì)id巍虫、符號(hào)和登錄號(hào)的混合。重復(fù)的和無(wú)法識(shí)別的id將自動(dòng)刪除毁葱,并且在提交查詢后垫言,可以在交互式對(duì)話中細(xì)化模糊的符號(hào)
(iii)勾選“Ordered query”旁邊的方格。該選項(xiàng)將輸入視為有序的基因列表倾剿,并在列表的開頭優(yōu)先排列突變ESs較高的基因筷频。
(iv)(可選)勾選No electronic GO annotations旁邊的復(fù)選框。此選項(xiàng)將丟棄不太可靠的GO注釋(IEAs)前痘,這些注釋不需要手動(dòng)檢查凛捏。
(v)使用右側(cè)菜單設(shè)置基因注釋數(shù)據(jù)過(guò)濾器。我們建議初始途徑富集分析只包括GO生物過(guò)程(BPs)和Reactome分子途徑芹缔。選中這兩個(gè)復(fù)選框并取消選中菜單中的所有其他復(fù)選框坯癣。
(vi)點(diǎn)擊“Show Advanced Options”可設(shè)置附加參數(shù).
(vii)將下拉菜單中的功能類別大小設(shè)置為5 (' min ')和350 (' max ')。大路徑的解釋價(jià)值有限最欠,而眾多的小路徑由于過(guò)多的多重檢驗(yàn)而降低了統(tǒng)計(jì)能力
(viii)在下拉菜單中將查詢/術(shù)語(yǔ)交集的大小設(shè)置為3示罗。分析將只考慮在輸入基因列表中包含三個(gè)或更多基因的更可靠的通路惩猫。
(ix)點(diǎn)擊 g:Profile!來(lái)運(yùn)行分析。將顯示一個(gè)圖形化的熱圖圖像蚜点,沿著y軸(左側(cè))顯示檢測(cè)到的路徑轧房,沿著x軸(頂部)顯示輸入列表的相關(guān)基因。結(jié)果的路徑被分層組織成相關(guān)的組绍绘。Pfofiler默認(rèn)使用圖形輸出奶镶,當(dāng)發(fā)現(xiàn)大量路徑時(shí),切換到文本輸出陪拘。g:Profiler只返回具有統(tǒng)計(jì)意義的路徑厂镇,P值經(jīng)過(guò)多次測(cè)試校正(稱為Q值)。默認(rèn)情況下左刽,報(bào)告Q值<0.05的結(jié)果捺信。g:Profiler報(bào)告無(wú)法識(shí)別和模糊的基因id,可以手動(dòng)解析.
(x)使用下拉菜單輸出類型并選擇選項(xiàng)Generic Enrichment Map(選項(xiàng)卡)欠痴。該文件是需要可視化的路徑結(jié)果用Cytoscape 和 EnrichmenMap
(xi) 再次使用Profile 更新的參數(shù)運(yùn)行分析残黑。所需的鏈接下載數(shù)據(jù)(GEM)格式將出現(xiàn)在g:Profiler接口下。從鏈接下載文件并將其保存在步驟1中創(chuàng)建的結(jié)果數(shù)據(jù)文件夾中斋否。示例結(jié)果見補(bǔ)充表4.
(xii)點(diǎn)擊選項(xiàng)表格底部的Advanced Opations鏈接名稱梨水,下載所需的GMT文件。GMT文件是一個(gè)壓縮的ZIP歸檔文件茵臭,包含g:Profiler(例如疫诽,gprofiler_hsapiens. name .gm . ZIP)使用的所有基因集〉┪基因集文件按數(shù)據(jù)源劃分奇徒。下載并解壓ZIP存檔到項(xiàng)目文件夾。該分析所需的所有基因集都在hsapiens.path . Name.gmt(Supplementary_Table5_hsapiens.pathways.NAME.gmt)缨硝。將保存的文件放在步驟1中創(chuàng)建的結(jié)果數(shù)據(jù)文件夾中摩钙。
(B)利用GSEA對(duì)序列基因表進(jìn)行通路富集分析 時(shí)間~ 20分鐘
(i)打開下載的GSEA文件(GSEA .jnlp),啟動(dòng)GSEA(fig3)查辩。
(ii)點(diǎn)擊GSEA分析部分步驟左上角的Load Data
(iii)在Load Data選項(xiàng)卡中胖笛,單擊Browse for files…
(iv)找到項(xiàng)目數(shù)據(jù)文件夾,并選擇supplementary_table2_mesenvsimmuno_rnaseq_rank.rnk文件宜岛。還可以使用shift-click(補(bǔ)充表3)等多重選擇方法選擇pathway gene set definition (GMT)文件长踊,點(diǎn)擊Choose按鈕繼續(xù)。消息框指示文件已成功加載萍倡。單擊OK按鈕繼續(xù)身弊。
CRITICAL STEP (重要一步)GSEA還提供了自己的基因集文件,這些文件可以通過(guò)GSEA接口從MSigDB resource直接訪問。這些文件不需要導(dǎo)入GSEA阱佛。要定義GMT文件帖汞,請(qǐng)?jiān)赟elect one或more genesets對(duì)話框的第一個(gè)選項(xiàng)卡gene Matrix(來(lái)自網(wǎng)站)中找到MSigDB基因集文件。MSigDB基因集文件的最新版本以粗體顯示凑术,但是也可以訪問早期版本涨冀。要選擇多個(gè)基因集文件,在Windows中按住control鍵或在macOS中按住command鍵時(shí)單擊所需的文件麦萤。
(v)點(diǎn)擊工具欄下的Run gseapreanked。一個(gè)預(yù)先排序的基因列表選項(xiàng)卡上的Run GSEA將出現(xiàn)扁眯。
下列參數(shù)的說(shuō)明:
(vi)基因集數(shù)據(jù)庫(kù)壮莹。點(diǎn)擊右邊的“(…)”按鈕,等待幾秒鐘姻檀,基因集選擇窗口就會(huì)出現(xiàn)命满。使用右上角的箭頭進(jìn)入Gene matrix (local gmx/gmt)選項(xiàng)卡。單擊下載的本地GMT文件“Supplementary_Table3_Human_GOBP_AllPathways_no_GO_iea_July_01_2017_symbol”绣版。胶台,然后單擊窗口底部的OK。
(vii)排列數(shù)杂抽。這指定了隨機(jī)化基因集以創(chuàng)建空分布以計(jì)算P值和FDR Q值的次數(shù)诈唬。使用1,000個(gè)排列的默認(rèn)值。
CRITICAL STEP:排列次數(shù)越多缩麸,計(jì)算時(shí)間越長(zhǎng)铸磅。為了計(jì)算每個(gè)基因集的FDR Q值,通過(guò)遍歷每個(gè)基因集中的基因并重新計(jì)算隨機(jī)集的P值來(lái)隨機(jī)化數(shù)據(jù)集杭朱。這個(gè)參數(shù)指定了隨機(jī)化操作的次數(shù)阅仔。執(zhí)行的隨機(jī)化越多,F(xiàn)DR Q值估計(jì)就越精確(到一定程度弧械,因?yàn)樽罱KFDR Q值將穩(wěn)定在實(shí)際值)八酒。在具有16 G 內(nèi)存和i7 3.4 ghz處理器的Windows機(jī)器上,使用上述定義的參數(shù)對(duì)我們的示例集進(jìn)行10刃唐、100羞迷、500或1000個(gè)隨機(jī)化分析,分別需要155秒画饥、224秒闭树、544秒和1012秒。
(vii)排序列表荒澡。通過(guò)單擊最右邊的箭頭并選擇排序基因报辱,顯示已排序的文件(補(bǔ)充表2)
(ix)點(diǎn)擊基本字段旁邊的“Show”按鈕,以顯示其他選項(xiàng).
(x)分析的名字。將默認(rèn)的“my_analysis”更改為一個(gè)特定的名稱碍现,例如幅疼,“Mesen_vs_Immuno”
(xi)最大尺寸:排除較大的集。默認(rèn)情況下昼接,GSEA將上限設(shè)置為500爽篷。將這個(gè)設(shè)置為200從分析中刪除較大的集合。
(xii)將結(jié)果保存在此文件夾中慢睡。導(dǎo)航到GSEA應(yīng)該保存結(jié)果的文件夾逐工。我們建議您選擇步驟1中創(chuàng)建的結(jié)果數(shù)據(jù)文件夾。否則漂辐,GSEA將使用主目錄中的默認(rèn)位置' gsea_home/output/[date] '泪喊。
Running GSEA
(xiii)點(diǎn)擊窗口底部的Run按鈕運(yùn)行GSEA。如果按鈕不可見髓涯,則展開窗口袒啼。窗口左下角的GSEA reports窗格將顯示“正在運(yùn)行”狀態(tài)。完成后將更新為“Success”纬纪。這將是一個(gè)長(zhǎng)時(shí)間運(yùn)行的過(guò)程蚓再,具體取決于計(jì)算機(jī)的速度.
Examination of GSEA results GSEA結(jié)果檢查
(xiv) GSEA分析完成后,屏幕左下角會(huì)出現(xiàn)一個(gè)綠色通知“成功”包各。所有GSEA輸出文件將自動(dòng)保存摘仅,并可在GseaPreranked接口(步驟6B(xii))中指定的文件夾中使用。單擊Success在web瀏覽器中打開結(jié)果问畅。這些通路富含top-ranking基因(如实檀,上調(diào))即在第一個(gè)集合中顯示(' na_pos ';本方案中“皮質(zhì)間的”)和富含bottome-ranked基因的通路。(如按声,下調(diào))顯示在第二組(' na_neg ';免疫反應(yīng)性的)(fi'g4)
(xv)在“網(wǎng)頁(yè)瀏覽器結(jié)果摘要”內(nèi)膳犹,按一下“結(jié)果”下的“快照”連結(jié),可瀏覽前20項(xiàng)結(jié)果签则。第一個(gè)表型(' na_pos ')最重要的通路應(yīng)該在最頂端(即(圖左側(cè))须床。相反,對(duì)于第二種表型(' na_neg ')渐裂,最重要的通路應(yīng)該清楚地顯示富集在底端(即豺旬,基因下調(diào)(圖右側(cè))(fig4)
CRITICAL STEP:使用表達(dá)式數(shù)據(jù)作為輸入(而不是預(yù)先計(jì)算的秩文件)、表現(xiàn)型標(biāo)簽(即提供生物條件或樣本類)作為每個(gè)樣本的輸入柒凉,并在GSEA ' cls '文件中指定族阅。運(yùn)行GSEA時(shí),指定了兩種表型進(jìn)行比較以進(jìn)行差異基因表達(dá)分析膝捞,這些表型用于通路富集結(jié)果文件坦刀。相比之下,在GSEA預(yù)先排序的分析中(即排名,當(dāng)一個(gè)基因列表由用戶提供),GSEA自動(dòng)標(biāo)簽一個(gè)表型na_pos”(對(duì)應(yīng)于濃縮在基因排名列表的頂部,在那里“na”意味著表型標(biāo)簽是“不可用”)和其他“na_neg”(對(duì)應(yīng)于富集基因底部的排名列表)。EnrichmentMap軟件也使用這個(gè)約定鲤遥,指定第一個(gè)表現(xiàn)型為“陽(yáng)性”沐寺,第二個(gè)表現(xiàn)型為“陰性”。
(xvi)在web瀏覽器結(jié)果摘要中盖奈,單擊HTML格式的詳細(xì)富集結(jié)果混坞,并使用行號(hào)檢查FDR Q值<0.05的路徑數(shù)量,以確定協(xié)議下一步富集map的適當(dāng)閾值钢坦。如果在Q < 0.05沒有通路的報(bào)道究孕,可以使用更寬松的閾值,如Q < 0.1或Q < 0.25(fig5)爹凹。閾值Q < 0.25提供了非常寬松的過(guò)濾厨诸,在這個(gè)水平上發(fā)現(xiàn)數(shù)千個(gè)富集的通路并不罕見。穩(wěn)健分析應(yīng)該使用Q < 0.05或更低的截止值逛万。僅使用未糾正的P值進(jìn)行過(guò)濾是不合適的,也不推薦使用.