g:Profiler主要有四個(gè)可選工具:
g:GOSt用于分析 flat or ranked gene lists以獲得富集特征腺办;
g:Conver用于轉(zhuǎn)換不同類(lèi)別的基因標(biāo)識(shí)符;
g:Orth用于將基因映射到相關(guān)物種中的直系同源基因
g:SNPense抹恳,它將SNP(單核苷酸多態(tài)性)映射到基因名稱(chēng)撕捍,染色體位點(diǎn)和來(lái)自 Sequence Ontology 的 variant consequence terms中钞翔。
g:Profiler除了網(wǎng)頁(yè)版(g:Profiler – a web server for functional enrichment analysis and conversions of gene lists)以外黑忱,還支持CRAN的R 包:gProfileR
g:Profiler使用Fisher精確檢驗(yàn)分析基因列表,并使用修改的Fisher檢驗(yàn)對(duì)基因列表進(jìn)行排列袄膏。它提供了圖形Web界面践图,并可以通過(guò)R和Python編程語(yǔ)言進(jìn)行訪(fǎng)問(wèn)。該軟件更新速度快沉馆,并且gene set database可以以GMT為文件被下載码党。GMT文件是ZIP格式的壓縮包,包含了g:Profiler使用的所有基因集斥黑。
下面使用g:Profiler的g:GOSt工具進(jìn)行g(shù)ene list的功能富集分析揖盘。它是g:Profiler的中心工具。 它將用戶(hù)提供的gene list 映射到各種功能信息來(lái)源锌奴,并確定顯著富集的通路兽狭,過(guò)程和其他注釋。g:GOSt支持基礎(chǔ)和生物醫(yī)學(xué)研究界使用的大多數(shù)基因標(biāo)識(shí)符鹿蜀,包括已鏈接到Ensembl database中的基因的所有標(biāo)識(shí)符箕慧,包括基因,蛋白質(zhì)茴恰,轉(zhuǎn)錄本销钝,基因組數(shù)據(jù)庫(kù)中的序列數(shù)等。
數(shù)據(jù)使用的是在12種類(lèi)型的3,200個(gè)腫瘤的TCGA外顯子組測(cè)序數(shù)據(jù)中鑒定的具有頻繁體細(xì)胞SNV(單核苷酸突變)的gene list
1. 將gene list 粘貼到Query下面的框中琐簇。
2.勾選Ordered query選項(xiàng),該選項(xiàng)將輸入視為有序基因列表,并在列表開(kāi)頭優(yōu)先考慮具有較高突變ES的基因婉商。
3. 點(diǎn)開(kāi)Data source,Gene Ontology勾選下圖的兩個(gè)似忧。No electronic GO annotations選項(xiàng)將丟棄不經(jīng)過(guò)人工審核的不太可靠的GO注釋。
4. 生物學(xué)通路選擇Reactome數(shù)據(jù)庫(kù)中的丈秩。
5. miRarBase數(shù)據(jù)庫(kù)用于miRNA的target分析盯捌,TRANSFAC是預(yù)測(cè)TF target的數(shù)據(jù)庫(kù)。TF target的預(yù)測(cè)使用的是TRANSFAC數(shù)據(jù)庫(kù)蘑秽,另一個(gè)用于miRNA target 分析饺著。
6.下圖的這兩個(gè)數(shù)據(jù)庫(kù)Human Protein Atlas (HPA) 和CORUMd數(shù)據(jù)庫(kù)是用于蛋白質(zhì)復(fù)合物分析的。
7.HP數(shù)據(jù)庫(kù)用于的生理和疾病表型的基因注釋?zhuān)试S用戶(hù)在人類(lèi)健康的背景下去闡述其基因列表肠牲。
8.我在我輸入的數(shù)據(jù)中就在Data source中勾選的選項(xiàng)如下:
9.點(diǎn)開(kāi)Advanced Options如下圖:對(duì)于我輸入的數(shù)據(jù)幼衰,沒(méi)有勾選任何一項(xiàng),都是以默認(rèn)的方式進(jìn)行分析缀雳。
10.設(shè)置完選項(xiàng)之后點(diǎn)擊Run query.就可以得到數(shù)據(jù)分析的結(jié)果渡嚣。
11. 一會(huì)兒就可以看到結(jié)果,將頁(yè)面往下拉肥印,最先看到的是這樣一幅圖识椰。改圖可以以png格式的圖片保存到本地。該圖片中的每一個(gè)點(diǎn)代表一個(gè)基因
12. 點(diǎn)擊Detailed Results,可以看到詳細(xì)的結(jié)果深碱,如下圖:該熱圖中腹鹉,橫軸是基因名,縱軸是生物學(xué)通路敷硅,每一行代表一個(gè)通路上的基因集功咒。其中還有矯正后的p值和GO號(hào)
該結(jié)果的保存方式有三種:GEM,PNG竞膳,和CSV.點(diǎn)擊GEM保存Enrichment Map分析所需要的輸入文件航瞭。Enrichment Map是對(duì)pathway富集分析結(jié)果進(jìn)行可視化的一個(gè)軟件,它是簡(jiǎn)化具有許多冗余過(guò)程和基因功能的復(fù)雜結(jié)果的有用方法坦辟。g:GOSt提供了一種特殊的輸出格式(GEM)刊侯,可以直接上傳到 Cytoscape 進(jìn)行可視化network分析。
13.點(diǎn)擊name.gmt下載g:Profiler分析時(shí)使用的所有基因集锉走。
gme文件內(nèi)容如下:
下載的ZIP壓縮包里面有這些文件:
參考:
Reimand J , Arak T , Vilo J . g:Profiler--a web server for functional interpretation of gene lists (2011 update)[J]. Nucleic Acids Research,2011, 39(suppl):W307-W315.
學(xué)習(xí)文獻(xiàn):Reimand J, Isserlin R, Voisin V, et al. Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap[J]. Nature Protocols, 2019, 14(2): 482-517.