GSEA是一種無閾值方法败明,可根據(jù)其差異表達等級或其他分數(shù)對所有基因進行分析镇匀,無需事先進行基因過濾。當基因組中的所有或大多數(shù)基因(例如,RNA-seq數(shù)據(jù))可獲得rank時推薦使用GSEA進行通路富集分析囊陡, 然而,當僅有一小部分基因具有rank可用時润努,如关斜,在確定顯著突變的癌癥基因的實驗中,GSEA并不合適铺浇。GESA使用基于一個置換矩陣檢驗來分析rank gene list痢畜。GSEA搜索基因在rank gene list的頂部或底部富集通路,這比單憑偶然的機會所能預料到的還要多。 例如丁稀,如果最頂端的差異表達基因參與細胞周期吼拥,這表明細胞周期通路在實驗中受到調(diào)控。相反线衫,如果細胞周期基因在整個rank gene list中隨機分散凿可,則細胞周期途徑可能不會受到顯著調(diào)節(jié)。要計算通路的富集分數(shù)(ES)授账,GSEA逐步從頂部到底部檢測rank list的基因枯跑,如果基因是該通路的一部分則增加ES,否則降低分數(shù)白热。這些運行總和值是加權(quán)的敛助,因此放大了top(和bottom)排序基因的富集,而中等水平基因的富集則沒有被放大屋确。ES分數(shù)被計算為運行總和的最大值并相對于通路大小進行歸一化纳击,從而得到標準化的富集分數(shù)(NES),其反映了列表中通路的富集攻臀。正NES值和負NES值分別表示列表頂部和底部的富集焕数。最后一個基于置換的p值被計算,并用多次測試進行矯正以產(chǎn)生基于置換的錯誤發(fā)現(xiàn)率Q值刨啸,Q值的范圍從0(非常顯著)到1(不顯著)堡赔。從排序基因列表的底部開始進行相同的分析,以鑒定在列表底部富集的通路呜投。使用FDR Q值閾值(例如加匈,Q <0.05)選擇所得到的通路并使用NES進行rank存璃。 此外仑荐,GSEA分析的“l(fā)eading edge”方面確定了對檢測到的通路富集信號最有貢獻的特定基因。
GSEA有兩種確定ES的統(tǒng)計學顯著性(P值)的方法:基因集置換和表型置換纵东。 基因集置換測試需要rank list粘招,并且GSEA將觀察到的通路的ES與通過用隨機取樣的匹配大小的基因集(例如,1,000次)重復分析而獲得的分數(shù)分布進行比較偎球。表型置換測試需要所有樣品的表達數(shù)據(jù)(例如洒扎,生物學重復),以及被稱為“表型”的樣品組衰絮,該方法是彼此之間比較(例如袍冷,病例與對照;腫瘤與正常樣品)。對于具有有限突變和生物學重復的研究(即每種條件2至5次)猫牡,推薦使用基因集置換胡诗。在這種情況下,差異基因表達值應在GSEA之外計算,使用包括方差穩(wěn)定性的方法(例如edgeR 煌恢,DESeq 和limma / voom )骇陈,并在通路分析之前導入GSEA軟件,表型置換應該與使用更多次重復(例如瑰抵,每種條件至少10次)你雌。表型置換方法的主要優(yōu)點在于與基因集置換方法相比,它在排列過程中保持了具有重要生物學意義的相關(guān)性基因的基因組結(jié)構(gòu)二汛。
input data :數(shù)據(jù)是被TCGA鑒定的兩種卵巢癌兩種亞型差異表達的gene list婿崭。該rank先前基于基因表達數(shù)據(jù)分層為四種分子亞型,定義為分化肴颊,免疫反應逛球,間充質(zhì)和增殖。GSEA需要具有基因分數(shù)的RNK文件苫昌,該rnk文件有兩列颤绕,第一列是基因ID,第二列是基因分數(shù)祟身“挛瘢基因組中的所有(或大多數(shù))基因需要具有分數(shù),并且基因ID需要與GMT文件中使用的基因ID匹配袜硫。
Load Data:將需要分析的數(shù)據(jù)加載進來氯葬,同時也將進行通路分析的基因集(GMT)加載進來。
在下圖的這個地方就可以看到你加載進來的數(shù)據(jù)
點擊左邊工具欄的Run GSEAPreranked
GSEA自己也提供了基因集文件婉陷,可以直接通過MSigDB資源從GSEA端口直接訪問帚称,不需要輸入GSEA中。要定義GMT文件秽澳,可以在Select one or more genesets dialog對話框的第一個選項卡Gene Matrix(from website)中找到MSigDB基因集文件闯睹。如下圖,而我自己提供了GMT文件担神,就選擇Gene matrix (local gmx/gmt)選項卡楼吃,這下面有你在Load data的時候加載進來的GMT文件。
Number of permutations: 這指定了基因集隨機化以創(chuàng)建空分布以計算P值和FDR Q值的次數(shù)妄讯。 使用默認值1,000個排列孩锡。
更多的置換次數(shù)需要更長的計算時間。 為了計算每個gene set的FDR Q值亥贸,通過置換每個基因組中的基因并重新計算隨機組的P值來隨機化數(shù)據(jù)集,此參數(shù)指定完成此隨機化的次數(shù)躬窜。執(zhí)行的隨機化越多,F(xiàn)DR Q值估計就越精確(達到極限炕置,因為最終FDR Q值將穩(wěn)定在實際值)荣挨。?
rank list: 單擊最右側(cè)的箭頭并突出顯示排名文件溜族,選擇排序的基因列表。
單擊Basic fields 的Show可以展示出其他選項:
Analysis name: 默認是‘my_analysis'垦沉,也可以修改為自己想要的煌抒。
Max size: exclude larger sets:默認情況下,GSEA將上限設(shè)置為500厕倍,將此值設(shè)置為200以從分析中刪除較大的集合寡壮。
Save results in this folder:默認的結(jié)果保存路徑是:/home/cmy/gsea_home/output/aug25,也就是會默認保存在你的home目錄下讹弯】黾龋可將其改為自定義的路徑
除了上面Basic fields 外,下面還有一個Advanced fields,點擊右邊的show就可以展示出來组民,在這里可以進行一些高級的設(shè)置棒仍。在高級設(shè)置里面我沒有修改,都是GSEA默認的臭胜。
設(shè)置結(jié)束之后點擊下面"run”箭頭按鈕:
在run的過程中你會看到下圖這個最右邊的數(shù)字會變化莫其,而且左下角的GSEA report 中Status 會變成running. run的時間長短和速度的快慢取決于你的電腦配置。
運行結(jié)束之后GSEA report 中Status會從running 狀態(tài)變成success耸三,點擊Success就可以以網(wǎng)頁的形式查看你的結(jié)果乱陡,根據(jù)上調(diào)還是下調(diào)會展示為兩組。結(jié)果文件會保存在Save results in this folder設(shè)置的文件夾中仪壮。
GSEA分析的結(jié)果通路富集排列在top的genes為上調(diào)的基因积锅, na_pos(na表示'not available'爽彤,因為我沒有將表型標簽的cle格式的文件輸入,因此默認為na缚陷,而pos表示positive,neg:表示下調(diào)(negtive))
對于上圖的結(jié)果解釋可見下圖:
點擊enrichment results in html适篙,可以在網(wǎng)頁查看高表達基因集的富集的結(jié)果,如下圖:
GS:基因集的名字蹬跃,SIZE:基因集下的基因總數(shù)匙瘪,ES:Enrichment score, NES:歸一化后的Enrichment score,? NOM p-val:p-value,表征富集結(jié)果的可信度蝶缀,F(xiàn)DR q-val:q-value, 是多重假設(shè)檢驗矯正后的p值,注意GSEA采用pvalue < 5%, qvalue < 25% 對結(jié)果進行過濾薄货。
點擊GS DESC可以跳轉(zhuǎn)到每個基因集詳細結(jié)果頁面翁都,如下所示:
首先是一個匯總的結(jié)果,Upregulated in class說明該基因集在na-pos這組中高表達谅猾,其他的信息和上一副圖中的表描述的一樣柄慰,除此之外鳍悠,還有詳細的表格,如下所示:
上表對于該基因集下的每個基因給出了詳細的統(tǒng)計信息坐搔,RANK IN GENE LIST代表該基因在排序號的列表中的位置藏研, RANK METRIC SCORE代表該基因排序量的值,比如foldchange值概行,RUNNIG ES代表累計的Enrichment score, CORE ENRICHMENT代表是否屬于核心基因蠢挡,即對該基因集的Enerchment score做出了主要貢獻的基因。
該表格的基因集對應下面這張圖:
該圖分為3個部分:
第一部分為基因Enrichment Score的折線圖凳忙,橫軸為該基因集下的每個基因业踏,縱軸為對應的Running ES, 在折線圖中有個峰值,該峰值就是這個基因集的Enrichemnt score涧卵,峰值之前的基因就是該基因集下的核心基因勤家,即對該基因集的Enerchment score做出了主要貢獻的基因。
第二部分為hit柳恐,用黑色線條標記位于該基因集下的基因
第三部分為所有基因的rank值分布圖
從上圖可以看到伐脖,其Enrichment score值全部為正數(shù),對應的在其峰值左側(cè)的基因為該基因集下的核心基因乐设。
在總的html頁面中晓殊,還給出了如下信息:
Dataset details給出了基因總數(shù),Gene Set details給出了基因集的信息伤提,默認根據(jù)基因集包含的基因個數(shù)是先對基因集進行過濾巫俺,最小15個,最大500個基因肿男,(由于我自己設(shè)置了最大為200個)介汹,所以這里過濾掉了12032個基因集,剩余的 4714 個基因集用于分析舶沛。
學習與參考:
1.https://blog.csdn.net/weixin_43569478/article/details/83745105
2.NCBI - WWW Error Blocked Diagnostic
3.Reimand J, Isserlin R, Voisin V, et al. Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and
EnrichmentMap[J]. Nature Protocols, 2019, 14(2): 482-517.