基因富集分析(Gene Set Enrichment Analysis程梦,GSEA)是一種針對全基因組表達譜芯片數(shù)據(jù)的分析方法,將基因與預(yù)定義的基因集進行比較橘荠。即綜合現(xiàn)有的對基因的定位屿附、性質(zhì)、功能哥童、生物學(xué)意義等信息基礎(chǔ)挺份,構(gòu)建一個分子標(biāo)簽數(shù)據(jù)庫,在此數(shù)據(jù)庫中將已知基因按照染色體位置贮懈、已建立基因集匀泊、模序、腫瘤相關(guān)基因集和GO基因集等多個功能基因集進行分組與歸類朵你。通過分析基因表達譜數(shù)據(jù)各聘,了解它們在特定的功能基因集中的表達狀況,以及這種表達狀況是否存在某種統(tǒng)計學(xué)顯著性撬呢。
統(tǒng)計過程:1.計算富集分?jǐn)?shù)伦吠。2.估計富集分?jǐn)?shù)的顯著程度。3.校正多重假設(shè)檢驗魂拦。
流程圖
工具:
GSEA軟件下載:http://software.broadinstitute.org/gsea/downloads.jsp?要下載到Java毛仪,這個是在Java基礎(chǔ)上運行的軟件,根據(jù)你的數(shù)據(jù)大小芯勘,選擇不同內(nèi)存的版本箱靴,2G內(nèi)存開始的GSEA版本需要的是64位的Java 1.8版。
(操作教程:GSEA | Desktop Tutorial)
軟件界面
數(shù)據(jù)準(zhǔn)備:主要準(zhǔn)備一個表達矩陣和一個分組說明的cls文件荷愕,軟件界面如上圖衡怀,操作簡單棍矛,按照步驟Load data and run就行了,比較需要注意的是準(zhǔn)備表達矩陣抛杨,如果選取的是GEO的公共數(shù)據(jù)集够委,就要將數(shù)據(jù)集進行預(yù)處理(采用R/bioconductor Affy和affyPLM程序包對數(shù)據(jù)集原始CEL文件進行質(zhì)量控制后,使用Affy程序包中rma算法對該數(shù)據(jù)集進行進行預(yù)處理怖现。),因為GSEA只支持特定的格式茁帽,所以要剔除不必要的信息,將癌組織和對應(yīng)的癌旁組織的數(shù)據(jù)分別提取出來分別作為兩組的表達矩陣(gct文件)以及分組文件(cls文件)(此步驟可以手動excel整理也可以找個代碼模板用R來操作)
data preparing:
1.如果是自己已經(jīng)排序好了的基因屈嗤,可以直接拿來做GSEA分析的見: GSEAPreranked Page in the GSEA User Guide.
2.如果是affymetrix的表達矩陣潘拨,不需要提前進行Present/Marginal/Absent Calls. 來過濾掉一些表達探針,GSEA需要各種情況的表達數(shù)據(jù)饶号。
3.如果是gct and pcl 的表達矩陣铁追,缺失值空著就好了。但是如果缺失值太多了茫船,這樣在計算signal-to-noise的時候琅束,不同group的樣本數(shù)就不一致了,mean和SD都會變好透硝,最好是避免這樣的情況狰闪,可以考慮進行插值,或者過濾掉這樣的探針濒生。
我是表達矩陣
我是分組文件
txt文檔格式會不一樣埋泵,GSEA有給出模板,照著修改就OK罪治,如果格式有誤或數(shù)據(jù)有問題GSEA會報錯的丽声。(格式參考說明書:Data formats - GeneSetEnrichmentAnalysisWiki)
load data
設(shè)置參數(shù)
成功導(dǎo)入數(shù)據(jù)后,點擊RUN GSEA觉义,這時候要指定幾個參數(shù)的選擇雁社,就是你要用哪些標(biāo)簽數(shù)據(jù)庫來進行分析,以及如何分組等晒骇。
1. Expression dataset:輸入的表達矩陣
2. Gene sets database:分析的數(shù)據(jù)庫
3. Number of permutations:置換檢驗的次數(shù)
4. Phenotype labels:選擇比較組霉撵,如果你輸入的文件就只有2個組別的話,這個就很方便選一個就行了洪囤;如果你輸入的有三個組別及以上的話徒坡,則這里就要跟你的需要選擇兩個組別的比較組,而且GSEA也會根據(jù)你的組別信息去表達矩陣中提取相對應(yīng)的數(shù)據(jù)瘤缩。
5. Collapse dataset to gene symbols:?如果你已經(jīng)ID轉(zhuǎn)化為HUGO gene symbol喇完,那么這里選FALSE,否則選擇TRUE剥啤。
6. Permutation type:選擇置換的類型锦溪,是random phenotype還是random gene sets不脯,一般每組樣本數(shù)目大于7個時,建議選擇phenotype刻诊,否則選擇gene sets防楷。
Chip platform:選擇芯片類型,是對ID進行注釋坏逢,即ID轉(zhuǎn)化域帐,選擇ID對應(yīng)的chip文件即可,如果已自行轉(zhuǎn)化了ID的話是整,則空著就行(那么Collapse dataset to gene symbols應(yīng)選擇否)
提交之后,如果運行失敗會出error提示民假,成功的話直接進入success的界面浮入。
結(jié)果的解讀:
431/899表示在WT這一分組中,一共有899個功能基因集羊异,其中421個上升
99個基因集的FDE小于25%
118個基因的名義P值小于1%
118個基因的名義P值小于5%
點擊snapshot可以看富集結(jié)果事秀,就是下圖Enrichment plot
點擊enrichment result in html 可以查看所有的富集分析結(jié)果,進去之后可以點開查看每個Enrichment plot的參數(shù)野舶。
點擊enrichment result in excel就可以直接下載附帶結(jié)果的excel易迹。
SIZE:表示基因集里的基因數(shù)量
ES(enrichment score):富集分?jǐn)?shù)
NES(normalized enrichment score):表示校正后的富集分?jǐn)?shù)
NOM p-val (nominal p value ): 名義P值
FDR q-val(false discovery rate):錯誤發(fā)現(xiàn)率
FWER p-val:用bonferonni校正后的P值
RANK AT AMX:ES值對應(yīng)的通路基因排名
Leading-edge subset:對富集貢獻最大的基因成員,即領(lǐng)頭亞集,用于定義Leading-edge subset的參數(shù)有:Tags平道,List睹欲,Signal。
Enrichment plot
當(dāng)Enrichment plot過多的時候一屋,可以整理成如下的表格形式展現(xiàn)在文章中窘疮。
在這些enrichment plot中,我們最關(guān)注的四個指標(biāo)為ES值冀墨、NES闸衫、NOM p-val、FDR诽嘉。
綠色曲線就是gene set里面對應(yīng)的每個基因的enrichment score值(ES)蔚出,開始時為零,從左到右每遇到一個基因就計算出一個ES值虫腋,連成一條綠線骄酗。當(dāng)ES值大于0時,表示某一功能基因富集在排序序列的前端岔乔,若為小于0時酥筝,則某一功能基因富集在排序序列的后端,ES值越高說明這些基因在通路中有富集雏门,非散在分布嘿歌。中間條形碼似的黑線是gene set里面的基因在背景基因里的位置掸掏,每條豎線代表該通路下的基因,從左到右按照表達水平排序宙帝。Leading-edge subset(對富集貢獻最大的基因成員,即領(lǐng)頭亞集)丧凤;在ES圖中出現(xiàn)領(lǐng)頭亞集的形狀,表明這個功能基因集在某處理條件下具有更顯著的生物學(xué)意義步脓;對于結(jié)果的分析愿待,通常認(rèn)為|NES|>1,NOM p-val<0.05靴患,F(xiàn)DR q-val<0.25的通路下的基因集合是有意義的仍侥;NES的絕對值越大,F(xiàn)DR值就越小鸳君,說明分析的結(jié)果可信度越高农渊。NOM p-val是針對某一功能基因集得到的ES值的統(tǒng)計顯著性,P值越小或颊,說明基因的富集性越好砸紊,但P值很小時,F(xiàn)DR值也可能很大囱挑,這說明和其他功能基因子相比較醉顽,它的富集并不是很顯著,原因可能是數(shù)據(jù)樣本量較少平挑、雜交信號微弱或者是選擇的功能基因子集并未很好得反映樣本的物理學(xué)意義游添。
ES score的算法
基因富集的熱圖
熱圖用5種顏色來表示基因表達水平的高低水平
蝴蝶圖顯示的是基因順序和排序度量得分之間的正相關(guān)和負相關(guān)的關(guān)系。
參考文獻:
2.GSEA?(GSEA小組官網(wǎng))
3.http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html?(說明書)
6. 基因探針富集分析(GSEA)翻譯+心得 (作者為為)
7.3.GSEA-基因富集分析