如何實現(xiàn)GSEA-基因富集分析今瀑?

基因富集分析(Gene Set Enrichment Analysis程梦,GSEA)是一種針對全基因組表達譜芯片數(shù)據(jù)的分析方法,將基因與預(yù)定義的基因集進行比較橘荠。即綜合現(xiàn)有的對基因的定位屿附、性質(zhì)、功能哥童、生物學(xué)意義等信息基礎(chǔ)挺份,構(gòu)建一個分子標(biāo)簽數(shù)據(jù)庫,在此數(shù)據(jù)庫中將已知基因按照染色體位置贮懈、已建立基因集匀泊、模序、腫瘤相關(guān)基因集和GO基因集等多個功能基因集進行分組與歸類朵你。通過分析基因表達譜數(shù)據(jù)各聘,了解它們在特定的功能基因集中的表達狀況,以及這種表達狀況是否存在某種統(tǒng)計學(xué)顯著性撬呢。

統(tǒng)計過程:1.計算富集分?jǐn)?shù)伦吠。2.估計富集分?jǐn)?shù)的顯著程度。3.校正多重假設(shè)檢驗魂拦。

流程圖

工具:

GSEA軟件下載:http://software.broadinstitute.org/gsea/downloads.jsp?要下載到Java毛仪,這個是在Java基礎(chǔ)上運行的軟件,根據(jù)你的數(shù)據(jù)大小芯勘,選擇不同內(nèi)存的版本箱靴,2G內(nèi)存開始的GSEA版本需要的是64位的Java 1.8版。

(操作教程:GSEA | Desktop Tutorial

軟件界面

數(shù)據(jù)準(zhǔn)備:主要準(zhǔn)備一個表達矩陣和一個分組說明的cls文件荷愕,軟件界面如上圖衡怀,操作簡單棍矛,按照步驟Load data and run就行了,比較需要注意的是準(zhǔn)備表達矩陣抛杨,如果選取的是GEO的公共數(shù)據(jù)集够委,就要將數(shù)據(jù)集進行預(yù)處理(采用R/bioconductor Affy和affyPLM程序包對數(shù)據(jù)集原始CEL文件進行質(zhì)量控制后,使用Affy程序包中rma算法對該數(shù)據(jù)集進行進行預(yù)處理怖现。),因為GSEA只支持特定的格式茁帽,所以要剔除不必要的信息,將癌組織和對應(yīng)的癌旁組織的數(shù)據(jù)分別提取出來分別作為兩組的表達矩陣(gct文件)以及分組文件(cls文件)(此步驟可以手動excel整理也可以找個代碼模板用R來操作)

data preparing:

1.如果是自己已經(jīng)排序好了的基因屈嗤,可以直接拿來做GSEA分析的見: GSEAPreranked Page in the GSEA User Guide.

2.如果是affymetrix的表達矩陣潘拨,不需要提前進行Present/Marginal/Absent Calls. 來過濾掉一些表達探針,GSEA需要各種情況的表達數(shù)據(jù)饶号。

3.如果是gct and pcl 的表達矩陣铁追,缺失值空著就好了。但是如果缺失值太多了茫船,這樣在計算signal-to-noise的時候琅束,不同group的樣本數(shù)就不一致了,mean和SD都會變好透硝,最好是避免這樣的情況狰闪,可以考慮進行插值,或者過濾掉這樣的探針濒生。

我是表達矩陣

我是分組文件

txt文檔格式會不一樣埋泵,GSEA有給出模板,照著修改就OK罪治,如果格式有誤或數(shù)據(jù)有問題GSEA會報錯的丽声。(格式參考說明書:Data formats - GeneSetEnrichmentAnalysisWiki

load data

設(shè)置參數(shù)

成功導(dǎo)入數(shù)據(jù)后,點擊RUN GSEA觉义,這時候要指定幾個參數(shù)的選擇雁社,就是你要用哪些標(biāo)簽數(shù)據(jù)庫來進行分析,以及如何分組等晒骇。

1. Expression dataset:輸入的表達矩陣

2. Gene sets database:分析的數(shù)據(jù)庫

3. Number of permutations:置換檢驗的次數(shù)

4. Phenotype labels:選擇比較組霉撵,如果你輸入的文件就只有2個組別的話,這個就很方便選一個就行了洪囤;如果你輸入的有三個組別及以上的話徒坡,則這里就要跟你的需要選擇兩個組別的比較組,而且GSEA也會根據(jù)你的組別信息去表達矩陣中提取相對應(yīng)的數(shù)據(jù)瘤缩。

5. Collapse dataset to gene symbols:?如果你已經(jīng)ID轉(zhuǎn)化為HUGO gene symbol喇完,那么這里選FALSE,否則選擇TRUE剥啤。

6. Permutation type:選擇置換的類型锦溪,是random phenotype還是random gene sets不脯,一般每組樣本數(shù)目大于7個時,建議選擇phenotype刻诊,否則選擇gene sets防楷。

Chip platform:選擇芯片類型,是對ID進行注釋坏逢,即ID轉(zhuǎn)化域帐,選擇ID對應(yīng)的chip文件即可,如果已自行轉(zhuǎn)化了ID的話是整,則空著就行(那么Collapse dataset to gene symbols應(yīng)選擇否)

提交之后,如果運行失敗會出error提示民假,成功的話直接進入success的界面浮入。

結(jié)果的解讀:

431/899表示在WT這一分組中,一共有899個功能基因集羊异,其中421個上升

99個基因集的FDE小于25%

118個基因的名義P值小于1%

118個基因的名義P值小于5%

點擊snapshot可以看富集結(jié)果事秀,就是下圖Enrichment plot

點擊enrichment result in html 可以查看所有的富集分析結(jié)果,進去之后可以點開查看每個Enrichment plot的參數(shù)野舶。

點擊enrichment result in excel就可以直接下載附帶結(jié)果的excel易迹。

SIZE:表示基因集里的基因數(shù)量

ES(enrichment score):富集分?jǐn)?shù)

NES(normalized enrichment score):表示校正后的富集分?jǐn)?shù)

NOM p-val (nominal p value ): 名義P值

FDR q-val(false discovery rate):錯誤發(fā)現(xiàn)率

FWER p-val:用bonferonni校正后的P值

RANK AT AMX:ES值對應(yīng)的通路基因排名

Leading-edge subset:對富集貢獻最大的基因成員,即領(lǐng)頭亞集,用于定義Leading-edge subset的參數(shù)有:Tags平道,List睹欲,Signal。

Enrichment plot

當(dāng)Enrichment plot過多的時候一屋,可以整理成如下的表格形式展現(xiàn)在文章中窘疮。

在這些enrichment plot中,我們最關(guān)注的四個指標(biāo)為ES值冀墨、NES闸衫、NOM p-val、FDR诽嘉。

綠色曲線就是gene set里面對應(yīng)的每個基因的enrichment score值(ES)蔚出,開始時為零,從左到右每遇到一個基因就計算出一個ES值虫腋,連成一條綠線骄酗。當(dāng)ES值大于0時,表示某一功能基因富集在排序序列的前端岔乔,若為小于0時酥筝,則某一功能基因富集在排序序列的后端,ES值越高說明這些基因在通路中有富集雏门,非散在分布嘿歌。中間條形碼似的黑線是gene set里面的基因在背景基因里的位置掸掏,每條豎線代表該通路下的基因,從左到右按照表達水平排序宙帝。Leading-edge subset(對富集貢獻最大的基因成員,即領(lǐng)頭亞集)丧凤;在ES圖中出現(xiàn)領(lǐng)頭亞集的形狀,表明這個功能基因集在某處理條件下具有更顯著的生物學(xué)意義步脓;對于結(jié)果的分析愿待,通常認(rèn)為|NES|>1,NOM p-val<0.05靴患,F(xiàn)DR q-val<0.25的通路下的基因集合是有意義的仍侥;NES的絕對值越大,F(xiàn)DR值就越小鸳君,說明分析的結(jié)果可信度越高农渊。NOM p-val是針對某一功能基因集得到的ES值的統(tǒng)計顯著性,P值越小或颊,說明基因的富集性越好砸紊,但P值很小時,F(xiàn)DR值也可能很大囱挑,這說明和其他功能基因子相比較醉顽,它的富集并不是很顯著,原因可能是數(shù)據(jù)樣本量較少平挑、雜交信號微弱或者是選擇的功能基因子集并未很好得反映樣本的物理學(xué)意義游添。

ES score的算法

基因富集的熱圖

熱圖用5種顏色來表示基因表達水平的高低水平

蝴蝶圖顯示的是基因順序和排序度量得分之間的正相關(guān)和負相關(guān)的關(guān)系。

參考文獻:

1.From the Cover: Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles

2.GSEA?(GSEA小組官網(wǎng))

3.http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html?(說明書)

4.GSEA學(xué)習(xí)筆記

5.GSEA富集分析 - 界面操作

6. 基因探針富集分析(GSEA)翻譯+心得 (作者為為)

7.3.GSEA-基因富集分析

轉(zhuǎn)自:如何實現(xiàn)GSEA-基因富集分析弹惦? - 知乎 (zhihu.com)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末否淤,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子棠隐,更是在濱河造成了極大的恐慌石抡,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件助泽,死亡現(xiàn)場離奇詭異啰扛,居然都是意外死亡,警方通過查閱死者的電腦和手機嗡贺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門隐解,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人诫睬,你說我怎么就攤上這事煞茫。” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵续徽,是天一觀的道長蚓曼。 經(jīng)常有香客問我,道長钦扭,這世上最難降的妖魔是什么纫版? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮客情,結(jié)果婚禮上其弊,老公的妹妹穿的比我還像新娘。我一直安慰自己膀斋,他們只是感情好梭伐,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布入蛆。 她就那樣靜靜地躺著,像睡著了一般激涤。 火紅的嫁衣襯著肌膚如雪碴倾。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天豺总,我揣著相機與錄音,去河邊找鬼项鬼。 笑死,一個胖子當(dāng)著我的面吹牛劲阎,可吹牛的內(nèi)容都是我干的绘盟。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼悯仙,長吁一口氣:“原來是場噩夢啊……” “哼龄毡!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起锡垄,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤沦零,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后货岭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體路操,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年千贯,在試婚紗的時候發(fā)現(xiàn)自己被綠了屯仗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡搔谴,死狀恐怖魁袜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤峰弹,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布店量,位于F島的核電站,受9級特大地震影響垮卓,放射性物質(zhì)發(fā)生泄漏垫桂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一粟按、第九天 我趴在偏房一處隱蔽的房頂上張望诬滩。 院中可真熱鬧,春花似錦灭将、人聲如沸疼鸟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽空镜。三九已至,卻和暖如春捌朴,著一層夾襖步出監(jiān)牢的瞬間吴攒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工砂蔽, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留洼怔,地道東北人。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓左驾,卻偏偏與公主長得像镣隶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子诡右,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容