1.為什么寫(xiě)?
網(wǎng)上教程一抓一大把榛瓮,有的能重復(fù)铺董,有的不能重復(fù)不了,很多原因禀晓。別人能做的不代表你能復(fù)制精续,實(shí)踐出真知。
不做搬運(yùn)工粹懒,只寫(xiě)有用的重付,防止以后忘記。每個(gè)人理解不同凫乖,記錄下來(lái)棵帽,供自己今后參考樱蛤,順便分享他人邑商。
2.GSEA基本概念
Gene Set Enrichment Analysis
思路:
使用預(yù)定義的基因集(通常來(lái)自功能注釋或先前實(shí)驗(yàn)的結(jié)果)督函,將基因按照在兩類樣本中的差異表達(dá)程度排序,然后檢驗(yàn)預(yù)先設(shè)定的基因集合是否在這個(gè)排序表的頂端或者底端富集嚣镜。
基因集富集分析檢測(cè)基因集合而不是單個(gè)基因的表達(dá)變化爬迟,因此可以包含這些細(xì)微的表達(dá)變化,預(yù)期得到更為理想的結(jié)果菊匿。
比較GO/KEGG等富集分析:
GO/KEGG差異基因的一刀切法——僅關(guān)注少數(shù)幾個(gè)顯著上調(diào)或下調(diào)的基因付呕,容易遺漏部分差異表達(dá)不顯著卻有重要生物學(xué)意義的基因,忽略一些基因的生物特性跌捆、基因調(diào)控網(wǎng)絡(luò)之間的關(guān)系及基因功能和意義等有價(jià)值的信息徽职。
GSEA不需要指定明確的差異基因閾值,算法根據(jù)實(shí)際整體趨勢(shì)分析佩厚。
3.MSigDB數(shù)據(jù)庫(kù)
http://software.broadinstitute.org/gsea/msigdb
定義了已知基因集姆钉,包括H和C1-C7八個(gè)系列(Collection/cluster),每個(gè)系列內(nèi)容為:
H: hallmark gene sets (效應(yīng))特征基因集合,共50組潮瓶;
C1: positional gene sets 位置基因集合陶冷,根據(jù)染色體位置,共326個(gè)毯辅;
C2: curated gene sets:(專家)共識(shí)基因集合埂伦,基于通路、文獻(xiàn)等(包括KEGG)思恐;
C3: motif gene sets:模式基因集合沾谜,主要包括microRNA和轉(zhuǎn)錄因子靶基因兩部分;
C4: computational gene sets:計(jì)算基因集合胀莹,通過(guò)挖掘癌癥相關(guān)芯片數(shù)據(jù)定義的基因集合基跑;
C5: GO gene sets:Gene Ontology 基因本體論(包括BP/CC/MF);
C6: oncogenic signatures:癌癥特征基因集合描焰,大部分來(lái)源于NCBI GEO 未發(fā)表芯片數(shù)據(jù)媳否;
C7: immunologic signatures: 免疫相關(guān)基因集合。
后續(xù)做分析時(shí)需要從中選擇感興趣的基因集栈顷。
4.分析過(guò)程
1)軟件下載(需java環(huán)境)
http://software.broadinstitute.org/gsea/downloads.jsp
2)設(shè)置
a. 準(zhǔn)備基因表達(dá)量矩陣文件:txt或gct(最好將基因名轉(zhuǎn)換為symbol,后續(xù)參數(shù)不用chip來(lái)轉(zhuǎn)化ID)
數(shù)據(jù)格式可參考:
http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats
測(cè)試數(shù)據(jù):
http://software.broadinstitute.org/gsea/datasets.jsp
b. 準(zhǔn)備說(shuō)明文件:cls
第一行:樣本數(shù)/分組數(shù)/always1
第二行:分組名
第三行:分組信息(我這里28個(gè)上部位嵌巷,21個(gè)下部位)
load data萄凤,成功會(huì)顯示
c. 選擇已知基因集(即以上8個(gè)cluster)
run GSEA,設(shè)置參數(shù)
Gene sets database:8個(gè)cluster及其分支搪哪,可多選
我這里選擇kegg和all GO靡努,若是想研究更多,可8個(gè)cluster全部選擇all晓折。
d. 設(shè)置參數(shù):
Required fields
expression dataset:選擇表達(dá)量文件
number of permutations:置換次數(shù)惑朦,越大越好,但對(duì)計(jì)算有要求漓概,我選擇500
phenotype labels:選擇表型說(shuō)明文件cls
collapse dataset to gene symbols:若是gene symbols編號(hào)漾月,選擇false(我這里已經(jīng)提前轉(zhuǎn)換),否則選擇true,即用chip來(lái)對(duì)ID轉(zhuǎn)換
permutation type:置換類型胃珍,#一般每組樣本數(shù)目大于7個(gè)時(shí)梁肿,建議選擇phenotype,否則選擇gene sets觅彰,官方文檔有說(shuō)明#吩蔑,我這里還是選擇gene_set
chip platform:和上面gene symbols參數(shù)對(duì)應(yīng),不需轉(zhuǎn)換不用選擇填抬,否則選擇對(duì)應(yīng)的芯片
Basic fields
analysis name:項(xiàng)目名
save results in this folder:結(jié)果保存路徑
其他我都設(shè)置為默認(rèn)烛芬,沒(méi)有深加探索,可看官網(wǎng),最后點(diǎn)run
GSEA運(yùn)行的原理可分為三步:1) 計(jì)算富集分?jǐn)?shù)(Enrichment Score赘娄,ES)仆潮;2) 估計(jì)富集分?jǐn)?shù)的顯著性水平;3) 矯正多重假設(shè)檢驗(yàn)擅憔。
完成后顯示:
5.結(jié)果解讀
保存文件路徑中生成一堆文件:
最惩疑粒看的是這種圖:
** 原理:**
根據(jù)所有基因在兩組樣本(case-control,我這里是upper-lower)的差異度量不同(共有六種差異度量暑诸,默認(rèn)是signal 2 noise蚌讼,GSEA官網(wǎng)有提供公式,也可以選擇大家熟悉的foldchange)个榕,根據(jù)差異度量大小排序篡石,并且Z-score標(biāo)準(zhǔn)化。圖中間的豎杠西采,就是每個(gè)gene set里的基因在所有排序好基因的位置凰萨,如果gene set里的基因集中在所有基因的前部分,就是在case里面富集械馆,如果集中在后面部分胖眷,就是在control里面富集著(結(jié)果中的熱圖就是豎杠的具象)。
我們一般關(guān)注ES值霹崎,峰出現(xiàn)在前端還是后端(ES值大于0在前端珊搀,小于0在后端)以及Leading-edge subset(即對(duì)富集貢獻(xiàn)最大的部分,領(lǐng)頭亞集)尾菇;在ES圖中出現(xiàn)領(lǐng)頭亞集的形狀境析,表明這個(gè)功能基因集在某處理?xiàng)l件下具有更顯著的生物學(xué)意義。
ES算法:
每個(gè)基因在gene set里的ES score取決于這個(gè)基因是否屬于該gene set及其差異度量派诬,上圖的差異度量就是FC(foldchange),將每個(gè)gene set里的所有基因的ES score一個(gè)個(gè)加起來(lái)劳淆,叫running ES score,直到ES score達(dá)到最大值默赂,就是這個(gè)gene set最終的ES score沛鸵。
可以一一查看每個(gè)圖,也可點(diǎn)擊上面的GSEA reports查看success的網(wǎng)頁(yè)報(bào)告:
gsea_report報(bào)告結(jié)果中會(huì)有一個(gè)類似下圖的表格缆八,主要關(guān)注這三個(gè)部分:
標(biāo)準(zhǔn)化富集分?jǐn)?shù)(NES)谒臼;
標(biāo)準(zhǔn)化顯著性水平(NOM p-val);
矯正多重假設(shè)檢驗(yàn)(FDR q-val)耀里;
一般認(rèn)為NES絕對(duì)值≧ 1.0蜈缤,NOM p-val ≦ 0.05,F(xiàn)DR q-val ≦ 0.25是有意義的基因集合冯挎,當(dāng)然也要結(jié)合具體情況具體分析底哥。
如果英語(yǔ)好咙鞍,直接看官方文檔,很詳細(xì):http://www.gsea-msigdb.org/gsea/doc/GSEAUserGuideFrame.html?_Interpreting_GSEA_Results
References:
https://mp.weixin.qq.com/s/NnRfeTLDb-42a8CV3kymZQ
http://www.bio-info-trainee.com/1282.html
http://www.bioinfo-scrounger.com/archives/557
ES算法:http://www.baderlab.org/CancerStemCellProject/VeroniqueVoisin/AdditionalResources/GSEA