GSEA的分析匯總-轉(zhuǎn)載

GSEA的分析匯總

學(xué)習(xí)GSEA

生信技能樹(shù)

GSEA的統(tǒng)計(jì)學(xué)原理試講

GSEA

GSEA這個(gè)java軟件使用非常方便,只需要根據(jù)要求做好GCT/CLS格式的input文件就好了彼硫。我以前也寫(xiě)過(guò)用法教程:

原理

但說(shuō)到統(tǒng)計(jì)學(xué)原理,就有點(diǎn)麻煩了乌助,我試著用自己的思路闡釋一下:

假設(shè)芯片或者其它測(cè)量方法測(cè)到了2萬(wàn)個(gè)基因溜在,那么這兩萬(wàn)個(gè)基因在case和control組的差異度量(六種差異度量陌知,默認(rèn)是signal 2 noise他托,GSEA官網(wǎng)有提供公式,也可以選擇大家熟悉的foldchange)肯定不一樣仆葡。

那么根據(jù)它們的差異度量赏参,就可以對(duì)它們進(jìn)行排序,并且Z-score標(biāo)準(zhǔn)化沿盅,在下圖的最底端展示的就是

image

那么圖中間把篓,就是我們每個(gè)gene set里面的基因在所有的2萬(wàn)個(gè)排序好基因的位置,如果gene set里面的基因集中在2萬(wàn)個(gè)基因的前面部分腰涧,就是在case里面富集韧掩,如果集中在后面部分,就是在control里面富集著窖铡。

而最上面的那個(gè)ES score的算法疗锐,大概如下:

image

仔細(xì)看坊谁,其實(shí)還是能看明白的,每個(gè)基因在每個(gè)gene set里面的ES score取決于這個(gè)基因是否屬于該gene set滑臊,還有就是它的差異度量口芍,上圖的差異度量就是FC(foldchange),對(duì)每個(gè)gene set來(lái)說(shuō),所有的基因的ES score都要一個(gè)個(gè)加起來(lái)雇卷,叫做running ES score鬓椭,在加的過(guò)程中,什么時(shí)候ES score達(dá)到了最大值关划,就是這個(gè)gene set最終的ES score小染!

算法解讀我參考的PPT,反正我是看懂了祭玉,但不一定能講清楚:

http://bioinformatics.mdanderson.org/MicroarrayCourse/Lectures09/gsea1_bw.pdf
https://bioinformatics.cancer.gov/sites/default/files/course_material/GSEA_Theory.pptx
http://compbio.ucdenver.edu/Hunter_lab/Phang/downloads/files/GSEA.ppt
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1239896/
http://www.baderlab.org/CancerStemCellProject/VeroniqueVoisin/AdditionalResources/GSEA

軟件還有大把的參數(shù)可以調(diào)整氧映,自行摸索!

用GSEA來(lái)做基因集富集分析

how to use GSEA?

這個(gè)有點(diǎn)類(lèi)似于pathway(GO,KEGG等)的富集分析脱货,區(qū)別在于gene set(校驗(yàn)好的基于文獻(xiàn)的數(shù)據(jù)庫(kù))的概念更廣泛一點(diǎn)

how to download GSEA ?

http://software.broadinstitute.org/gsea/downloads.jsp
教程:http://software.broadinstitute.org/gsea/doc/desktop_tutorial.jsp 岛都,需要自己安裝好java環(huán)境!

what's the input for the GSEA?

說(shuō)明書(shū)上寫(xiě)的輸入數(shù)據(jù)是:GSEA supported data files are simply tab delimited ASCII text files, which have special file extensions that identify them. For example, expression data usually has the extension *.gct, phenotypes *.cls, gene sets *.gmt, and chip annotations *.chip. Click the More on file formats help button to view detailed descriptions of all the data file formats.

并且提供了測(cè)試數(shù)據(jù):http://software.broadinstitute.org/gsea/datasets.jsp

實(shí)際上沒(méi)那么復(fù)雜振峻,一個(gè)表達(dá)矩陣即可臼疫!然后做一個(gè)分組說(shuō)明的cls文件即可。

主要是自己看說(shuō)明書(shū)扣孟,做出要求的數(shù)據(jù)格式:http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

表達(dá)矩陣我這里下載GSE1009數(shù)據(jù)集做測(cè)試吧烫堤!

cls的樣本說(shuō)明文件,就隨便搞一搞吧凤价,下面這個(gè)是例子:

6 2 1
# good bad
good good good bad bad bad

文件如下鸽斟,六個(gè)樣本,根據(jù)探針來(lái)的表達(dá)數(shù)據(jù)利诺,分組前后各三個(gè)一組富蓄。

image

start to run the GSEA !

首先載入數(shù)據(jù)

image

確定無(wú)誤,就開(kāi)始運(yùn)行慢逾,運(yùn)行需要設(shè)置一定的參數(shù)立倍!

image

what's the output ?

輸出的數(shù)據(jù)非常多,對(duì)你選擇的gene set數(shù)據(jù)集里面的每個(gè)set都會(huì)分析看看是否符合富集的標(biāo)準(zhǔn)侣滩,富集就出來(lái)一個(gè)報(bào)告口注。

點(diǎn)擊success就能進(jìn)入報(bào)告主頁(yè),里面的鏈接可以進(jìn)入任意一個(gè)分報(bào)告君珠。

最大的特色是提供了大量的數(shù)據(jù)集:

You can browse the MSigDB from the Molecular Signatures Database page of the GSEA web site or the Browse MSigDB page of the GSEA application. To browse the MSigDB from the GSEA application:

還自己建立了wiki說(shuō)明主頁(yè):http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Main_Page

參考文獻(xiàn)

有些文獻(xiàn)是基于GSEA的:

http://www.ncbi.nlm.nih.gov/pubmed/16199517
http://stke.sciencemag.org/highwire/filestream/4681053/field_highwire_adjunct_files/1/2001966_Slides.zip
http://www.ingentaconnect.com/content/ben/cbio/2007/00000002/00000002/art00003
http://www.nature.com/articles/ng0704-663a
http://bioinformatics.oxfordjournals.org/content/23/23/3251.short
http://link.springer.com/article/10.1007/s00335-011-9359-x

IDENTIFICATION OF HIGH-COPPER-RESPONSIVE TARGET PATHWAYS IN ATP7B KNOCKOUT MOUSE LIVER BYGSEA ON MICROARRAY DATA SETS

COMPARISON OF INVARIANT NKT CELLS WITH CONVENTIONAL T CELLS BY USING GENE SET ENRICHMENT ANALYSIS (GSEA)

批量運(yùn)行GSEA寝志,命令行版本

之前用過(guò)有界面的那種,那樣非常方便,只需要做好數(shù)據(jù)即可材部,但是如果有非常多的數(shù)據(jù)悠菜,每次都要點(diǎn)擊文件,點(diǎn)擊下一步败富,也很煩悔醋,不過(guò),兽叮,它既然是java軟件芬骄,就可以以命令行的形式來(lái)玩轉(zhuǎn)它!

一鹦聪、程序安裝

直接在官網(wǎng)下載java版本軟件即可:http://software.broadinstitute.org/gsea/downloads.jsp

二账阻、輸入數(shù)據(jù)

需要下載gmt文件,自己制作gct和cls文件泽本,或者直接下載測(cè)試文件p53
http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

image

三淘太、運(yùn)行命令

hgu95av2的芯片數(shù)據(jù),只有一萬(wàn)多探針规丽,所以很快就可以出結(jié)果

 java -cp gsea2-2.2.1.jar  -Xmx1024m xtools.gsea.Gsea   -gmx c2.cp.kegg.v5.0.symbols.gmt  \
 -res P53_hgu95av2.gct  -cls P53.cls   -chip  chip/HG_U95Av2.chip  -out result -rpt_label p53_example

這個(gè)參數(shù)其實(shí)非常多蒲牧,見(jiàn)文件http://software.broadinstitute.org/gsea/doc/linkedFiles/GSEAParameters.txt

image

四、輸出數(shù)據(jù)

image

自己看官網(wǎng)去理解這些結(jié)果咯赌莺!

需要下載的數(shù)據(jù)如下:

http://software.broadinstitute.org/gsea/downloads.jsp

都是gmt格式的文件冰抢!

CP: CANONICAL PATHWAYS(BROWSE 1330 GENE SETS) Gene sets from the pathway databases. Usually, these gene sets are canonical representations of a biological process compiled by domain experts. details Download GMT Filesoriginal identifiersgene symbolsentrez genes ids
CP:BIOCARTA: BIOCARTA GENE SETS(BROWSE 217 GENE SETS) Gene sets derived from the BioCarta pathway database (http://www.biocarta.com/genes/index.asp). Download GMT Filesoriginal identifiersgene symbolsentrez genes ids
CP:KEGG: KEGG GENE SETS(BROWSE 186 GENE SETS) Gene sets derived from the KEGG pathway database (http://www.genome.jp/kegg/pathway.html). Download GMT Filesoriginal identifiersgene symbolsentrez genes ids
CP:REACTOME: REACTOME GENE SETS(BROWSE 674 GENE SETS) Gene sets derived from the Reactome pathway database (http://www.reactome.org/). Download GMT Filesoriginal identifiersgene symbolsentrez genes ids

然后做出表達(dá)數(shù)據(jù)gct文件和cls表型文件~

見(jiàn):http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

然后就可以直接運(yùn)行了

如果是芯片數(shù)據(jù),第一列是芯片探針艘狭,那么還需要下載chip數(shù)據(jù):ftp://ftp.broadinstitute.org/pub/gsea/annotations

制作自己的gene set文件給gsea軟件

gene set

熟悉GSEA軟件的都知道挎扰,它只需要GCT,CLS和GMT文件,其中GMT文件巢音,GSEA的作者已經(jīng)給出了一大堆遵倦!就是記錄broad的Molecular Signatures Database (MSigDB) 已經(jīng)收到了18026個(gè)geneset, 但是我奇怪的是里面竟然沒(méi)有包括cancer testis的gene set官撼,MSigDB的確是多梧躺,但未必全,其實(shí)里面還有很多重復(fù)歧寺。而且有不少幾乎沒(méi)有意義的gene set燥狰。那我想做自己的gene set來(lái)用gsea軟件做分析棘脐,就需要自己制造gmt格式的數(shù)據(jù)斜筐。因?yàn)榧词瓜螺d了MSigDB的gene set,本質(zhì)上就是gmt格式的數(shù)據(jù)而已:http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#GMT:Gene_Matrix_Transposed_file_format.28.2A.gmt.29

image

我們首先要拿到自己感興趣的gene set里面的gene list蛀缝,最好是以hugo規(guī)定的標(biāo)準(zhǔn)symbol顷链。
比如我感興趣的是 :http://www.cta.lncc.br/modelo.php

我這里提供一個(gè)2列的文件,直接轉(zhuǎn)換成gmt的R代碼屈梁!

文件來(lái)自于:下載最新版的KEGG信息嗤练,并且解析好榛了,如下:

image

首先在R里面賦值一個(gè)變量path2gene_file就是圖中的kegg2gene.txt文件,讀到R里面去

tmp=read.table(path2gene_file,sep="\t",colClasses=c('character'))
# tmp=toTable(org.Hs.egPATH)
# first column is kegg ID, second column is entrez ID
GeneID2kegg_list<<- tapply(tmp[,1],as.factor(tmp[,2]),function(x) x)
kegg2GeneID_list<<- tapply(tmp[,2],as.factor(tmp[,1]),function(x) x)

這個(gè)變量kegg2GeneID_list是一個(gè)list煞抬,因?yàn)槭莈ntrez gene ID霜大,需要轉(zhuǎn)換成symbol,我就不多說(shuō)了革答,轉(zhuǎn)換后的數(shù)據(jù)战坤,就是kegg2symbol_list 。

最后對(duì) kegg2symbol_list 輸出成gmt文件:

write.gmt <- function(geneSet=kegg2symbol_list,gmt_file='kegg2symbol.gmt'){
sink( gmt_file )
for (i in 1:length(geneSet)){
cat(names(geneSet)[i])
cat('\tNA\t')
cat(paste(geneSet[[i]],collapse = '\t'))
cat('\n')
}
sink()
}

image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末残拐,一起剝皮案震驚了整個(gè)濱河市途茫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌溪食,老刑警劉巖囊卜,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異错沃,居然都是意外死亡栅组,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)枢析,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)笑窜,“玉大人,你說(shuō)我怎么就攤上這事登疗∨沤兀” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵辐益,是天一觀的道長(zhǎng)断傲。 經(jīng)常有香客問(wèn)我,道長(zhǎng)智政,這世上最難降的妖魔是什么认罩? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮续捂,結(jié)果婚禮上垦垂,老公的妹妹穿的比我還像新娘。我一直安慰自己牙瓢,他們只是感情好劫拗,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著矾克,像睡著了一般页慷。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,111評(píng)論 1 285
  • 那天酒繁,我揣著相機(jī)與錄音滓彰,去河邊找鬼。 笑死州袒,一個(gè)胖子當(dāng)著我的面吹牛揭绑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播郎哭,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼洗做,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了彰居?” 一聲冷哼從身側(cè)響起诚纸,我...
    開(kāi)封第一講書(shū)人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎陈惰,沒(méi)想到半個(gè)月后畦徘,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡抬闯,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年井辆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片溶握。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡杯缺,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出睡榆,到底是詐尸還是另有隱情萍肆,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布胀屿,位于F島的核電站塘揣,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏宿崭。R本人自食惡果不足惜亲铡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望葡兑。 院中可真熱鬧奖蔓,春花似錦、人聲如沸讹堤。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至守呜,卻和暖如春病曾,著一層夾襖步出監(jiān)牢的瞬間筷凤,已是汗流浹背钠怯。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工淋袖, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留搅窿,地道東北人婴削。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓廊镜,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親唉俗。 傳聞我的和親對(duì)象是個(gè)殘疾皇子嗤朴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容