利用GSEA對基因表達數(shù)據(jù)做富集分析

image

Gene Set Enrichment Analysis (GSEA) is a computational method that determines whether an a priori defined set of genes shows statistically significant, concordant differences between two biological states (e.g. phenotypes).

用GSEA做富集分析是非常簡單的缩幸，結(jié)果也很詳細，并且直接出圖；這個軟件發(fā)表于2005年斥铺，一直都在不斷更新和增加新的功能玷禽；軟件基于的數(shù)據(jù)庫Molecular Signatures Database也會根據(jù)新發(fā)表的文章進行完善鞠呈。

GSEA軟件版本了解

GSEA設(shè)計了操作比較簡單的桌面軟件商模；
GSEA也提供在無網(wǎng)絡(luò)情況下的一個命令操作版本誉碴；
基于R的版本哺呜，但是2005后不再提供更新舌缤；
GenePattern平臺也有GSEA模塊。

GSEA軟件下載與安裝

GSEA download

根據(jù)自己電腦內(nèi)存大小下載適合的版本：

image.png

GSEA界面

1).圈1所在是導航欄，展示主要操作国撵；
2).圈2是進度欄陵吸；當你進行分析時，查看分析進程與成功與否介牙；成功后在此處可以查看網(wǎng)頁版結(jié)果壮虫；
3).圈3是主頁面，在此進行各種操作與分析环础；

GSEA運行

官網(wǎng)也準備了例子：
Example Datasets(http://software.broadinstitute.org/gsea/datasets.jsp)

這兒使用P53這個例子：

p53+ 與P53突變癌細胞系的表達譜
Molecular Signatures Database C2數(shù)據(jù)基因集合

1. 下載數(shù)據(jù)

P53.cls #表型文檔定義了表達文檔中樣品的表型標簽囚似，使用空格或tab隔開；

P53_collapsed_symbols.gct #基因表達譜數(shù)據(jù)

P53_hgu95av2.gct #基因芯片表達譜數(shù)據(jù)

GSEA軟件需要的數(shù)據(jù)格式可參考：GSEA軟件支持的數(shù)據(jù)格式

2. 點擊導航欄Load data導入數(shù)據(jù)

3種不同的方法均可以導入數(shù)據(jù)：

Method 1: Browse for files #上傳各種文件线得；
Method 2: Load last dataset used #使用最近用過的數(shù)據(jù)饶唤；
Method 3: Drag-and-drop the files hereke #把文件拖曳至此處上傳；

導入例子數(shù)據(jù)(p53)

P53_collapsed_symbols.gct #基因表達譜數(shù)據(jù)

P53.cls #表型文檔定義了表達文檔中樣品的表型標簽贯钩，使用空格或tab隔開募狂；

導入數(shù)據(jù)需要沒有報錯: There were NO errors

在Object cache查看導入的數(shù)據(jù)；

3. Run GSEA

點擊軟件導航欄Run GSEA魏保，選擇數(shù)據(jù)并進行參數(shù)設(shè)定熬尺；

參數(shù)主要分為三部分：

Required fields: #必須設(shè)置的參數(shù)

Expression dataset: #選擇要分析的表達數(shù)據(jù)，P53_collapsed_symbols.gct谓罗。

Gene sets database: #選擇基因集 ,Molecular Signatures Database粱哼，MSigDB

Number of permutations: #樣品用于置換檢驗檢驗重復(fù)次數(shù)，一般1000檩咱。

Phenetype labels: #選擇表型數(shù)據(jù)揭措。

collapsed to gene symbols: #默認true,表達數(shù)據(jù)中探針名轉(zhuǎn)換成gene symbols;

P53_collapsed_symbols.gct中是已經(jīng)轉(zhuǎn)換為基因名字，不需要這一步刻蚯，選擇false绊含；

Permutation type： #phenotype用于每個表型組至少7個樣本的實驗；Gene_set用于表型組樣本數(shù)少于7個的時候炊汹。

Chip platform: #選擇Chip注釋文件躬充，用于collapsed to gene symbols這一步；

Basic fields: #可選參數(shù)

Analysis name: 設(shè)定分析結(jié)果前綴

Metric for ranking genes：選定對基因打分和排序的模式讨便；

Gene list sorting mode：基因排序可以選擇使用原值（default）和絕對值充甚。

Gene list ordering mode：基因排序是遞增還是遞減。

Max size：基因集基因數(shù)目上限霸褒。

Min size：基因集基因數(shù)目下限伴找。

Save results in this folder:結(jié)果保存路徑

Advanced fields: # 高級參數(shù)

建議使用默認，不要隨意改動废菱。

Collapsing mode for probe sets => 1 gene：#使用芯片數(shù)據(jù)時技矮，基因表達值的計算抖誉；

max_probe (default)：#芯片集中最大值作為基因表達值；

median_of_probes: #芯片集均值作為基因表達值

Normalization mode： #富集分數(shù)（ Enrichment scores衰倦，ES）的標準化方法袒炉；

Normalized Enrichment Score (NES)方法：

Randomization mode：

no_balance (default)：完全隨機抽樣

equalize_and_balance：分別從不同表型組抽取相同數(shù)目樣本；

4. 運行及處理進程觀察

參數(shù)設(shè)置完成之后耿币，點擊run開始運行梳杏；左下角GSEA reports板塊可以檢測運行情況；

Running:正在分析淹接，可以暫停十性；
Success:分析成功，點擊Success塑悼，可以查看網(wǎng)頁報告劲适；
Error:分析出錯，點擊Error厢蒜，查看出錯詳情霞势；

5. 結(jié)果查看

5.1 GSEA結(jié)果中的統(tǒng)計量：

● Enrichment Score (ES)

● Normalized Enrichment Score (NES)

● False Discovery Rate (FDR)

● Nominal P Value

Enrichment Score (ES)

img

最上面的綠線是遍歷排好序的基因列表是計算ES值的過程：遍歷基因集L ，當基因出現(xiàn)在S中加分斑鸦，反之減分愕贡；加減分值由基因與表型的相關(guān)性決定。當分值累積到最大時就是富集分數(shù)巷屿。

ES值：P_hit -P_miss最大值

預(yù)先定義的基因集S固以；待分析基因列表L；指數(shù)P的選擇用來控制ES分布嘱巾；r(g_j)=r_j 是定義的基因與表型的相關(guān)性系數(shù)憨琳。

L中第i個基因前有基因j也屬于基因集S，P_hit（S旬昭，i）=P_hit（S篙螟，i）+|r_j|^p /N_R ；與之相反问拘，L中第i個基因前有基因j不屬于屬于基因集S時遍略，P_miss（S，i）增加骤坐。

中間黑線位置表示預(yù)定義基因集中基因在排好序的基因列表中的位置绪杏；
底部展示基因排列的一個度量分數(shù)，正數(shù)表示與第一個表型相關(guān)或油，負數(shù)表示與第二個表型相關(guān)寞忿；對于連續(xù)性表型的話驰唬，正數(shù)表示相關(guān)顶岸，負數(shù)表示不相關(guān)腔彰；

Normalized Enrichment Score (NES)

NES是基于樣本的置換檢驗π,樣本重新抽樣使得基因表達值變化從而影響到基因排序和ES(S, π)。

False Discovery Rate (FDR)

一般情況下可用FDR<0.25;如果樣本較少以至于Permutation type使用了 gene_set辖佣，F(xiàn)DR<0.05更合適霹抛。

這兒，F(xiàn)DR有兩種分布：

img

Nominal P Value

置換檢驗中ES(S)統(tǒng)計分布中無效假設(shè)成立時ES的比率卷谈。

5.2 設(shè)置的結(jié)果生成路徑下會有結(jié)果生成：

基因列表排序：例如P53_collapsed_symbols.P53.cls_WT_versus_MUT.rnk

基因集結(jié)果網(wǎng)頁版：例如AMUNDSON_DNA_DAMAGE_RESPONSE_TP53.html

基因集結(jié)果統(tǒng)計表：例如AMUNDSON_DNA_DAMAGE_RESPONSE_TP53.xls

以及一些圖杯拐。。世蔗。端逼。。污淋。

5.3 點擊Success顶滩，可以查看網(wǎng)頁報告

6. Running the Leading Edge Analysis

After running a gene set enrichment analysis, you can use the leading edge analysis to examine the genes in the leading edge subsets of selected enriched gene sets. Genes that appear in multiple subsets are more likely to be of interest than those that appear in only one.

6.1 左邊導航欄點擊Leading Edge Analysis；

6.2 導入數(shù)據(jù)：點擊Load GSEA Results導入剛才分析完的P53的結(jié)果寸爆；

6.3 選擇基因集：點擊數(shù)據(jù)每列列名礁鲁，調(diào)整數(shù)據(jù)排列順序，選擇基因集（FDR < 0.05）赁豆；

6.5 結(jié)果輸出

結(jié)果是四幅圖仅醇，解讀可參考（ Interpreting Leading Edge Analysis Results）

Heat Map

不同基因集中富集基因表達情況：顏色 (red, pink, light blue, dark blue) 表示著表達值高低 (high, moderate, low, lowest)。

Set-to-Set

不同基因集間基因交集的統(tǒng)計展示魔种；

Gene in Subsets

基因在基因集中出現(xiàn)次數(shù)統(tǒng)計析二；

Histogram

基因集相似系數(shù)

1529249944482.png

參考：

Quick Tour of the GSEA Java Desktop Application(http://software.broadinstitute.org/gsea/doc/desktop_tutorial.jsp)

GSEA User Guide(http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html)

Molecular Signatures Database v6.1(http://software.broadinstitute.org/gsea/msigdb/index.jsp)

Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.

最后編輯于：2018.11.19 22:48:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市务嫡，隨后出現(xiàn)的幾起案子甲抖，更是在濱河造成了極大的恐慌，老刑警劉巖心铃，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件准谚，死亡現(xiàn)場離奇詭異，居然都是意外死亡去扣，警方通過查閱死者的電腦和手機柱衔，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來愉棱，“玉大人唆铐，你說我怎么就攤上這事”蓟” “怎么了艾岂？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長朋其。經(jīng)常有香客問我王浴，道長脆炎，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任氓辣，我火速辦了婚禮秒裕，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘钞啸。我一直安慰自己几蜻，他們只是感情好，可當我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布体斩。她就那樣靜靜地躺著梭稚，像睡著了一般。火紅的嫁衣襯著肌膚如雪絮吵。梳的紋絲不亂的頭發(fā)上哨毁，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天，我揣著相機與錄音源武，去河邊找鬼扼褪。笑死，一個胖子當著我的面吹牛粱栖，可吹牛的內(nèi)容都是我干的话浇。我是一名探鬼主播，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼闹究，長吁一口氣：“原來是場噩夢啊……” “哼幔崖！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起渣淤，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤赏寇，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后价认，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嗅定，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年用踩，在試婚紗的時候發(fā)現(xiàn)自己被綠了渠退。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡脐彩，死狀恐怖碎乃，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情惠奸，我是刑警寧澤梅誓，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響梗掰，放射性物質(zhì)發(fā)生泄漏删豺。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一愧怜、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧妈拌，春花似錦拥坛、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案猜惋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至培愁，卻和暖如春著摔，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背定续。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工谍咆，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人私股。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓摹察，卻偏偏與公主長得像，于是被迫代替她去往敵國和親倡鲸。傳聞我的和親對象是個殘疾皇子供嚎，可洞房花燭夜當晚...
茶點故事閱讀 42,722評論 2贊 345

利用GSEA對基因表達數(shù)據(jù)做富集分析

推薦閱讀更多精彩內(nèi)容