(日常記錄)GSEA富集分析軟件的使用

常用富集分析包括GO富集帚豪、KEGG富集空免，這兩種富集方式都是基于已經(jīng)通過算法確定差異倍數(shù)的差異基因來分析的，而對于一些差異較小慰安，但可能起著重要作用的基因腋寨，這兩種富集方式則會使它們成為了漏網(wǎng)之魚。為了涵蓋所有具有差異基因的富集信息泻帮，此時(shí)需要用到富集分析軟件GSEA（大概是基因的海洋,haha~)精置，GSEA首先通過foldchange值對你的基因（測試基因）進(jìn)行排序，然后通過判斷每個(gè)基因是否落在某個(gè)基因集（目標(biāo)基因集）內(nèi)锣杂，落入一個(gè)基因則加分脂倦，不落入則減分，計(jì)分方式會根據(jù)排序的foldchange值綜合計(jì)算（具體怎么算的元莫，可以看官網(wǎng)）赖阻。需要提到的是，因?yàn)镚SEA會根據(jù)富集分?jǐn)?shù)計(jì)算P值踱蠢，所以每組樣本數(shù)不可低于3火欧，否則報(bào)錯(cuò)。接下來看一下GSEA的使用方式吧茎截！

一苇侵、軟件安裝

地址：https://www.gsea-msigdb.org/gsea/downloads.jsp

選擇合適自己系統(tǒng)的版本進(jìn)行安裝，安裝比較簡單企锌，一直下一步就可以了榆浓。linux的需要自己再去查一下安裝的命令。

二撕攒、文件準(zhǔn)備

1陡鹃、表達(dá)量矩陣文件

表達(dá)量矩陣文件大家應(yīng)該都不陌生了，如果是自己的樣本測序抖坪，公司會提供一個(gè)excel表格萍鲸，里面包括基因ID，基因名擦俐，每個(gè)樣本的基因表達(dá)量等脊阴。分析別人的數(shù)據(jù)，可以從GEO數(shù)據(jù)庫中下載表達(dá)量矩陣文件蚯瞧。

然后我們需要對表達(dá)量矩陣文件進(jìn)行簡單的處理蹬叭，首先提取矩陣文件的基因symbol、基因DESCRIPTION（這列在格式中必須有状知，如果有描述就直接提取出來秽五，如果沒有就自己添加一列，在下面的信息中都補(bǔ)上na）饥悴、基因樣本的表達(dá)量放入新的excel表格中坦喘。然后在頂上添加兩行，第一行內(nèi)容為#1.2（符號是英文狀態(tài)下的符號西设，固定死的瓣铣，我也不知道什么意思，哈哈~）贷揽，第二行填上你所有的基因數(shù)量和樣本數(shù)量棠笑。最終格式如下圖，然后將內(nèi)容復(fù)制到txt中禽绪，GSEA表達(dá)量文件支持txt蓖救、pcl洪规、res、gct這幾種文件格式循捺，常用gct斩例，可以通過更改后綴名得到。

excel文件

gct格式

2从橘、表型文件

第二個(gè)文件是表型文件念赶，這個(gè)文件的意思就是編輯你的樣本分組信息，第一行分別為樣本總數(shù)恰力，2叉谜，1（2,1默認(rèn)，也不用修改）踩萎，第二行為#停局，組1、組2驻民，第三行為組1和組2分別的樣本信息翻具，與前面的表達(dá)量文件一致即可。表型文件只支持cls格式回还，可編輯好后通過修改后綴名得到裆泳。

三、上傳文件及運(yùn)行

打開GSEA軟件柠硕，點(diǎn)擊Browse for files上傳準(zhǔn)備好的文件工禾。

GSEA主頁

上傳之后數(shù)據(jù)沒有編寫錯(cuò)誤，會彈出NO errors的框蝗柔，如果編寫錯(cuò)誤闻葵，可以店家Details查看具體信息，看看是哪里編寫錯(cuò)誤癣丧，軟件會給到你修改建議槽畔。依次上傳表達(dá)量文件和表型文件。

點(diǎn)擊Run GSEA胁编，Expression dataset選擇上傳的表達(dá)量文件厢钧，Gene sets database選擇需要富集的基因集，Number of permutations選擇1000嬉橙，phenotype labels選擇表型文件早直，比較順序不需要改變，collapse/Remap to gene symbols市框，如果你的矩陣文件沒有基因symbol霞扬，只有探針名，則需要選擇collapse，使用基因ID和symbol則選擇NO_Collapse喻圃，permutation type不需要改變萤彩，Chip platform探針的平臺，使用探針名需要選擇级及，使用基因ID和symbol就不用管它乒疏。最后點(diǎn)擊下面的Run就開始運(yùn)行啦

運(yùn)行界面如下额衙，運(yùn)行成功后Status里會顯示successful饮焦，不成功會出現(xiàn)error，可點(diǎn)擊error查看失敗原因窍侧。

四县踢、結(jié)果解讀

結(jié)果我不想寫了，寫累了伟件，還是簡單寫一下吧硼啤，點(diǎn)擊Success，進(jìn)入index結(jié)果索引斧账，主要關(guān)注下面兩個(gè)部分即可谴返。

這兩個(gè)結(jié)果其實(shí)是互補(bǔ)的，只需要看其中一個(gè)結(jié)果咧织。比如說CTL的嗓袱，使用的基因集是免疫相關(guān)的。結(jié)果從上到下依次表示這個(gè)基因集里有4872的gene sets被檢測习绢，其中2105個(gè)在CTL中上調(diào)渠抹，name就意味著你處理之后的樣本有2105個(gè)免疫相關(guān)gene sets是下調(diào)的。其中1282個(gè)的去值小于25%闪萄，1013個(gè)gene sets p值小于1%梧却，1083個(gè)p值小于5%。然后是富集結(jié)果的snapshot败去，因?yàn)閳D太多了放航，它會選擇性的展示p值較小的前20個(gè)genesets。

然后就html和excel格式的結(jié)果展示圆裕。

第一列為富集到的geneset的名字广鳍，點(diǎn)擊Details可查看geneset里面具體的基因改變情況，然后這個(gè)表格還包括每個(gè)geneset的富集分?jǐn)?shù)葫辐，q值搜锰，p值等。

最后看一下snapshot怎么看的

頂上是富集到的geneset的名字耿战，可以看到是一個(gè)GSE的數(shù)據(jù)集（編號GSE21827）蛋叼。綠色的線是富集分?jǐn)?shù)的走向，這個(gè)富集分?jǐn)?shù)線具有2個(gè)峰，在這兩個(gè)峰的位置都有一個(gè)富集的最大值狈涮，但是在紅色部分CTL上調(diào)基因中的富集分?jǐn)?shù)更高狐胎，因此這個(gè)geneset總體在CTL中是上調(diào)趨勢。黑色豎線代表落在這個(gè)geneset里的基因歌馍，可以根據(jù)豎線判斷它的分布握巢。下半部分是以基因?yàn)闄M坐標(biāo)，信噪比signal2noise為縱坐標(biāo)的一個(gè)基因變化圖松却，左邊部分為CTL中上調(diào)的基因暴浦，右邊部分為處理組上調(diào)的基因。我感覺作用不是很大（可能我沒發(fā)現(xiàn)它的作用晓锻，）歌焦。

總體就是這樣的，我也還沒有完全弄懂這個(gè)軟件砚哆，繼續(xù)學(xué)習(xí)中独撇。。躁锁。