常用富集分析包括GO富集帚豪、KEGG富集空免,這兩種富集方式都是基于已經(jīng)通過算法確定差異倍數(shù)的差異基因來分析的,而對于一些差異較小慰安,但可能起著重要作用的基因腋寨,這兩種富集方式則會使它們成為了漏網(wǎng)之魚。為了涵蓋所有具有差異基因的富集信息泻帮,此時(shí)需要用到富集分析軟件GSEA(大概是基因的海洋,haha~)精置,GSEA首先通過foldchange值對你的基因(測試基因)進(jìn)行排序,然后通過判斷每個(gè)基因是否落在某個(gè)基因集(目標(biāo)基因集)內(nèi)锣杂,落入一個(gè)基因則加分脂倦,不落入則減分,計(jì)分方式會根據(jù)排序的foldchange值綜合計(jì)算(具體怎么算的元莫,可以看官網(wǎng))赖阻。需要提到的是,因?yàn)镚SEA會根據(jù)富集分?jǐn)?shù)計(jì)算P值踱蠢,所以每組樣本數(shù)不可低于3火欧,否則報(bào)錯(cuò)。接下來看一下GSEA的使用方式吧茎截!
一苇侵、軟件安裝
地址:https://www.gsea-msigdb.org/gsea/downloads.jsp
選擇合適自己系統(tǒng)的版本進(jìn)行安裝,安裝比較簡單企锌,一直下一步就可以了榆浓。linux的需要自己再去查一下安裝的命令。
二撕攒、文件準(zhǔn)備
1陡鹃、表達(dá)量矩陣文件
表達(dá)量矩陣文件大家應(yīng)該都不陌生了,如果是自己的樣本測序抖坪,公司會提供一個(gè)excel表格萍鲸,里面包括基因ID,基因名擦俐,每個(gè)樣本的基因表達(dá)量等脊阴。分析別人的數(shù)據(jù),可以從GEO數(shù)據(jù)庫中下載表達(dá)量矩陣文件蚯瞧。
然后我們需要對表達(dá)量矩陣文件進(jìn)行簡單的處理蹬叭,首先提取矩陣文件的基因symbol、基因DESCRIPTION(這列在格式中必須有状知,如果有描述就直接提取出來秽五,如果沒有就自己添加一列,在下面的信息中都補(bǔ)上na)饥悴、基因樣本的表達(dá)量放入新的excel表格中坦喘。然后在頂上添加兩行,第一行內(nèi)容為#1.2(符號是英文狀態(tài)下的符號西设,固定死的瓣铣,我也不知道什么意思,哈哈~)贷揽,第二行填上你所有的基因數(shù)量和樣本數(shù)量棠笑。最終格式如下圖,然后將內(nèi)容復(fù)制到txt中禽绪,GSEA表達(dá)量文件支持txt蓖救、pcl洪规、res、gct這幾種文件格式循捺,常用gct斩例,可以通過更改后綴名得到。
2从橘、表型文件
第二個(gè)文件是表型文件念赶,這個(gè)文件的意思就是編輯你的樣本分組信息,第一行分別為樣本總數(shù)恰力,2叉谜,1(2,1默認(rèn),也不用修改)踩萎,第二行為#停局,組1、組2驻民,第三行為組1和組2分別的樣本信息翻具,與前面的表達(dá)量文件一致即可。表型文件只支持cls格式回还,可編輯好后通過修改后綴名得到裆泳。
三、上傳文件及運(yùn)行
打開GSEA軟件柠硕,點(diǎn)擊Browse for files上傳準(zhǔn)備好的文件工禾。
上傳之后數(shù)據(jù)沒有編寫錯(cuò)誤,會彈出NO errors的框蝗柔,如果編寫錯(cuò)誤闻葵,可以店家Details查看具體信息,看看是哪里編寫錯(cuò)誤癣丧,軟件會給到你修改建議槽畔。依次上傳表達(dá)量文件和表型文件。
點(diǎn)擊Run GSEA胁编,Expression dataset選擇上傳的表達(dá)量文件厢钧,Gene sets database選擇需要富集的基因集,Number of permutations選擇1000嬉橙,phenotype labels選擇表型文件早直,比較順序不需要改變,collapse/Remap to gene symbols市框,如果你的矩陣文件沒有基因symbol霞扬,只有探針名,則需要選擇collapse,使用基因ID和symbol則選擇NO_Collapse喻圃,permutation type不需要改變萤彩,Chip platform探針的平臺,使用探針名需要選擇级及,使用基因ID和symbol就不用管它乒疏。最后點(diǎn)擊下面的Run就開始運(yùn)行啦
運(yùn)行界面如下额衙,運(yùn)行成功后Status里會顯示successful饮焦,不成功會出現(xiàn)error,可點(diǎn)擊error查看失敗原因窍侧。
四县踢、結(jié)果解讀
結(jié)果我不想寫了,寫累了伟件,還是簡單寫一下吧硼啤,點(diǎn)擊Success,進(jìn)入index結(jié)果索引斧账,主要關(guān)注下面兩個(gè)部分即可谴返。
這兩個(gè)結(jié)果其實(shí)是互補(bǔ)的,只需要看其中一個(gè)結(jié)果咧织。比如說CTL的嗓袱,使用的基因集是免疫相關(guān)的。結(jié)果從上到下依次表示這個(gè)基因集里有4872的gene sets被檢測习绢,其中2105個(gè)在CTL中上調(diào)渠抹,name就意味著你處理之后的樣本有2105個(gè)免疫相關(guān)gene sets是下調(diào)的。其中1282個(gè)的去值小于25%闪萄,1013個(gè)gene sets p值小于1%梧却,1083個(gè)p值小于5%。然后是富集結(jié)果的snapshot败去,因?yàn)閳D太多了放航,它會選擇性的展示p值較小的前20個(gè)genesets。
然后就html和excel格式的結(jié)果展示圆裕。
第一列為富集到的geneset的名字广鳍,點(diǎn)擊Details可查看geneset里面具體的基因改變情況,然后這個(gè)表格還包括每個(gè)geneset的富集分?jǐn)?shù)葫辐,q值搜锰,p值等。
最后看一下snapshot怎么看的
頂上是富集到的geneset的名字耿战,可以看到是一個(gè)GSE的數(shù)據(jù)集(編號GSE21827)蛋叼。綠色的線是富集分?jǐn)?shù)的走向,這個(gè)富集分?jǐn)?shù)線具有2個(gè)峰,在這兩個(gè)峰的位置都有一個(gè)富集的最大值狈涮,但是在紅色部分CTL上調(diào)基因中的富集分?jǐn)?shù)更高狐胎,因此這個(gè)geneset總體在CTL中是上調(diào)趨勢。黑色豎線代表落在這個(gè)geneset里的基因歌馍,可以根據(jù)豎線判斷它的分布握巢。下半部分是以基因?yàn)闄M坐標(biāo),信噪比signal2noise為縱坐標(biāo)的一個(gè)基因變化圖松却,左邊部分為CTL中上調(diào)的基因暴浦,右邊部分為處理組上調(diào)的基因。我感覺作用不是很大(可能我沒發(fā)現(xiàn)它的作用晓锻,)歌焦。
總體就是這樣的,我也還沒有完全弄懂這個(gè)軟件砚哆,繼續(xù)學(xué)習(xí)中独撇。。躁锁。