(日常記錄)GSEA富集分析軟件的使用

常用富集分析包括GO富集帚豪、KEGG富集空免,這兩種富集方式都是基于已經(jīng)通過算法確定差異倍數(shù)的差異基因來分析的,而對于一些差異較小慰安,但可能起著重要作用的基因腋寨,這兩種富集方式則會使它們成為了漏網(wǎng)之魚。為了涵蓋所有具有差異基因的富集信息泻帮,此時(shí)需要用到富集分析軟件GSEA(大概是基因的海洋,haha~)精置,GSEA首先通過foldchange值對你的基因(測試基因)進(jìn)行排序,然后通過判斷每個(gè)基因是否落在某個(gè)基因集(目標(biāo)基因集)內(nèi)锣杂,落入一個(gè)基因則加分脂倦,不落入則減分,計(jì)分方式會根據(jù)排序的foldchange值綜合計(jì)算(具體怎么算的元莫,可以看官網(wǎng))赖阻。需要提到的是,因?yàn)镚SEA會根據(jù)富集分?jǐn)?shù)計(jì)算P值踱蠢,所以每組樣本數(shù)不可低于3火欧,否則報(bào)錯(cuò)。接下來看一下GSEA的使用方式吧茎截!

一苇侵、軟件安裝

地址:https://www.gsea-msigdb.org/gsea/downloads.jsp


選擇合適自己系統(tǒng)的版本進(jìn)行安裝,安裝比較簡單企锌,一直下一步就可以了榆浓。linux的需要自己再去查一下安裝的命令。

二撕攒、文件準(zhǔn)備

1陡鹃、表達(dá)量矩陣文件

表達(dá)量矩陣文件大家應(yīng)該都不陌生了,如果是自己的樣本測序抖坪,公司會提供一個(gè)excel表格萍鲸,里面包括基因ID,基因名擦俐,每個(gè)樣本的基因表達(dá)量等脊阴。分析別人的數(shù)據(jù),可以從GEO數(shù)據(jù)庫中下載表達(dá)量矩陣文件蚯瞧。

然后我們需要對表達(dá)量矩陣文件進(jìn)行簡單的處理蹬叭,首先提取矩陣文件的基因symbol、基因DESCRIPTION(這列在格式中必須有状知,如果有描述就直接提取出來秽五,如果沒有就自己添加一列,在下面的信息中都補(bǔ)上na)饥悴、基因樣本的表達(dá)量放入新的excel表格中坦喘。然后在頂上添加兩行,第一行內(nèi)容為#1.2(符號是英文狀態(tài)下的符號西设,固定死的瓣铣,我也不知道什么意思,哈哈~)贷揽,第二行填上你所有的基因數(shù)量和樣本數(shù)量棠笑。最終格式如下圖,然后將內(nèi)容復(fù)制到txt中禽绪,GSEA表達(dá)量文件支持txt蓖救、pcl洪规、res、gct這幾種文件格式循捺,常用gct斩例,可以通過更改后綴名得到。

excel文件
gct格式

2从橘、表型文件

第二個(gè)文件是表型文件念赶,這個(gè)文件的意思就是編輯你的樣本分組信息,第一行分別為樣本總數(shù)恰力,2叉谜,1(2,1默認(rèn),也不用修改)踩萎,第二行為#停局,組1、組2驻民,第三行為組1和組2分別的樣本信息翻具,與前面的表達(dá)量文件一致即可。表型文件只支持cls格式回还,可編輯好后通過修改后綴名得到裆泳。


三、上傳文件及運(yùn)行

打開GSEA軟件柠硕,點(diǎn)擊Browse for files上傳準(zhǔn)備好的文件工禾。

GSEA主頁

上傳之后數(shù)據(jù)沒有編寫錯(cuò)誤,會彈出NO errors的框蝗柔,如果編寫錯(cuò)誤闻葵,可以店家Details查看具體信息,看看是哪里編寫錯(cuò)誤癣丧,軟件會給到你修改建議槽畔。依次上傳表達(dá)量文件和表型文件。

點(diǎn)擊Run GSEA胁编,Expression dataset選擇上傳的表達(dá)量文件厢钧,Gene sets database選擇需要富集的基因集,Number of permutations選擇1000嬉橙,phenotype labels選擇表型文件早直,比較順序不需要改變,collapse/Remap to gene symbols市框,如果你的矩陣文件沒有基因symbol霞扬,只有探針名,則需要選擇collapse,使用基因ID和symbol則選擇NO_Collapse喻圃,permutation type不需要改變萤彩,Chip platform探針的平臺,使用探針名需要選擇级及,使用基因ID和symbol就不用管它乒疏。最后點(diǎn)擊下面的Run就開始運(yùn)行啦

運(yùn)行界面如下额衙,運(yùn)行成功后Status里會顯示successful饮焦,不成功會出現(xiàn)error,可點(diǎn)擊error查看失敗原因窍侧。

四县踢、結(jié)果解讀

結(jié)果我不想寫了,寫累了伟件,還是簡單寫一下吧硼啤,點(diǎn)擊Success,進(jìn)入index結(jié)果索引斧账,主要關(guān)注下面兩個(gè)部分即可谴返。

這兩個(gè)結(jié)果其實(shí)是互補(bǔ)的,只需要看其中一個(gè)結(jié)果咧织。比如說CTL的嗓袱,使用的基因集是免疫相關(guān)的。結(jié)果從上到下依次表示這個(gè)基因集里有4872的gene sets被檢測习绢,其中2105個(gè)在CTL中上調(diào)渠抹,name就意味著你處理之后的樣本有2105個(gè)免疫相關(guān)gene sets是下調(diào)的。其中1282個(gè)的去值小于25%闪萄,1013個(gè)gene sets p值小于1%梧却,1083個(gè)p值小于5%。然后是富集結(jié)果的snapshot败去,因?yàn)閳D太多了放航,它會選擇性的展示p值較小的前20個(gè)genesets。

然后就html和excel格式的結(jié)果展示圆裕。

第一列為富集到的geneset的名字广鳍,點(diǎn)擊Details可查看geneset里面具體的基因改變情況,然后這個(gè)表格還包括每個(gè)geneset的富集分?jǐn)?shù)葫辐,q值搜锰,p值等。

最后看一下snapshot怎么看的

頂上是富集到的geneset的名字耿战,可以看到是一個(gè)GSE的數(shù)據(jù)集(編號GSE21827)蛋叼。綠色的線是富集分?jǐn)?shù)的走向,這個(gè)富集分?jǐn)?shù)線具有2個(gè)峰,在這兩個(gè)峰的位置都有一個(gè)富集的最大值狈涮,但是在紅色部分CTL上調(diào)基因中的富集分?jǐn)?shù)更高狐胎,因此這個(gè)geneset總體在CTL中是上調(diào)趨勢。黑色豎線代表落在這個(gè)geneset里的基因歌馍,可以根據(jù)豎線判斷它的分布握巢。下半部分是以基因?yàn)闄M坐標(biāo),信噪比signal2noise為縱坐標(biāo)的一個(gè)基因變化圖松却,左邊部分為CTL中上調(diào)的基因暴浦,右邊部分為處理組上調(diào)的基因。我感覺作用不是很大(可能我沒發(fā)現(xiàn)它的作用晓锻,)歌焦。

總體就是這樣的,我也還沒有完全弄懂這個(gè)軟件砚哆,繼續(xù)學(xué)習(xí)中独撇。。躁锁。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末纷铣,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子战转,更是在濱河造成了極大的恐慌搜立,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件匣吊,死亡現(xiàn)場離奇詭異儒拂,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)色鸳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門社痛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人命雀,你說我怎么就攤上這事蒜哀。” “怎么了吏砂?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵撵儿,是天一觀的道長。 經(jīng)常有香客問我狐血,道長淀歇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任匈织,我火速辦了婚禮浪默,結(jié)果婚禮上牡直,老公的妹妹穿的比我還像新娘。我一直安慰自己纳决,他們只是感情好碰逸,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著阔加,像睡著了一般饵史。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上胜榔,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天胳喷,我揣著相機(jī)與錄音,去河邊找鬼苗分。 笑死厌蔽,一個(gè)胖子當(dāng)著我的面吹牛牵辣,可吹牛的內(nèi)容都是我干的摔癣。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼纬向,長吁一口氣:“原來是場噩夢啊……” “哼择浊!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起逾条,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤琢岩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后师脂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體担孔,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年吃警,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了糕篇。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡酌心,死狀恐怖拌消,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情安券,我是刑警寧澤墩崩,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站侯勉,受9級特大地震影響鹦筹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜址貌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一铐拐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦余舶、人聲如沸啊鸭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赠制。三九已至,卻和暖如春挟憔,著一層夾襖步出監(jiān)牢的瞬間钟些,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工绊谭, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留政恍,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓达传,卻偏偏與公主長得像篙耗,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子宪赶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345