GSEA 有JAVA版把介,可以點點點就完成分析,但是數(shù)據(jù)格式有幾點要注意
1.基因表達矩陣推薦用txt格式梅猿,比較容易從excel中拷貝荚虚,用excel直接保存成txt格式會出現(xiàn)問題。(其實就是還不習(xí)慣用linux下提取數(shù)據(jù))
根據(jù)官方說明文檔中給出的格式要求速梗,第一列為基因名肮塞,第二列為description,此列對分析沒有作用姻锁,但是必須要有枕赵,第三列開始為樣本的表達量,如下圖:
基因名必須要大寫! 是因為gmt中的reference是人的基因名屋摔,所以在分析鼠的時候需要大寫烁设,后可以參考同源基因轉(zhuǎn)換后再進行比對
基因名中不能有連字符- 和.x
其他的bug未知
2.自己寫cls文件:
4為樣本數(shù),2為case數(shù)钓试,1為固定格式;
剩下兩行自己理解下
后面補充格式要求鏈接副瀑,暫時找不到了
http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats
這個是輸入格式鏈接
3.制作gmt格式文件
參考jimmy 大神的教程弓熏,常見的KEGG,GO等get set 可以直接在線選擇糠睡,不需要自己制作挽鞠,而GSEA官方網(wǎng)站上未提供的gmt則可以自己制作
參考鏈接 http://www.bio-info-trainee.com/2144.html
4.軟件參數(shù)設(shè)置:
gene set database是選reference的選項,可以選kegg,GO等信认,或者是自己制作的gmt
collapse選項是指是否要從探針轉(zhuǎn)換成gene name材义,這里選no(如選yes,需提供chip的name)
Basic fields 可以選擇在get set富集的最小基因數(shù)
Advanced fields 可以選擇畫出plots的個數(shù)
用gene_set進行分析嫁赏。
http://software.broadinstitute.org/gsea/msigdb/collections.jsp
建議在以下幾個gene sets集做GSEA 分析
H: hallmark gene sets
常見的50個gene sets
KEGG gene sets, 186 gene sets
KEGG pathways 共186個gene sets
C2
BioCarta gene sets, 217 gene sets
CP (Canonical pathways, 1329 gene sets)
CP (KEGG gene sets, 186 gene sets)
C5 BP GO biological process, 4436 gene sets
C6 oncogenic signatures, 189 gene sets
另外其掂,附上jimmy大神的博客作為參考
http://www.bio-info-trainee.com/1282.html