1. 數(shù)據(jù)集介紹
??由于人類基因集富集分析,有msigdb數(shù)據(jù)庫拘鞋,上面有各種數(shù)據(jù)集的幾何脐嫂,因此做人的基因集富集分析還是很方便的丈牢,可以直接從上面下載數(shù)據(jù)集即可:
??從上圖可以看到车柠,msigdb的基因集有很多跌宛,那么小鼠的基因集呢相种?通過查詢威恼,最終發(fā)育有一個小鼠的專門數(shù)據(jù)集,既GSKB寝并,這是鼎鼎大名的broad研究所開發(fā)的數(shù)據(jù)集箫措,而且這個數(shù)據(jù)集一共7個數(shù)據(jù)集,主要介紹如下:
??GSKB數(shù)據(jù)基因集來源較多衬潦,這里不一一介紹斤蔓,大家可以直接到官網(wǎng)進行查詢相關(guān)基因集來源,比如下圖:
2. 基因名大小寫的問題
??在使用GSKB基因的時候镀岛,發(fā)現(xiàn)了一個非常不解的地方弦牡,我們都知道小鼠的基因名稱都是首字母大寫,其他字母都小寫漂羊,但是我們在查看基因的時候驾锰,發(fā)現(xiàn)GSKB的基因集基因名稱全部是大寫:
library(gskb)
data(mm_miRNA)
mm_miRNA[[1]][1:10]
??從上圖看出,基因名稱全部是大寫走越,但是后續(xù)使用的過程中椭豫,并沒有大小寫轉(zhuǎn)換或者其他的人和小鼠的基因名稱轉(zhuǎn)換,這難道包里面默認就可以轉(zhuǎn)換嗎?我翻了一下代碼赏酥,我也沒有找到喳整,由于時間的原因,暫時先不看找了今缚,反正對使用沒有關(guān)系算柳,使用的時候,可以將所有的基因名大寫就可以了姓言。
3. GSEA富集
??GSEA可以通過java程序進行富集分析瞬项,其實也可以通過R進行分析,其具體富集分析過程如下何荚,從這里也可以看出囱淋,其基因名沒有轉(zhuǎn)換。
GSEA.prog.loc<- "http://ge-lab.org/gskb/GSEA.1.0.R"
source(GSEA.prog.loc, max.deparse.length=9999)
GSEA(
# Input/Output Files :------------------------------------------------
# Input gene expression Affy dataset file in RES or GCT format
input.ds = "http://ge-lab.org/gskb/mouse_data.gct",
# Input class vector (phenotype) file in CLS format
input.cls = "http://ge-lab.org/gskb/mouse.cls",
# Gene set database in GMT format
gs.db = mm_miRNA,
# Directory where to store output and results (default: "")
output.directory = getwd(),
# Program parameters :-----------------------------------------------
doc.string = "mouse",
non.interactive.run = T,
reshuffling.type = "sample.labels",
nperm = 1000,
weighted.score.type = 1,
nom.p.val.threshold = -1,
fwer.p.val.threshold = -1,
fdr.q.val.threshold = 0.25,
topgs = 10,
adjust.FDR.q.val = F,
gs.size.threshold.min = 15,
gs.size.threshold.max = 500,
reverse.sign = F,
preproc.type = 0,
random.seed = 3338,
perm.type = 0,
fraction = 1.0,
replace = F,
save.intermediate.results = F,
OLD.GSEA = F,
use.fast.enrichment.routine = T
)