如何獲取kegg通路的基因列表?相信很多人都有這個(gè)疑惑钓葫。
哪些時(shí)候需要知道通路的基因列表?舉兩個(gè)例子:
- 在找差異基因這一步票顾,只想針對特定通路的基因去找础浮。可以在找完差異基因后奠骄,和通路的基因列表取個(gè)交集豆同。
- 單細(xì)胞分析中,經(jīng)常會用到基因集打分戚揭,除了看文獻(xiàn)收集诱告,基因集還能怎么找?可以根據(jù)kegg等數(shù)據(jù)庫去找民晒。
今天介紹的這種方法精居,非常簡單,就幾行代碼:
# BiocManager::install("KEGGREST")
# BiocManager::install("EnrichmentBrowser")
library("KEGGREST")
library("EnrichmentBrowser") #這個(gè)包里面的一些函數(shù)會調(diào)用KEGGREST里面的函數(shù)
### download the pathways
hsapathway <- downloadPathways("hsa") #只有在第一次運(yùn)行這句代碼時(shí)潜必,耗時(shí)較長
### retrieve gene sets
hsa <- getGenesets(org = "hsa", db = "kegg", gene.id.type = "SYMBOL",cache = TRUE, return.type="list") ##只有在第一次運(yùn)行這句代碼時(shí)靴姿,耗時(shí)較長
writeGMT(hsa, gmt.file = "20230205_kegg_hsa.gmt")
之后就能得到gmt格式的基因列表了。
gmt格式也可以很容易地轉(zhuǎn)換為我們熟悉的數(shù)據(jù)框格式磁滚,方便我們做別的分析佛吓。
keggdf=clusterProfiler::read.gmt("20230205_kegg_hsa.gmt")
head(keggdf)
代碼很簡單,應(yīng)該很容易實(shí)現(xiàn)垂攘。