實例:如何拿到KEGG數(shù)據(jù)庫中多巴胺通路相關(guān)的基因集
一、確定目標(biāo)通路
打開KEGG選擇pathway帮坚,在搜索框前輸入物種孝赫,框內(nèi)填入關(guān)鍵詞。
篩選結(jié)果顯示僅有hsa04728符合我們的研究目的
二侵状、下載hsa04728通路中的全部基因
1.安裝R包KEGGREST
首次安裝時電腦可能會顯示與當(dāng)前R語言版本不配,可以從bioconductor 的官網(wǎng)下載安裝
if(!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("KEGGREST", version = "3.10")
可以library一下這個包宠哄,里面包含了KEGG數(shù)據(jù)庫的19個子數(shù)據(jù)庫
壹将,"pathway"、"genes" 毛嫉、"ligand"诽俯、 "brite"為4個主要的數(shù)據(jù)庫,其他的子數(shù)據(jù)庫是在這4個數(shù)據(jù)庫的基礎(chǔ)上衍生出來的承粤。
> library("KEGGREST")
> listDatabases()
[1] "pathway" "brite" "module" "ko" "genome" "vg"
[7] "ag" "compound" "glycan" "reaction" "rclass" "enzyme"
[13] "disease" "drug" "dgroup" "environ" "genes" "ligand"
[19] "kegg"
- "pathway"數(shù)據(jù)庫提供發(fā)生在細(xì)胞內(nèi)各種反應(yīng)的人工繪制途徑圖暴区,以網(wǎng)絡(luò)形式-呈現(xiàn)。"genes" 數(shù)據(jù)庫存儲KEGG中注冊的已經(jīng)測序的基因組信息辛臊。
- "ligand"數(shù)據(jù)庫可以查詢化合物仙粱、多糖以及酶促反應(yīng)等信息。
- "brite"是將生物信息按等級層次分類歸納的數(shù)據(jù)庫彻舰,其中所包含的KEGG伐割、KO是用于同源性識別的系統(tǒng)候味。
2.提取通路信息
keggGet('hsa04728')
gs<-keggGet('hsa04728')
-
使用 keggGet 函數(shù)獲取人類基因信號通路 hsa04650 的信息,并緩存
逐步run可以看到結(jié)果包括了通路介紹隔心、基因白群,基因間的聯(lián)系方式,以及鏈接等等硬霍。
三.提取全部基因
#獲取通路中g(shù)ene信息
gs[[1]]$GENE
#查找所有基因
genes<-unlist(lapply(gs[[1]]$GENE,function(x) strsplit(x,';')))
genelist <- genes[1:length(genes)%%3 ==2]
genelist <- data.frame(genelist)
#把結(jié)果寫入表格中
write.table(genelist, "C:\\Users\\xxx\\Desktop\\hsa04728.csv",
row.names=FALSE,col.names=TRUE,sep=",")
最終可以獲得一個表格帜慢,genelist中有132個基因name,即多巴胺通路hsa04718中涉及的所有的基因唯卖。