ID轉(zhuǎn)換?系統(tǒng)了解下ID
ENSEMBL ID
五部分組成:ENS(物種)(對象類型)(標(biāo)識符).(版本)
- 第一部分“ENS”告訴您它是一個Ensembl ID
- 第二部分是三個字母的物種代碼。對于人類味悄,沒有物種代碼,因此ID的形式為ENS(對象類型)(標(biāo)識符).(版本)
- 第三部分是單字母或雙字母對象類型塌鸯。例如E為外顯子侍瑟, FM為蛋白質(zhì)家族,G為基因丙猬,GT為基因樹涨颜,P為蛋白質(zhì),R為調(diào)節(jié)特征茧球,T為轉(zhuǎn)錄物庭瑰。
- 標(biāo)識符是該對象的編號。前綴和標(biāo)識符的組合是唯一的抢埋。
- 版本表示該模型在Ensembl期間發(fā)生了多少次變化弹灭。
ENTREZ ID
Entrez ID實際上是指的Entrez gene ID,是對應(yīng)于染色體上一個gene
location的揪垄。每一個發(fā)現(xiàn)的基因都會被編制一個統(tǒng)一的編號穷吮,而Entrez ID是指的來自于NCBI旗下的Entrez gene數(shù)據(jù)庫所使用的編號。每個基因的編號具有唯一性饥努,包括不同種屬生物間的同源基因編號也不相同捡鱼,例如同樣是TP53基因,人源TP53的Entrez ID為7157酷愧,zebrafish源的Entrez ID為30590驾诈,chichen源的Entrez ID為396200缠诅。
https://blog.csdn.net/liufeichendi/article/details/78819884Refseq ID
RefSeq數(shù)據(jù)庫,即RefSeq參考序列數(shù)據(jù)庫乍迄,是美國國家生物信息技術(shù)中心(NCBI)提供的具有生物意義上的非冗余的基因和蛋白質(zhì)等片段序列的數(shù)據(jù)庫滴铅。RefSeq 有一套特殊的 Accesion Number(就是我們通常用的RefSeq ID)讓我們來進行檢索。ID的常見前綴為:
HGNC ID是HGNC數(shù)據(jù)庫分配的基因編號就乓,每一個標(biāo)準(zhǔn)的Symbol都有對應(yīng)的HGNC ID 。我們可以用這個編號拱烁,在HGNC數(shù)據(jù)庫中搜索相關(guān)的基因生蚁。例如:HGNC:11998
ID轉(zhuǎn)換一般涉及probe ID、gene ID戏自、transcript ID邦投;
- An extremely common kind of Annotation package is the so called platform based or chip based package type. This package is intended to make the manufacturer labels for a series of probes or probesets to a wide range of gene-based features. A package of this kind will load an ChipDb object.---基于平臺或基于芯片的包類型;
- A TxDb package (a ’TxDb’ package) connects a set of genomic coordinates to various transcript oriented features.----將基因組坐標(biāo)與轉(zhuǎn)錄本相關(guān)特征結(jié)合到一起擅笔;
- An organism level package (an ‘org’ package) uses a central gene identifier (e.g.Entrez Gene id) and contains mappings between this identifier and other kinds of identifiers (e.g. GenBank or Uniprot accession number, RefSeq id, etc.). The name of an org package is always of the form org.<Ab>.<id>.db----org包使用Entrez Gene id志衣,包含其與多種ID之間的映射,比如 GenBank或Uniprot的檢索號猛们,RefSeq ID等念脯;一般的命名格式為org.<Ab>.<id>.db。Ab為物種的2個字母簡寫弯淘,id為所用中心identifier的縮寫绿店,比如,eg for Entrez Gene ids庐橙。
ID轉(zhuǎn)換
-
BiomaRt
不知道是對網(wǎng)速有要求還是對電腦有要求假勿,我5歲的16寸的大個感覺有點承受不住态鳖;
- 其實是25434個ENSGxxx转培,我分了3批進行轉(zhuǎn)換,共26016個ENSGxxx匹配出結(jié)果浆竭;
> library(biomaRt)
> listMarts()
biomart version
1 ENSEMBL_MART_ENSEMBL Ensembl Genes 96
2 ENSEMBL_MART_MOUSE Mouse strains 96
3 ENSEMBL_MART_SNP Ensembl Variation 96
4 ENSEMBL_MART_FUNCGEN Ensembl Regulation 96
> load('input_exprSet.Rdata')
> my_mart<-useMart('ENSEMBL_MART_ENSEMBL')
> datasets<-listDatasets(my_mart)###看到有hsapiens_gene_ensembl
> my_dataset<-useDataset('hsapiens_gene_ensembl',mart = my_mart)
> hgnc_query <- gsub(pattern = '\\.\\d+','',rownames(exprSet))
> query<- function(x){getBM(attributes = c('ensembl_gene_id','hgnc_symbol'),
+ filters='ensembl_gene_id',
+ values=x,
+ mart=my_dataset)}
> re1<- query(hgnc_query[1:5000])
> re2<- query(hgnc_query[5001:10000])
> re3<- query(hgnc_query[10001:length(hgnc_query)])
- clusterProfiler
bitr(geneID = 'TP53',fromType ='SYMBOL' ,toType = 'ENSEMBL',OrgDb = org.Hs.eg.db)