GEO數(shù)據(jù)庫下載
library(Biobase)
library(BiocGenerics)
library(parallel)
library(GEOquery)
gest<-getGEO("GSE9579",destdir=".",GSEMatrix=T,AnnotGPL=FALSE,getGPL= F)? # "."可填保存的路徑
從GPL平臺(tái)直接下載平臺(tái)基因信息
gpl570=read.delim("C:\\Users\\zhouwenqing789\\Desktop\\base\\GPL570anotation.txt",header = T,stringsAsFactors = F,sep ="\t")??#讀取下載的平臺(tái)信息
g579symbol=gpl570[,c(1,11)]
write.table(g579symbol,"g570symlol.txt",col.names
= T,row.names = F,quote = F,sep = "\t")#取需要的基因ID和gene symbol 并保存
?#找出哪些是空值并刪除?which(is.na())??
length(intersect(gse47389na[,1],g579symbol[,1]))#查看有多少交際并合并
colnames(g579symbol)
expr=merge(gse47389na,g579symbol,by.x
= "ID_REF",by.y = "ID")
其它ID轉(zhuǎn)換方式
1?? DAVID網(wǎng)站提供了id轉(zhuǎn)換的功能
1 選擇上傳gene list文件
2 選擇上傳ID的類型糠赦,我們ID-list.txt中的是Ensembl Gene ID,所以這里選ENSEMBL_GENE_ID
3 這個(gè)是類型,因?yàn)橹蛔鯥D轉(zhuǎn)換,所以選Gene List就ok了
4 選擇你要轉(zhuǎn)換的ID類型,這里我選的ENTREZ_GENE_ID
5 然后選擇提交就ok了
1 輸入文件ID類型
2 輸出ID類型盼樟,這里的Gene ID就是指ENTREZ GENE ID
3 輸入ID列表倒槐,點(diǎn)擊確定同窘。測(cè)試的時(shí)候發(fā)現(xiàn)輸出的結(jié)果不會(huì)超過5000個(gè)ID玄帕,如果需要轉(zhuǎn)換的id比較多可以考慮分割文件再轉(zhuǎn)換
ensembl
的官方網(wǎng)站提供的工具,ID轉(zhuǎn)換比較齊全想邦,而且除了轉(zhuǎn)換ID之外裤纹,還有其他有意思的功能(留給你們自己去挖掘了),缺點(diǎn)就是不能做大量的ID轉(zhuǎn)化丧没,不過2000應(yīng)該能行吧鹰椒。
1 選擇數(shù)據(jù)庫:Ensembl Gene 86,Homo sapiens就ok
2,3 過濾呕童,主要是輸入要轉(zhuǎn)換的ID漆际,選擇Ensembl Gene ID,將ID-list.txt導(dǎo)進(jìn)去夺饲,如果想獲取這個(gè)物種所有的對(duì)應(yīng)關(guān)系奸汇,那么久什么都不用選;
4 attribute往声,主要是選擇輸出的內(nèi)容擂找,這里作為ID轉(zhuǎn)換,輸出就是Ensembl Gene ID和ENTREZ GENE ID就行浩销。
5 設(shè)置完了以后最后點(diǎn)擊results就會(huì)返回結(jié)果了贯涎。
4 從NCBI下載Gene ID 對(duì)應(yīng)Ensemble ID的文件,寫腳本進(jìn)行轉(zhuǎn)換ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/
Ensembl的Gene ID想要得到它的GENE Symbol的時(shí)候慢洋,一轉(zhuǎn)換之后就有些對(duì)應(yīng)不上了塘雳,有的Ensembl Gene ID對(duì)應(yīng)不上Gene Symbol了,其實(shí)這是正常的且警,因?yàn)镋nsembl屬于EMBL-EBI粉捻,也就是歐洲生物信息學(xué)中心礁遣,NCBI屬于美國生物信息學(xué)中心斑芜,他們對(duì)于基因組注釋肯定是不同的,但是比較公認(rèn)的一個(gè)觀點(diǎn)是Ensembl Gene ID的注釋更加詳細(xì)祟霍,所以會(huì)出現(xiàn)一個(gè)Ensembl Gene ID對(duì)應(yīng)幾個(gè)Entrez Gene ID(Gene Symbol)杏头,或者一個(gè)Entrez Gene ID對(duì)應(yīng)幾個(gè)Ensembl Gene ID也是可能的,而我在對(duì)測(cè)序數(shù)據(jù)進(jìn)行注釋的時(shí)候幾乎都是選用Ensembl提供的參考序列以及注釋文件沸呐,一般不用NCBI的醇王。