通過加載GEOquery包夷磕,使用getGEO函數可以得到對應GEO號的表達矩陣,注釋信息擦俐,樣本信息等甚颂。以GSE76275為例。
rm(list = ls())
options()$repos #翻墻
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
library(GEOquery)
gset <- getGEO('GSE76275', destdir=".",
AnnotGPL = T, ## 注釋文件
getGPL = T) ## 平臺文件
然而由于網絡等問題,getGEO函數可能會出錯叉谜。
image.png
以下為解決方法。
1.表達矩陣
進入GEO網站袁稽,找到對應的Series Matrix File(s)即表達矩陣進行下載,保存到本地進行加載莲组。
image.png
image.png
image.png
在R中打開,由于read.table之后的表達矩陣與getGEO之后的有一定出入,需要處理一下雀扶。
a1<-read.table("GSE76275_series_matrix.txt.gz",sep="\t",quote = "",
fill=T,comment.char = "!",header=T)
rownames(a1)<-a1[,1] #把第一列的值變?yōu)樾忻?a1<-a1[,-1] #把第一列去掉
# 另外還需要把行名杖小、列名進行一定的處理,去掉前后多余的字符愚墓。
image.png
image.png
2.注釋信息
在GEO網站找到GSE76275對應的注釋信息號為GPL570
image.png
在R中直接單獨下載GPL570予权,可以看到GPL570中含有很多信息,我們可能只需要其GENE ID以及GENE SYMBOL浪册,提取出來即可
GPL570 <- getGEO("GPL570",destdir = ".")
法2 在得到GPL號之后扫腺,去菜鳥團網站http://www.bio-info-trainee.com/1399.html 找到對應注釋信息的R包
image.png
下載并加載R包,可得注釋信息村象。詳見http://www.reibang.com/p/e15ee2cd3174
3.可能getGEO("GPL570",destdir = ".")還是不行
在我們下載好表達矩陣之后笆环,可以再試一次
Gset <- getGEO('GSE76275', destdir=".",
AnnotGPL = F, ## 注釋文件
getGPL = F) ## 平臺文件
這時因為本地已經存在表達矩陣的文件攒至,可能會促進網絡對整體的加載,將樣本信息一并下載下來躁劣。此后再進行一系列操作就很方便了迫吐。
ggset <- Gset[[1]]
pdata <- pData(ggset)
eexprs <- exprs(ggset)
參考來源:生信技能樹
友情鏈接:
課程分享
生信技能樹全球公益巡講
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小時生信工程師教學視頻合輯
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招學徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)
歡迎關注公眾號:青島生信菜鳥團