數(shù)據(jù)下載:
可以通過(guò)GEOquery這個(gè)R包進(jìn)行下載,或者直接在網(wǎng)頁(yè)上下載---下載的內(nèi)容包括:==表達(dá)矩陣== 和 ==注釋文件==
rm(list = ls())#一鍵清空環(huán)境中的對(duì)象
options(stringsAsFactors = F)#默認(rèn)的設(shè)置
library(GEOquery)
gse = "GSE107943"#需要找到需要下載的數(shù)據(jù)的GSE 號(hào)
eSet <- getGEO(gse,
destdir = '.',
getGPL = F)
#下載數(shù)據(jù)顷窒,并創(chuàng)建表達(dá)矩陣對(duì)象誓竿;
#'.'表示當(dāng)前工作目的
gpl <- eSet[[1]]@annotation#獲取GPL號(hào)
gpl <- getGEO(GEO = gpl,destdir = ".",)#下載GPL文件
#解析GPL文件:
if(F){}#用于折疊長(zhǎng)代碼
if(F){
gpl1 <- getGEO(GEO = "GPL570",destdir = ".",AnnotGPL = TRUE) #下載gpl570對(duì)應(yīng)的文件鳖擒,如何解析呢球及?
table <- gpl1@dataTable@table
class(table)
dim(table)
colnames(table)
table1 <- table[,c(1,3)]
table1[1:4,1:2]
#當(dāng)然也可以看GEOquery這個(gè)包中的幫助文檔合愈,獲取其中要用于ID轉(zhuǎn)換的列的信息
}
獲取表達(dá)矩陣以及臨床信息:
- 兩種方式:
- 通過(guò)exprs()獲取表達(dá)矩陣:
#exprs()函數(shù)用于獲取表達(dá)矩陣
exp <- exprs(eSet[[1]])
exp[1:4,1:4]
dim(exp)
class(exp)
colnames(exp)
str(exp)
- 通過(guò)下載的數(shù)據(jù)照捡,直接用read.table()函數(shù)讀取數(shù)據(jù),讀取的過(guò)程中需要用的read.table()函數(shù)的一些小技巧
exp= read.table(file = "", head = , )
-
臨床信息不是所有的數(shù)據(jù)集都有提供:具體有無(wú)臨床信息可以在網(wǎng)頁(yè)上看它的數(shù)據(jù)介紹或者是點(diǎn)開(kāi)一個(gè)GSE序列號(hào)下面的GSM樣本颅湘,看其中的數(shù)據(jù)內(nèi)容
如果有臨床信息,可以通過(guò)下方代碼提取臨床信息:
pd <- pData(eSet[[1]])#獲取臨床信息 class(pd) dim(pd) rownames(pd) colnames(pd)
-
調(diào)整表達(dá)矩陣的列名與臨床信息的行名一致:
p = identical(rownames(pd),colnames(exp));p if(!p) exp = exp[,match(rownames(pd),colnames(exp))]# 調(diào)整列名的順序
注意栗精,這個(gè)地方只能rownames(pd)在前→colnames(exp)在后