看過很多GEO數(shù)據(jù)挖掘的教程,一直都是芯片數(shù)據(jù)舉例喉悴。我自己也根據(jù)流程(Taolu)分析過好幾個geo芯片數(shù)據(jù)棱貌。一直有個疑惑,
GEO上都是芯片數(shù)據(jù)嗎箕肃?
GSE開頭的都是芯片數(shù)據(jù)嗎婚脱?
今天在大神健明老師的敦促下,我又一次打開熟悉又陌生的GEO頁面勺像。重新讀一下GEO數(shù)據(jù)庫的介紹障贸。熟悉是因為這個頁面我打開過不止百次了,陌生是因為從沒認真讀過這個頁面的內(nèi)容吟宦。
開篇第一句就寫了芯片和測序數(shù)據(jù)我們都是接受的篮洁。
但是我看到的GEO挖掘?qū)嵗际切酒瑸槔]見過GEO上的測序數(shù)據(jù)是啥樣殃姓。所以這也是導致我產(chǎn)生這個錯覺的主要原因袁波。我需要找到一個不是芯片的例子來看看。畢竟眼見為實嘛蜗侈。于是我開始搜索篷牌。希望找到GEO數(shù)據(jù)的一些存放規(guī)律。
1.解讀GEO數(shù)據(jù)存放規(guī)律及下載踏幻,一文就夠
首先看到了健明老師這一篇枷颊,開篇就說了
GEO數(shù)據(jù)庫起先只是為表達芯片數(shù)據(jù)準備的,后期納入了各種NGS組學數(shù)據(jù)该面,文章里面會給出數(shù)據(jù)地址夭苗,GSE ID號,由此我們就可以進入GEO數(shù)據(jù)庫隔缀,進而了解它题造!
其實只需要理解下面的4個概念。
GEO Platform (GPL)
GEO Sample (GSM)
GEO Series (GSE)
GEO Dataset (GDS)
理解起來也很容易猾瘸。一篇文章可以有一個或者多個GSE數(shù)據(jù)集晌梨,一個GSE里面可以有一個或者多個GSM樣本桥嗤。多個研究的GSM樣本可以根據(jù)研究目的整合為一個GDS,不過GDS本身用的很少仔蝌。而每個數(shù)據(jù)集都有著自己對應(yīng)的芯片平臺,就是GPL荒吏。
然后還是芯片挖掘的例子
2.從GEO數(shù)據(jù)庫下載得到表達矩陣 一文就夠
然后又看到了這一篇敛惊,文中提到geo上的illumina測序芯片。這個illumina我是知道的绰更,這個公司就是二代測序的代表瞧挤,有點靠近轉(zhuǎn)錄組的意思了。
3.GEO數(shù)據(jù)挖掘技術(shù)可以應(yīng)用到表達芯片也可以是轉(zhuǎn)錄組測序
最終定位到這一篇解決了我的疑惑儡湾。
那如果是RNA-seq測序數(shù)據(jù)呢特恬?
通常呢,RNA-seq測序數(shù)據(jù)并不會把其表達矩陣存儲在Series Matrix File(s) 里面徐钠,所以 你使用我的標準代碼:
rm(list = ls()) ## 魔幻操作癌刽,一鍵清空~
options(stringsAsFactors = F)#在調(diào)用as.data.frame的時,將stringsAsFactors設(shè)置為FALSE可以避免character類型自動轉(zhuǎn)化為factor類型
# 注意查看下載文件的大小尝丐,檢查數(shù)據(jù)
f='GSE103611_eSet.Rdata'
# https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE103611
library(GEOquery)
# 這個包需要注意兩個配置显拜,一般來說自動化的配置是足夠的。
#Setting options('download.file.method.GEOquery'='auto')
#Setting options('GEOquery.inmemory.gpl'=FALSE)
if(!file.exists(f)){
gset <- getGEO('GSE103611', destdir=".",
AnnotGPL = F, ## 注釋文件
getGPL = F) ## 平臺文件
save(gset,file=f) ## 保存到本地
}
load('GSE103611_eSet.Rdata') ## 載入數(shù)據(jù)
class(gset) #查看數(shù)據(jù)類型
length(gset) #
class(gset[[1]])
gset
# assayData: 352859 features, 48 samples
比如對 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE106292 上面的代碼就拿不到表達矩陣
因為爹袁,這個是RNA-seq數(shù)據(jù)远荠,作者會把自己的表達矩陣變成Excel表格,方便大家探索失息!
記住譬淳,我這里強調(diào)了是作者自己的表達矩陣,因為RNA-seq數(shù)據(jù)分析流程還不一樣盹兢!參數(shù)不一樣邻梆,軟件不一樣,數(shù)據(jù)庫不一樣蛤迎,而且最后的表達矩陣的表現(xiàn)形式又不一樣确虱!是原始的counts還是RPKM,TPM都不一樣替裆!如果作者確實不上傳其表達矩陣校辩,你也沒辦法,只能是自己走RNA-seq數(shù)據(jù)分析流程:
這里面的知識細節(jié)太復(fù)雜了辆童,我就不一一展開宜咒!建議大家看我們閱讀量過10萬的RNA-seq系列推文,比如:表達矩陣的歸一化和標準化把鉴,去除極端值故黑,異常值
然后我想下載下來看看儿咱,先用網(wǎng)絡(luò)下載一個是不完整是空白,換用手機熱點场晶,提示需要14天才能下載完混埠。
等以后網(wǎng)速好的時候再看好了。至少我已經(jīng)知道了GEO上是有測序數(shù)據(jù)的