GEO蚜迅,全稱 Gene Expression Omnibus(基因表達(dá)綜合數(shù)據(jù)庫)捎泻,網(wǎng)址∶ https∶/ww.ncbinlm.nih.gov/geo/,是由美國國立生物技術(shù)信息中心 ( National Center for Biotechnology Information诡曙,NCBD于2000年創(chuàng)建并維護(hù)至今的高通量基因表達(dá)數(shù)據(jù)庫讲仰。
GEO是一個(gè)國際公共存儲庫,收錄并整理了全球范圍內(nèi)研究工作者上傳的微陣列芯片击奶、二代測序以及其他形式的高通量基因組數(shù)據(jù)渔呵,并提供免費(fèi)下載。
GEO數(shù)據(jù)有兩種存儲形式:
- GEO DataSets 以數(shù)據(jù)集為單位荠雕,存儲同一個(gè)實(shí)驗(yàn)中的數(shù)據(jù)稳其;
- GEO Profiles 以基因?yàn)閱挝唬鎯蛟跀?shù)據(jù)集中的表達(dá)譜炸卑。
組織結(jié)構(gòu)從大到屑染稀:
- Platforms:高通量實(shí)驗(yàn)檢測所用工具(哪個(gè)公司哪款產(chǎn)品),編號GPL開頭盖文,例如 GPL570
- Series:構(gòu)成某個(gè)實(shí)驗(yàn)的相關(guān)樣本嘱蛋,組成一個(gè)有生物意義的數(shù)據(jù)集。包括樣本信息和方案設(shè)計(jì)等信息五续,可以看做一套完整的實(shí)驗(yàn)方案洒敏,實(shí)際上每個(gè) Series基本對應(yīng)一篇完整的論文。編號GSE開頭疙驾,例如GSE5764凶伙。一個(gè)gse有多個(gè)sample(樣本)
- Datasets & Profiles:高質(zhì)量的GSE數(shù)據(jù)集還會被GEO官方工作者整理為Datasets和Profiles。Datasets 是分析好的Series它碎,編號以GDS開頭函荣,所有g(shù)ds也有多個(gè)sample。
- Sample:樣本
GEO的研究數(shù)據(jù)類型:
數(shù)據(jù)類型有9種扳肛,以芯片為主傻挂,例如RNA、甲基化和SNP芯片數(shù)據(jù)等挖息。也包括很多高通量測序數(shù)據(jù)金拒。
高通量測序數(shù)據(jù),原始數(shù)據(jù)存儲在SRA旋讹,處理后數(shù)據(jù)則存儲在GEO中殖蚕。
在使用GEO數(shù)據(jù)時(shí),千萬不要忘記注明引用該數(shù)據(jù)文獻(xiàn)的PMID編號沉迹!
下載數(shù)據(jù)
使用R語言下載:
library(GEOquery)
GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
# 支持多種編號下載:GSE57820睦疫、
# # destdir設(shè)置當(dāng)前目錄,getGPL 和AnnotGPL都設(shè)置TRUE鞭呕,可以下載和獲得平臺的注釋文件
利用GDS號下載
GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
利用GSM號下載(單樣本的表達(dá)數(shù)據(jù)):
GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
利用GPL號下載:
GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
針對芯片平臺蛤育,利用GPL號下載得到的數(shù)據(jù)是芯片的設(shè)計(jì)和注釋信息,可以獲得探針組和基因的對應(yīng)關(guān)系。
參考文章
https://www.sohu.com/a/583980773_121118947
https://www.cnblogs.com/yahengwang/p/9676422.html