GEO(Gene Expression Omnibus, 基因表達(dá)數(shù)據(jù)庫)是當(dāng)今最大车吹、最全面的公共基因表達(dá)數(shù)據(jù)庫
GEO的數(shù)據(jù)主要存放于GEO DataSet和GEO Profile兩個數(shù)據(jù)庫內(nèi)
構(gòu)成
- 用戶提交的原始數(shù)據(jù)
- Platform
- Samples
- Series
- GEO數(shù)據(jù)庫整理后的數(shù)據(jù)
- DataSet
- Profile
Platform
- 平臺是描述一連串在特定實驗中被檢測或被定量分析的因素育苟,對應(yīng)一個提交者和許多樣本
- 是關(guān)于以高通量方式檢查樣本的物理試劑的信息较鼓,比如寡核苷酸探針組、cDNA违柏、SAGE標(biāo)簽博烂、抗體等
- 一個平臺和許多系列有關(guān)
- 每個Platform分配有一個檢索號,如GPL123
Sample
- 樣本是以一個平臺為基礎(chǔ)漱竖,描述某個雜交實驗或者實驗條件的所有特征因素的大量測量信息禽篱,即關(guān)與被檢查的mRNA樣本,實驗條件和實驗產(chǎn)生的基因表達(dá)測量數(shù)據(jù)信息
- 每個樣本有且只有一個平臺馍惹、一個提交者
描述了每個樣本的操作環(huán)境躺率、處理方法玛界,以及分離出的各個成分的豐度測量 - 每個Sample分配有一個檢索號,如GSM123
Series
- 系列是把構(gòu)成某個實驗的相關(guān)樣本集中到一起的一個有生物意義的數(shù)據(jù)集
- 可能還會收集一些已被遞呈者注明的重要基因或者分析結(jié)果綱要(如:樣本收集悼吱,樣本是如何相關(guān)的慎框,如何排序的,分析是如何進(jìn)行的后添,聚類數(shù)據(jù)是如何獲得的)
- 一個系列中的樣品是通過某一共同的屬性聯(lián)結(jié)在一起的笨枯,與一個提交者和多個樣本有關(guān)
系列數(shù)據(jù)將一系列相關(guān)的樣本聯(lián)系起來,提供了整個研究的關(guān)注點和描述吕朵,也包含了描述提取數(shù)據(jù)猎醇、簡要結(jié)論和分析的表格
每個Series分配有一個檢索號,如GSE123
DataSets
- 由GEO進(jìn)行分析努溃,把提交到GEO的樣本歸納集中到有生物學(xué)意義和在統(tǒng)計學(xué)上可比較的GEO數(shù)據(jù)集組(DataSets)硫嘶,以實驗為中心
- DataSets能提供關(guān)于一個實驗的相關(guān)梗概,以此作為下游數(shù)據(jù)挖掘和數(shù)據(jù)顯示工具的基礎(chǔ)
- 每個DataSets分配有一個檢索號梧税,如GDS123
Profiles
- 表達(dá)譜儲存了來自DataSets的基因表達(dá)譜信息
- 每一個表達(dá)譜都表現(xiàn)為一個能反映一個數(shù)據(jù)集組中所有樣本的基因表達(dá)量的統(tǒng)計圖
- 表達(dá)譜儲存了一個數(shù)據(jù)集中一個基因在不同樣本中的表達(dá)情況沦疾,以基因為中心
檢索
網(wǎng)址:https://www.ncbi.nlm.nih.gov/geo/
在搜索框輸入關(guān)鍵詞,可以選擇搜索DataSets或Profiles
按數(shù)據(jù)類型檢索
在Browse Content一欄中第队,我們可以選擇在所有的DataSets哮塞、Series、Platforms或Samples中進(jìn)行檢索凳谦,或者也可以點擊Repository Browser忆畅,獲取更詳細(xì)的分類信息
在Repository Browser頁面中,除了Series尸执、Platforms家凯,Samples,Organisms等大分類外如失,在每一大分類下還有若干較為詳細(xì)的分類绊诲,我們可以根據(jù)需求選擇相應(yīng)的小類進(jìn)行檢索
從NCBI主頁檢索
NCBI主頁中可以找到GEO DataSet和GEO Profile兩個字段,可以在這里直接檢索
原始數(shù)據(jù)
由原作者上傳的數(shù)據(jù)存放于Series中
下載
GEO的FTP服務(wù)器:ftp://ftp.ncbi.nlm.nih.gov/geo/series/
也可以直接從檢索結(jié)果中下載