美國國家生物技術(shù)信息中心的基因表達(dá)數(shù)據(jù)庫(GEO)項(xiàng)目是為了應(yīng)對(duì)高通量基因表達(dá)數(shù)據(jù)公共存儲(chǔ)庫日益增長的需求而發(fā)起的锥惋〔基因表達(dá)數(shù)據(jù)庫(GEO)提供了靈活和開放的設(shè)計(jì),便于從高通量基因表達(dá)和基因組雜交實(shí)驗(yàn)中提交膀跌、存儲(chǔ)和檢索不同類型的數(shù)據(jù)集遭商。基因表達(dá)數(shù)據(jù)庫(GEO)的目的不是要取代內(nèi)部的基因表達(dá)數(shù)據(jù)庫捅伤,這些數(shù)據(jù)庫受益于連貫的數(shù)據(jù)集劫流,并且構(gòu)建這些數(shù)據(jù)庫是為了促進(jìn)特定的分析方法,而是通過充當(dāng)?shù)谌?jí)中央數(shù)據(jù)分發(fā)中心來補(bǔ)充這些數(shù)據(jù)庫丛忆§艋悖基因表達(dá)數(shù)據(jù)庫(GEO)的三個(gè)核心數(shù)據(jù)實(shí)體是平臺(tái)、樣本和系列熄诡,設(shè)計(jì)時(shí)考慮到了基因表達(dá)和基因組雜交實(shí)驗(yàn)可很。從本質(zhì)上講,平臺(tái)是一系列探針凰浮,它們定義了可以檢測到的分子集我抠。一個(gè)樣本描述了正在被探測的一組分子,并引用了用于生成其分子豐度數(shù)據(jù)的單一平臺(tái)袜茧。一系列將樣本組織成有意義的數(shù)據(jù)集菜拓,這些數(shù)據(jù)集構(gòu)成了一個(gè)實(shí)驗(yàn)”怪埽基因表達(dá)數(shù)據(jù)庫(GEO)可通過萬維網(wǎng)公開訪問尘惧。
設(shè)計(jì)
基因表達(dá)數(shù)據(jù)庫(GEO)將數(shù)據(jù)分成三個(gè)主要組件,平臺(tái)递递、樣本和系列喷橙,每個(gè)組件都在關(guān)系數(shù)據(jù)庫中訪問(即給定唯一和恒定的標(biāo)識(shí)符)啥么。為了實(shí)現(xiàn)開放和靈活的設(shè)計(jì),允許存儲(chǔ)和檢索非常不同的數(shù)據(jù)類型贰逾,數(shù)據(jù)沒有在數(shù)據(jù)庫中完全細(xì)化悬荣。取而代之的是,為每個(gè)平臺(tái)和每個(gè)示例存儲(chǔ)制表符分隔的ASCII表疙剑。該表由多個(gè)列以及相應(yīng)的列標(biāo)題名稱組成氯迂。此表中的數(shù)據(jù)目前部分提取用于編制索引,但可能會(huì)進(jìn)一步提取以進(jìn)行更廣泛的搜索和檢索言缤。此外嚼蚀,提交者可提供任意數(shù)量的補(bǔ)充列,以包括提交者定義的附加信息管挟。
平臺(tái)的實(shí)例本質(zhì)上是一系列探針轿曙,它們定義了在利用該平臺(tái)的任何實(shí)驗(yàn)中可以檢測到的分子集。例如僻孝,平臺(tái)數(shù)據(jù)表可以包含標(biāo)識(shí)每個(gè)探針(SPOT)的位置和生物試劑含量的GEO定義的列导帝,諸如GenBank登錄號(hào)、開放閱讀框架(ORF)名稱和克隆識(shí)別符穿铆,以及提交者定義的列您单。平臺(tái)登錄號(hào)有一個(gè)‘GPL’前綴。
一個(gè)樣本的實(shí)例描述了正在被探測的一組分子的派生荞雏,并利用平臺(tái)來產(chǎn)生分子豐度數(shù)據(jù)虐秦。每個(gè)樣本都有且只能有一個(gè)必須預(yù)先定義的父平臺(tái)。例如讯檐,樣本數(shù)據(jù)表可以包含指示在其平臺(tái)中定義的相應(yīng)斑點(diǎn)的最終相關(guān)豐度值的列羡疗,以及任何其他由GEO定義的(例如染服,原始信號(hào)别洪、背景信號(hào))和提交者定義的列。樣本登錄號(hào)有一個(gè)‘GSM’前綴柳刮。
序列的實(shí)例將樣本組織成組成實(shí)驗(yàn)的有意義的數(shù)據(jù)集挖垛,并由共同的屬性綁定在一起。系列登錄號(hào)有一個(gè)‘GSE’前綴秉颗。
提交
對(duì)于新提交的和更新的提交痢毒,有兩種通信模式可用,即交互或直接存放蚕甥。交互式Web表單界面路線簡單明了哪替,最適合偶爾提交數(shù)量相對(duì)較少的樣本。通過直接存放簡單總括格式(SOFT)的文件菇怀,可以將大量提交的大量數(shù)據(jù)集迅速并入地球觀測組織凭舶。SOFT是一種基于行的ASCII文本格式晌块,允許在一個(gè)文件中表示多個(gè)GEO平臺(tái)、樣本和系列帅霜。在Soft中匆背,元數(shù)據(jù)顯示為標(biāo)簽-值對(duì),并與平臺(tái)和示例的制表符分隔的文本表相關(guān)聯(lián)身冀。Soft的設(shè)計(jì)使其易于使用現(xiàn)成的行掃描軟件進(jìn)行操作钝尸,并且可以非常容易地從電子表格、數(shù)據(jù)庫和分析軟件中生成或?qū)肫渲新ЦS嘘P(guān)SOFT和提交過程的更多信息珍促,可從網(wǎng)站獲得。
提交可以私下保存最多6個(gè)月剩愧;這項(xiàng)政策允許數(shù)據(jù)發(fā)布與稿件發(fā)布一致踢星。這些提交的材料有一個(gè)最終的加入號(hào),可能會(huì)在出版物中引用隙咸。在這一點(diǎn)上沐悦,提交的文件不是經(jīng)過整理的,而是經(jīng)過人工掃描五督,以確保滿足最低基本要求藏否。通過使用數(shù)據(jù)表中的標(biāo)準(zhǔn)列標(biāo)題并提供足夠的補(bǔ)充信息,使數(shù)據(jù)對(duì)其他人有用完全取決于提交者充包。
搜索和檢索
在編寫本報(bào)告時(shí)副签,僅通過登錄號(hào)就可以檢索完整的平臺(tái)、樣本和系列提交的材料基矮。對(duì)GEO中的數(shù)據(jù)進(jìn)行了廣泛的索引和鏈接淆储,并可通過名為Entrez ProbeSet的新Entrez數(shù)據(jù)庫進(jìn)行查詢。這個(gè)數(shù)據(jù)庫的Web界面使用與其他流行的NCBI資源(如PubMed和GenBank)相似的索引和鏈接引擎家浇。與任何其他Entrez數(shù)據(jù)庫一樣本砰,可以輸入一個(gè)簡單的布爾短語,并將其限制為任何數(shù)量的受支持屬性字段钢悲。匹配項(xiàng)鏈接到完整的GEO條目以及其他Entrez數(shù)據(jù)庫--目前是核苷酸点额、分類和PubMed-以及相關(guān)的Entrez ProbeSet條目。Entrez ProbeSet可通過Entrez網(wǎng)站作為用于選擇要查詢的Entrez數(shù)據(jù)庫的下拉菜單之一進(jìn)行訪問莺琳。
未來的發(fā)展
基因表達(dá)數(shù)據(jù)庫(GEO)正在不斷開發(fā)还棱,目的是改進(jìn)其索引、鏈接惭等、搜索和顯示能力珍手,以便能夠進(jìn)行更有力的數(shù)據(jù)挖掘。作為GEO儲(chǔ)存庫的擴(kuò)展,我們目前正在開發(fā)一個(gè)完全細(xì)化的豐度測量數(shù)據(jù)庫琳要,該數(shù)據(jù)庫將允許查詢和檢索單個(gè)豐度測量結(jié)果料扰。然而,在當(dāng)前高通量基因表達(dá)和基因組雜交實(shí)驗(yàn)的復(fù)雜性和快速發(fā)展帶來的限制下焙蹭,豐度測量可能只在類似派生的小組數(shù)據(jù)集內(nèi)具有可比性晒杈。我們計(jì)劃利用這些可比較的數(shù)據(jù)子集,以便盡可能多地查詢豐度測量數(shù)據(jù)孔厉,以及提供這些數(shù)據(jù)的有用的概觀拯钻。
英文原文
Edgar R, Domrachev M, Lash AE. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 2002 Jan 1;30(1):207-10. doi: 10.1093/nar/30.1.207. PMID: 11752295; PMCID: PMC99122.