五山生物 | 趕英超美貌笨?弱判!美國國家生物技術(shù)信息中心的基因表達(dá)數(shù)據(jù)庫了解?

網(wǎng)源網(wǎng)絡(luò)

美國國家生物技術(shù)信息中心的基因表達(dá)數(shù)據(jù)庫(GEO)項(xiàng)目是為了應(yīng)對(duì)高通量基因表達(dá)數(shù)據(jù)公共存儲(chǔ)庫日益增長的需求而發(fā)起的锥惋〔基因表達(dá)數(shù)據(jù)庫(GEO)提供了靈活和開放的設(shè)計(jì),便于從高通量基因表達(dá)和基因組雜交實(shí)驗(yàn)中提交膀跌、存儲(chǔ)和檢索不同類型的數(shù)據(jù)集遭商。基因表達(dá)數(shù)據(jù)庫(GEO)的目的不是要取代內(nèi)部的基因表達(dá)數(shù)據(jù)庫捅伤,這些數(shù)據(jù)庫受益于連貫的數(shù)據(jù)集劫流,并且構(gòu)建這些數(shù)據(jù)庫是為了促進(jìn)特定的分析方法,而是通過充當(dāng)?shù)谌?jí)中央數(shù)據(jù)分發(fā)中心來補(bǔ)充這些數(shù)據(jù)庫丛忆§艋悖基因表達(dá)數(shù)據(jù)庫(GEO)的三個(gè)核心數(shù)據(jù)實(shí)體是平臺(tái)、樣本和系列熄诡,設(shè)計(jì)時(shí)考慮到了基因表達(dá)和基因組雜交實(shí)驗(yàn)可很。從本質(zhì)上講,平臺(tái)是一系列探針凰浮,它們定義了可以檢測到的分子集我抠。一個(gè)樣本描述了正在被探測的一組分子,并引用了用于生成其分子豐度數(shù)據(jù)的單一平臺(tái)袜茧。一系列將樣本組織成有意義的數(shù)據(jù)集菜拓,這些數(shù)據(jù)集構(gòu)成了一個(gè)實(shí)驗(yàn)”怪埽基因表達(dá)數(shù)據(jù)庫(GEO)可通過萬維網(wǎng)公開訪問尘惧。

網(wǎng)源網(wǎng)絡(luò)

設(shè)計(jì)

基因表達(dá)數(shù)據(jù)庫(GEO)將數(shù)據(jù)分成三個(gè)主要組件,平臺(tái)递递、樣本和系列喷橙,每個(gè)組件都在關(guān)系數(shù)據(jù)庫中訪問(即給定唯一和恒定的標(biāo)識(shí)符)啥么。為了實(shí)現(xiàn)開放和靈活的設(shè)計(jì),允許存儲(chǔ)和檢索非常不同的數(shù)據(jù)類型贰逾,數(shù)據(jù)沒有在數(shù)據(jù)庫中完全細(xì)化悬荣。取而代之的是,為每個(gè)平臺(tái)和每個(gè)示例存儲(chǔ)制表符分隔的ASCII表疙剑。該表由多個(gè)列以及相應(yīng)的列標(biāo)題名稱組成氯迂。此表中的數(shù)據(jù)目前部分提取用于編制索引,但可能會(huì)進(jìn)一步提取以進(jìn)行更廣泛的搜索和檢索言缤。此外嚼蚀,提交者可提供任意數(shù)量的補(bǔ)充列,以包括提交者定義的附加信息管挟。

網(wǎng)源網(wǎng)絡(luò)

平臺(tái)的實(shí)例本質(zhì)上是一系列探針轿曙,它們定義了在利用該平臺(tái)的任何實(shí)驗(yàn)中可以檢測到的分子集。例如僻孝,平臺(tái)數(shù)據(jù)表可以包含標(biāo)識(shí)每個(gè)探針(SPOT)的位置和生物試劑含量的GEO定義的列导帝,諸如GenBank登錄號(hào)、開放閱讀框架(ORF)名稱和克隆識(shí)別符穿铆,以及提交者定義的列您单。平臺(tái)登錄號(hào)有一個(gè)‘GPL’前綴。

一個(gè)樣本的實(shí)例描述了正在被探測的一組分子的派生荞雏,并利用平臺(tái)來產(chǎn)生分子豐度數(shù)據(jù)虐秦。每個(gè)樣本都有且只能有一個(gè)必須預(yù)先定義的父平臺(tái)。例如讯檐,樣本數(shù)據(jù)表可以包含指示在其平臺(tái)中定義的相應(yīng)斑點(diǎn)的最終相關(guān)豐度值的列羡疗,以及任何其他由GEO定義的(例如染服,原始信號(hào)别洪、背景信號(hào))和提交者定義的列。樣本登錄號(hào)有一個(gè)‘GSM’前綴柳刮。

序列的實(shí)例將樣本組織成組成實(shí)驗(yàn)的有意義的數(shù)據(jù)集挖垛,并由共同的屬性綁定在一起。系列登錄號(hào)有一個(gè)‘GSE’前綴秉颗。

提交

對(duì)于新提交的和更新的提交痢毒,有兩種通信模式可用,即交互或直接存放蚕甥。交互式Web表單界面路線簡單明了哪替,最適合偶爾提交數(shù)量相對(duì)較少的樣本。通過直接存放簡單總括格式(SOFT)的文件菇怀,可以將大量提交的大量數(shù)據(jù)集迅速并入地球觀測組織凭舶。SOFT是一種基于行的ASCII文本格式晌块,允許在一個(gè)文件中表示多個(gè)GEO平臺(tái)、樣本和系列帅霜。在Soft中匆背,元數(shù)據(jù)顯示為標(biāo)簽-值對(duì),并與平臺(tái)和示例的制表符分隔的文本表相關(guān)聯(lián)身冀。Soft的設(shè)計(jì)使其易于使用現(xiàn)成的行掃描軟件進(jìn)行操作钝尸,并且可以非常容易地從電子表格、數(shù)據(jù)庫和分析軟件中生成或?qū)肫渲新ЦS嘘P(guān)SOFT和提交過程的更多信息珍促,可從網(wǎng)站獲得。

提交可以私下保存最多6個(gè)月剩愧;這項(xiàng)政策允許數(shù)據(jù)發(fā)布與稿件發(fā)布一致踢星。這些提交的材料有一個(gè)最終的加入號(hào),可能會(huì)在出版物中引用隙咸。在這一點(diǎn)上沐悦,提交的文件不是經(jīng)過整理的,而是經(jīng)過人工掃描五督,以確保滿足最低基本要求藏否。通過使用數(shù)據(jù)表中的標(biāo)準(zhǔn)列標(biāo)題并提供足夠的補(bǔ)充信息,使數(shù)據(jù)對(duì)其他人有用完全取決于提交者充包。

搜索和檢索

在編寫本報(bào)告時(shí)副签,僅通過登錄號(hào)就可以檢索完整的平臺(tái)、樣本和系列提交的材料基矮。對(duì)GEO中的數(shù)據(jù)進(jìn)行了廣泛的索引和鏈接淆储,并可通過名為Entrez ProbeSet的新Entrez數(shù)據(jù)庫進(jìn)行查詢。這個(gè)數(shù)據(jù)庫的Web界面使用與其他流行的NCBI資源(如PubMed和GenBank)相似的索引和鏈接引擎家浇。與任何其他Entrez數(shù)據(jù)庫一樣本砰,可以輸入一個(gè)簡單的布爾短語,并將其限制為任何數(shù)量的受支持屬性字段钢悲。匹配項(xiàng)鏈接到完整的GEO條目以及其他Entrez數(shù)據(jù)庫--目前是核苷酸点额、分類和PubMed-以及相關(guān)的Entrez ProbeSet條目。Entrez ProbeSet可通過Entrez網(wǎng)站作為用于選擇要查詢的Entrez數(shù)據(jù)庫的下拉菜單之一進(jìn)行訪問莺琳。

未來的發(fā)展

基因表達(dá)數(shù)據(jù)庫(GEO)正在不斷開發(fā)还棱,目的是改進(jìn)其索引、鏈接惭等、搜索和顯示能力珍手,以便能夠進(jìn)行更有力的數(shù)據(jù)挖掘。作為GEO儲(chǔ)存庫的擴(kuò)展,我們目前正在開發(fā)一個(gè)完全細(xì)化的豐度測量數(shù)據(jù)庫琳要,該數(shù)據(jù)庫將允許查詢和檢索單個(gè)豐度測量結(jié)果料扰。然而,在當(dāng)前高通量基因表達(dá)和基因組雜交實(shí)驗(yàn)的復(fù)雜性和快速發(fā)展帶來的限制下焙蹭,豐度測量可能只在類似派生的小組數(shù)據(jù)集內(nèi)具有可比性晒杈。我們計(jì)劃利用這些可比較的數(shù)據(jù)子集,以便盡可能多地查詢豐度測量數(shù)據(jù)孔厉,以及提供這些數(shù)據(jù)的有用的概觀拯钻。

英文原文

Edgar R, Domrachev M, Lash AE. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 2002 Jan 1;30(1):207-10. doi: 10.1093/nar/30.1.207. PMID: 11752295; PMCID: PMC99122.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市撰豺,隨后出現(xiàn)的幾起案子粪般,更是在濱河造成了極大的恐慌,老刑警劉巖污桦,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件亩歹,死亡現(xiàn)場離奇詭異,居然都是意外死亡凡橱,警方通過查閱死者的電腦和手機(jī)小作,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來稼钩,“玉大人顾稀,你說我怎么就攤上這事“映牛” “怎么了静秆?”我有些...
    開封第一講書人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長巡李。 經(jīng)常有香客問我抚笔,道長,這世上最難降的妖魔是什么侨拦? 我笑而不...
    開封第一講書人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任殊橙,我火速辦了婚禮,結(jié)果婚禮上阳谍,老公的妹妹穿的比我還像新娘蛀柴。我一直安慰自己螃概,他們只是感情好矫夯,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著吊洼,像睡著了一般训貌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,754評(píng)論 1 307
  • 那天递沪,我揣著相機(jī)與錄音豺鼻,去河邊找鬼。 笑死款慨,一個(gè)胖子當(dāng)著我的面吹牛儒飒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播檩奠,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼桩了,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了埠戳?” 一聲冷哼從身側(cè)響起井誉,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎整胃,沒想到半個(gè)月后颗圣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡屁使,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年在岂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛮寂。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡洁段,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出共郭,到底是詐尸還是另有隱情祠丝,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布除嘹,位于F島的核電站写半,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏尉咕。R本人自食惡果不足惜叠蝇,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望年缎。 院中可真熱鬧悔捶,春花似錦瞎嬉、人聲如沸窃页。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽毁靶。三九已至蝇更,卻和暖如春然遏,著一層夾襖步出監(jiān)牢的瞬間逊谋,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來泰國打工绢淀, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留萤悴,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓皆的,卻偏偏與公主長得像覆履,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子费薄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容