GEO(GENE EXPRESSION OMNIBUS)傲隶,https://www.ncbi.nlm.nih.gov/geo/,由美國國立生物技術(shù)信息中心NCBI創(chuàng)建維護(hù)的窃页,是個(gè)公開的基因數(shù)據(jù)庫跺株,包含了測序和芯片數(shù)據(jù)。在前面脖卖,我們介紹過利用GEO數(shù)據(jù)庫進(jìn)行芯片數(shù)據(jù)檢索乒省,今天我們再進(jìn)一步細(xì)化,如何利用GEO數(shù)據(jù)庫下載信息畦木。GEO數(shù)據(jù)包括五種袖扛,platforms、samples十籍、series攻锰、datasets和profiles。
其中原始數(shù)據(jù)包括GPL妓雾、GSM和GSE娶吞。
GPL(GEOPlatform):平臺信息,由芯片或測序公司提供械姻,含有芯片或測序平臺的描述信息妒蛇,芯片還包含了其注釋信息,每個(gè)平臺列出了使用該平臺的所有樣本和系列楷拳。
GSM(GEO?Sample):樣本信息绣夺,記錄單個(gè)樣本的生物學(xué)信息,處理流程及該樣本的原始數(shù)據(jù)(芯片或測序)欢揖。注意的是每個(gè)樣本數(shù)據(jù)僅對應(yīng)一個(gè)平臺陶耍。
GSE(GSESeries):系列,將一項(xiàng)研究中所關(guān)聯(lián)的GSM信息集合在一起她混,含研究名稱烈钞、設(shè)計(jì)、概要信息坤按。與GSM不同的是毯欣,GSE可以包含多個(gè)平臺以及子系列,一個(gè)樣本可以出現(xiàn)在多個(gè)系列中臭脓。
處理后的數(shù)據(jù)包含GDS和GEO Profiles酗钞。
GDS(GEO?DataSet):經(jīng)挑選整理的數(shù)據(jù)集記錄,如進(jìn)行背景校正、均一化處理砚作。每個(gè)GDS對應(yīng)一個(gè)平臺窘奏。
GEO?profiles:來源與GDS數(shù)據(jù),可以展現(xiàn)單個(gè)基因表達(dá)水平葫录。
GEO測序文件存儲形式包含SOFT蔼夜、MINiML、Series Matrix files以及Supplementary files压昼。
SOFT和MINiML存儲的內(nèi)容相同求冷,但格式不同。SOFT為ASCII格式窍霞,MINiML為XML格式匠题。Series Matrix files則以制表符為分隔的包含每個(gè)樣本具體數(shù)值的文本文件,包含GSM和GSE但金。Supplementary files列出GSM原始數(shù)據(jù)或一些樣本臨床信息韭山。
接下來我們到了我們演示環(huán)節(jié),首先進(jìn)入GEO官網(wǎng)冷溃。官網(wǎng)首頁含有GEO數(shù)據(jù)庫的概要钱磅,一些工具菜單,GEO數(shù)據(jù)庫概況以及對于上傳者的操作指南似枕。
我們在GEO首頁搜索欄搜索自己待檢索的關(guān)鍵詞盖淡,如“PD-1”拢驾,則會顯示GEO?Datasets以及GEO?Profiles中的結(jié)果峰伙,如需看基因表達(dá)譜昌执,則選擇GEO?Profiles衷模,如果其他信息,如GSE攘已、GSM和GPL等浦辨。我們之前也介紹過滔悉,在NCBI界面中我們也可以快速進(jìn)入GEO?Datasets以及GEO?Profiles虐拓。
這里我們現(xiàn)介紹GEO?Profiles心俗,選擇Profiles,則出現(xiàn)以下界面蓉驹,我們可以直接點(diǎn)擊圖形城榛,查看表達(dá)譜,右側(cè)按鈕“Download profile data”可以下載該信息戒幔。
同樣吠谢,我們以pdcd1-Autoimmune model:CD4+ T?cells為例土童,點(diǎn)擊該右側(cè)表達(dá)譜诗茎,出現(xiàn)下圖。我們可以看到該數(shù)據(jù)集是“GDS2460”,物種來源為“Mus musculus”敢订。分組信息為兩組王污,一組“wild type”,另一組為“sanroque”楚午。兩組表達(dá)“sanroque”高于“wild type”昭齐。另外左側(cè)紅色縱坐標(biāo)數(shù)據(jù)對應(yīng)“count”,右邊藍(lán)色則為“percentile rank with the sample”矾柜≮寮荩灰色方塊對應(yīng)的是GSM***,點(diǎn)擊它則可以查詢到該樣本信息怪蔑,如下圖里覆。
下拉到底部,可以下載對應(yīng)的信息缆瓣。其中CEL格式對應(yīng)Affymetrix芯片的原始數(shù)據(jù)喧枷。
點(diǎn)擊“Download profile data”,可以下載表達(dá)信息弓坞,txt格式隧甚。我們可以看到GDS數(shù)據(jù)集是GDS3138,以及GSM信息渡冻,平臺信息等戚扳。下載后可以利用EXCEl打開,或者利用其他分析軟件處理族吻。
下載GEO?datasets信息:以搜索“PD-1”和“l(fā)ung cancer”為例咖城,通過概要選擇自己需要的信息。我們可以看到Datasets(2)呼奢,Series(311)宜雀,samples(811),platforms(2)握础。
GPL對應(yīng)數(shù)據(jù)包含annotation(注釋信息)辐董,主要用于探針名和基因名切換。SOFT禀综、MINiML格式包含GSM和GSE信息简烘,比較大,一般不直接用于分析定枷。
下拉到底部孤澎,我們可以看到該GPL的注釋信息,點(diǎn)擊“Download full table”欠窒,可以下載注釋信息覆旭。
點(diǎn)擊samples對應(yīng)的GSM**,可以查詢到樣本信息,拉到底部型将,我們可以通過補(bǔ)充文件看到該樣本的芯片表達(dá)數(shù)據(jù)寂祥。如“GSM4066172_KTM001_1392179_ClariomSmouse.CEL.gz”,表示gzip壓縮的CEL格式文件七兜,GSM4066172為樣本編號丸凭,KTM001_1392179為樣本分組信息
GSE數(shù)據(jù),我們之前也介紹過腕铸,同樣點(diǎn)擊GSE***惜犀,下拉到底部,在“Download family”中有三個(gè)格式數(shù)據(jù)狠裹,SOFT向拆、MINiML和Series Matrix file,前面兩個(gè)為涉及到樣本的信息和平臺數(shù)據(jù)酪耳,內(nèi)容比較大浓恳,我們通常選擇Series Matrix file數(shù)據(jù)下載進(jìn)行分析,該類數(shù)據(jù)經(jīng)過矩陣化處理碗暗。同樣颈将,我們可以在補(bǔ)充文件中下載原始數(shù)據(jù),http下載所有信息言疗,或者通過custom下載部分樣本信息晴圾。
值得注意的是,一個(gè)GSE可以按照平臺形成多個(gè)Series Matrix file噪奄。
除了我們通過網(wǎng)站直接下載相應(yīng)數(shù)據(jù)庫信息死姚,還可以通過ftp下載,ftp://ftp.ncbi.nlm.nih.gov/geo/勤篮。
datasets/, platforms/ , samples/, series/都毒,分別對應(yīng)4 種數(shù)據(jù)類型 GDS、GPL碰缔、GSM 和 GSE账劲。將數(shù)據(jù)編號的最后 3 位數(shù)字替換為 nnn。然后緊接數(shù)據(jù)編號金抡,就可以直達(dá)文件的 ftp 存儲頁面瀑焦。