基于web工具牢硅,用戶可以對GEO存儲的大量數(shù)據(jù)進行瀏覽,查詢和可視化芝雪。通過四種編號GPL减余,GDS,GSE和GSM可以獲得完整的平臺惩系,數(shù)據(jù)集位岔,系列以及樣本的信息.
其中屬于用戶提交的原始數(shù)據(jù)包括:GPL(Platform),GSM(Sample),GSE(Series)如筛。GEO數(shù)據(jù)庫整理后的數(shù)據(jù)包括:數(shù)據(jù)集GDS(DataSets), 表達譜(Profiles).GEO根據(jù)平臺,數(shù)據(jù)集抒抬,系列和樣本四種形式組織數(shù)據(jù)杨刨。
平臺(Platform,GPLXXX)檢索
平臺信息是由微陣列的簡要描述和用來確定微陣列模板的數(shù)據(jù)表構(gòu)成擦剑。最基本的平臺想信息是探針列表妖胀,它們規(guī)定了哪些基因可以在該芯片平臺上被檢測出來,平臺編號以GPL為起始惠勒。以GPL6244為例點擊網(wǎng)址.
步驟如下:
1.在GEO主界面點擊Platform赚抡,進入平臺檢索界面;
2.檢索框中輸入檢索號GPL6244纠屋,點擊search涂臣;跳轉(zhuǎn)至檢索結(jié)果。
3.點擊下圖中的“GPL6244”跳轉(zhuǎn)至詳細信息售担。
4.平臺包含的信息介紹
打開網(wǎng)址看到平臺信息主要包括兩個部分赁遗,上半部分主要是平臺信息的描述(見下圖1),下半部分是平臺數(shù)據(jù)信息描述(見下圖2)族铆。
平臺(Platform岩四,GPLXXX)數(shù)據(jù)下載
- Platform包含的文件,
一個platform通常包含3種文件:分別是soft文件,minimal文件以及suppl文件哥攘,這里我們重點介紹soft文件剖煌,soft文件位置見下圖:
找到下載文件,soft文件(這里用的例子的文件很大献丑,等待的時間會長些)
soft文件下載好了以后,對文件進行解壓侠姑,將文件的后綴改為“xls”或“xlsx”创橄,用Excel打開該文件,然后我們對soft 文件內(nèi)容進行解讀:soft和miniml都是顯示的platform的基礎(chǔ)信息莽红。在soft文件中妥畏,每種類型的信息以^開頭,這里介紹常見的幾種類別:
(1)DATABASE代表GEO數(shù)據(jù)庫的基本信息;
(2)PLATFORM代表該平臺的基本信息;
(3)SAMPLE代表用該平臺得到的樣本信息;
(4)SERIES代表使用該平臺得到的一組樣本安吁。
在每種類別中,!開頭代表一種類型的信息醉蚁,常規(guī)格式為key = value。
對于芯片平臺而言鬼店,還會提供探針和基因之間的對應(yīng)關(guān)系等信息网棍,在對應(yīng)的網(wǎng)頁上,我們可以看到如下的表格:
miniml中的內(nèi)容和soft是一樣的妇智,只是用XML格式來存儲上述信息滥玷,而supplement file則是由提交者自己上傳的一些補充文件氏身,沒有明確的格式。
樣本(Sample惑畴,GSMXXX)
在基因芯片實驗中蛋欣,一個樣本中所有基因的表達水平通常由一張芯片來檢測,樣本信息由檢測的生物材料的描述如贷,所遵循的實驗協(xié)議和包含檢測豐度值的數(shù)據(jù)表構(gòu)成陷虎,樣本編號以GSM為起始。
我們以GSM247678為例杠袱,進行檢索尚猿。打開GEO數(shù)據(jù)庫官網(wǎng),(網(wǎng)址:點擊網(wǎng)址.),進入檢索頁面如下圖:
點擊samples跳轉(zhuǎn)至樣本平臺見下圖:
在檢索框中輸入GSM247678,點擊search霞掺,跳轉(zhuǎn)至檢索結(jié)果谊路,見下圖:
點擊下圖GSM247678,跳轉(zhuǎn)樣本檢索結(jié)果菩彬。
通過下圖第一部分可以看到GSM247678樣品的描述信息
通過下圖第二部分可以看到GSM247678樣品所用的芯片平臺和系列信息缠劝。
然后我們通過下圖可以查看全部表格數(shù)據(jù)和下載原始數(shù)據(jù)。
系列(Series,GSEXXX)
系列是由數(shù)據(jù)提供者交給GEO的一次實驗的基因芯片數(shù)據(jù)骗灶,這些數(shù)據(jù)具有明確的研究目的惨恭,是用戶使用GEO時經(jīng)常采用的一種數(shù)據(jù)查詢和下載方式,系列編號以GSE為起始耙旦。
接下來我們以GSE24673為例脱羡,介紹GSE系列數(shù)據(jù)的檢索和結(jié)果解讀。
首先打開GEO數(shù)據(jù)庫官網(wǎng)(網(wǎng)址:點擊網(wǎng)址.)免都,點擊Series 進入檢索頁面如下圖:
點擊Series锉罐,跳轉(zhuǎn)至系列,見下圖:
在檢索框中輸入GSE24673绕娘,點擊search命令脓规,結(jié)果見下圖:
點擊檢索框中的GSE24673,調(diào)整至檢索結(jié)果险领,,這一部分主要描述的是GSR系列的一些基本信息侨舆,包括文章題目,摘要绢陌,種屬等挨下,詳細說明見下圖:
這一部分主要描述的是所使用的芯片平臺信息以及樣本信息,詳細見下圖:
這一部分描述的是GSE提供的下載文件脐湾,包括SOFT文件臭笆,MINIMl 文件,Series Matrix File(s)以及原始數(shù)據(jù)文件,數(shù)據(jù)分析時耗啦,我們會用到Series Matrix File(s)文件或者原始數(shù)據(jù)詳細見下圖:
正確的分析是建立在對數(shù)據(jù)的正確理解之上凿菩,所以在做分析之前,我們需要理解數(shù)據(jù)的基本信息帜讲,最基本的幾條內(nèi)容:第一從Title 翻譯到 Over design,了解文章的標題衅谷,物種,實驗類型似将,摘要获黔,總體設(shè)計。其他需要關(guān)注的問題就是系列中的樣本數(shù)量在验,N個樣本按照實驗設(shè)計是如何分組的玷氏,分成幾組。
最后腋舌,謝謝各位伙伴的支持盏触,我是青鹽,一個自學生信块饺,并致力于在新疆推廣生信分析技能的菜鳥赞辩,今天給大家分享的內(nèi)容就到這,青鹽在這里與每一位生信自學者共學授艰,共勉辨嗽,加油加油。