R語言挖掘GEO數(shù)據(jù)庫實戰(zhàn)之-GEO數(shù)據(jù)庫的構(gòu)成及網(wǎng)頁點擊下載

基于web工具牢硅,用戶可以對GEO存儲的大量數(shù)據(jù)進行瀏覽,查詢和可視化芝雪。通過四種編號GPL减余,GDSGSEGSM可以獲得完整的平臺惩系,數(shù)據(jù)集位岔,系列以及樣本的信息.

其中屬于用戶提交的原始數(shù)據(jù)包括:GPL(Platform),GSM(Sample),GSE(Series)如筛。GEO數(shù)據(jù)庫整理后的數(shù)據(jù)包括:數(shù)據(jù)集GDS(DataSets), 表達譜(Profiles).GEO根據(jù)平臺,數(shù)據(jù)集抒抬,系列和樣本四種形式組織數(shù)據(jù)杨刨。

平臺(Platform,GPLXXX)檢索

平臺信息是由微陣列的簡要描述和用來確定微陣列模板的數(shù)據(jù)表構(gòu)成擦剑。最基本的平臺想信息是探針列表妖胀,它們規(guī)定了哪些基因可以在該芯片平臺上被檢測出來,平臺編號以GPL為起始惠勒。以GPL6244為例點擊網(wǎng)址.

步驟如下:
1.在GEO主界面點擊Platform赚抡,進入平臺檢索界面;

GPL1.jpg

2.檢索框中輸入檢索號GPL6244纠屋,點擊search涂臣;跳轉(zhuǎn)至檢索結(jié)果。

GPL2.jpg

3.點擊下圖中的“GPL6244”跳轉(zhuǎn)至詳細信息售担。

GPL3.jpg

4.平臺包含的信息介紹
打開網(wǎng)址看到平臺信息主要包括兩個部分赁遗,上半部分主要是平臺信息的描述(見下圖1),下半部分是平臺數(shù)據(jù)信息描述(見下圖2)族铆。

平臺描述.jpg
表格信息.jpg

平臺(Platform岩四,GPLXXX)數(shù)據(jù)下載

  1. Platform包含的文件,
    一個platform通常包含3種文件:分別是soft文件,minimal文件以及suppl文件哥攘,這里我們重點介紹soft文件剖煌,soft文件位置見下圖:
GPL4.jpg

找到下載文件,soft文件(這里用的例子的文件很大献丑,等待的時間會長些)

soft1.jpg

soft文件下載好了以后,對文件進行解壓侠姑,將文件的后綴改為“xls”或“xlsx”创橄,用Excel打開該文件,然后我們對soft 文件內(nèi)容進行解讀:soft和miniml都是顯示的platform的基礎(chǔ)信息莽红。在soft文件中妥畏,每種類型的信息以^開頭,這里介紹常見的幾種類別:

(1)DATABASE代表GEO數(shù)據(jù)庫的基本信息;

(2)PLATFORM代表該平臺的基本信息;

(3)SAMPLE代表用該平臺得到的樣本信息;

(4)SERIES代表使用該平臺得到的一組樣本安吁。

在每種類別中,!開頭代表一種類型的信息醉蚁,常規(guī)格式為key = value

對于芯片平臺而言鬼店,還會提供探針和基因之間的對應(yīng)關(guān)系等信息网棍,在對應(yīng)的網(wǎng)頁上,我們可以看到如下的表格:

soft2.jpg

miniml中的內(nèi)容和soft是一樣的妇智,只是用XML格式來存儲上述信息滥玷,而supplement file則是由提交者自己上傳的一些補充文件氏身,沒有明確的格式。

樣本(Sample惑畴,GSMXXX)

在基因芯片實驗中蛋欣,一個樣本中所有基因的表達水平通常由一張芯片來檢測,樣本信息由檢測的生物材料的描述如贷,所遵循的實驗協(xié)議和包含檢測豐度值的數(shù)據(jù)表構(gòu)成陷虎,樣本編號以GSM為起始。

我們以GSM247678為例杠袱,進行檢索尚猿。打開GEO數(shù)據(jù)庫官網(wǎng),(網(wǎng)址:點擊網(wǎng)址.),進入檢索頁面如下圖:

GSM1.jpg

點擊samples跳轉(zhuǎn)至樣本平臺見下圖:

GSM2.jpg

在檢索框中輸入GSM247678,點擊search霞掺,跳轉(zhuǎn)至檢索結(jié)果谊路,見下圖:

GSM3.jpg

點擊下圖GSM247678,跳轉(zhuǎn)樣本檢索結(jié)果菩彬。

GSM4.jpg

通過下圖第一部分可以看到GSM247678樣品的描述信息

GSM5.jpg

通過下圖第二部分可以看到GSM247678樣品所用的芯片平臺和系列信息缠劝。

GSM6.jpg

然后我們通過下圖可以查看全部表格數(shù)據(jù)和下載原始數(shù)據(jù)。

GSM7.jpg

系列(Series,GSEXXX)

系列是由數(shù)據(jù)提供者交給GEO的一次實驗的基因芯片數(shù)據(jù)骗灶,這些數(shù)據(jù)具有明確的研究目的惨恭,是用戶使用GEO時經(jīng)常采用的一種數(shù)據(jù)查詢和下載方式,系列編號以GSE為起始耙旦。

接下來我們以GSE24673為例脱羡,介紹GSE系列數(shù)據(jù)的檢索和結(jié)果解讀。

首先打開GEO數(shù)據(jù)庫官網(wǎng)(網(wǎng)址:點擊網(wǎng)址.)免都,點擊Series 進入檢索頁面如下圖:

GSE1.jpg

點擊Series锉罐,跳轉(zhuǎn)至系列,見下圖:

GSE2.jpg

在檢索框中輸入GSE24673绕娘,點擊search命令脓规,結(jié)果見下圖:

GSE3.jpg

點擊檢索框中的GSE24673,調(diào)整至檢索結(jié)果险领,,這一部分主要描述的是GSR系列的一些基本信息侨舆,包括文章題目,摘要绢陌,種屬等挨下,詳細說明見下圖:

GSE4.jpg

這一部分主要描述的是所使用的芯片平臺信息以及樣本信息,詳細見下圖:

GSM5.jpg

這一部分描述的是GSE提供的下載文件脐湾,包括SOFT文件臭笆,MINIMl 文件,Series Matrix File(s)以及原始數(shù)據(jù)文件,數(shù)據(jù)分析時耗啦,我們會用到Series Matrix File(s)文件或者原始數(shù)據(jù)詳細見下圖:

GSE6.jpg

正確的分析是建立在對數(shù)據(jù)的正確理解之上凿菩,所以在做分析之前,我們需要理解數(shù)據(jù)的基本信息帜讲,最基本的幾條內(nèi)容:第一從Title 翻譯到 Over design,了解文章的標題衅谷,物種實驗類型似将,摘要获黔,總體設(shè)計。其他需要關(guān)注的問題就是系列中的樣本數(shù)量在验,N個樣本按照實驗設(shè)計是如何分組的玷氏,分成幾組。

最后腋舌,謝謝各位伙伴的支持盏触,我是青鹽,一個自學生信块饺,并致力于在新疆推廣生信分析技能的菜鳥赞辩,今天給大家分享的內(nèi)容就到這,青鹽在這里與每一位生信自學者共學授艰,共勉辨嗽,加油加油。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末淮腾,一起剝皮案震驚了整個濱河市糟需,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌谷朝,老刑警劉巖洲押,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異圆凰,居然都是意外死亡杈帐,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門送朱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來娘荡,“玉大人干旁,你說我怎么就攤上這事驶沼。” “怎么了争群?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵回怜,是天一觀的道長。 經(jīng)常有香客問我,道長玉雾,這世上最難降的妖魔是什么翔试? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮复旬,結(jié)果婚禮上垦缅,老公的妹妹穿的比我還像新娘。我一直安慰自己驹碍,他們只是感情好壁涎,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著志秃,像睡著了一般怔球。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上浮还,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天竟坛,我揣著相機與錄音,去河邊找鬼钧舌。 笑死担汤,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的延刘。 我是一名探鬼主播漫试,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼碘赖!你這毒婦竟也來了驾荣?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤普泡,失蹤者是張志新(化名)和其女友劉穎播掷,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體撼班,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡歧匈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了砰嘁。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片件炉。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖矮湘,靈堂內(nèi)的尸體忽然破棺而出斟冕,到底是詐尸還是另有隱情,我是刑警寧澤缅阳,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布磕蛇,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏秀撇。R本人自食惡果不足惜超棺,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望呵燕。 院中可真熱鬧棠绘,春花似錦、人聲如沸再扭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽霍衫。三九已至候引,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間敦跌,已是汗流浹背澄干。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留柠傍,地道東北人麸俘。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像惧笛,于是被迫代替她去往敵國和親从媚。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容