搜尋數(shù)據(jù)集及下載數(shù)據(jù) 差異分析--->差異表達基因 --->五大數(shù)據(jù)庫注釋--->蛋白互作等網(wǎng)絡(luò)和通路注釋
今天先為大家分享第一步“數(shù)據(jù)下載”腰池,以便后續(xù)挖掘感興趣的基因及構(gòu)建通路徒仓。
首先我們可以需要先尋找貼合我們研究方向的論文所使用的數(shù)據(jù)集,下載里面的GPL文件和表達矩陣“series matrix”做基因的表達分析侨嘀;再依據(jù)包含樣本生存數(shù)據(jù)的臨床特征數(shù)據(jù)集葵蒂,去做生存性分析什黑。
在進入GEO數(shù)據(jù)庫官網(wǎng)前,需要先理解一下GEO的數(shù)據(jù)編號含義:
一篇文章可能包含至少一個GSE數(shù)據(jù)集柜与,一個GSE數(shù)據(jù)集里面可能包含至少一個GSM樣本巧勤。多個研究的GSM樣本根據(jù)研究目的會整合為一個GDS,不過GDS運用的很少旅挤。而每個數(shù)據(jù)集都有著對應(yīng)的芯片平臺踢关,就是GPL。
通過網(wǎng)頁下載:
首先粘茄,登錄GEO官網(wǎng) https://www.ncbi.nlm.nih.gov/geo/签舞,在右側(cè)的搜索框輸入一個GSE號,我們以gse21933為例柒瓣,在搜索欄輸入后點search進行檢索儒搭。
檢索后會進入Accession Display界面,里面包含著這個GSE數(shù)據(jù)的基本信息芙贫,如:標(biāo)題搂鲫、物種、研究概要磺平、作者魂仍、樣本描述、測序平臺等等拣挪,當(dāng)然還有我們最需要的原始數(shù)據(jù)擦酌。
上圖可知道,這組數(shù)據(jù)包含的是肺癌與正常組織的基因表達圖譜菠劝,我們想從這組數(shù)據(jù)中尋找差異基因赊舶,需要三個文件:原始文件、表型文件赶诊、注釋文件笼平。
1.原始文件,這里面儲存的是每個樣本中各個基因的表達量頁面底部會提供原始數(shù)據(jù)舔痪,如圖所示寓调,點擊http下載即可,文件是tar格式锄码,下載下來以后需要解壓縮捶牢。
2.表型文件,該文件備注每個樣本是屬于正常組還是癌癥組巍耗,想要比較腫瘤和正常樣本的區(qū)別秋麸,我們需要知道每組里面都是樣本類型;
這里存儲的是樣本基因表達量信息炬太;Series Matrix File灸蟆,(基因表達量矩陣)
3.注釋文件,因為原始數(shù)據(jù)處理得到的差異基因是以探針號表示的,我們需要知道這些探針號代表的基因是什么炒考,這就需要用到注釋文件可缚。
有了這三類數(shù)據(jù)后,就相當(dāng)于獲得了 “烹飪”的原材料斋枢,之后便可以對這組數(shù)據(jù)進行“煎炒炸燉”帘靡,依據(jù)自己的需求和研究方向進行個性化的數(shù)據(jù)挖掘。
通過R包下載:
通常來說瓤帚,數(shù)據(jù)挖掘之所以叫“挖掘”是因為需要在海量的數(shù)據(jù)內(nèi)描姚,通過檢索收集才可以整合出可用信息從而滿足我們研究目標(biāo)。因此這里將介紹一項用于GEO數(shù)據(jù)下載的利器GEOquery戈次,它是由Davis開發(fā)的一款針對下載GEO數(shù)據(jù)庫的R包轩勘,目前在R開源網(wǎng)站bio-conductor內(nèi),運用它可以簡單高效的下載所需的GEO數(shù)據(jù)怯邪。
如何使用GEOquery下載:
調(diào)用:
getGEO函數(shù)會加載GSE的matrix文件绊寻,默認(rèn)會下載其注釋探針信息,并對表達矩陣中的探針予以注釋悬秉,但往往注釋文件比較大澄步,會出現(xiàn)parse保存的問題,所以一般建議把注釋關(guān)掉了:getGPL=F和泌,然后在后續(xù)分析步驟里進行手動注釋村缸。
作者:諾禾致源科技服務(wù)
鏈接:http://www.reibang.com/p/88b5db10f00d
來源:簡書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)允跑,非商業(yè)轉(zhuǎn)載請注明出處王凑。