GEO 數(shù)據(jù)是生信技能樹生信爆款入門課程數(shù)據(jù)挖掘部分Day8的講到的一個重要知識點。為加深理解,現(xiàn)在登錄網(wǎng)站做下練習鞏固层扶。
一、GEO 數(shù)據(jù)庫簡介
GEO(GENE EXPRESSION OMNIBUS)數(shù)據(jù)庫是由美國國立生物技術(shù)信息中心(NCBI)2000 年創(chuàng)建的基因表達數(shù)據(jù)庫戳表,收錄了世界各國研究機構(gòu)提交的基因表達數(shù)據(jù),主要包括基因芯片价涝,高通量測序數(shù)據(jù)色瘩。目前已發(fā)表的論文中涉及到基因表達檢測的數(shù)據(jù)都可以通過 GEO 數(shù)據(jù)庫找到,并且是免費使用泥栖。
二、GEO 數(shù)據(jù)格式
數(shù)據(jù)庫存放四種數(shù)據(jù)類型:GSE耙蔑,GDS甸陌,GSM 和 GPL耻卡。
一個 GSE ID 是指整個研究項目的系列數(shù)據(jù),會涉及一到多個實驗平臺(GPL)
一個 GDS ID 對應(yīng)同一個實驗平臺的數(shù)據(jù)集溃卡。
一個 GSM ID 對應(yīng)一個樣本的表達數(shù)據(jù)信息瘸羡,GSE,GDS 會包含多個 GSM 的數(shù)據(jù)峻村。
一個 GPL ID 對應(yīng)一個實驗平臺的信息,包括芯片探針的設(shè)計和注釋信息雾棺。
三捌浩、GEO 數(shù)據(jù)庫的基本使用
先來看一下每個頁面都是什么樣子
GPL 頁面
進去之后是
GSE 頁面
進去之后
GSM 頁面
如何使用 GEO 數(shù)據(jù)庫檢索呢?
GEO 可以與其他 NCBI 數(shù)據(jù)庫一樣可以用標準關(guān)鍵詞的方法進行檢索,或者直接檢索俭缓。
例:在 DataSets 搜索「lung cancer」便可尋找有關(guān)人類肺癌微陣列實驗數(shù)據(jù)集合愿吹。
在右上角出還可以自行選擇想要了解的物種椿息,左側(cè)有根據(jù)過濾條件選擇撵颊。
GEO 數(shù)據(jù)庫只負責用戶上傳數(shù)據(jù)嘉涌,而不負責對數(shù)據(jù)質(zhì)量的控制,因此警医,有小伙伴也會發(fā)現(xiàn)预皇,自己下載好的矩陣文件里面基因表達量數(shù)值特別大而且數(shù)據(jù)不集中,究其原因就是 GEO 數(shù)據(jù)庫的數(shù)據(jù)參差不齊鲁豪,不能確定上傳者是否對整理好的數(shù)據(jù)進行了標準化處理爬橡。這個就需要后續(xù)的處理了。
4 GEO數(shù)據(jù)下載:
通過查閱文獻郭宝,我們可以知道作者提交GEO數(shù)據(jù)庫的GSE數(shù)據(jù)編號粘室,通過這個編號我們就可以在GEO數(shù)據(jù)庫中搜索相應(yīng)的GSE編號鹿榜,然后下載數(shù)據(jù)了舱殿,例如:
然后就可以看到相應(yīng)的數(shù)據(jù)信息:
總結(jié)下來就是:
GEO 數(shù)據(jù)庫是第一個基因表達數(shù)據(jù)的公共儲存數(shù)據(jù)庫樟氢,具有強大的數(shù)據(jù)收錄功能死宣。記錄各類芯片數(shù)據(jù)和測序數(shù)據(jù)毅该,主要為表達譜數(shù)據(jù)。用戶可以自行上傳巴碗。數(shù)據(jù)庫是開放的寝殴,可供大眾下載和使用。
參考
1.GEO 數(shù)據(jù)介紹及在線下載
2.生信第一課抵蚊,淺談 GEO 數(shù)據(jù)庫