GEO數(shù)據(jù)庫是什么?
1.GEO够挂,全稱Gene Expression Omnibus,中文名叫基因表達(dá)綜合數(shù)據(jù)庫,網(wǎng)址(https://www.ncbi.nlm.nih.gov/geo/),是由美國國立生物技術(shù)信息中心于2000年創(chuàng)建并維護(hù)至今的高通量量基因表達(dá)數(shù)據(jù)庫
2.GEO是一個(gè)國際公共數(shù)據(jù)庫变过,收錄并整理了全球范圍內(nèi)研究工作者上傳的微陣列芯片、二代測(cè)序及其他形式的高通量基因組數(shù)據(jù),并提供免費(fèi)下載朴摊。
數(shù)據(jù)組織結(jié)構(gòu)
1.GEO數(shù)據(jù)庫有GEO DataSets和GEO Profiles兩個(gè)子數(shù)據(jù)庫構(gòu)成。兩者的區(qū)別是前者以數(shù)據(jù)集為單位此虑,存儲(chǔ)同一實(shí)驗(yàn)數(shù)據(jù)甚纲;后者以基因?yàn)閱挝唬鎯?chǔ)基因在數(shù)據(jù)集中的表達(dá)譜朦前。
2.GEO的數(shù)據(jù)類型有5種:platform(平臺(tái))介杆、samples(樣本)、series(系列)韭寸、dataset(數(shù)據(jù)集)春哨、profile(基因表達(dá)譜),前四種數(shù)據(jù)都有GEO專門分配的編號(hào)恩伺,指向唯一的數(shù)據(jù)赴背,編號(hào)均以GEO縮寫“G”+平臺(tái)縮寫+流水號(hào)構(gòu)成:
- platform:平臺(tái)編號(hào)以“GPL”開頭,如GPL16783;
- samples:樣本編號(hào)以“GSM”開頭凰荚,如GSM4567燃观;
- series:是將構(gòu)成某個(gè)實(shí)驗(yàn)的相關(guān)樣本集中到一個(gè)有意義的數(shù)據(jù)集,包括實(shí)驗(yàn)設(shè)計(jì)便瑟、描述缆毁、組別、樣本等信息以及檢測(cè)數(shù)據(jù)文件胳徽,以“GSE”開頭积锅;
- dataset、profile:serises數(shù)據(jù)進(jìn)一步分析處理成 dataset和profile养盗, dataset即被分析好的series缚陷,編號(hào)以“GDS”開頭; profile則存儲(chǔ)一個(gè)個(gè)基因在DataSet個(gè)分組中的表達(dá)譜往核,分配的是流水號(hào)箫爷,不冠以特定的開頭。
GEO數(shù)據(jù)庫的使用
1.點(diǎn)擊網(wǎng)址進(jìn)入NCBI數(shù)據(jù)庫(可直接搜索NCBI)
2.GEO數(shù)據(jù)庫檢索頁面
注釋: 1.下拉菜單欄選擇GEO數(shù)據(jù)庫(GEO DataSets 聂儒、GEO Profiles) 2.檢索欄虎锚,可直接輸入關(guān)鍵詞或運(yùn)用布爾邏輯運(yùn)算符檢索 3.高級(jí)檢索 4.輸入檢索詞后點(diǎn)擊search
檢索結(jié)果解讀
數(shù)據(jù)下載
下載結(jié)果是TXT文件,建議用EXCEL打開衩婚。如下圖: