本系列主要內(nèi)容
介紹ENCODE的數(shù)據(jù)概況砂心,在data portal上查詢數(shù)據(jù)率碾,使用REST API批量下載數(shù)據(jù)臼闻,參照ENCODE官方數(shù)據(jù)處理流程構(gòu)建自己的pipeline勺三。同時介紹ENCODE項目培訓(xùn)課程(主要是數(shù)據(jù)分析)的資料。
這是一個包含四篇文章的小專欄钙态,內(nèi)容分別為:
- 介紹ENCODE計劃的數(shù)據(jù)體系(data model)
- 批量下載ENCODE portal的數(shù)據(jù)(附示例代碼)
- 學(xué)習(xí)ENCODE的官方數(shù)據(jù)處理流程(pipeline)(附代碼倉庫列表)
- ENCODE項目數(shù)據(jù)分析培訓(xùn)課程的資源(附下載鏈接)
本篇主要內(nèi)容
通過介紹ENCODE計劃的數(shù)據(jù)概況慧起,你可以了解這個項目產(chǎn)生了什么數(shù)據(jù),以及這些數(shù)據(jù)對你有沒有價值驯绎。
一句話介紹ENCODE計劃
ENCODE的目標(biāo)是定義人類基因組中所有發(fā)揮“功能”的DNA元件完慧,并研究這些元件與蛋白和RNA之間的相互作用如何調(diào)控細(xì)胞的轉(zhuǎn)錄活動。第一階段于2003年由NIH開啟剩失,最新一期的ENCODE Phase 4從2017年2月開始實施屈尼,資助總金額達(dá)到3200萬美元,基本上確立了未來五年世界范圍內(nèi)基因組學(xué)的前沿研究方向拴孤。
為什么要啟動Phase 4
引用自National Human Genome Research Institute (NHGRI):
Although much progress has been made over the past decade, these catalogs are incomplete. The purpose of this FOA is to solicit applications for research projects to apply state-of-the-art, high-throughput and cost-effective data generation pipelines to develop an expanded catalog of candidate functional elements in the human and mouse genomes.
Phase 4的重點研究方向請查看:https://www.encodeproject.org/data/annotations/
ENCODE的數(shù)據(jù)調(diào)度中心 Data Coordination Center (DCC)
ENCODE作為周期長脾歧,經(jīng)費多,參與者眾多的合作項目演熟,當(dāng)然要設(shè)立超大型數(shù)據(jù)中心 Data Coordination Center (DCC)鞭执,把每個數(shù)據(jù)擺放在合適的位置司顿,讓用戶方便的查詢下載數(shù)據(jù)。其中Phase 1-3的DCC在UCSC兄纺,到了Phase 4大溜,DCC搬到了Standford University。DCC的任務(wù)包括和Data Analysis Center (DAC) 合作定義數(shù)據(jù)模型 (data model)估脆,并將數(shù)據(jù)存儲在數(shù)據(jù)庫里(data portal)钦奋,分享給全世界的研究人員。
ENCODE 生物樣本(biosample)的多樣性
- ENCODE的bioample按照種類分為immortalised cell line (GM12878, K562等), tissue (liver, lung等), whole organisms, primary cell (bone marrow cell等)和stem cell (H1-ESC等), in vitro differentiated cells (neutron cell)等等疙赠。
- 按照在ENCODE里的重要性分為tier1付材,tier2和其他。Tier1的細(xì)胞系(GM12878圃阳,H1-ESC和K562)擁有最高的優(yōu)先性厌衔,配套的數(shù)據(jù)也最多。詳細(xì)請查看https://www.encodeproject.org/search/?type=Biosample
ENCODE Assay的多樣性
- ENCODE phase 2起包括:ChIP-seq, DNase I Hypersensitivity, RNA-seq和DNA methylation等
- ENCODE phase 3和4陸續(xù)增加了包括ATAC-Seq, ChIA-PET, Hi-C, eCLIP-Seq等
完整列表請參考:https://www.encodeproject.org/profiles/experiment.json
ENCODE的數(shù)據(jù)模型 (data model)
在一次實驗(Experiment)中捍岳,會有生物學(xué)和技術(shù)性重復(fù)(Biological and Technical Replicate)富寿,制備的文庫(Library)以及來源的生物學(xué)樣本(Biosample)。它們都是不同類型的對象(object)锣夹,對應(yīng)著自己的metadata作喘,比如Experiment對應(yīng)的metadata包括:實驗日期,文庫制備流程(protocol)晕城,操作人和測序儀器等,完整版請查看:https://www.encodeproject.org/profiles/experiment.json窖贤。一些重要的object擁有自己獨一無二的標(biāo)示(accession number)砖顷,以ENCXX開頭。請看圖:
圖片來自https://www.encodeproject.org/help/getting-started/
這些objects以及metadata組成的關(guān)系網(wǎng)絡(luò)稱作 Data model赃梧。完整版data model和metadata請查看:https://github.com/ENCODE-DCC/encoded/blob/master/src/encoded/schemas/biosample.json
有了metadata滤蝠,產(chǎn)生數(shù)據(jù)的實驗室(Mapping Center)就有了一套規(guī)則描述自己產(chǎn)生的每一個數(shù)據(jù),用戶也可以輕易的搜索到自己所需的數(shù)據(jù)授嘀。
結(jié)語
ENCODE在產(chǎn)生物咳,管理,可視化數(shù)據(jù)以及數(shù)據(jù)流程的標(biāo)準(zhǔn)化蹄皱,研究的可重復(fù)性上積累了大量經(jīng)驗览闰,翻閱一下相關(guān)論文,逛一下代碼倉庫都會有收獲巷折。
下一節(jié)主要介紹使用data portal压鉴,通過metadata搜索數(shù)據(jù),以及批量下載數(shù)據(jù)(附示例代碼)锻拘。
參考資料
ENCODE portal官網(wǎng):https://www.encodeproject.org
ENCODE DCC Github倉庫地址:https://github.com/ENCODE-DCC
ENCODE Phase 4 Funding申請頁面: https://grants.nih.gov/grants/guide/rfa-files/RFA-HG-16-002.html#_Section_I._Funding
ENCODE Wikipedia頁面:https://en.wikipedia.org/wiki/ENCODE