玩轉(zhuǎn)ENCODE項目的數(shù)據(jù)資源（一）

本系列主要內(nèi)容

介紹ENCODE的數(shù)據(jù)概況砂心，在data portal上查詢數(shù)據(jù)率碾，使用REST API批量下載數(shù)據(jù)臼闻，參照ENCODE官方數(shù)據(jù)處理流程構(gòu)建自己的pipeline勺三。同時介紹ENCODE項目培訓(xùn)課程（主要是數(shù)據(jù)分析）的資料。

這是一個包含四篇文章的小專欄钙态，內(nèi)容分別為：

介紹ENCODE計劃的數(shù)據(jù)體系（data model）

批量下載ENCODE portal的數(shù)據(jù)（附示例代碼）

學(xué)習(xí)ENCODE的官方數(shù)據(jù)處理流程（pipeline）（附代碼倉庫列表）

ENCODE項目數(shù)據(jù)分析培訓(xùn)課程的資源（附下載鏈接）

本篇主要內(nèi)容

通過介紹ENCODE計劃的數(shù)據(jù)概況慧起，你可以了解這個項目產(chǎn)生了什么數(shù)據(jù)，以及這些數(shù)據(jù)對你有沒有價值驯绎。

一句話介紹ENCODE計劃

ENCODE的目標(biāo)是定義人類基因組中所有發(fā)揮“功能”的DNA元件完慧，并研究這些元件與蛋白和RNA之間的相互作用如何調(diào)控細(xì)胞的轉(zhuǎn)錄活動。第一階段于2003年由NIH開啟剩失，最新一期的ENCODE Phase 4從2017年2月開始實施屈尼，資助總金額達(dá)到3200萬美元，基本上確立了未來五年世界范圍內(nèi)基因組學(xué)的前沿研究方向拴孤。

為什么要啟動Phase 4

引用自National Human Genome Research Institute (NHGRI)：

Although much progress has been made over the past decade, these catalogs are incomplete. The purpose of this FOA is to solicit applications for research projects to apply state-of-the-art, high-throughput and cost-effective data generation pipelines to develop an expanded catalog of candidate functional elements in the human and mouse genomes.

Phase 4的重點研究方向請查看：https://www.encodeproject.org/data/annotations/

ENCODE的數(shù)據(jù)調(diào)度中心 Data Coordination Center (DCC)

ENCODE作為周期長脾歧，經(jīng)費多，參與者眾多的合作項目演熟，當(dāng)然要設(shè)立超大型數(shù)據(jù)中心 Data Coordination Center (DCC)鞭执，把每個數(shù)據(jù)擺放在合適的位置司顿，讓用戶方便的查詢下載數(shù)據(jù)。其中Phase 1-3的DCC在UCSC兄纺，到了Phase 4大溜，DCC搬到了Standford University。DCC的任務(wù)包括和Data Analysis Center (DAC) 合作定義數(shù)據(jù)模型 (data model)估脆，并將數(shù)據(jù)存儲在數(shù)據(jù)庫里（data portal)钦奋，分享給全世界的研究人員。

ENCODE 生物樣本（biosample）的多樣性

ENCODE的bioample按照種類分為immortalised cell line (GM12878, K562等), tissue (liver, lung等), whole organisms, primary cell (bone marrow cell等)和stem cell (H1-ESC等), in vitro differentiated cells (neutron cell)等等疙赠。
按照在ENCODE里的重要性分為tier1付材，tier2和其他。Tier1的細(xì)胞系（GM12878圃阳，H1-ESC和K562）擁有最高的優(yōu)先性厌衔，配套的數(shù)據(jù)也最多。詳細(xì)請查看https://www.encodeproject.org/search/?type=Biosample

ENCODE Assay的多樣性

ENCODE phase 2起包括：ChIP-seq, DNase I Hypersensitivity, RNA-seq和DNA methylation等
ENCODE phase 3和4陸續(xù)增加了包括ATAC-Seq, ChIA-PET, Hi-C, eCLIP-Seq等

完整列表請參考：https://www.encodeproject.org/profiles/experiment.json

ENCODE的數(shù)據(jù)模型 (data model)

在一次實驗（Experiment）中捍岳，會有生物學(xué)和技術(shù)性重復(fù)（Biological and Technical Replicate）富寿，制備的文庫（Library）以及來源的生物學(xué)樣本（Biosample）。它們都是不同類型的對象（object）锣夹，對應(yīng)著自己的metadata作喘，比如Experiment對應(yīng)的metadata包括：實驗日期，文庫制備流程（protocol）晕城，操作人和測序儀器等，完整版請查看：https://www.encodeproject.org/profiles/experiment.json窖贤。一些重要的object擁有自己獨一無二的標(biāo)示（accession number）砖顷，以ENCXX開頭。請看圖：

圖片來自https://www.encodeproject.org/help/getting-started/

這些objects以及metadata組成的關(guān)系網(wǎng)絡(luò)稱作 Data model赃梧。完整版data model和metadata請查看：https://github.com/ENCODE-DCC/encoded/blob/master/src/encoded/schemas/biosample.json

有了metadata滤蝠，產(chǎn)生數(shù)據(jù)的實驗室（Mapping Center）就有了一套規(guī)則描述自己產(chǎn)生的每一個數(shù)據(jù)，用戶也可以輕易的搜索到自己所需的數(shù)據(jù)授嘀。

結(jié)語

ENCODE在產(chǎn)生物咳，管理，可視化數(shù)據(jù)以及數(shù)據(jù)流程的標(biāo)準(zhǔn)化蹄皱，研究的可重復(fù)性上積累了大量經(jīng)驗览闰，翻閱一下相關(guān)論文，逛一下代碼倉庫都會有收獲巷折。

下一節(jié)主要介紹使用data portal压鉴，通過metadata搜索數(shù)據(jù)，以及批量下載數(shù)據(jù)（附示例代碼）锻拘。

參考資料

ENCODE portal官網(wǎng)：https://www.encodeproject.org

ENCODE DCC Github倉庫地址：https://github.com/ENCODE-DCC

ENCODE Phase 4 Funding申請頁面： https://grants.nih.gov/grants/guide/rfa-files/RFA-HG-16-002.html#_Section_I._Funding

ENCODE Wikipedia頁面：https://en.wikipedia.org/wiki/ENCODE

最后編輯于：2017.11.22 13:07:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末油吭，一起剝皮案震驚了整個濱河市击蹲，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌婉宰，老刑警劉巖歌豺，帶你破解...
沈念sama閱讀 217,277評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異心包，居然都是意外死亡类咧，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門谴咸，熙熙樓的掌柜王于貴愁眉苦臉地迎上來轮听，“玉大人，你說我怎么就攤上這事岭佳⊙。” “怎么了？”我有些...
開封第一講書人閱讀 163,624評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵珊随，是天一觀的道長述寡。經(jīng)常有香客問我，道長叶洞，這世上最難降的妖魔是什么鲫凶？我笑而不...
開封第一講書人閱讀 58,356評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮衩辟，結(jié)果婚禮上螟炫，老公的妹妹穿的比我還像新娘。我一直安慰自己艺晴，他們只是感情好昼钻，可當(dāng)我...
茶點故事閱讀 67,402評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著封寞，像睡著了一般然评。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上狈究，一...
開封第一講書人閱讀 51,292評論 1贊 301
城市分裂傳說
那天碗淌，我揣著相機與錄音，去河邊找鬼抖锥。笑死亿眠，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的宁改。我是一名探鬼主播缕探，決...
沈念sama閱讀 40,135評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼还蹲！你這毒婦竟也來了爹耗？” 一聲冷哼從身側(cè)響起耙考，我...
開封第一講書人閱讀 38,992評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎潭兽，沒想到半個月后倦始，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,429評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡山卦，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,636評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年鞋邑，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片账蓉。...
茶點故事閱讀 39,785評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡枚碗，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出铸本，到底是詐尸還是另有隱情肮雨，我是刑警寧澤，帶...
沈念sama閱讀 35,492評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布箱玷，位于F島的核電站怨规，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏锡足。R本人自食惡果不足惜波丰，卻給世界環(huán)境...
茶點故事閱讀 41,092評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望舶得。院中可真熱鬧掰烟，春花似錦、人聲如沸沐批。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,723評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽珠插。三九已至，卻和暖如春颖对，著一層夾襖步出監(jiān)牢的瞬間捻撑，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,858評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工缤底，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留顾患，地道東北人。一個月前我還...
沈念sama閱讀 47,891評論 2贊 370
代替公主和親
正文我出身青樓个唧，卻偏偏與公主長得像江解，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子徙歼，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,713評論 2贊 354