玩轉(zhuǎn)ENCODE項目的數(shù)據(jù)資源(一)

本系列主要內(nèi)容

介紹ENCODE的數(shù)據(jù)概況砂心,在data portal上查詢數(shù)據(jù)率碾,使用REST API批量下載數(shù)據(jù)臼闻,參照ENCODE官方數(shù)據(jù)處理流程構(gòu)建自己的pipeline勺三。同時介紹ENCODE項目培訓(xùn)課程(主要是數(shù)據(jù)分析)的資料。

這是一個包含四篇文章的小專欄钙态,內(nèi)容分別為:

  1. 介紹ENCODE計劃的數(shù)據(jù)體系(data model)
  2. 批量下載ENCODE portal的數(shù)據(jù)(附示例代碼)
  3. 學(xué)習(xí)ENCODE的官方數(shù)據(jù)處理流程(pipeline)(附代碼倉庫列表)
  4. ENCODE項目數(shù)據(jù)分析培訓(xùn)課程的資源(附下載鏈接)

本篇主要內(nèi)容

通過介紹ENCODE計劃的數(shù)據(jù)概況慧起,你可以了解這個項目產(chǎn)生了什么數(shù)據(jù),以及這些數(shù)據(jù)對你有沒有價值驯绎。

一句話介紹ENCODE計劃

ENCODE的目標(biāo)是定義人類基因組中所有發(fā)揮“功能”的DNA元件完慧,并研究這些元件與蛋白和RNA之間的相互作用如何調(diào)控細(xì)胞的轉(zhuǎn)錄活動。第一階段于2003年由NIH開啟剩失,最新一期的ENCODE Phase 4從2017年2月開始實施屈尼,資助總金額達(dá)到3200萬美元,基本上確立了未來五年世界范圍內(nèi)基因組學(xué)的前沿研究方向拴孤。

為什么要啟動Phase 4

引用自National Human Genome Research Institute (NHGRI):

Although much progress has been made over the past decade, these catalogs are incomplete. The purpose of this FOA is to solicit applications for research projects to apply state-of-the-art, high-throughput and cost-effective data generation pipelines to develop an expanded catalog of candidate functional elements in the human and mouse genomes.

Phase 4的重點研究方向請查看:https://www.encodeproject.org/data/annotations/

ENCODE的數(shù)據(jù)調(diào)度中心 Data Coordination Center (DCC)

ENCODE作為周期長脾歧,經(jīng)費多,參與者眾多的合作項目演熟,當(dāng)然要設(shè)立超大型數(shù)據(jù)中心 Data Coordination Center (DCC)鞭执,把每個數(shù)據(jù)擺放在合適的位置司顿,讓用戶方便的查詢下載數(shù)據(jù)。其中Phase 1-3的DCC在UCSC兄纺,到了Phase 4大溜,DCC搬到了Standford University。DCC的任務(wù)包括和Data Analysis Center (DAC) 合作定義數(shù)據(jù)模型 (data model)估脆,并將數(shù)據(jù)存儲在數(shù)據(jù)庫里(data portal)钦奋,分享給全世界的研究人員。

ENCODE 生物樣本(biosample)的多樣性

  • ENCODE的bioample按照種類分為immortalised cell line (GM12878, K562等), tissue (liver, lung等), whole organisms, primary cell (bone marrow cell等)和stem cell (H1-ESC等), in vitro differentiated cells (neutron cell)等等疙赠。
  • 按照在ENCODE里的重要性分為tier1付材,tier2和其他。Tier1的細(xì)胞系(GM12878圃阳,H1-ESC和K562)擁有最高的優(yōu)先性厌衔,配套的數(shù)據(jù)也最多。詳細(xì)請查看https://www.encodeproject.org/search/?type=Biosample

ENCODE Assay的多樣性

  • ENCODE phase 2起包括:ChIP-seq, DNase I Hypersensitivity, RNA-seq和DNA methylation等
  • ENCODE phase 3和4陸續(xù)增加了包括ATAC-Seq, ChIA-PET, Hi-C, eCLIP-Seq等

完整列表請參考:https://www.encodeproject.org/profiles/experiment.json

ENCODE的數(shù)據(jù)模型 (data model)

在一次實驗(Experiment)中捍岳,會有生物學(xué)和技術(shù)性重復(fù)(Biological and Technical Replicate)富寿,制備的文庫(Library)以及來源的生物學(xué)樣本(Biosample)。它們都是不同類型的對象(object)锣夹,對應(yīng)著自己的metadata作喘,比如Experiment對應(yīng)的metadata包括:實驗日期,文庫制備流程(protocol)晕城,操作人和測序儀器等,完整版請查看:https://www.encodeproject.org/profiles/experiment.json窖贤。一些重要的object擁有自己獨一無二的標(biāo)示(accession number)砖顷,以ENCXX開頭。請看圖:

圖片來自https://www.encodeproject.org/help/getting-started/

圖片來自https://www.encodeproject.org/help/getting-started/

這些objects以及metadata組成的關(guān)系網(wǎng)絡(luò)稱作 Data model赃梧。完整版data model和metadata請查看:https://github.com/ENCODE-DCC/encoded/blob/master/src/encoded/schemas/biosample.json

有了metadata滤蝠,產(chǎn)生數(shù)據(jù)的實驗室(Mapping Center)就有了一套規(guī)則描述自己產(chǎn)生的每一個數(shù)據(jù),用戶也可以輕易的搜索到自己所需的數(shù)據(jù)授嘀。

結(jié)語

ENCODE在產(chǎn)生物咳,管理,可視化數(shù)據(jù)以及數(shù)據(jù)流程的標(biāo)準(zhǔn)化蹄皱,研究的可重復(fù)性上積累了大量經(jīng)驗览闰,翻閱一下相關(guān)論文,逛一下代碼倉庫都會有收獲巷折。

下一節(jié)主要介紹使用data portal压鉴,通過metadata搜索數(shù)據(jù),以及批量下載數(shù)據(jù)(附示例代碼)锻拘。

參考資料

ENCODE portal官網(wǎng):https://www.encodeproject.org

ENCODE DCC Github倉庫地址:https://github.com/ENCODE-DCC

ENCODE Phase 4 Funding申請頁面: https://grants.nih.gov/grants/guide/rfa-files/RFA-HG-16-002.html#_Section_I._Funding

ENCODE Wikipedia頁面:https://en.wikipedia.org/wiki/ENCODE

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末油吭,一起剝皮案震驚了整個濱河市击蹲,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌婉宰,老刑警劉巖歌豺,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異心包,居然都是意外死亡类咧,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門谴咸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來轮听,“玉大人,你說我怎么就攤上這事岭佳⊙。” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵珊随,是天一觀的道長述寡。 經(jīng)常有香客問我,道長叶洞,這世上最難降的妖魔是什么鲫凶? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮衩辟,結(jié)果婚禮上螟炫,老公的妹妹穿的比我還像新娘。我一直安慰自己艺晴,他們只是感情好昼钻,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著封寞,像睡著了一般然评。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上狈究,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天碗淌,我揣著相機與錄音,去河邊找鬼抖锥。 笑死亿眠,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的宁改。 我是一名探鬼主播缕探,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼还蹲!你這毒婦竟也來了爹耗?” 一聲冷哼從身側(cè)響起耙考,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎潭兽,沒想到半個月后倦始,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡山卦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年鞋邑,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片账蓉。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡枚碗,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出铸本,到底是詐尸還是另有隱情肮雨,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布箱玷,位于F島的核電站怨规,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏锡足。R本人自食惡果不足惜波丰,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望舶得。 院中可真熱鬧掰烟,春花似錦、人聲如沸沐批。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽珠插。三九已至,卻和暖如春颖对,著一層夾襖步出監(jiān)牢的瞬間捻撑,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工缤底, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留顾患,地道東北人。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓个唧,卻偏偏與公主長得像江解,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子徙歼,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 奮斗在人類組學(xué)數(shù)據(jù)分析的一線犁河,要隨時跟上最新的研究進展鳖枕。大型的研究項目會有全面的數(shù)據(jù)集和可視化工具,也有專門從各個...
    BryceBryce閱讀 3,376評論 2 24
  • 已經(jīng)陷入情緒的怪圈許久桨螺。停留在異國他鄉(xiāng)找工作宾符,因為簽證的問題,一次一次被拒絕灭翔。不知道是否還應(yīng)該堅持最初的夢想魏烫。矛盾...
    守望最亮星閱讀 152評論 0 0
  • 天黑色漸漸襲來我慢慢依賴 又在對著電視機發(fā)呆 想來想去到底誰能把我拯救 有沒有人想對我安慰 過街的甜品店人氣依舊火...
    花少顏閱讀 360評論 0 4
  • R·閱讀原文片段 非暴力溝通強調(diào),感受的根源在于我們自身肝箱。我們的需要和期待哄褒,以及對他人言行的看法,導(dǎo)致了我們的感受...
    瑩雪_14d1閱讀 162評論 0 0