RegulomeDB和HaploReg數(shù)據(jù)庫(kù)提供了將大量基因組學(xué)數(shù)據(jù)與非編碼突變整合的思路酌媒。
1.背景
GWAS研究產(chǎn)生了大量的SNP吉捶,大部分在非編碼基因組
這些SNP其實(shí)是Lead/Tag SNP,所以需要同時(shí)關(guān)注與這些SNP處于高LD(linkage disequilibrium)的其它SNP
ENCODE產(chǎn)生的大量數(shù)據(jù)卫键,可以用來注釋這些SNP周偎,為我們研究這些SNP的功能提供一些參考捡多。
本篇介紹的兩個(gè)數(shù)據(jù)庫(kù)RegulomeDB和HaploReg的套路就是將ENCODE產(chǎn)生的注釋數(shù)據(jù)與dbSNP和GWAS Catalog的SNP取交集。
2. 注釋SNP的數(shù)據(jù)
可以將RegulomeDB和HaploReg使用的注釋數(shù)據(jù)分成以下幾類:
預(yù)測(cè)該SNP的目標(biāo)基因:eQTLs(RNA-Seq)
是否在基因內(nèi)部:GENCODE注釋文件
轉(zhuǎn)錄因子結(jié)合位點(diǎn):ChIP-Seq
蛋白結(jié)合Motif的改變:PWM分?jǐn)?shù)
調(diào)控元件分類結(jié)果(promoter筐眷,enhancer等):Chromatin States(來自Roadmap項(xiàng)目)
染色質(zhì)開放區(qū)域(open chromatin):DHS區(qū)域
堿基在人群中比例:1000 Genomes等項(xiàng)目
人工注釋:Vista enhancer數(shù)據(jù)庫(kù)
序列保守性:SiPhy軟件注釋
當(dāng)我們查看特定的SNP黎烈,或者特定的基因組區(qū)域,以上返回的結(jié)果就能提示值不值得深入研究了匀谣。
雖然兩個(gè)數(shù)據(jù)庫(kù)的信息大同小異照棋,但是細(xì)節(jié)上還有一些不同,比如:
RegulomeDB鏈接到UCSC Browser武翎,可以查看這些支持性信息的track
HaploReg可以同時(shí)展示處于高LD區(qū)域的其它SNP的信息
查看完整的注釋信息請(qǐng)參考頁(yè)面下方的官網(wǎng)鏈接烈炭。
3. 用法示例
文獻(xiàn)報(bào)道rs2816316與腹腔疾病疾病相關(guān)
(Hunt, …, van Heel (2008) Nature Genetics和Dubois, …, van Heel (2010)Nature Genetics).
在RegulomeDB里查詢?cè)揝NP。RegulomeDB將所有SNP按照Fig 1的優(yōu)先性打分宝恶。Fig 2說明該SNP與轉(zhuǎn)錄調(diào)控關(guān)系不大符隙。
在HaploReg里查詢,有25個(gè)SNP與rs2816316處于高LD(r^2>0.8)(Fig 3)垫毙,有三個(gè)SNP(rs2816305, rs2984920和rs7535818)是轉(zhuǎn)錄因子結(jié)合位點(diǎn)霹疫,并且也與DHS和enhancer區(qū)域重疊。
返回Regulome中繼續(xù)查詢上述三個(gè)SNP(Fig 4)综芥。
rs2816305為RGS1的eQTL丽蝎,同時(shí)處于調(diào)控元件內(nèi)部。rs2984920在RGS1啟動(dòng)子內(nèi)部膀藐,并且處于 PU.1和NFKB的motif內(nèi)部(Fig 5)征峦。這兩個(gè)SNP都值得繼續(xù)深入研究。
4. 結(jié)語
這樣的數(shù)據(jù)疊加消请,可以為該SNP的功能提供一些參考信息栏笆。如果我們能直接知道它調(diào)控的基因就更好了,當(dāng)然有人早就想到這個(gè)問題臊泰,比如下篇要介紹的資源蛉加。。
參考資料
NCBI dbSNP Build 141: https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=141
RegulomeDB: http://www.regulomedb.org/
HaploReg: http://archive.broadinstitute.org/mammals/haploreg/haploreg.php
ENCODE Document: https://www.encodeproject.org/documents/