NCBI對應(yīng)UCSC,對應(yīng)ENSEMBL數(shù)據(jù)庫:
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
如果使用基于GRCH37的衍生參考基因組版本译断,建議使用hs37d5授翻,這幾個版本的基因組的主要區(qū)別介紹如下:
1)GRCH37,b37孙咪,hs37d5(b37+decoy)與hg19堪唐、GRCH38(hg38)的來源: hg19來自UCSC,GRCH37來自NCBI翎蹈,b37來自千人基因組第一期淮菠,建議使用的是b37的升級版hs37d5,來源于千人基因組計(jì)劃第二期荤堪,也是目前Broad正在使用的兩個基于hg19的基因組版本之一(另一個版本無hs37d5,即decoy序列)合陵。
2)GRCH37枢赔,b37和hs37d5的區(qū)別: 可以將hs37d5理解為b37的升級版,b37為GRCH37的升級版拥知。b37在GRCH37的基礎(chǔ)上進(jìn)行命名和坐標(biāo)系統(tǒng)規(guī)范踏拜,包括線粒體和GL開頭的一些沒有定位到基因組的序列;hs37d5在b37基礎(chǔ)上增加了一條病毒序列(皰疹病毒)低剔,一條decoy序列(hs37d5速梗,來自BAC或者質(zhì)粒克隆等襟齿,沒有具體的變異檢測的作用姻锁,但是能增加比對率,以及提升正確的比對率)猜欺,并且在Y染色體上把X,Y染色體的同源區(qū)mark 成了N位隶。
3) hg 19與hs37d5的區(qū)別: hg19與hs37d5的坐標(biāo)系統(tǒng)一樣,1-X,Y染色體堿基信息一模一樣替梨。區(qū)別是(不考慮scaffold的區(qū)別):
線粒體有差別(版本不一樣,hs37d5用的是修正版的NC_012920装黑,而hg19是老版的NC_001807)副瀑,建議使用NC_012920(也有基于hg19更新線粒體信息的hg19基因組)。
UCSC參考基因組中有大小寫堿基恋谭,小寫表示在repeat區(qū)(Repeats from RepeatMasker and Tandem Repeats Finder)糠睡。
染色體編號表示不同,hg19帶有chr疚颊,hs37d5直接是染色體編號
4)hs37d5和GRCH38(hg38)的區(qū)別: GRCH38是GRCH37的升級版狈孔,總體組裝的堿基數(shù)量,基因的坐標(biāo)位置等許多信息的更新材义,具體區(qū)別可參考PPT
每次基因組版本的升級均抽,比如從hg18到hg19,再到hg38其掂,坐標(biāo)系統(tǒng)已經(jīng)不一樣油挥,所以分析過程中使用了某個基因組,去公共數(shù)據(jù)庫查詢頻率款熬,位置等信息時深寥,都要對應(yīng)到使用的參考基因組查詢相關(guān)信息,才能保持信息的一致性贤牛。另外惋鹅,如果需要,基因組坐標(biāo)間也能通過LiftOver進(jìn)行轉(zhuǎn)換殉簸。
5)以下是hg19和GRCH37衍生版本之間差異及信息的說明網(wǎng)址闰集,可供參考:https://wiki.dnanexus.com/Scientific-Notes/human-genome
各版本參考基因組下載地址:
hg19/hg38下載地址 http://hgdownload.cse.ucsc.edu/downloads.html#human
GRCH37/GRCH38下載地址 https://www.ncbi.nlm.nih.gov/genome/guide/human/
本文固定鏈接: http://qgenomics.org/?p=1152
轉(zhuǎn)載于: H-Yu 2017年03月23日 于 Qgenomics 發(fā)表