1、人基因組在NCBI当辐、UCSC抖僵、ENSEMBL、GENCODE數(shù)據(jù)庫(kù)的版本對(duì)應(yīng)
在用到人基因組相關(guān)信息時(shí)缘揪,經(jīng)常用到的數(shù)據(jù)庫(kù)有NCBI耍群、UCSC、ENSEMBL找筝。
NCBI的版本有GRCh36世吨、GRCh37、GRCh38呻征;
UCSC的版本有hg18耘婚、hg19、hg38陆赋;
ENSEMBL的版本就復(fù)雜多了沐祷,52/59/64/68/69/75/76/77/78/80/81/82.
上述三個(gè)數(shù)據(jù)庫(kù)之間的對(duì)應(yīng)關(guān)系大致如下:
首先是NCBI對(duì)應(yīng)UCSC,然后對(duì)應(yīng)ENSEMBL數(shù)據(jù)庫(kù):
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
此外gencode數(shù)據(jù)庫(kù)也可以下載不同版本的人基因組及其注釋信息攒岛;
GENCODE數(shù)據(jù)庫(kù)與NCBI赖临、UCSC數(shù)據(jù)庫(kù)的對(duì)應(yīng)關(guān)系如下:
2、千人基因組數(shù)據(jù)庫(kù)的基因組版本對(duì)應(yīng)問題
1)GRCH37灾锯,b37兢榨,hs37d5(b37+decoy)與hg19的來(lái)源: hg19來(lái)自UCSC,GRCH37來(lái)自NCBI顺饮,b37來(lái)自千人基因組第一期吵聪,建議使用的是b37的升級(jí)版hs37d5,來(lái)源于千人基因組計(jì)劃第二期兼雄,也是目前Broad正在使用的兩個(gè)基于hg19的基因組版本之一(另一個(gè)版本無(wú)hs37d5,即decoy序列)吟逝。
2)GRCH37,b37和hs37d5的區(qū)別: 可以將hs37d5理解為b37的升級(jí)版赦肋,b37為GRCH37的升級(jí)版块攒。b37在GRCH37的基礎(chǔ)上進(jìn)行命名和坐標(biāo)系統(tǒng)規(guī)范,包括線粒體和GL開頭的一些沒有定位到基因組的序列佃乘;hs37d5在b37基礎(chǔ)上增加了一條病毒序列(皰疹病毒)囱井,一條decoy序列(hs37d5,來(lái)自BAC或者質(zhì)寥け埽克隆等庞呕,沒有具體的變異檢測(cè)的作用,但是能增加比對(duì)率鹅巍,以及提升正確的比對(duì)率)千扶,并且在Y染色體上把X,Y染色體的同源區(qū)mark 成了N。
3) hg19與hs37d5的區(qū)別: hg19與hs37d5的坐標(biāo)系統(tǒng)一樣骆捧,1-X,Y染色體堿基信息一模一樣澎羞。區(qū)別是(不考慮scaffold的區(qū)別):
線粒體有差別(版本不一樣,hs37d5用的是修正版的NC_012920敛苇,而hg19是老版的NC_001807)妆绞,建議使用NC_012920(也有基于hg19更新線粒體信息的hg19基因組)。
UCSC參考基因組中有大小寫堿基枫攀,小寫表示在repeat區(qū)(Repeats from RepeatMasker and Tandem Repeats Finder)括饶。
染色體編號(hào)表示不同,hg19帶有chr来涨,hs37d5直接是染色體編號(hào)
4)hs37d5和GRCH38(hg38)的區(qū)別: GRCH38是GRCH37的升級(jí)版图焰,總體組裝的堿基數(shù)量,基因的坐標(biāo)位置等許多信息的更新蹦掐,具體區(qū)別可參考
每次基因組版本的升級(jí)技羔,比如從hg18到hg19,再到hg38卧抗,坐標(biāo)系統(tǒng)已經(jīng)不一樣藤滥,所以分析過程中使用了某個(gè)基因組,去公共數(shù)據(jù)庫(kù)查詢頻率社裆,位置等信息時(shí)拙绊,都要對(duì)應(yīng)到使用的參考基因組查詢相關(guān)信息,才能保持信息的一致性泳秀。另外标沪,如果需要,基因組坐標(biāo)間也能通過LiftOver進(jìn)行轉(zhuǎn)換嗜傅。
-----------------------------------------------------------------------------------I am a line !? ?Thanks !------------------------------------------------------------------------------------------------------------------------------------------------------------