前情提要
搞NGS,注釋文件是我們經(jīng)常需要用到的拜鹤。但是不同的實(shí)驗(yàn)室偏愛的數(shù)據(jù)庫(kù)各不相同框冀,甚至同一個(gè)課題組的小伙伴都會(huì)選擇不同來源的數(shù)據(jù)庫(kù)。那么不同來源的數(shù)據(jù)庫(kù)是否有什么不同呢敏簿?如何選擇更適合我們研究的注釋呢明也?
主流的基因注釋版本有三種:RefSeq/Ensemble/UCSC
Refseq=NCBI宣虾;Ensemble=Gencode
Ensemble注釋更全面,Refseq適合那些不那么復(fù)雜的注釋
Refseq是由美國(guó)NCBI搞出來的温数,而ENSEMBL則是由歐洲EMBL-EBI搞出來的绣硝,所以這倆不是一回事,甚至可以說差別有點(diǎn)大撑刺。
那么差別在哪呢鹉胖?咱從Gencode說起……
Gencode
官方介紹:GENCODE項(xiàng)目的目標(biāo)是基于生物學(xué)證據(jù)高精度地識(shí)別和分類人類和小鼠基因組中的所有基因特征,并發(fā)布這些注釋以利于生物醫(yī)學(xué)研究和基因組解釋
Gencode的注釋來源于兩部分够傍。分別是Ensembl-Havana團(tuán)隊(duì)生成的手動(dòng)基因注釋和Ensembl-genebuild的自動(dòng)基因注釋甫菠。當(dāng)我們使用Ensembl genome browser時(shí),默認(rèn)的基因注釋就是Gencode annotation冕屯。
這里值得一提的是寂诱,在gencode中標(biāo)識(shí)HAVANA來源的,這表示它是人工注釋的安聘。但是這些注釋也有可能是由于Havana手動(dòng)注釋和Ensembl自動(dòng)注釋合并的結(jié)果 而如果標(biāo)識(shí)的是ENSEMBL痰洒,則表明這條注釋是由Ensemble自動(dòng)注釋得到的
實(shí)際上,GENCODE注釋與Ensembl注釋基本相同……此處劃重點(diǎn)浴韭,是基本丘喻,但不是全部~那么有哪些不同呢?
-
X/Y染色體上PAR區(qū)域的注釋:該區(qū)域的注釋在Gencode中X染色體和Y染色體各注釋一次囱桨,而在Ensembl文件中仓犬,只在X染色體進(jìn)行了注釋
PAR region(Pseudoautosomal region):該區(qū)域是X和Y染色體的同源序列,因?yàn)檫@上面的任何基因可以和常染色體基因一樣正常遺傳而得名
Gencode的第九列舍肠,也就是attribute那一列搀继,有一些其他額外的tags,這些tags是Ensebl所沒有的
所以說gencode的基因組注釋基本上和Ensemble是一樣的翠语。
Gencode與Refseq
gencode的注釋叽躯,我們最常用的是Comprehensive 版本,這個(gè)版本有一個(gè)特點(diǎn)肌括,那就是全点骑。這個(gè)版本與Refseq相比,轉(zhuǎn)錄本注釋有著更多更全的外顯子谍夭,對(duì)基因組的覆蓋范圍更廣黑滴,能夠幫助我們發(fā)現(xiàn)更多的突變。
當(dāng)然了紧索,有Comprehensive版本袁辈,那一定有basic版本,就是下面這個(gè)了珠漂。這個(gè)版本與Refseq相比晚缩,相似性更高尾膊,沒有什么所特有的features。說了這么多荞彼,你可能要問了冈敛,不同來源的注釋文件是否可以相互轉(zhuǎn)換?那我只能很遺憾的告訴你:不能鸣皂。雖然從整體上來看抓谴,這兩個(gè)來源的注釋信息大體上是相同的(如果只看某一些基因還是可以發(fā)現(xiàn)不同指出),但是這兩個(gè)來源的注釋都有不同的版本寞缝,而這些不同的版本很難一一對(duì)應(yīng)齐邦。
不過,雖說注釋信息不可以相互轉(zhuǎn)換第租,但是Refseq ID和ENSEMBL(Gencode) ID是可以相互轉(zhuǎn)換的。我們可以使用在線工具http://www.ensembl.org/biomart/martview 我纪,也可以使用Biocundutor包調(diào)用API慎宾,比如biomaRT
如何選擇適合自己的注釋文件?
首先我們需要知道浅悉,沒有任何一個(gè)注釋文件是完美的趟据,總會(huì)有一些小的瑕疵∈踅。可能一些基因的注釋不是很精確汹碱,甚至有可能全部都是錯(cuò)的……
如果我們想要做一些可重復(fù)度高的,或者對(duì)基因表達(dá)水平進(jìn)行估計(jì)的時(shí)候荞估,我們應(yīng)該選擇那些不那么復(fù)雜的基因注釋咳促,比如Refseq。當(dāng)我們想要做一些探索性研究的時(shí)候勘伺,比如可變剪切之類的跪腹,我們可以選擇比較復(fù)雜的基因注釋,比如Ensembl
需要注意的是.abinitio后綴的GTF文件包括了Genscan和其他工具預(yù)測(cè)得到的注釋信息飞醉,會(huì)全面一些冲茸。 但是未必可靠!
For the predicted gene set, an additional abinitio flag is added to the name file.
但是我自己選擇的話缅帘,我傾向于使用Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz轴术,因?yàn)樵诒葘?duì)的時(shí)候fasta文件里面是帶有scaffold的信息的。
需要注意钦无,GENCODE 上的GTF文件和ENSEMBL的GTF文件的第一列是不一樣的逗栽,GENCODE的chr1在ENSEMBL上就是1。其余的地方是一樣的(針對(duì)human & mouse而言)铃诬。
問題
在比對(duì)的時(shí)候祭陷,我該選用哪一個(gè)類型的fasta文件呢苍凛?
Repeat Masking
在NGS處理過程中,事實(shí)上我們并不需要使用一個(gè)標(biāo)記重復(fù)區(qū)域的基因組兵志。標(biāo)記重復(fù)的基因組會(huì)用N代替重復(fù)區(qū)域醇蝴,而這就給后續(xù)的比對(duì)帶來很大的問題,所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的參考基因組想罕。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)雖然也標(biāo)記出了參考基因組悠栓,但是以小寫的形式存在的,故對(duì)比對(duì)沒有影響按价。
這個(gè)問題問完了惭适,dna_rm - Repeats masked出局,余下兩者進(jìn)入下一個(gè)問題楼镐。
Primary or Toplevel癞志?
簡(jiǎn)單的回答就是說請(qǐng)選擇的primary版本,因?yàn)閠oplevel版本會(huì)包含haplotype信息框产,多余的信息會(huì)增加比對(duì)工具的工作凄杯,所以這里選擇primary就可以完成你的工作。
多出來的chr_unkonw.....的信息是啥秉宿?
這是在構(gòu)建基因組時(shí)已知存在于基因組內(nèi)但是不知道位于哪條染色體上戒突,隨著注釋工作的進(jìn)展這些未知基因會(huì)越來越少。
下載參考基因組
1描睦、Ensembl
是由 European Bioinformatics Institute(EBI)與Wellcome Trust Sanger Institute(WTSI)共同合作開發(fā)的數(shù)據(jù)庫(kù)項(xiàng)目膊存。Ensembl提供的基因組序列和NCBI的Genebank數(shù)據(jù)庫(kù)完全對(duì)應(yīng)。涵蓋大量物種的參考基因組信息忱叭,并且數(shù)據(jù)更新及時(shí)隔崎,是參考基因組下載的好選擇。
Ensembl提供了以下兩種版本
top_level
primary_assembly
top_level版本和NCBI提供的版本一致窑多,包含了所有的組裝結(jié)果仍稀;而primary_assembly版本只包含chromsome和unplaced-scaffold序列。
這兩個(gè)版本用處也不大一樣埂息,primary_assembly不包含alt-scafflod, 更適用于SNP的分析技潘, 因?yàn)镾NP就是在分析基因組上的雜合程度,top_level包含了單倍體型( haplotypes)和patch(補(bǔ)肚Э怠)的信息享幽,而單倍體型的信息會(huì)使得比對(duì)軟件很難處理好。如果用BWA拾弃,那么使用toplevel會(huì)有好處值桩,但如果使用STAR/hisat2/bowtie2/BBmap等,包含單倍體型信息會(huì)導(dǎo)致比對(duì)結(jié)果不準(zhǔn)確豪椿。
對(duì)于同一個(gè)版本, 還提供了不同的序列類型
dna
rm
sm
dna就是原始的基因組序列奔坟,rm和sm在原始序列的基礎(chǔ)上標(biāo)記了其中的低復(fù)雜度序列携栋,其中rm采用了硬編碼的形式,刪除了基因組中的低復(fù)雜度序列咳秉,sm采用了軟編碼的方式婉支,將低復(fù)雜度序列用小寫字母表示。通常選擇dna版本進(jìn)行下載即可澜建。
最后強(qiáng)調(diào)一點(diǎn)向挖,Ensembl提供的序列標(biāo)識(shí)符也是我們常見的染色體編號(hào)的形式,只不過是不帶chr前綴的炕舵,而且線粒體用MT表示何之。
2、NCBI
是National Centerfor Biotechnology Information的縮寫咽筋,指美國(guó)國(guó)立生物技術(shù)信息中心溶推。NCBI的全面和強(qiáng)大,相信大家都深有感觸奸攻,NCBI在參考基因組信息展示上同樣表現(xiàn)出色悼潭。
地址:https://www.ncbi.nlm.nih.gov/
NCBI提供的基因組序列包含以下4種水平
chromsome
unlocalized-scaffold
alt-scaffold
patch
chromsome就是組裝到染色體水平的序列,比如chr1這種序列舞箍;unlocalized-scaffold是無法定位到染色體的scaffold序列,比如chrUn這種序列皆疹,這兩種格式的序列共同組成了基因組的primary_assembly版本疏橄。
alt-scaffold的染色體定位是清楚的,是染色體上部分區(qū)域的同源序列略就,比如chr3_KI270934v1_alt這種序列捎迫,對(duì)于多倍體生物,同源染色體會(huì)存在雜合表牢,所以會(huì)出現(xiàn)alt的現(xiàn)象窄绒;patch指的是補(bǔ)丁序列,其染色體定位也是清楚的崔兴,是對(duì)已有序列的補(bǔ)充和糾正彰导,在未來的版本中,會(huì)更新到染色體上去敲茄。
NCBI下載的序列并不直接提供chr1這種我們常見的編號(hào)位谋,如果想要這種編號(hào),可以考慮從UCSC和Ensembl進(jìn)行下載堰燎。
3掏父、UCSC
UCSC Genome Browser是由University of California Santa Cruz (UCSC) 創(chuàng)立和維護(hù)的,主要收錄一些模式動(dòng)物得數(shù)據(jù)庫(kù)秆剪,尤其是人和鼠參考基因組較常用赊淑;關(guān)于人的基因組注釋信息非常全面爵政。
UCSC提供的基因組序列只包含chromsome, unlocalized-scaffold,alt-scaffold 這三種序列陶缺,其標(biāo)識(shí)符是chr1這種格式, 需要注意的是钾挟,線粒體的標(biāo)識(shí)符為chrM。
進(jìn)入U(xiǎn)CSC主頁(yè):http://genome.ucsc.edu
選擇 Downloads------Genomic Data
點(diǎn)擊 Human
向下拉動(dòng)组哩,找到 GRCh37/hg19等龙,點(diǎn)擊 “Full data set”
先閱讀一下各類文件的說明,比如chromAgp.tar.gz是描述測(cè)序片段如何組裝的文件伶贰,chromFa.tar.gz是組裝后的序列蛛砰,每條染色體一個(gè)文件(我們要下載的文件),繼續(xù)向下翻還有關(guān)于如何下載的說明黍衙。
鼠標(biāo)懸浮在chromFa.tar.gz上泥畅,點(diǎn)擊右鍵,選擇“復(fù)制鏈接地址”然后回到Terminal琅翻,使用wget或者axel進(jìn)行下載
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz`
#或者用axel位仁,相比之下axel是真心快啊方椎!
axel http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
#下載后解壓
tar -zxvf chromFa.tar.gz
#解壓后可以發(fā)現(xiàn)聂抢,參考序列是按照染色體號(hào)分開列出的,我們還需要把所有的序列寫入到一個(gè)文件中棠众。
cat *.fa > hg19.fa
#最后刪除其他無用的文件
rm chr*.fa
#注意:Jimmy在《不可不知的基因組版本對(duì)應(yīng)信息》中特別提示:hg19基因組大小是3G琳疏,壓縮后八九百兆!
下載注釋文件
選好了基因組闸拿,gtf/gff3的問題也迎刃而解——選擇對(duì)應(yīng)的版本就好了空盼。
.gtf: 默認(rèn)文件,對(duì)應(yīng)primary assembly.fa(This is the default file, it should contain the full annotation for all species except human and mouse. For human and mouse, it will contain all annotation on the primary assembly, ie excluding patch and haplotype regions. All species have one.)
.chr.gtf: Contains only annotation on chromosomes, so toplevel scaffolds are excluded (patch and haplotypes are not included).
.chr_patch_hapl_scaff:對(duì)應(yīng)toplevel新荤。(Contains all annotation on all toplevel sequences, including patch and haplotype regions. It should only exist for human and mouse)如果你用的是primary選這個(gè)gtf文件也沒什么關(guān)系揽趾,只是多了一些primary沒有的注釋信息而已。
.abinitio.gtf:基于.gtf增加了使用Genscan等工具得到的一些注釋信息(Additionally, we provide a GTF file containing the predicted gene set
as generated by Genscan and other abinitio prediction tools.
This file is identified by the abinitio extension.)
注釋文件就是基因組的說明書苛骨,告訴我們哪些序列是編碼蛋白的基因篱瞎,哪些是非編碼基因,外顯子痒芝、內(nèi)含子奔缠、UTR等的位置等等。注釋文件在以上三個(gè)提供參考基因組的網(wǎng)站中都有提供吼野,比如Ensemble校哎。但是現(xiàn)在最權(quán)威的人類和小鼠基因組的注釋還屬Gencode數(shù)據(jù)庫(kù)。
1、 NCBI
Ncbi 里包含現(xiàn)在最全的參考基因組數(shù)據(jù)闷哆,可以進(jìn)入FTP站點(diǎn)查看:ftp://ftp.ncbi.nlm.nih.gov/genomes/
這里的文件夾名為物種的拉丁名腰奋,這里以 Human(Homo_sapiens) 為例,下載方法如下:
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.109/GFF/ref_GRCh38.p12_top_level.gff3.gz
(hg38)
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/GFF/ref_GRCh37.p5_top_level.gff3.gz
(hg19)
GRCh37與GRCh38:有什么區(qū)別抱怔?
GRCh37和GRCh38都是Genome Reference Consortium(GRC)的人類基因組組裝劣坊。GRCh38(也稱為“build 38”)是在2009年GRCh37發(fā)布四年后發(fā)布的,因此它可以被視為一個(gè)版本屈留,其中包含對(duì)早期版本的更新注釋局冰。
首先,GRCh38版本有三個(gè)更新:
- 修復(fù)錯(cuò)誤的讀數(shù)
- 包含模型著絲粒序列
- 添加備用基因座
除此之外灌危,GRCh37中的一些錯(cuò)誤組裝區(qū)域已在GRCh38中重新投入使用康二。這是第一個(gè)具有著絲粒序列的人類參考基因組,取代了早期構(gòu)建中的300萬(wàn)個(gè)缺口(即GRCh37)勇蝙。包含著絲粒序列將開辟以前從未有過的新研究領(lǐng)域沫勿。
GRCh38還包括在早期版本中部分捕獲的基因組序列。然而味混,基因組中仍然存在差距产雹,新的技術(shù)和方法都有助于縮小差距,旨在最大限度地覆蓋人類基因組翁锡。
我現(xiàn)在需要使用GRCh38重新分析我的數(shù)據(jù)嗎蔓挖?
如果您一直在使用GRCh37,則無需返回并重新分析數(shù)據(jù)馆衔。值得慶幸的是NCBI已經(jīng)解決了這個(gè)問題时甚。
NCBI的Genome Remapping Service將注釋數(shù)據(jù)從GRCh37轉(zhuǎn)換為GRCh38。有關(guān)此工具的更多詳細(xì)信息哈踱,請(qǐng)單擊此處。來自:https://bitesizebio.com/38335/get-to-know-your-reference-genome-grch37-vs-grch38/
2梨熙、Ensembl
FTP 地址:ftp://ftp.ensembl.org/pub/current_gtf
同樣以Human(Homo_sapiens)為下載為例:
wget ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.90.gtf.gz
(hg38)
wget ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz
(hg19)
3开镣、UCSC
地址:http://genome.ucsc.edu/cgi-bin/hgTables
下載:設(shè)置參數(shù)如下,然后點(diǎn)擊get output
下載 gtf 文件
4咽扇、GeneCode
地址:https://www.gencodegenes.org/human/release_29.html
下載:
Notice: 需要注意的是不同的來源的基因組序列名稱不一樣邪财,例如1號(hào)染色體,在 UCSC 中是 chr1质欲,而在 Ensembl是1 树埠,因此不管你選擇哪個(gè)版本,在使用的時(shí)候嘶伟,序列和注釋要統(tǒng)一(UCSC的基因組序列需要對(duì)應(yīng)使用UCSC的gtf/gff3注釋文件怎憋,Ensembl則對(duì)應(yīng)使用其同一版本對(duì)應(yīng)的gtf/gff3注釋文件)。
Notice:下載完成之后,注意檢查數(shù)據(jù)完整性绊袋。
#如果是從ucsc上下載毕匀,可以下載md5文件,比較下載文件和官網(wǎng)提供md5文件的值是否一樣
md5sum mm10.fa > mm10.fa.md5
#如果是從ensembl上下載癌别,可以同時(shí)下載CHECKSUMS文件皂岔,比較下載文件和官網(wǎng)提供的CHEKSUMS里的數(shù)值是否一樣
sum Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
參考:1、劉志國(guó)—如何下載注釋文件并查看基因結(jié)構(gòu)
2展姐、阿楊—你可能不知道的注釋文件冷知識(shí)
3躁垛、白默石—基因組注釋文件(GFF,GTF)下載的四種方法
4、組學(xué)大講堂—如何下下載一個(gè)基因組
5圾笨、RNAseq分析如何選擇參考基因組和gtf