常用的參考基因組數(shù)據(jù)庫(kù):
1嗡贺、Ensembl
是由European Bioinformatics Institute(EBI)與Wellcome Trust Sanger Institute(WTSI)共同合作開發(fā)的數(shù)據(jù)庫(kù)項(xiàng)目喇勋。涵蓋大量物種的參考基因組信息冬念,并且數(shù)據(jù)更新及時(shí)题涨,是參考基因組下載的好選擇缅茉。
http://www.ensembl.org/index.html
2车酣、NCBI
是National Center for Biotechnology Information的縮寫外遇,指美國(guó)國(guó)立生物技術(shù)信息中心。
http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data
3簿训、UCSC
由University of California Santa Cruz(UCSC)創(chuàng)立和維護(hù)咱娶,主要包含了人類、小鼠强品、果蠅等多種常見動(dòng)物的基因組信息。
http://genome.ucsc.edu
4屈糊、FlyBase
整合了果蠅遺傳和基因組數(shù)據(jù)的榛,并提供了基因和分子水平的檢索和可視化。
http://flybase.org/
5逻锐、illumina的iGenomes打包了各物種齊全的參考數(shù)據(jù)信息夫晌。
https://support.illumina.com/sequencing/sequencing_software/igenome.html
一般在三個(gè)網(wǎng)站下載參考基因組:Ensembl雕薪、NCBI和UCSC:
參考基因組:對(duì)于人類來說,目前比較常用的參考基因組有hg19晓淀、hg38所袁、GRCh37、GRCh38凶掰。hg系列是UCSC的叫法燥爷,GRCh系列是NCBI和Ensembl的叫法。同一版本的序列是一樣的懦窘,hg19對(duì)應(yīng)GRCh37前翎,hg38對(duì)應(yīng)GRCh38。
注釋文件:三個(gè)來源同一版本的DNA序列雖然相同畅涂,但是它們的注釋是不同的港华,更新頻率也不一樣。NCBI 的注釋是refseq數(shù)據(jù)集午衰,UCSC 和 Ensembl 注釋都將其作為自己的一個(gè)子集立宜,如UCSC 的refGene。而UCSC 的注釋比較混亂臊岸,同樣ID的基因會(huì)出現(xiàn)在不同鏈或不同染色體位置上橙数。Ensembl的注釋通常比UCSC更多(例如snRNA、miRNA扇单、假基因商模,所以噪音更多一點(diǎn)),但是ID處理比較好蜘澜,所以ID更容易進(jìn)行轉(zhuǎn)換施流。Ensembl還經(jīng)常更新它的注釋,更新一次作為一個(gè)版本發(fā)布鄙信。不同的來源的基因組序列名稱不一樣瞪醋,1號(hào)染色體在 UCSC 中是 chr1,而在 Ensembl的基因組和GTF文件中是1装诡。使用時(shí)序列和注釋要統(tǒng)一银受,UCSC的基因組序列需要對(duì)應(yīng)使用UCSC的gtf/gff3注釋文件,Ensembl則對(duì)應(yīng)使用其同一版本對(duì)應(yīng)的gtf/gff3注釋文件鸦采。GeneCode(http://www.gencodegenes.org/)也可以下載人類和小鼠的基因注釋文件宾巍。
選擇注釋資源應(yīng)遵循的原則:當(dāng)進(jìn)行強(qiáng)調(diào)可重復(fù)性和穩(wěn)健的基因表達(dá)估計(jì)的研究時(shí),優(yōu)先選較為簡(jiǎn)單的基因組注釋渔伯,如 RefGene顶霞。當(dāng)進(jìn)行更具探索性的研究時(shí),更全面的注釋更優(yōu)锣吼,比如選擇Ensembl选浑。而UCSC則不太建議使用蓝厌。
參考基因組:
2種組裝形式:
toplevel - Includes haplotype information 包含了單倍體型和patch信息。單倍體型的信息會(huì)使得比對(duì)軟件如STAR/hisat2/bowtie2(除了BWA)很難處理好古徒。
primary_assembly - Single reference base per position 每個(gè)位置只有一個(gè)參考?jí)A基拓提。適合用于序列相似性搜索。STAR推薦使用Ensembl primary_assembly參考基因組隧膘。
3種重復(fù)序列處理方式:
dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase) 將重復(fù)核苷酸轉(zhuǎn)換為小寫代态。主要的比對(duì)軟件如BWA、bowtie2等都忽略這些soft-mask舀寓,直接把小寫字母當(dāng)做大寫字母比對(duì)胆数。
dna_rm - Repeats masked (converts repeats to to N’s) 用N代替重復(fù)區(qū)域和低復(fù)雜區(qū)。會(huì)給后續(xù)的比對(duì)帶來很大的問題互墓,不建議選用必尼。
dna - No masking 不標(biāo)記重復(fù)序列。推薦使用篡撵。
注釋文件gtf/gff3:
.gtf - 對(duì)應(yīng)primary assembly.fa判莉。包含全部的注釋,除了human和mouse這兩個(gè)物種只包含primary assembly(不包含patch and haplotype)育谬。
.chr.gtf - 只含染色體上的注釋券盅,不包含toplevel scaffolds(patch and haplotypes)。
.chr_patch_hapl_scaff - 對(duì)應(yīng)toplevel膛檀。只出現(xiàn)在human和mouse這兩個(gè)物種中锰镀,包含全部注釋(包括patch and haplotype)。也可以用咖刃。
.abinitio.gtf - 基于.gtf增加了使用Genscan和其他abinitio prediction tools得到的一些注釋信息泳炉。
推薦:
人類:Ensembl的primary_assembly,dna(或dna_sm效果相同)嚎杨,以及對(duì)應(yīng)的.gtf(或.chr_patch_hapl_scaff含有其它信息)花鹅。
果蠅:Ensembl的toplevel,dna(或dna_sm效果相同)枫浙,以及對(duì)應(yīng)的.gtf刨肃。
GTF(General Transfer Format):即GFF2。GTF是GFF便于傳輸版箩帚。分為9列真友,以Tab分割:
seqname - 染色體或scaffold的名稱。
source - 生成這個(gè)特征的項(xiàng)目名稱紧帕,或數(shù)據(jù)庫(kù)來源锻狗。
feature - 特征類型名稱,如gene焕参、transcript轻纪、exon、CDS叠纷。
start? end? score
strand - 正鏈或負(fù)鏈+/-刻帚。
frame - 密碼子的第幾個(gè)堿基0/1/2。
attribute - 附加信息涩嚣。
GFF3(General Feature Format):
seqid - 染色體或scaffold的名稱崇众。
source - 生成這個(gè)特征的項(xiàng)目名稱,或數(shù)據(jù)庫(kù)來源航厚。
feature - 特征類型名稱顷歌,來自SOFA sequence ontology。
start? end? score
strand - 正鏈或負(fù)鏈+/-幔睬。
phase - 密碼子的第幾個(gè)堿基0/1/2眯漩。
attribute - 附加信息。A semicolon-separated list of tag-value pairs麻顶。
GTF和GFF之間的區(qū)別:
數(shù)據(jù)結(jié)構(gòu):都是由9列構(gòu)成赦抖,分別是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的,第9列不同辅肾。
GFF第9列:都是以鍵值對(duì)的形式队萤,鍵值之間用“=”連接,不同屬性之間用“矫钓;”分隔要尔,都是以ID這個(gè)屬性開始。下圖中有兩個(gè)ID新娜,說明是不同的序列赵辕。
GTF第9列:同樣以鍵值對(duì)的形式,鍵值之間是以空格區(qū)分杯活,值用雙引號(hào)括起來胃惜;不同屬性之間用“;”分隔卷谈;開頭必須是geneid, transciptid兩個(gè)屬性师枣。
Ensembl:
https://asia.ensembl.org/Drosophila_melanogaster/Info/Index
果蠅:
ftp://ftp.ensembl.org/pub/release-99/fasta/drosophila_melanogaster/dna/
ftp://ftp.ensembl.org/pub/release-99/gtf/drosophila_melanogaster/
人類:
ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/
ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/
文件命名規(guī)律:<species>物種. <assembly>版本號(hào). <sequence type>序列類型. <id type>基因組類型. <id>序列編號(hào). fa.gz
TOPLEVEL:包含了所有的序列區(qū)域(比如染色體、非染色體以及用大量N填充的單倍型haplotypes或基因組補(bǔ)丁patches區(qū)域)歪今。
PRIMARY ASSEMBLY:在上面toplevel的基礎(chǔ)上嚎幸,排除了單倍型或基因組補(bǔ)丁區(qū)域。如果看到目錄中不存在這種類型的數(shù)據(jù)(比如這里果蠅就沒有寄猩,而人類的基因組數(shù)據(jù)就存在)嫉晶,那么就意味著基因組不包含單倍型或基因組補(bǔ)丁區(qū)域,其實(shí)也就是等同于TOPLEVEL。
TOPLEVEL:人類(含patch and haplotype替废,對(duì)應(yīng).chr_patch_hapl_scaff)箍铭,果蠅(不含patch and haplotype,對(duì)應(yīng).gtf)椎镣。
PRIMARY ASSEMBLY:人類(不含patch and haplotype诈火,對(duì)應(yīng).gtf)。
UCSC:
http://genome.ucsc.edu/index.html
最新版本:
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/latest/
hg38.chromFa.tar.gz - The assembly sequence in one file per chromosome.
hg38.fa.gz - "Soft-masked" assembly sequence in one file.
分析集文件:
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/analysisSet/
hg38.analysisSet.chroms.tar.gz - analysis set sequence one file per chromosome. 與NCBI的GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz相同状答。
NCBI:
https://www.ncbi.nlm.nih.gov/genome/guide/human/
最新版本:
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.gff.gz
分析集文件:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/
可使用:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz