從三大核酸數(shù)據(jù)庫NCBI傻盟、Ensembl芹务、UCSC 下載參考序列及注釋文件
0.人類基因組版本對應(yīng)關(guān)系
NCBI | Ensembl | UCSC |
---|---|---|
GRCh36 | release_52 | hg18 |
GRCh37 | release_59/61/64/68/69/75 | hg19 |
GRCh38 | release_76/77/78/80/81/82 | hg38 |
1.NCBI
人類基因組
GRCh38下載(默認(rèn)):
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/
GRCh37下載:
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.1/
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.2/
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/
GRCh36及其他版本下載:
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/
常用的GRCh37基因組大小壓縮約900Mb瞬哼,解壓后約3G。人類的注釋文件一直在更新,默認(rèn)為GFF3格式捂齐。gff和gtf格式文件關(guān)系及相互轉(zhuǎn)換見:http://www.reibang.com/p/48b5a0972301
也可以通過NCBI的genome數(shù)據(jù)庫下載申屹,默認(rèn)是GRCh38绘证,若要下載其他版本,直接檢索關(guān)鍵詞哗讥。
如輸入GRCh37或hg19:
參考序列和GFF文件均可從此處下載嚷那,其他物種類似。
2.Ensembl
同NCBI一樣杆煞,可通過網(wǎng)頁檢索下載魏宽,也可通過ftp直接下載。
(1)官網(wǎng)下載:
或者通過進(jìn)入download下載决乎。
微生物或原生生物的下載队询,如幽門螺桿菌:
或者直接從這里進(jìn)入:http://bacteria.ensembl.org/index.html
http://bacteria.ensembl.org/species.html
(2)ftp下載:
ftp://ftp.ensembl.org/pub/release-75/fasta/homo_sapiens/
更改release后的數(shù)字下載相應(yīng)的版本,包括dna构诚、cdna蚌斩、cds等序列信息,release-75是目前最新的hg19版本范嘱。
注釋文件下載(默認(rèn)gtf送膳,大部分比對軟件輸入格式):
ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/
3.UCSC
參考序列下載很簡單(尤其是人)
進(jìn)入官網(wǎng):http://hgdownload.cse.ucsc.edu/downloads.html,下載對應(yīng)的各個(gè)版本
也可進(jìn)入http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz,修改中間數(shù)字下載不同版本
但是注釋文件下載稍微有點(diǎn)麻煩盆偿,需要設(shè)置一系列參數(shù)來生成:
http://genome.ucsc.edu/cgi-bin/hgTables
Select the following options:
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: Select "genome" for the entire genome.
output format: GTF - gene transfer format
output file: enter a file name to save your results to a file, or leave blank to display results in the browser
Click 'get output'.
Reference:
http://www.novogene.com/tech/suppor/gene-calss/comprehensive/228.html