現(xiàn)有比對(duì)工具在做mapping之前妆兑,都需要下載對(duì)應(yīng)物種的參考基因組做index仅父,而如何選擇合適的參考基因組是一件非常重要的事情溃槐。
現(xiàn)有的參考基因組存儲(chǔ)網(wǎng)站三個(gè):
ENSEMBL
UCSC
NCBI
UCSC 的命名是hg/mm系列,之前最常用的就是hg19參考基因組了磺箕。
ENSEMBL的命名規(guī)則則是采用GRCh/m的方式稽屏,GRCh37對(duì)應(yīng)hg19扮宠,hg38對(duì)應(yīng)GRCh38。
現(xiàn)階段的話(huà)狐榔,我個(gè)人比較推崇從ENSEMBL上下載參考基因組和注釋文件坛增,以homo sapiens為例,https://asia.ensembl.org/Homo_sapiens/Info/Index可以查看現(xiàn)有的基因版本和一些配套的信息荒叼。
FTP地址為:ftp://ftp.ensembl.org/pub/release-92/轿偎,直接可以在目錄下download fasta文件和gtf文件典鸡,選擇對(duì)應(yīng)的種屬即可被廓。
基因組各種版本對(duì)應(yīng)關(guān)系:http://www.bio-info-trainee.com/1469.html
常見(jiàn)基因組下載完畢后如下大小:
以下是下載參考基因組及比對(duì)軟件的代碼:
下載的小鼠基因組
cd ~/reference
mkdir -p genome/mm10 && cd genome/mm10
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > mm10.fa
rm chr*.fa
下載hg19:
cd ~/reference
mkdir -p genome/hg19 && cd genome/hg19
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa
下載hg38
cd ~/reference
mkdir -p genome/hg38 && cd genome/hg38
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz &
bowtie軟件建立索引文件
cd ~/reference
mkdir -p index/bowtie && cd index/bowtie
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/hg19/hg19.fa ~/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/hg38/hg38.fa ~/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/mm10/mm10.fa ~/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &
bwa軟件建立索引文件
cd ~/reference
mkdir -p index/bwa && cd index/bwa
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/hg19 ~/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1 &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/hg38 ~/reference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1 &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/mm10 ~/reference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1 &
hisat軟件建立索引文件
cd ~/reference
mkdir -p index/hisat && cd index/hisat
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grcm38.tar.gz &
tar zxvf hg19.tar.gz
tar zxvf grcm38.tar.gz
tar zxvf hg38.tar.gz
基因注釋文件下載
1.Ensembl
同NCBI一樣萝玷,可通過(guò)網(wǎng)頁(yè)檢索下載嫁乘,也可通過(guò)ftp直接下載昆婿。 (1)官網(wǎng)下載:
或者通過(guò)進(jìn)入download下載。 (2)ftp下載: ftp://ftp.ensembl.org/pub/release-75/fasta/homosapiens/ 更改release后的數(shù)字下載相應(yīng)的版本蜓斧,包括dna仓蛆、cdna、cds等序列信息挎春,release-75是目前最新的hg19版本看疙。 注釋文件下載(默認(rèn)gtf,大部分比對(duì)軟件輸入格式):
FTP地址為:
ftp://ftp.ensembl.org/pub/release-75/gtf/homosapiens/ #動(dòng)物
ftp://ftp.ensemblgenomes.org/pub/plants/ #植物
2.Gencode數(shù)據(jù)庫(kù)
最權(quán)威的人類(lèi)和小鼠基因組的注釋還屬Gencode數(shù)據(jù)庫(kù)直奋。
關(guān)于注釋文件能庆,推薦先閱讀Jimmy大神的這篇文章(http://www.biotrainee.com/thread-30-1-1.html),順便說(shuō)一下脚线,幾乎所有新手遇到的問(wèn)題搁胆,都能在Jimmy大神的帖子里找到答案!
回過(guò)頭來(lái)繼續(xù)說(shuō)注釋文件邮绿。簡(jiǎn)單來(lái)講注釋文件就是基因組的說(shuō)明書(shū)渠旁,告訴我們哪些序列是編碼蛋白的基因,哪些是非編碼基因船逮,外顯子顾腊、內(nèi)含子、UTR等的位置等等傻唾。注釋文件在以上三個(gè)提供參考基因組的網(wǎng)站中都有提供投慈,比如Ensemble。但是現(xiàn)在最權(quán)威的人類(lèi)和小鼠基因組的注釋還屬Gencode數(shù)據(jù)庫(kù)冠骄。
官網(wǎng): http://www.gencodegenes.org
進(jìn)入官網(wǎng)后直接下載對(duì)應(yīng)hg19的最新人類(lèi)的基因組注釋文件(Data-----Human-----GRCh37-mapped Releases-----選擇2016年10月份發(fā)布的最新注釋版本“ gencode . v26lift37 . annotation . gtf . gz” )伪煤,注意注釋文件的格式一般是gtf或者gff3格式的,具體可參考@徐洲更和@沈夢(mèng)圓的筆記凛辣。
axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
gzip -d gencode . v26lift37 . annotation . gtf . gz #下載后解壓
mv #與下載的hg19參考基因組放在一起