SnpEff是一款注釋變異位點(SNP+InDel+MNP)和預測變異對基因的影響(例如氨基酸變化)的工具侯勉。
用法:
輸入文件:輸入是變異位點(SNP捶闸,插入夜畴,缺失和MNP)的VCF文件(一般情況下)。
輸出:SnpEff分析輸入變異位點并注釋和計算了它們對已知基因產生的影響删壮。
學習軟件的最詳細的教程當然是官方Tutorial贪绘,SnpEff官方網頁。但是由于Tutorial需要講解的參數(shù)非常多央碟,看起來非常繁復税灌,所以如果你急需了解SnpEff請跟著我們的步伐吧!
1. 下載
#在合適的文件夾下創(chuàng)建biosoft/snpeff文件
mkdir -p ~/biosoft/snpeff
snpeffDir=~/biosoft/snpeff
#進入snpeff文件夾下
cd $snpeffDir
# 下載最新版
wget https://snpeff.blob.core.windows.net/versions/snpEff_latest_core.zip
# 解壓文件
unzip snpEff_latest_core.zip
??先跑一個注釋的案例吧
java -Xmx4g -jar ${snpeffDir}/snpEff.jar GRCh37.75 examples/test.chr22.vcf > test.chr22.ann.vcf
#使用 命令-v可以顯示更多的軟件運行信息,方便debug
java -Xmx4g -jar ${snpeffDir}/snpEff.jar -v GRCh37.75 examples/test.chr22.vcf > test.chr22.ann.vcf
??這個例子之所以能運行菱涤,是因為我們已經創(chuàng)建了GRCh37.75的注釋數(shù)據庫苞也,如果你第一次使用snpEff和第一次注釋某個物種,需要在注釋前需要準備注釋的數(shù)據庫粘秆,SnpEff目前已包含20,000多種參考基因組的注釋庫如迟,下載方式為
cd $snpeffDir
java -jar snpEff.jar databases | less
java -jar snpEff.jar databases | grep -i musculus
java -jar snpEff.jar databases | grep -i GRCh37
##下載數(shù)據庫
java -jar snpEff.jar download -v GRCh37.75
??但是為了保證注釋庫新鮮,大家可以自己創(chuàng)建翻擒,創(chuàng)建方式如下
準備文件:1. 參考基因組fasta文件; 2. 參考文件gtf注釋文件氓涣。
選擇性文件:3. cds文件; 4. pep文件;5. 一般注釋文件
- 進入SnpEff安裝文件夾
cd $snpeffDir
- 創(chuàng)建數(shù)據庫文件夾
mkdir data/GRCh37.100
cd data/GRCh37.100
- 下載注釋基因,官方例子是下載的ensemble注釋版本70,而現(xiàn)在數(shù)據庫已經更新到101了陋气,我們使用release-100
wget ftp://ftp.ensembl.org/pub/release-100/gtf/homo_sapiens/Homo_sapiens.GRCh37.100.gtf.gz
mv Homo_sapiens.GRCh37.100.gtf.gz genes.gtf.gz
- 下載蛋白
#目的1 -稀有氨基酸注釋劳吠,2- 檢查從DNA序列預測的蛋白與真實蛋白匹配
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/pep/Homo_sapiens.GRCh37.100.pep.all.fa.gz
mv Homo_sapiens.GRCh37.100.pep.all.fa.gz protein.fa.gz
- 下載CDSs
#目的:檢查從DNA序列預測的CDS與真實CDS匹配
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh37.100.cdna.all.fa.gz
mv Homo_sapiens.GRCh37.100.cdna.all.fa.gz cds.fa.gz
- 下載一般注釋文件
wget ftp://ftp.ensembl.org/pub/release-100/regulation/homo_sapiens/AnnotatedFeatures.gff.gz
mv AnnotatedFeatures.gff.gz regulation.gff.gz
#解壓gz文件
gunzip *.gz
7.下載 genome基因組文件(fasta格式)
cd ../genomes/
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.100.dna.toplevel.fa.gz
mv Homo_sapiens.GRCh37.100.dna.toplevel.fa.gz GRCh37.100.fa.gz
gunzip GRCh37.100.fa.gz
- 編輯snpEff.config文件
vi snpEff.config
#添加文字
GRCh37.100.genome : Homo_sapiens
GRCh37.100.reference : ftp://ftp.ensembl.org/pub/release-100/gtf/
- 文件準備完畢,創(chuàng)建注釋數(shù)據庫
cd ~/snpeff
java -Xmx20g -jar ${snpeffDir}/snpEff.jar build -v GRCh37.100 2>&1 | tee GRCh37.100.build