1. 使用注釋 VCF 文件
1.1 下載和安裝 SnpEff
# 下載 SnpEff
$ wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
# 解壓
$ unzip snpEff_latest_core.zip
# 進(jìn)入 SnpEff 目錄
$ cd snpEff
1.2 下載參考基因組數(shù)據(jù)庫(kù)
$ java -jar snpEff.jar download GRCh38.92
$ unzip snpEff_v4_3_GRCh38.92.zip # 解壓
$ vi snpEff.config
# 添加:
# GRCh38.92.genome : Homo_sapiens
- 手動(dòng)下載(選擇符合自己需要的物種及版本):https://sourceforge.net/projects/snpeff/files/databases
- 也可根據(jù)基因組fasta序列信息和GTF注釋信息溶浴,自行構(gòu)建數(shù)據(jù)庫(kù)(java -jar snpEff.jar build)
1.3 注釋 VCF 文件
$ java -jar snpEff.jar ann GRCh38.92 CC56tissueA.markdup.filtered.vcf > CC56tissueA_snpEff_annotated.vcf
1.4 結(jié)果解讀
注釋完成后會(huì)生成snpEff_genes.txt文件和snpEff_summary.html文件咖耘,記錄了注釋的摘要信息鹰贵,并另外生成一個(gè)新的vcf文件包含詳細(xì)注釋信息
-
Summary(摘要信息):
從上往下依次是:基因組(物種名)辛萍、注釋日期、snpEff版本贾富、注釋命令脐湾、警告信息袱蜡、錯(cuò)誤信息、輸入文件行數(shù)互亮、變異位點(diǎn)數(shù)(過(guò)濾之前)犁享、非變異位點(diǎn)數(shù)(與參考基因組堿基一致)、變異位點(diǎn)數(shù)(過(guò)濾之后)豹休、具有ID的變異位點(diǎn)數(shù)炊昆、非雙等位基因組SNP位點(diǎn)數(shù)、effects個(gè)數(shù)威根、參考基因組總長(zhǎng)度凤巨、參考基因組有效長(zhǎng)度、變異率(參考基因組有效長(zhǎng)度/變異位點(diǎn)數(shù))
2) Variants rate details(各染色體變異率):
從上往下:染色體編號(hào)洛搀、長(zhǎng)度敢茁、變異位點(diǎn)數(shù)、變異率(多少個(gè)堿基中有一個(gè)變異位點(diǎn))
3)Number variants by type(變異類型):
從上往下:SNP(單核苷酸多態(tài)性)留美、MNP(多核苷酸多態(tài)性)彰檬、INS(插入變異)、DEL(缺失變異)谎砾、MIXED(混合變異)逢倍、INV(倒位變異)、DUP(重復(fù)變異)景图、BED(易位變異)较雕、INTERVAL(間隔變異)
4) Number of effects by impact(有效影響數(shù)量):
從上往下:HIGH(變異對(duì)基因或蛋白質(zhì)功能有嚴(yán)重破壞性影響,比如:移碼突變(frameshift)症歇、無(wú)義突變(nonsense)郎笆、剪接位點(diǎn)變異(splice site variants)等)谭梗、LOW(變異對(duì)基因或蛋白質(zhì)功能有輕微影響,比如:同義突變(synonymous)宛蚓,即不改變氨基酸序列的突變)激捏、MODERATE(變異對(duì)基因或蛋白質(zhì)功能有顯著但不太嚴(yán)重的影響,比如:錯(cuò)義突變(missense)凄吏、非同義突變(nonsynonymous)等)远舅、MODIFIER(變異對(duì)基因或蛋白質(zhì)功能影響未知或極小,比如:位于基因間區(qū)的變異(intergenic variants)痕钢、下游基因變異(downstream variants)图柏、上游基因變異(upstream variants)等)
5)Number of effects by functional class(功能分級(jí)有效數(shù)):
從上往下:MiSSENSE(錯(cuò)義突變)、NONSENSE(無(wú)義突變)任连、SILENT(沉默突變)
6)Number of effects by type and region(有效變異數(shù)和百分比):
左邊為按類型劃分有效變異數(shù)蚤吹,包括(從上往下):3’端主要UTR變異(UTR是成熟mRNA分子5'或3'端不被翻譯的部分,一般在mRNA轉(zhuǎn)運(yùn)随抠、穩(wěn)定性和翻譯調(diào)節(jié)中起重要作用)裁着、5’端主要UTR提前啟動(dòng)子獲得變異、5’端主要UTR變異拱她、下游基因變異二驰、起始密碼子編碼變異、基因間隔區(qū)秉沼、內(nèi)含子變異桶雀、剪接受體變異、剪接供體變異唬复、剪接區(qū)域變異矗积、起始缺失、起始保留變異盅抚、終止獲得漠魏、終止缺失、終止保留變異妄均、同義變異柱锹、上游基因變異。
右邊為按區(qū)域劃分有效變異數(shù)丰包,包括(從上往下):下游禁熏、外顯子、間隔區(qū)邑彪、內(nèi)含子瞧毙、剪接位點(diǎn)受體、剪接位點(diǎn)供體、剪接位點(diǎn)區(qū)域宙彪、上游矩动、3’UTR區(qū)、5’UTR區(qū)
7) Base changes (SNPs)(SNP位點(diǎn)堿基變異表):
可以看出SNP中哪些堿基的轉(zhuǎn)換比較多(A腺嘌呤释漆、C胞嘧啶悲没、G鳥嘌呤、T胸腺嘧啶)
8)Ts/Tv (transitions / transversions)(轉(zhuǎn)換/顛換):
顯示轉(zhuǎn)換/顛換的比例和數(shù)量男图,以及不同類型的轉(zhuǎn)換/顛換的數(shù)量和百分比示姿。轉(zhuǎn)換是指嘌呤與嘌呤或嘧啶與嘧啶之間的替代,顛換是指嘌呤與嘧啶之間的替代
2. 使用注釋 VCF 文件
2.1 下載和安裝 VEP
# 下載 VEP
$ wget https://github.com/Ensembl/ensembl-vep/archive/refs/tags/release/112.0.tar.gz
$ tar -zxf ensembl-vep-release-112.0.tar.gz
$ cd ensembl-vep-release-112.0
# 安裝依賴
$ sudo apt-get update
$ sudo apt-get install -y perl build-essential libdbi-perl libdbd-mysql-perl libmysqlclient-dev cpanminus
# 安裝 HTSlib 及其 Perl 綁定(HTSlib 是 VEP 處理 VCF 文件時(shí)所需的庫(kù))
$ sudo apt-get install -y libhts-dev libhts2
$ sudo cpanm Bio::DB::HTS
$ ./vep # 檢測(cè)是否安裝成功
##
## #----------------------------------#
## # ENSEMBL VARIANT EFFECT PREDICTOR #
## #----------------------------------#
##
## Versions:
## ensembl : 112.3add379
## ensembl-funcgen : 112.be19ffa
## ensembl-io : 112.2851b6f
## ensembl-variation : 112.4113356
## ensembl-vep : 112.0
##
## Help: dev@ensembl.org , helpdesk@ensembl.org
## Twitter: @ensembl
##
## http://www.ensembl.org/info/docs/tools/vep/script/index.html
##
## Usage:
## ./vep [--cache|--offline|--database] [arguments]
##
## Basic options
## =============
##
## --help Display this message and quit
##
## -i | --input_file Input file
## -o | --output_file Output file
## --force_overwrite Force overwriting of output file
## --species [species] Species to use [default: "human"]
##
## --everything Shortcut switch to turn on commonly used options. See web
## documentation for details [default: off]
## --fork [num_forks] Use forking to improve script runtime
##
## For full option documentation see:
## http://www.ensembl.org/info/docs/tools/vep/script/vep_options.html
##
2.2 下載所需的參考數(shù)據(jù)
$ perl INSTALL.pl -a cf -s homo_sapiens -y GRCh38 # 下載速度緩慢
# 或手動(dòng)下載(也慢)
$ wget http://ftp.ensembl.org/pub/release-112/variation/vep/homo_sapiens_vep_112_GRCh38.tar.gz
$ wget https://ftp.ensembl.org/pub/release-112/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
$ tar -xvzf homo_sapiens_vep_112_GRCh38.tar.gz # 解壓
$ gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
$ samtools faidx Homo_sapiens.GRCh38.dna.primary_assembly.fa # 建立索引
2.3 注釋 VCF 文件
$ ./vep -i CC56tissueA.markdup.filtered.vcf --fork 4 -o CC56tissueA_VEP_annotated.vcf --assembly GRCh38 --cache --dir_cache /data/shumin/software/ensembl-vep-release-112.0/vep_cache --assembly GRCh38 --offline --fasta /data/shumin/software/ensembl-vep-release-112.0/vep_cache/Homo_sapiens.GRCh38.dna.primary_assembly.fa --vcf
2.4 結(jié)果解讀
注釋完成后同樣會(huì)生成“CC56tissueA_VEP_annotated.vcf_summary.html”文件逊笆,記錄注釋信息
: