Part 5 VEP
簡介
VEP(Variant Effect Predictor)是ENSEMBL制作的一個專門對突變數(shù)據(jù)添加注釋信息的工具,但它是基于perl語言的,所以會有模塊的依賴性(實際上我按照官網(wǎng)教程來安裝VEP一直沒有成功,一直顯示缺少需要的模塊速客,這里我推薦用conda安裝孽亲,完全沒有權(quán)限問題困擾掸鹅,唯一的瑕疵就是版本更新不及時童谒,大概是官網(wǎng)更新幾個月之后才會有最新版)单旁。 跟snpEFF一樣,也是對遺傳變異信息提供更具體的注釋饥伊,而不僅僅是基于位點區(qū)域和基因。
下載安裝這里就不說了蔫饰,用conda安裝直接搜索bioconda找到VEP包琅豆,里面給出了安裝命令。
安裝完軟件篓吁,有一個必不可少的就是注釋所需要的數(shù)據(jù)庫了茫因,VEP支持非常多的物種的注釋,這里我用人類的注釋來稍作解釋杖剪。在這個ftp里ftp://ftp.ensembl.org/pub/選擇安裝好的VEP對應(yīng)的版本冻押,這里用V95為例,ftp://ftp.ensembl.org/pub/release-95/variation/VEP/這個ftp就包含了所有可用的注釋文件盛嘿。
這幾個就是對應(yīng)的人類相關(guān)的(GRCH37->hg19, GRCH38->hg38)洛巢,一般選擇_vep_這類。下載完解壓后隨便放一個地方就行次兆,因為后面使用的時候會指定文件目錄稿茉。
輸入數(shù)據(jù)
?BED: a simple tab-delimited format containing 3-12 columns of data. The first 3 columns contain the coordinates of the feature. If available, the VEP will use the 4th column of the file as the identifier of the feature.
?GFF: a format for describing genes and other features. If available, the VEP will use the "ID" field as the identifier of this feature.
?GTF: treated in an identical manner to GFF.
?VCF: a format used to describe genomic variants. The VEP will use the 3rd column of the file as the identifier.
?bigWig: a format for storage of dense continuous data. The VEP uses the value for the given position as the "identifier". Note that bigWig files contain their own indices, and do not need to be indexed by tabix.
以上數(shù)據(jù)均可用于VEP的輸入,不過我只測試了VCF,其他文件沒有測試漓库。
主要參數(shù)
--input_file / -i
? ? 輸入文件名恃慧,如果不指定,VEP將會在嘗試從STDIN讀取數(shù)據(jù)
--output_file / -o
? ? 輸出文件名渺蒿,可以標(biāo)注為STDOUT痢士,這將會強制打開靜默模式,輸出到默認輸出地址茂装,默認文件名為variant_effect_output.txt
--quiet / -q
? 不輸出任何警告信息
--dir_cache
指定cache文件目錄良瞧,默認是$HOME/.vep/
--dir_plugins
指定插件所在目錄,默認是$HOME/.vep/
--plugin
? ? 指定使用哪個插件
--terms
輸出結(jié)果的類型训唱,默認為SO
--symbol
? ? 在結(jié)果中加入gene symbol
--tsl
在輸出結(jié)果中添加添加或轉(zhuǎn)錄本水平信息
--hgvs
在輸出中添加基于Ensembl stable identifiers的HGVS命名法
--fasta
參考基因組文件
……
運行命令
可以直接進入安裝目錄來運行褥蚯,
/pub5/xiaoyun/BioSoftware/Conda/envs/VEP_2/share/ensembl-vep-95.3-0/vep --input_file ***.vcf.gz --output_file ***.vcf --format vcf --vcf --symbol --terms SO --tsl --hgvs –fasta reference.hg19.fa –dir_cache /pub5/xiaoyun/BioSoftware/Conda/envs/VEP_2/share/ensembl-vep-95.3-0/ –plugin Downstream --plugin Wildtype
這條是專門用于pvacseq流程的命令,后面需要加兩個插件