將原始fq文件通過FastQC-align-samtools||GATK等流程最終得到vcf文件侮措,也就是記錄某些位點變異的文本文件布疼。但只是通過看vcf文件我們是不知道些變異位點到底是位于基因的exon郊供、intron、UTR等的哪些區(qū)域的鹤竭。所以我們需要對vcf文件也就是這些變異位點進行注釋忙上。最常用的vcf注釋軟件有annovar和snpEff。
本文將介紹如何用annovar軟件對vcf文件進行注釋锅劝。
- 準備的輸入文件
- reference.fa
- reference.gtf或gff3文件
- sample.vcf
- 用gff3ToGenePred與gtfToGenePred工具將gtf或gff3文件轉(zhuǎn)化為reference_refGene.txt
gtfToGenePred -genePredExt reference.gtf reference_refGene.txt
- 將reference.fa文件轉(zhuǎn)化為reference_refGeneMrna.fa
perl retrieve_seq_from_fasta.pl --format refGene --seqfile reference.fa all_refGene.txt --out reference_refGeneMrna.fa
- 再將vcf文件轉(zhuǎn)化為annovar格式
perl ~/biosoft/annovar/convert2annovar.pl -format vcf4 sample.vcf > sample.annovar
- 用table_annovar.pl進行注釋(可一次性完成三種類型的注釋)
perl ~/biosoft/annovar/annotate_variation.pl -buildver reference -geneanno -outfile sample.anno sample.annovar ~/biosoft/annovar/referencedb/
最終得到兩個注釋文件文件和一個log文件exonic_variant_function和variant_function
參考:https://zhengzexin.com/2016/04/28/annovar-zhu-shi-ruan-jian/