一易稠、文件準(zhǔn)備
基因組文件:r498.fa
與基因組對應(yīng)的注釋文件:r498.gff (最好是gtf 格式,后續(xù)需要將gff 轉(zhuǎn)化為gtf )
vcf文件:fs32.vcf
二、使用gffread 將 gff 轉(zhuǎn)化為gtf?
安裝:?conda install -c bioconda gffread
使用:gffread my.gff3 -T -o my.gtf
三、用gtfToGenePred工具將gtf或gff3文件轉(zhuǎn)化為reference_refGene.txt (軟件來自http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/)
增加權(quán)限:chmod +x? ./gtfToGenePred
轉(zhuǎn)化:./gtfToGenePred -genePredExt? r498.gtf? R498_refGene.txt
四、將ref.fa文件轉(zhuǎn)化為SP_refGeneMrna.fa?
perl retrieve_seq_from_fasta.pl --format refGene --seqfile r498.fa R498_refGene.txt --out R498_ensGeneMrna.fa
將?R498_ensGeneMrna.fa 和?R498_refGene.txt 移動到r498文件夾中
五算行、vcf轉(zhuǎn)化為annovar格式
perl convert2annovar.pl? -includeinfo -allsample -withfreq -format vcf4 syri.vcf >fs32.sample.avinput
--includeinfo: 輸出文件含有特定額外的信息?
--allsample: 多樣本的vcf,輸出多個樣本的結(jié)果?
--withfreq: 輸出文件包含頻率信息
--format: 輸入文件格式
六监憎、進(jìn)行注釋
perl table_annovar.pl fs32.sample.avinput r498/ -buildver R498 -outfile fs32 -protocol refGene -operation g
r498: 含有R498_refGeneMrna.fa和R498_refGene.txt的文件夾
--buildver: 基因組建立的版本6--outfile: 輸出文件前綴
--protocol: 逗號分隔的注釋流程纱意,代表庫的名字
--operation: g(gene),r(region)鲸阔,f(filter)
最終得到 exonic_variant_function和variant_functionwen結(jié)果文件