快速注釋已經(jīng)得到的vcf文件
所需文件
- ref.fa
- gff3文件或者gtf
- vcf文件
簡單流程
1.建立一文件夾
mkdir test
2. gff3文件轉變格式
gff3ToGenePred.dms gff3 test/test_refGene.txt
gff3ToGenePred.dms軟件點擊下載
:gff3文件開頭必須是##gff-version 3
3. ref.fa轉變格式
perl retrieve_seq_from_fasta.pl --format refGene --seqfile genome.fa test/test_refGene.txt
如果文件名稱不是test_refGeneMrna.fa,則需要更改名字
4. vcf文件轉化為annovar格式
perl ../convert2annovar.pl -includeinfo -allsample -withfreq -format vcf4 $vcf >test.avinput
## 參數(shù)
--includeinfo: 輸出文件含有特定額外的信息
--allsample: 多樣本的vcf,輸出多個樣本的結果
--withfreq: 輸出文件包含頻率信息
--format: 輸入文件格式
5. 進行注釋(僅根據(jù)基因)
perl table_annovar.pl YY.avinput test/ --buildver yy --outfile testanno --protocol refGene --operation g
##參數(shù)
test: 文件夾
--buildver: 基因組建立的版本
--outfile: 輸出文件前綴
--protocol: 逗號分隔的注釋流程矗漾,代表庫的名字
--operation: g(gene),r(region)您朽,f(filter)
結果
主要查看以下兩個文件
- exonic_variant_function
- variant_function
stop gain(nonsense):最嚴重,引入一個stop codon(終止密碼子)换淆,這個蛋白會提前終止哗总,或者這個蛋白無法翻譯出來,或者會翻譯出來一個截斷的一個一個版本