ANNOVAR|綿羊基因組變異注釋 Gene-based Annotation
ANNOVAR是由王凱老師編寫的一款用于SNP等變異位點(diǎn)注釋的軟件挑胸,在注釋軟件(Annovar, SnpEff, VEP,Oncotator)中相對(duì)引用較高扣孟。
突變注釋工具SnpEff,Annovar,VEP,oncotator比較分析:
https://blog.csdn.net/weixin_34365635/article/details/85980917
annovar自帶人類基因組hg18爷耀、hg19 、hg38谭期、以及鼠个盆、蠕蟲、酵母等的數(shù)據(jù)庫绎巨,可能對(duì)于臨床方向的朋友比較方便近尚,但同時(shí)對(duì)于研究非人類物種的朋友來講,需要自行下載物種相應(yīng)基因組版本的最新注釋數(shù)據(jù)庫進(jìn)行注釋场勤。
本文以農(nóng)場(chǎng)動(dòng)物--綿羊?yàn)槔甓停瑢?duì)分析過程做一記錄。
ANNOVAR能夠利用最新的數(shù)據(jù)來分析各種基因組中的遺傳變異和媳。主要包含三種不同的注釋方法格遭,Gene-based Annotation(基于基因的注釋)、Region-based Annotation(基于區(qū)域的注釋)留瞳、Filter-based Annotation(基于篩選的注釋)拒迅。ANNOVAR由Perl編寫。
軟件
官網(wǎng):https://annovar.openbioinformatics.org/en/latest/user-guide/download/
一位朋友下載的annovar.latest(2020年6月8號(hào)修改的最新版):https://www.baishujun.com/wp-content/uploads/2020/06/2020061107593651.zip
注冊(cè)(需使用機(jī)構(gòu)郵箱) -> 網(wǎng)站發(fā)送郵件 -> 直接郵件下載(郵件收信需要等待10min左右) -> 解壓安裝
tar -zxvf annovar.latest.tar.gz
#解壓cd進(jìn)入annovar文件夾之后會(huì)看到下圖,里面有6個(gè)perl腳本程序和兩個(gè)文件夾璧微。
ANNOVAR
│ annotate_variation.pl #主程序作箍,功能包括下載數(shù)據(jù)庫,三種不同的注釋
│ coding_change.pl #可用來推斷蛋白質(zhì)序列
│ convert2annovar.pl #將多種格式轉(zhuǎn)為.avinput的程序
│ retrieve_seq_from_fasta.pl #用于自行建立其他物種的轉(zhuǎn)錄本
│ table_annovar.pl #注釋程序前硫,可一次性完成三種類型的注釋
│ variants_reduction.pl #可用來更靈活地定制過濾注釋流程
│
├─example #存放示例文件
│
└─humandb #人類注釋數(shù)據(jù)庫
1.0 下載基因組文件
通過wget或者其他手段胞得,不再贅述;但是對(duì)于注釋文件屹电,ensembl中只有1.0和3.0版本阶剑,因此我們選擇了NCBI。
基因組注釋文件(GFF,GTF)下載的四種方法:https://zhuanlan.zhihu.com/p/79631226
綿羊4.0 相關(guān)文件下載網(wǎng)站 https://www.ncbi.nlm.nih.gov/assembly/GCA_000298735.2
不管使用什么平臺(tái)危号,不管你要注釋何種變異類型牧愁,用法都大致相似,有幾個(gè)文件是不可或缺的外莲,其一是基因組文件(fna或者fa文件)猪半,其二就是已有的注釋信息文件(gff或者gtf文件),然后處理成軟件需要的格式即可苍狰。關(guān)于各文件的信息解讀办龄,格式可以查閱NCBI等網(wǎng)絡(luò)資料。
由于SNP calling淋昭、GWAS分析和選擇信號(hào)掃描等我們所選用的基因組都是以Texel sheep組裝的Oar_v4.0參考基因組,因此注釋文件也需要針對(duì)該版本所作的對(duì)應(yīng)注釋文件安接。
#下載注釋gtf文件
##(可選)如果沒有g(shù)tf文件翔忽,可以下載gff文件,之后用cufflink軟件包中的gffread軟件將gff文件轉(zhuǎn)化為gtf文件
##sudo apt install gffread #gffread用于轉(zhuǎn)化GFF和GTF格式
##gffread -T /path/GCF_000298735.2_Oar_v4.0_genomic.gff -o /path/Sheep_ref.gtf
# 下載基因組序列文件 *.fa
#解壓
gunzip /path/Sheep.gtf.gz
gunzip /path/Sheep.dna.genome.fa.gz
##ANNOVAR建庫需要genePred文件盏檐,因而需要轉(zhuǎn)換gff到genePred格式
### 下載安裝 gtfToGenePred 工具
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64.v369/gtfToGenePred
mkdir -p $PREFIX/bin
cp gtfToGenePred $PREFIX/bin
chmod +x $PREFIX/bin/gtfToGenePred
###以上下載怕麻煩推薦 #conda install gffread #conda install ucsc-gtftogenepred
# 用 gtfToGenePred 工具將 GTF轉(zhuǎn)換 GenePred
gtfToGenePred -genePredExt /path/Sheep.gtf /path/Sheep_refGene.txt
# cp gtfToGenePred $PREFIX/bin
# 如果報(bào)錯(cuò)cp: cannot create regular file ‘/bin/gtfToGenePred’: Permission denied
# 更改為cp gtfToGenePred ~/$PREFIX/bin
####使用retrieve_seq_from_fasta.pl 轉(zhuǎn)換為FASTA
perl /path/retrieve_seq_from_fasta.pl --format refGene --seqfile /path/Sheep.fna /path/Sheep_refGene.txt --out /path/Sheep_refGeneMrna.fa
# -format指定gene definition file格式
# -seqfile 指定基因組序列文件名稱
# -outfile 指定輸出mRNA序列文件的名稱
以上歇式,基于基因注釋所需要的注釋數(shù)據(jù)庫文件已經(jīng)準(zhǔn)備完成(建庫完成),獲得兩個(gè)重要的文件sheep_refGene.txt & SheeprefGeneMrna.fa胡野,這里需要注意的是:關(guān)于文件的命名材失,_前綴就是下面build參數(shù)使用的名字,這里就是Sheep硫豆,下面注釋就要使用“-build Sheep”這個(gè)參數(shù)龙巨,對(duì)于基于基因注釋的txt文件命名就是refGene,連起來就是 Sheep_refGene.txt熊响。而fa文件前綴一樣旨别,后面有稍稍差別為refGeneMrna,連起來就是Sheep_refGeneMrna.fa汗茄。
2.0 VCF文件轉(zhuǎn)換為annovar適用版本
關(guān)于轉(zhuǎn)換過程中信息的保留等可查看官方文檔:https://annovar.openbioinformatics.org/en/latest/user-guide/gene/
perl /path/convert2annovar.pl -format vcf4old /path/All_SNP.recode.vcf -outfile /path/Sheep.avinput
# 關(guān)于-format vcf4,我最初也是使用這個(gè)命令秸弛,但是并沒有保留全部位點(diǎn),查看日志文件才發(fā)現(xiàn)【2021.01】:
#WARNING to old ANNOVAR users: this program no longer does line-to-line conversion for multi-sample VCF files. If you want to include all variants in output, use '-format vcf4old' or use '-format vcf4 -allsample -withfreq' instead.
3.0 annotate_variation注釋
perl /path/annotate_variation.pl -out /path/Sheep -buildver Sheep /path/Sheep.avinput /path/annovar/Sheepdb/
# -geneanno 表示使用基于基因的注釋 一般是默認(rèn)的
# -dbtype refGene 表示使用"refGene"類型的數(shù)據(jù)庫
# -out /path/Sheep 表示輸出以Sheep為前綴的結(jié)果文件
4.0 一些結(jié)果說明
http://www.reibang.com/p/1e8db49a630c
Kai Wang, Mingyao Li, Hakon Hakonarson, ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data, Nucleic Acids Research, Volume 38, Issue 16, 1 September 2010, Page e164, https://doi.org/10.1093/nar/gkq603
cosmopolitan:ANNOVAR-注釋軟件用法詳解
【原創(chuàng)文章】用ANNOVAR自建數(shù)據(jù)庫注釋辣椒高通量序列 - 百蔬君