我用的是ANNOVAR万细。
如何下載
搜索ANNOVAR Documentation辆沦,進(jìn)入主頁(yè)友瘤。
點(diǎn)擊here之后會(huì)出現(xiàn)注冊(cè)界面。
完成注冊(cè)留下郵箱之后眯亦,就能收到附有下載鏈接的郵件了伤溉,需要等一兩天。
http://www.openbioinformatics.org/annovar/download/0wgxR2rIVP/annovar.latest.tar.gz搔驼,這是我收到的鏈接谈火,下載解壓出來(lái)就能看到這些了
簡(jiǎn)單介紹
Annovar可以實(shí)現(xiàn)三種不同的注釋方法侈询,Gene-based Annotation(基于基因的注釋?zhuān)┥嗾恰egion-based Annotation(基于區(qū)域的注釋?zhuān)ilter-based Annotation(基于篩選的注釋?zhuān)?/p>
- 基于基因的注釋?zhuān)捍_定SNP或CNV是否導(dǎo)致蛋白質(zhì)編碼變化和確定受影響的氨基酸扔字∧壹危可靈活使用RefSeq genes, UCSC genes, ENSEMBL genes, GENCODE genes或許多其他基因定義系統(tǒng)。
- 基于區(qū)域的注釋?zhuān)鹤R(shí)別特定基因組區(qū)域的變異革为,例如扭粱,44個(gè)物種中的保守區(qū)域,預(yù)測(cè)的轉(zhuǎn)錄因子結(jié)合位點(diǎn), segmental duplication regions, GWAS hits, ChIP-Seq peaks, RNA-Seq peaks等等許多其他的在基因組區(qū)間的注釋?zhuān)?/li>
- 基于過(guò)濾的注釋?zhuān)鸿b定特定數(shù)據(jù)庫(kù)中記錄的變異震檩,例如琢蛤,該變異位點(diǎn)是否在dbSNP中有報(bào)道,在千人基因組計(jì)劃中的等位基因頻率如何等等抛虏。
使用
1. 配置數(shù)據(jù)庫(kù)
http://annovar.openbioinformatics.org/en/latest/user-guide/download/#additional-databases官網(wǎng)里面提供了該軟件支持的數(shù)據(jù)庫(kù)列表(都是人的數(shù)據(jù)庫(kù))博其,有很多,并且經(jīng)常更新迂猴。
也可以在終端下查看:
mkdir humandb_hg38/
annotate_variation.pl -downdb -webfrom annovar avdblist humandb_hg38/ -buildver hg38
-buildver 表示version慕淡,主要是hg19和hg38;
-downdb 下載數(shù)據(jù)庫(kù)的指令沸毁;
-webfrom annovar 從annovar提供的鏡像下載峰髓,不加此參數(shù)將尋找數(shù)據(jù)庫(kù)本身的源;
humandb_hg38/ 下載到的文件都存放于humandb_hg38/目錄下
查看列表
lsx humandb_hg38/hg38_avdblist.txt
annotate_variation.pl -buildver hg38 -downdb -webfrom annovar refGene humandb_hg38/
注意這里的數(shù)據(jù)庫(kù)名稱,比如refGene搂誉,都是嚴(yán)格按照上面紅框里面的名稱來(lái)的眉孩。將需要的數(shù)據(jù)庫(kù)按照這條命令都下載好就行了。
2. vcf to avinput
將VCF文件轉(zhuǎn)化為annovar可以識(shí)別的格式
perl ~/annovar/annovar/convert2annovar.pl -format vcf4 snp.vcf > snp.avinput
perl ~/annovar/annovar/convert2annovar.pl -format vcf4 indel.vcf > indel.avinput
簡(jiǎn)單看一下二者的區(qū)別
前五列分別代表:染色體, 起始位點(diǎn), 終止位點(diǎn), 參考?jí)A基和觀測(cè)到的堿基;
第六列:純合變異(Homogeneous)浪汪,雜合變異(Heterogeneous)巴柿;
第七列:取自vcf文件中的QUAL列,表示該位點(diǎn)存在突變的可能性死遭;
第八列:取自vcf文件中INFO列的DP信息广恢,表示該位點(diǎn)的覆蓋深度。
ANNOVAR主要依靠前五列信息對(duì)數(shù)據(jù)庫(kù)進(jìn)行比對(duì)呀潭,進(jìn)而注釋變異钉迷。
3. 進(jìn)行注釋
table_annovar.pl可以一次完成三種類(lèi)型的注釋?zhuān)枰斎隺vinput文件和前面配置好的數(shù)據(jù)庫(kù)文件。如果是一次完成一種類(lèi)型的注釋?zhuān)瑒t選用annotate_variation.pl钠署。
perl ~/annovar/annovar/table_annovar.pl ./snp.avinput \
~/annovar/annovar/humandb_hg38/ -buildver hg38 \
--protocol avsnp150,cosmic70,clinvar_20180603,dbscsnv11,gnomad_exome,esp6500siv2_all,exac03,ensGene,refGene,knownGene \
-operation f,f,f,f,f,f,f,g,g,g \
--nastring "." \
--remove \
--outfile ./snp.annovar
perl ~/annovar/annovar/table_annovar.pl ./indel.avinput \
~/annovar/annovar/humandb_hg38/ -buildver hg38 \
--protocol clinvar_20180603,exac03,ensGene,refGene,knownGene \
-operation f,f,g,g,g \
--nastring "." \
--remove \
--outfile ./indel.annovar
--protocol 逗號(hào)分隔的字符串糠聪,用來(lái)指定數(shù)據(jù)庫(kù);
--operation 逗號(hào)分隔的字符串谐鼎,用來(lái)指定注釋方法舰蟆,r基于區(qū)域g基于基因f基于過(guò)濾;
--nastring "." 當(dāng)有缺失值時(shí)狸棍,用.填充身害;
--remove 移除所有臨時(shí)文件.
結(jié)束之后會(huì)得到這兩個(gè)文件:snp.annovar.hg38_multianno.txt,indel.annovar.hg38_multianno.txt草戈。文件名前面的snp/indel是依照輸入文件snp
.avinput和indel
.avinput來(lái)定的塌鸯,后面的annovar.hg38_multianno.txt是程序自己加的。
reference
ANNOVAR 注釋軟件: https://blog.csdn.net/herokoking/article/details/78790688