ANNOVAR 注釋|自建數(shù)據(jù)庫

ANNOVAR|綿羊基因組變異注釋 Gene-based Annotation

ANNOVAR是由王凱老師編寫的一款用于SNP等變異位點(diǎn)注釋的軟件挑胸,在注釋軟件(Annovar, SnpEff, VEP,Oncotator)中相對(duì)引用較高扣孟。

突變注釋工具SnpEff,Annovar,VEP,oncotator比較分析:
https://blog.csdn.net/weixin_34365635/article/details/85980917

annovar自帶人類基因組hg18爷耀、hg19 、hg38谭期、以及鼠个盆、蠕蟲、酵母等的數(shù)據(jù)庫绎巨,可能對(duì)于臨床方向的朋友比較方便近尚,但同時(shí)對(duì)于研究非人類物種的朋友來講,需要自行下載物種相應(yīng)基因組版本的最新注釋數(shù)據(jù)庫進(jìn)行注釋场勤。
本文以農(nóng)場(chǎng)動(dòng)物--綿羊?yàn)槔甓停瑢?duì)分析過程做一記錄。

ANNOVAR能夠利用最新的數(shù)據(jù)來分析各種基因組中的遺傳變異和媳。主要包含三種不同的注釋方法格遭,Gene-based Annotation(基于基因的注釋)、Region-based Annotation(基于區(qū)域的注釋)留瞳、Filter-based Annotation(基于篩選的注釋)拒迅。ANNOVAR由Perl編寫。

軟件

官網(wǎng):https://annovar.openbioinformatics.org/en/latest/user-guide/download/
一位朋友下載的annovar.latest(2020年6月8號(hào)修改的最新版):https://www.baishujun.com/wp-content/uploads/2020/06/2020061107593651.zip

注冊(cè)(需使用機(jī)構(gòu)郵箱) -> 網(wǎng)站發(fā)送郵件 -> 直接郵件下載(郵件收信需要等待10min左右) -> 解壓安裝

tar -zxvf annovar.latest.tar.gz
#解壓cd進(jìn)入annovar文件夾之后會(huì)看到下圖,里面有6個(gè)perl腳本程序和兩個(gè)文件夾璧微。

ANNOVAR
│ annotate_variation.pl #主程序作箍,功能包括下載數(shù)據(jù)庫,三種不同的注釋
│ coding_change.pl #可用來推斷蛋白質(zhì)序列
│ convert2annovar.pl #將多種格式轉(zhuǎn)為.avinput的程序
│ retrieve_seq_from_fasta.pl #用于自行建立其他物種的轉(zhuǎn)錄本
│ table_annovar.pl #注釋程序前硫,可一次性完成三種類型的注釋
│ variants_reduction.pl #可用來更靈活地定制過濾注釋流程

├─example #存放示例文件

└─humandb #人類注釋數(shù)據(jù)庫

1.0 下載基因組文件

通過wget或者其他手段胞得,不再贅述;但是對(duì)于注釋文件屹电,ensembl中只有1.0和3.0版本阶剑,因此我們選擇了NCBI。

基因組注釋文件(GFF,GTF)下載的四種方法:https://zhuanlan.zhihu.com/p/79631226
綿羊4.0 相關(guān)文件下載網(wǎng)站 https://www.ncbi.nlm.nih.gov/assembly/GCA_000298735.2

不管使用什么平臺(tái)危号,不管你要注釋何種變異類型牧愁,用法都大致相似,有幾個(gè)文件是不可或缺的外莲,其一是基因組文件(fna或者fa文件)猪半,其二就是已有的注釋信息文件(gff或者gtf文件),然后處理成軟件需要的格式即可苍狰。關(guān)于各文件的信息解讀办龄,格式可以查閱NCBI等網(wǎng)絡(luò)資料。
由于SNP calling淋昭、GWAS分析和選擇信號(hào)掃描等我們所選用的基因組都是以Texel sheep組裝的Oar_v4.0參考基因組,因此注釋文件也需要針對(duì)該版本所作的對(duì)應(yīng)注釋文件安接。

#下載注釋gtf文件
##(可選)如果沒有g(shù)tf文件翔忽,可以下載gff文件,之后用cufflink軟件包中的gffread軟件將gff文件轉(zhuǎn)化為gtf文件
##sudo apt install gffread #gffread用于轉(zhuǎn)化GFF和GTF格式
##gffread -T /path/GCF_000298735.2_Oar_v4.0_genomic.gff -o /path/Sheep_ref.gtf

# 下載基因組序列文件 *.fa

#解壓
gunzip /path/Sheep.gtf.gz
gunzip /path/Sheep.dna.genome.fa.gz

##ANNOVAR建庫需要genePred文件盏檐,因而需要轉(zhuǎn)換gff到genePred格式
### 下載安裝 gtfToGenePred 工具
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64.v369/gtfToGenePred
mkdir -p $PREFIX/bin
cp gtfToGenePred $PREFIX/bin
chmod +x $PREFIX/bin/gtfToGenePred 

###以上下載怕麻煩推薦 #conda install gffread #conda install ucsc-gtftogenepred

# 用 gtfToGenePred 工具將 GTF轉(zhuǎn)換 GenePred
gtfToGenePred -genePredExt /path/Sheep.gtf /path/Sheep_refGene.txt

# cp gtfToGenePred $PREFIX/bin
# 如果報(bào)錯(cuò)cp: cannot create regular file ‘/bin/gtfToGenePred’: Permission denied
# 更改為cp gtfToGenePred ~/$PREFIX/bin

####使用retrieve_seq_from_fasta.pl 轉(zhuǎn)換為FASTA 
perl /path/retrieve_seq_from_fasta.pl --format refGene --seqfile /path/Sheep.fna /path/Sheep_refGene.txt --out /path/Sheep_refGeneMrna.fa
# -format指定gene definition file格式
# -seqfile 指定基因組序列文件名稱
# -outfile 指定輸出mRNA序列文件的名稱

以上歇式,基于基因注釋所需要的注釋數(shù)據(jù)庫文件已經(jīng)準(zhǔn)備完成(建庫完成),獲得兩個(gè)重要的文件sheep_refGene.txt & SheeprefGeneMrna.fa胡野,這里需要注意的是:關(guān)于文件的命名材失,_前綴就是下面build參數(shù)使用的名字,這里就是Sheep硫豆,下面注釋就要使用“-build Sheep”這個(gè)參數(shù)龙巨,對(duì)于基于基因注釋的txt文件命名就是refGene,連起來就是 Sheep_refGene.txt熊响。而fa文件前綴一樣旨别,后面有稍稍差別為refGeneMrna,連起來就是Sheep_refGeneMrna.fa汗茄。


圖片.png

2.0 VCF文件轉(zhuǎn)換為annovar適用版本

關(guān)于轉(zhuǎn)換過程中信息的保留等可查看官方文檔:https://annovar.openbioinformatics.org/en/latest/user-guide/gene/

perl /path/convert2annovar.pl -format vcf4old /path/All_SNP.recode.vcf -outfile /path/Sheep.avinput

# 關(guān)于-format vcf4,我最初也是使用這個(gè)命令秸弛,但是并沒有保留全部位點(diǎn),查看日志文件才發(fā)現(xiàn)【2021.01】:
#WARNING to old ANNOVAR users: this program no longer does line-to-line conversion for multi-sample VCF files. If you want to include all variants in output, use '-format vcf4old' or use '-format vcf4 -allsample -withfreq' instead.

3.0 annotate_variation注釋

perl /path/annotate_variation.pl -out /path/Sheep -buildver Sheep /path/Sheep.avinput /path/annovar/Sheepdb/

# -geneanno  表示使用基于基因的注釋 一般是默認(rèn)的
# -dbtype refGene  表示使用"refGene"類型的數(shù)據(jù)庫
# -out /path/Sheep  表示輸出以Sheep為前綴的結(jié)果文件

4.0 一些結(jié)果說明

http://www.reibang.com/p/1e8db49a630c
Kai Wang, Mingyao Li, Hakon Hakonarson, ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data, Nucleic Acids Research, Volume 38, Issue 16, 1 September 2010, Page e164, https://doi.org/10.1093/nar/gkq603
cosmopolitan:ANNOVAR-注釋軟件用法詳解
【原創(chuàng)文章】用ANNOVAR自建數(shù)據(jù)庫注釋辣椒高通量序列 - 百蔬君

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市递览,隨后出現(xiàn)的幾起案子叼屠,更是在濱河造成了極大的恐慌,老刑警劉巖绞铃,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件环鲤,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡憎兽,警方通過查閱死者的電腦和手機(jī)冷离,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來纯命,“玉大人西剥,你說我怎么就攤上這事∫诠” “怎么了瞭空?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)疗我。 經(jīng)常有香客問我咆畏,道長(zhǎng),這世上最難降的妖魔是什么吴裤? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任旧找,我火速辦了婚禮,結(jié)果婚禮上麦牺,老公的妹妹穿的比我還像新娘钮蛛。我一直安慰自己,他們只是感情好剖膳,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布魏颓。 她就那樣靜靜地躺著,像睡著了一般吱晒。 火紅的嫁衣襯著肌膚如雪甸饱。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天仑濒,我揣著相機(jī)與錄音叹话,去河邊找鬼。 笑死躏精,一個(gè)胖子當(dāng)著我的面吹牛渣刷,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播矗烛,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼辅柴,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼箩溃!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起碌嘀,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤涣旨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后股冗,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體霹陡,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年止状,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了烹棉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡怯疤,死狀恐怖浆洗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情集峦,我是刑警寧澤伏社,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站塔淤,受9級(jí)特大地震影響摘昌,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜高蜂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一聪黎、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧妨马,春花似錦挺举、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽脂崔。三九已至滤淳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間砌左,已是汗流浹背脖咐。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留汇歹,地道東北人屁擅。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像产弹,于是被迫代替她去往敵國和親派歌。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容