全外顯子組數(shù)據(jù)分析筆記（五）：變異注釋

我用的是ANNOVAR万细。

如何下載

搜索ANNOVAR Documentation辆沦，進(jìn)入主頁(yè)友瘤。

點(diǎn)擊here之后會(huì)出現(xiàn)注冊(cè)界面。

完成注冊(cè)留下郵箱之后眯亦，就能收到附有下載鏈接的郵件了伤溉，需要等一兩天。
http://www.openbioinformatics.org/annovar/download/0wgxR2rIVP/annovar.latest.tar.gz搔驼，這是我收到的鏈接谈火，下載解壓出來(lái)就能看到這些了

簡(jiǎn)單介紹

Annovar可以實(shí)現(xiàn)三種不同的注釋方法侈询，Gene-based Annotation（基于基因的注釋?zhuān)┥嗾恰egion-based Annotation（基于區(qū)域的注釋?zhuān)ilter-based Annotation（基于篩選的注釋?zhuān)?/p>

基于基因的注釋?zhuān)捍_定SNP或CNV是否導(dǎo)致蛋白質(zhì)編碼變化和確定受影響的氨基酸扔字∧壹危可靈活使用RefSeq genes, UCSC genes, ENSEMBL genes, GENCODE genes或許多其他基因定義系統(tǒng)。
基于區(qū)域的注釋?zhuān)鹤R(shí)別特定基因組區(qū)域的變異革为，例如扭粱，44個(gè)物種中的保守區(qū)域，預(yù)測(cè)的轉(zhuǎn)錄因子結(jié)合位點(diǎn), segmental duplication regions, GWAS hits, ChIP-Seq peaks, RNA-Seq peaks等等許多其他的在基因組區(qū)間的注釋?zhuān)?/li>
基于過(guò)濾的注釋?zhuān)鸿b定特定數(shù)據(jù)庫(kù)中記錄的變異震檩，例如琢蛤，該變異位點(diǎn)是否在dbSNP中有報(bào)道，在千人基因組計(jì)劃中的等位基因頻率如何等等抛虏。

使用

1. 配置數(shù)據(jù)庫(kù)

http://annovar.openbioinformatics.org/en/latest/user-guide/download/#additional-databases官網(wǎng)里面提供了該軟件支持的數(shù)據(jù)庫(kù)列表（都是人的數(shù)據(jù)庫(kù)）博其，有很多，并且經(jīng)常更新迂猴。

也可以在終端下查看：

mkdir humandb_hg38/
annotate_variation.pl -downdb -webfrom annovar avdblist humandb_hg38/ -buildver hg38

-buildver        表示version慕淡，主要是hg19和hg38；
-downdb          下載數(shù)據(jù)庫(kù)的指令沸毁；
-webfrom annovar 從annovar提供的鏡像下載峰髓，不加此參數(shù)將尋找數(shù)據(jù)庫(kù)本身的源；
humandb_hg38/    下載到的文件都存放于humandb_hg38/目錄下

查看列表
lsx humandb_hg38/hg38_avdblist.txt

數(shù)據(jù)庫(kù)文件息尺、更新時(shí)間携兵、文件大小

annotate_variation.pl -buildver hg38 -downdb -webfrom annovar refGene humandb_hg38/

注意這里的數(shù)據(jù)庫(kù)名稱，比如refGene搂誉，都是嚴(yán)格按照上面紅框里面的名稱來(lái)的眉孩。將需要的數(shù)據(jù)庫(kù)按照這條命令都下載好就行了。

2. vcf to avinput

將VCF文件轉(zhuǎn)化為annovar可以識(shí)別的格式

perl ~/annovar/annovar/convert2annovar.pl -format vcf4 snp.vcf > snp.avinput
perl ~/annovar/annovar/convert2annovar.pl -format vcf4 indel.vcf > indel.avinput

簡(jiǎn)單看一下二者的區(qū)別

前五列分別代表：染色體, 起始位點(diǎn), 終止位點(diǎn), 參考?jí)A基和觀測(cè)到的堿基；
第六列：純合變異（Homogeneous）浪汪，雜合變異（Heterogeneous）巴柿；
第七列：取自vcf文件中的QUAL列，表示該位點(diǎn)存在突變的可能性死遭；
第八列：取自vcf文件中INFO列的DP信息广恢，表示該位點(diǎn)的覆蓋深度。
ANNOVAR主要依靠前五列信息對(duì)數(shù)據(jù)庫(kù)進(jìn)行比對(duì)呀潭，進(jìn)而注釋變異钉迷。

3. 進(jìn)行注釋

table_annovar.pl可以一次完成三種類(lèi)型的注釋?zhuān)枰斎隺vinput文件和前面配置好的數(shù)據(jù)庫(kù)文件。如果是一次完成一種類(lèi)型的注釋?zhuān)瑒t選用annotate_variation.pl钠署。

perl ~/annovar/annovar/table_annovar.pl ./snp.avinput \
~/annovar/annovar/humandb_hg38/ -buildver hg38 \
--protocol avsnp150,cosmic70,clinvar_20180603,dbscsnv11,gnomad_exome,esp6500siv2_all,exac03,ensGene,refGene,knownGene \
-operation f,f,f,f,f,f,f,g,g,g \
--nastring "." \
--remove \
--outfile ./snp.annovar

perl ~/annovar/annovar/table_annovar.pl ./indel.avinput \
~/annovar/annovar/humandb_hg38/ -buildver hg38 \
--protocol clinvar_20180603,exac03,ensGene,refGene,knownGene \
-operation f,f,g,g,g \
--nastring "." \
--remove \
--outfile ./indel.annovar

--protocol        逗號(hào)分隔的字符串糠聪，用來(lái)指定數(shù)據(jù)庫(kù)；
--operation       逗號(hào)分隔的字符串谐鼎，用來(lái)指定注釋方法舰蟆，r基于區(qū)域g基于基因f基于過(guò)濾；
--nastring "."    當(dāng)有缺失值時(shí)狸棍，用.填充身害；
--remove          移除所有臨時(shí)文件.

結(jié)束之后會(huì)得到這兩個(gè)文件：snp.annovar.hg38_multianno.txt，indel.annovar.hg38_multianno.txt草戈。文件名前面的snp/indel是依照輸入文件snp.avinput和indel.avinput來(lái)定的塌鸯，后面的annovar.hg38_multianno.txt是程序自己加的。

reference

ANNOVAR 注釋軟件: https://blog.csdn.net/herokoking/article/details/78790688

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末唐片，一起剝皮案震驚了整個(gè)濱河市丙猬，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌费韭，老刑警劉巖茧球，帶你破解...
沈念sama閱讀 206,839評(píng)論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異揽思，居然都是意外死亡袜腥，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)钉汗，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)羹令，“玉大人，你說(shuō)我怎么就攤上這事损痰「３蓿” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 153,116評(píng)論 0贊 344
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵卢未，是天一觀的道長(zhǎng)肪凛。經(jīng)常有香客問(wèn)我堰汉，道長(zhǎng)，這世上最難降的妖魔是什么伟墙？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,371評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任翘鸭，我火速辦了婚禮，結(jié)果婚禮上戳葵，老公的妹妹穿的比我還像新娘就乓。我一直安慰自己，他們只是感情好拱烁，可當(dāng)我...
茶點(diǎn)故事閱讀 64,384評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布生蚁。她就那樣靜靜地躺著，像睡著了一般戏自。火紅的嫁衣襯著肌膚如雪邦投。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 49,111評(píng)論 1贊 285
城市分裂傳說(shuō)
那天擅笔，我揣著相機(jī)與錄音志衣，去河邊找鬼。笑死剂娄，一個(gè)胖子當(dāng)著我的面吹牛蠢涝，可吹牛的內(nèi)容都是我干的玄呛。我是一名探鬼主播阅懦，決...
沈念sama閱讀 38,416評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼徘铝！你這毒婦竟也來(lái)了耳胎？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 37,053評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤惕它，失蹤者是張志新（化名）和其女友劉穎怕午，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體淹魄，經(jīng)...
沈念sama閱讀 43,558評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡郁惜，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,007評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了甲锡。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片兆蕉。...
茶點(diǎn)故事閱讀 38,117評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖缤沦，靈堂內(nèi)的尸體忽然破棺而出虎韵，到底是詐尸還是另有隱情，我是刑警寧澤缸废，帶...
沈念sama閱讀 33,756評(píng)論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布包蓝，位于F島的核電站驶社，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏测萎。R本人自食惡果不足惜亡电，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,324評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望硅瞧。院中可真熱鬧逊抡，春花似錦、人聲如沸零酪。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,315評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)四苇。三九已至孝凌，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間月腋，已是汗流浹背蟀架。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,539評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留榆骚，地道東北人片拍。一個(gè)月前我還...
沈念sama閱讀 45,578評(píng)論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像妓肢，于是被迫代替她去往敵國(guó)和親捌省。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,877評(píng)論 2贊 345