全外顯子組測(cè)序(WES)分析3: 變異功能注釋(SnpEff / VEP )

1. 使用\color{green}{SnpEff}注釋 VCF 文件

1.1 下載和安裝 SnpEff

# 下載 SnpEff
$ wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip

# 解壓
$ unzip snpEff_latest_core.zip

# 進(jìn)入 SnpEff 目錄
$ cd snpEff

1.2 下載參考基因組數(shù)據(jù)庫(kù)

$ java -jar snpEff.jar download GRCh38.92
$ unzip snpEff_v4_3_GRCh38.92.zip # 解壓

$ vi snpEff.config
# 添加:
# GRCh38.92.genome : Homo_sapiens

1.3 注釋 VCF 文件

$ java -jar snpEff.jar ann GRCh38.92 CC56tissueA.markdup.filtered.vcf > CC56tissueA_snpEff_annotated.vcf

1.4 結(jié)果解讀

注釋完成后會(huì)生成snpEff_genes.txt文件和snpEff_summary.html文件咖耘,記錄了注釋的摘要信息鹰贵,并另外生成一個(gè)新的vcf文件包含詳細(xì)注釋信息

  1. Summary(摘要信息):
    從上往下依次是:基因組(物種名)辛萍、注釋日期、snpEff版本贾富、注釋命令脐湾、警告信息袱蜡、錯(cuò)誤信息、輸入文件行數(shù)互亮、變異位點(diǎn)數(shù)(過(guò)濾之前)犁享、非變異位點(diǎn)數(shù)(與參考基因組堿基一致)、變異位點(diǎn)數(shù)(過(guò)濾之后)豹休、具有ID的變異位點(diǎn)數(shù)炊昆、非雙等位基因組SNP位點(diǎn)數(shù)、effects個(gè)數(shù)威根、參考基因組總長(zhǎng)度凤巨、參考基因組有效長(zhǎng)度、變異率(參考基因組有效長(zhǎng)度/變異位點(diǎn)數(shù))


    snpEff-1

2) Variants rate details(各染色體變異率):
從上往下:染色體編號(hào)洛搀、長(zhǎng)度敢茁、變異位點(diǎn)數(shù)、變異率(多少個(gè)堿基中有一個(gè)變異位點(diǎn))

3)Number variants by type(變異類型):
從上往下:SNP(單核苷酸多態(tài)性)留美、MNP(多核苷酸多態(tài)性)彰檬、INS(插入變異)、DEL(缺失變異)谎砾、MIXED(混合變異)逢倍、INV(倒位變異)、DUP(重復(fù)變異)景图、BED(易位變異)较雕、INTERVAL(間隔變異)

4) Number of effects by impact(有效影響數(shù)量):
從上往下:HIGH(變異對(duì)基因或蛋白質(zhì)功能有嚴(yán)重破壞性影響,比如:移碼突變(frameshift)症歇、無(wú)義突變(nonsense)郎笆、剪接位點(diǎn)變異(splice site variants)等)谭梗、LOW(變異對(duì)基因或蛋白質(zhì)功能有輕微影響,比如:同義突變(synonymous)宛蚓,即不改變氨基酸序列的突變)激捏、MODERATE(變異對(duì)基因或蛋白質(zhì)功能有顯著但不太嚴(yán)重的影響,比如:錯(cuò)義突變(missense)凄吏、非同義突變(nonsynonymous)等)远舅、MODIFIER(變異對(duì)基因或蛋白質(zhì)功能影響未知或極小,比如:位于基因間區(qū)的變異(intergenic variants)痕钢、下游基因變異(downstream variants)图柏、上游基因變異(upstream variants)等)

5)Number of effects by functional class(功能分級(jí)有效數(shù)):
從上往下:MiSSENSE(錯(cuò)義突變)、NONSENSE(無(wú)義突變)任连、SILENT(沉默突變)


snpEff-2

6)Number of effects by type and region(有效變異數(shù)和百分比):
左邊為按類型劃分有效變異數(shù)蚤吹,包括(從上往下):3’端主要UTR變異(UTR是成熟mRNA分子5'或3'端不被翻譯的部分,一般在mRNA轉(zhuǎn)運(yùn)随抠、穩(wěn)定性和翻譯調(diào)節(jié)中起重要作用)裁着、5’端主要UTR提前啟動(dòng)子獲得變異、5’端主要UTR變異拱她、下游基因變異二驰、起始密碼子編碼變異、基因間隔區(qū)秉沼、內(nèi)含子變異桶雀、剪接受體變異、剪接供體變異唬复、剪接區(qū)域變異矗积、起始缺失、起始保留變異盅抚、終止獲得漠魏、終止缺失、終止保留變異妄均、同義變異柱锹、上游基因變異。
右邊為按區(qū)域劃分有效變異數(shù)丰包,包括(從上往下):下游禁熏、外顯子、間隔區(qū)邑彪、內(nèi)含子瞧毙、剪接位點(diǎn)受體、剪接位點(diǎn)供體、剪接位點(diǎn)區(qū)域宙彪、上游矩动、3’UTR區(qū)、5’UTR區(qū)

snpEff-3

7) Base changes (SNPs)(SNP位點(diǎn)堿基變異表):
可以看出SNP中哪些堿基的轉(zhuǎn)換比較多(A腺嘌呤释漆、C胞嘧啶悲没、G鳥嘌呤、T胸腺嘧啶)

8)Ts/Tv (transitions / transversions)(轉(zhuǎn)換/顛換):
顯示轉(zhuǎn)換/顛換的比例和數(shù)量男图,以及不同類型的轉(zhuǎn)換/顛換的數(shù)量和百分比示姿。轉(zhuǎn)換是指嘌呤與嘌呤或嘧啶與嘧啶之間的替代,顛換是指嘌呤與嘧啶之間的替代


snpEff-4

2. 使用\color{green}{VEP}注釋 VCF 文件

2.1 下載和安裝 VEP

# 下載 VEP
$ wget https://github.com/Ensembl/ensembl-vep/archive/refs/tags/release/112.0.tar.gz

$ tar -zxf ensembl-vep-release-112.0.tar.gz
$ cd ensembl-vep-release-112.0

# 安裝依賴
$ sudo apt-get update
$ sudo apt-get install -y perl build-essential libdbi-perl libdbd-mysql-perl libmysqlclient-dev cpanminus

# 安裝 HTSlib 及其 Perl 綁定(HTSlib 是 VEP 處理 VCF 文件時(shí)所需的庫(kù))
$ sudo apt-get install -y libhts-dev libhts2
$ sudo cpanm Bio::DB::HTS

$ ./vep # 檢測(cè)是否安裝成功
## 
## #----------------------------------#
## # ENSEMBL VARIANT EFFECT PREDICTOR #
## #----------------------------------#
## 
## Versions:
##   ensembl              : 112.3add379
##   ensembl-funcgen      : 112.be19ffa
##   ensembl-io           : 112.2851b6f
##   ensembl-variation    : 112.4113356
##   ensembl-vep          : 112.0
## 
## Help: dev@ensembl.org , helpdesk@ensembl.org
## Twitter: @ensembl
## 
## http://www.ensembl.org/info/docs/tools/vep/script/index.html
## 
## Usage:
## ./vep [--cache|--offline|--database] [arguments]
## 
## Basic options
## =============
## 
## --help                 Display this message and quit
## 
## -i | --input_file      Input file
## -o | --output_file     Output file
## --force_overwrite      Force overwriting of output file
## --species [species]    Species to use [default: "human"]
## 
## --everything           Shortcut switch to turn on commonly used options. See web
##                        documentation for details [default: off]
## --fork [num_forks]     Use forking to improve script runtime
## 
## For full option documentation see:
## http://www.ensembl.org/info/docs/tools/vep/script/vep_options.html
## 

2.2 下載所需的參考數(shù)據(jù)

$ perl INSTALL.pl -a cf -s homo_sapiens -y GRCh38 # 下載速度緩慢

# 或手動(dòng)下載(也慢)
$ wget  http://ftp.ensembl.org/pub/release-112/variation/vep/homo_sapiens_vep_112_GRCh38.tar.gz
$ wget https://ftp.ensembl.org/pub/release-112/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

$ tar -xvzf homo_sapiens_vep_112_GRCh38.tar.gz # 解壓
$ gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

$ samtools faidx Homo_sapiens.GRCh38.dna.primary_assembly.fa # 建立索引

2.3 注釋 VCF 文件

$ ./vep -i CC56tissueA.markdup.filtered.vcf --fork 4 -o CC56tissueA_VEP_annotated.vcf --assembly GRCh38 --cache --dir_cache /data/shumin/software/ensembl-vep-release-112.0/vep_cache --assembly GRCh38 --offline --fasta /data/shumin/software/ensembl-vep-release-112.0/vep_cache/Homo_sapiens.GRCh38.dna.primary_assembly.fa --vcf

2.4 結(jié)果解讀

注釋完成后同樣會(huì)生成“CC56tissueA_VEP_annotated.vcf_summary.html”文件逊笆,記錄注釋信息

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末栈戳,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子难裆,更是在濱河造成了極大的恐慌子檀,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件乃戈,死亡現(xiàn)場(chǎng)離奇詭異命锄,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)偏化,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)镐侯,“玉大人侦讨,你說(shuō)我怎么就攤上這事」斗” “怎么了韵卤?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)崇猫。 經(jīng)常有香客問(wèn)我沈条,道長(zhǎng),這世上最難降的妖魔是什么诅炉? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任蜡歹,我火速辦了婚禮,結(jié)果婚禮上涕烧,老公的妹妹穿的比我還像新娘月而。我一直安慰自己,他們只是感情好议纯,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布父款。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪憨攒。 梳的紋絲不亂的頭發(fā)上世杀,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音肝集,去河邊找鬼瞻坝。 笑死,一個(gè)胖子當(dāng)著我的面吹牛包晰,可吹牛的內(nèi)容都是我干的湿镀。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼伐憾,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼勉痴!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起树肃,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蒸矛,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后胸嘴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體雏掠,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年劣像,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了乡话。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡耳奕,死狀恐怖绑青,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情屋群,我是刑警寧澤僧鲁,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布煌珊,位于F島的核電站遭商,受9級(jí)特大地震影響宪巨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜对竣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一庇楞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧柏肪,春花似錦姐刁、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)壁拉。三九已至,卻和暖如春柏靶,著一層夾襖步出監(jiān)牢的瞬間弃理,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工屎蜓, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留痘昌,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓炬转,卻偏偏與公主長(zhǎng)得像辆苔,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子扼劈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容