前言
小編最近看到一個(gè)文章翅雏,該文章從同義突變位點(diǎn)中提取4dtv用來(lái)做后續(xù)分析棘脐,原文見(jiàn) Genomic Consequences of Long-Term Population Decline in Brown Eared Pheasant ,所以很是好奇是怎么實(shí)現(xiàn)的,但文章沒(méi)有說(shuō)明怎么實(shí)現(xiàn)的冰啃,還好通過(guò)百度最終找到了破解方法邓夕,這里主要參考了大神的博客,博客原鏈接見(jiàn)從SnpEff注釋得到的VCF中過(guò)濾4DTV位點(diǎn)
安裝環(huán)境
(1)java #該軟件是Java編寫(xiě)阎毅,小編這里用的java-1.8.0
(2)snpEff #上邊提到的博主基于該軟件編寫(xiě)的提取4DTV腳本
(3)python3以及pysam模塊
pysam模塊
pip3 install pysam -i https://pypi.tuna.tsinghua.edu.cn/simple
snpEff軟件安裝
wget https://nchc.dl.sourceforge.net/project/snpeff/snpEff_v4_5covid19_core.zip
unzip snpEff_v4_5covid19_core.zip #解壓安裝
cd snpEff ; chmod 755 *jar #進(jìn)入目錄焚刚,可以看到兩個(gè)jar執(zhí)行程序,分別是SnpSift和snpEff扇调,給執(zhí)行權(quán)限
snpEff軟件配置
該軟件是一個(gè)很強(qiáng)大的軟件矿咕,自帶有很多基因組的數(shù)據(jù)庫(kù),小編在此不再介紹,有興趣可以上官網(wǎng)查看碳柱,SnpEff & SnpSift,小編這里帶你怎么根據(jù)自己有的基因組和gff3文件搭建該基因組的注釋數(shù)據(jù)庫(kù)捡絮,以從NCBI下載下來(lái)的蘋(píng)果基因組和gff文件為例
mkdir -p data/apple
ascp -i ~/asperaweb_id_dsa.openssh -QTr -l200m anonftp@ftp.ncbi.nlm.nih.gov:genomes/all/GCF/002/114/115/GCF_002114115.1_ASM211411v1/GCF_002114115.1_ASM211411v1_genomic.fna.gz ./ #ascp用法見(jiàn)小編關(guān)于該工具的博客
ascp -i ~/asperaweb_id_dsa.openssh -QTr -l200m anonftp@ftp.ncbi.nlm.nih.gov:genomes/all/GCF/002/114/115/GCF_002114115.1_ASM211411v1/GCF_002114115.1_ASM211411v1_genomic.gff.gz ./
基因組和gff注釋文件下載下來(lái)后,解壓并命名為sequences.fa和genes.gff莲镣,這里命名錯(cuò)誤后續(xù)會(huì)報(bào)錯(cuò)
cd ../../
vim snpEff.config,修改配置文件福稳,找到Databases & Genomes,修改如下瑞侮,注意命名需要嚴(yán)格參照小編的來(lái)的圆,apple是上邊建立在data數(shù)據(jù)庫(kù)里的文件名,后綴必須有.genome
# Databases & Genomes
#Malus_domestica
apple.genome : Malus_domestica
apple.reference : https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/114/115/GCF_002114115.1_ASM211411v1/GCF_002114115.1_ASM211411v1_genomic.fna.gz \ # Genome sequence
https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/114/115/GCF_002114115.1_ASM211411v1/GCF_002114115.1_ASM211411v1_genomic.gff.gz \ # gff3
snpEff自由數(shù)據(jù)庫(kù)建立
這里需要較長(zhǎng)時(shí)間半火,最好是在后臺(tái)nohup運(yùn)行,尤其是比較大的基因組
java -jar snpEff.jar build -gff3 -v apple