我們用于實戰(zhàn)的數(shù)據(jù)集來自于2019年發(fā)表于NG的西瓜文章先匪,它提供了GATK過濾后的SNP數(shù)據(jù)集用于分析逐工,并且附錄提供了完整的樣本信息么抗。該SNP數(shù)據(jù)集包括414個西瓜远荠,2000萬個SNP信息,數(shù)據(jù)大小為22G.
數(shù)據(jù)準備
根據(jù)文章提供的下載地址刑桑,我們分別下載西瓜的基因組氯质,GFF注釋文章和存放的VCF的數(shù)據(jù)集。
ftp://cucurbitgenomics.org/pub/cucurbit/genome/watermelon/97103/v2/97103_genome_v2.fa.gz
ftp://cucurbitgenomics.org/pub/cucurbit/genome/watermelon/97103/v2/97103_gene_gff_v2.gz
ftp://cucurbitgenomics.org/pub/cucurbit/reseq/watermelon/v2/watermelon_414acc_SNP.vcf.gz
需要注意的是祠斧,他們提供的SNP文件存在一些問題闻察,不能用BCFtools進行解析,不過很容易解決琢锋,只需要運行如下命令
zgrep -v '##INFO' watermelon_414acc_SNP.vcf.gz | bgzip -c > watermelon_414acc_SNP2.vcf.gz &
使用SnpEff注釋VCF文件
在文章的第二部分Genome variation map and phylogeny of Citrullus species.辕漂,作者對414個重測序結(jié)果分析得到SNP信息做了如下描述。
These accessions were sequenced to an average depth of 14.5× and coverage of 92.2% of the ‘97103’ genome. In total, 19,725,853 SNPs were identified, of which 1,100,803 were located in coding regions, causing 502,028 nonsynonymous mutations, 589,735 synonymous mutations, 1,031 start codon changes and 6,808 stop codon changes. Furthermore, 6,675,290 small indels were identified, of which 56,115 were located in coding regions.
很可惜吴超,作者并沒有在文章中指出他是使用什么軟件對SNP進行注釋钉嘹,可能是自己寫了一個腳本進行分析,而我為了偷懶烛芬,直接用一個現(xiàn)成的軟件隧期,snpEFF,對VCF文件中的SNP進行注釋赘娄。
參考使用snpEff對VCF進行注釋,我們需要先建立西瓜的注釋數(shù)據(jù)庫宏蛉。
第一步遣臼,修改snpEff/snpEff.config
,增加西瓜基因組信息
# watermelon
watermelon.genome : watermelon
第二步拾并,在snpEff/data/
新建一個watermelon
文件夾揍堰,并存放基因組序列和GFF文件
mkdir -p snpEff/data/watermelon
cp 97103_genome_v2.fa.gz snpEff/data/watermelon/sequences.fa.gz
cp 97103_gene_gff_v2.gz snpEff/data/watermelon/genes.gff.gz
第三步,運行構(gòu)建命令
java -jar snpEff/snpEff.jar build -gff3 -v watermelon
``
最后嗅义,我們就可以對VCF進行注釋了
```bash
java -jar /opt/biosoft/snpEff/snpEff.jar ann -no-utr -no-downstream -no-upstream -no-intergenic watermelon watermelon_414acc_SNP2.vcf.gz > watermelon_414acc_eff.vcf &
這一步會很久屏歹,最終會得到一個204G文件,這就是我們的注釋結(jié)果之碗。而另外的snpEff_genes.txt和snpEff_summary.html則是用來了解SNP的分布情況蝙眶。
根據(jù)SnpEff的注釋結(jié)果(如下),落在編碼區(qū)有1,168,139個。
Type (alphabetical order) | Count | Percent | |
---|---|---|---|
DOWNSTREAM | 7,325,679 | 20.41% | |
EXON | 1,168,139 | 3.254% | |
INTERGENIC | 16,068,984 | 44.769% | |
INTRON | 3,719,155 | 10.362% | |
SPLICE_SITE_ACCEPTOR | 1,317 | 0.004% | |
SPLICE_SITE_DONOR | 1,415 | 0.004% | |
SPLICE_SITE_REGION | 78,665 | 0.219% | |
UPSTREAM | 7,530,074 | 20.979% | |
UTR_5_PRIME | 3 | 0% |
對于落在編碼區(qū)域的SNP而言幽纷,大約有533,656個位點是非同義突變式塌,638,879個位點是同義突變。
Type (alphabetical order) | Count | Percent | |
---|---|---|---|
MISSENSE | 533,656 | 45.277% | |
NONSENSE | 6,120 | 0.519% | |
SILENT | 638,879 | 54.204% |
相比較于文章友浸,我們的各個位置上的SNP信息都比較多峰尝,但是整體在一個數(shù)量級上,接下來就是利用這些SNP位點做更加深入的分析
- 系統(tǒng)發(fā)育分析
- 主成分分析
- 群體結(jié)構(gòu)分析
- 基因流
- ...
這些都會在將來慢慢更新收恢。