SnpEff結果文件的解讀
根據(jù)上一篇簡書中SnpEff結果產生的4個文件進行解讀
第一個文件:positive.snp.eff.vcf
其實positive.snp.eff.vcf文件的格式就是普通的VCF格式震放, 前面的很大段落都含有## 其實也就是注釋行售睹,這些內容一般可以不看鲤桥,直接跳過注釋行误澳,往下看。
可以看到positive.snp.eff.vcf可以分為11列
第一列:CHROM 發(fā)生突變的染色體ID恰响。
第二列:POS:發(fā)生突變的染色體上的具體位置凫佛。
第三列:ID 可以在后面的注釋信息中找到geneID语婴。
第四列:REF 參考基因組上的堿基或者序列。
第五列:ALT 發(fā)生突變后的堿基或者序列溶握。
第六列:QUAL 得分杯缺,Phred格式的數(shù)值。代表著此為點是純和的概率睡榆。此值越大萍肆,概率越低,代表著此為點是變異位點的可能性越大胀屿。
第七列:FILTER 過濾情況 :一般分析后的結果都為PASS塘揣,則表示該位點是變異位點。
第八列:INFO 變異位點的相關信息宿崭。
第九列:FORMAT 變異位點的格式:比如 GT:PL:ADF:ADR:AD:GP:GQ
第十列:SAMPLEs 各個樣本的值亲铡,這些值對應著第9列的各個部分,不同部分之間的值使用冒號分隔劳曹。
而SnpEff結果文件中奴愉,在INFO這一列中,增添了一個字段铁孵,ANN
ANN=A|upstream_gene_variant|MODIFIER|AT1G69210|AT1G69210|transcript|AT1G69210.1|protein_coding||c.-3686C>T|||||3686|,A|upstream_gene_variant|MODIFIER|AT1G69210|AT1G69210|transcript|AT1G69210.2|protein_coding||c.-3686C>T|||||3686|,A|downstream_gene_variant|MODIFIER|SP1L2|AT1G69230|transcript|AT1G69230.1|protein_coding||c.2799C>T|||||2509|,A|downstream_gene_variant|MODIFIER|MES15|AT1G69240|transcript|AT1G69240.1|protein_coding||c.4371C>T|||||4138|,A|downstream_gene_variant|MODIFIER|SP1L2|AT1G69230|transcript|AT1G69230.2|protein_coding||c.*2799C>T|||||2568|,A|intron_variant|MODIFIER|SIK1|AT1G69220|transcript|AT1G69220.1|protein_coding|8/17|c.1323+52C>T||||||,A|intron_variant|MODIFIER|SIK1|AT1G69220|transcript|AT1G69220.2|protein_coding|8/17|c.1242+52C>T||||||
新增的字段由|進行間隔锭硼,并且這個字段中包含了突變位點的注釋信息,因此非常重要蜕劝。
重點關注以下幾點:
Allele ANN=A 說明了:突變后的堿基是A
Annotation upstream_gene_variant 造成的基因上游的突變 or downstream_gene_variant 在成的基因下游的突變 Annotation_Impact 突變位點造成的影響:一般可以劃分為四類 HIGH檀头,MODERATE,LOW岖沛,MODIFILER 一般突變位點造成HIGH最好暑始,往后依次效果越低。
Gene_Name 基因名稱
Gene_ID 基因ID
Feature_Type 想要分析的特征類型婴削,transcript, motif, miRNA 等
Feature_ID 根據(jù)Feature Type
指定的特征廊镜,給出對應的ID
Transcript_BioType 轉錄本類型, 通常采用Ensembl數(shù)據(jù)庫的轉錄本類型
第二個文件:positive.html
網頁文件中,描述了SnpEff分析結果的全局概括的結果唉俗。
第三個文件:positive.csv
第四個文件:positive.genes.txt
第三個文件和第四個文件,都是對SnpEff結果文件進行了匯總雹姊,有需求的小伙伴可以自行查看股缸。