1. VCF介紹
VCF是用于描述SNP,INDEL和SV結(jié)果的文本文件憨栽。在GATK軟件中得到最好的支持输钩,當(dāng)然samtools得到的結(jié)果也是VCF格式,和GATK的VCF格式有點(diǎn)差別赏陵。推薦打開(kāi)軟件:notepad++(https://notepad-plus.en.softonic.com/)
2. VCF的主體結(jié)構(gòu)
VCF文件分為兩部分內(nèi)容:以“#”開(kāi)頭的注釋部分昭卓;沒(méi)有“#”開(kāi)頭的主體部分。
去掉了頭部的注釋行瘟滨,只留下了代表每一行意義的注釋行候醒。
主體部分中每一行代表一個(gè)Variant的信息。
CHROM[1] POS[2] ID[3] REF[4] ALT[5] QUAL[6] FILTER[7] INFO[8] FORMAT[9] R01[10]
3. Variation
CHROM[1] 和 POS[2]:代表參考序列名和variant的位置杂瘸;如果是INDEL的話倒淫,位置是INDEL的第一個(gè)堿基位置。
ID[3]:variant的ID败玉。比如在dbSNP中有該SNP的id敌土,則會(huì)在此行給出;若沒(méi)有运翼,則用'.'表示其為一個(gè)novel variant返干。
REF[4] 和 ALT[5]:參考序列的堿基和 Variant的堿基。
QUAL[6]:Phred格式(Phred_scaled)的質(zhì)量值血淌,表示在該位點(diǎn)存在variant的可能性矩欠;該值越高,則variant的可能性越大悠夯;計(jì)算方法:Phred值 = -10 * log (1-p) p為variant存在的概率; 通過(guò)計(jì)算公式可以看出值為10的表示錯(cuò)誤概率為0.1癌淮,該位點(diǎn)為variant的概率為90%。
FILTER[7]:使用上一個(gè)QUAL值來(lái)進(jìn)行過(guò)濾的話沦补,是不夠的乳蓄。GATK能使用其它的方法來(lái)進(jìn)行過(guò)濾,過(guò)濾結(jié)果中通過(guò)則該值為”P(pán)ASS”;若variant不可靠夕膀,則該項(xiàng)不為”P(pán)ASS”或”.”虚倒。
INFO[8]: 這一行是variant的詳細(xì)信息,內(nèi)容很多产舞,以下再具體詳述魂奥。
FORMAT[9] 和 R01[10]:這兩行合起來(lái)提供了’R01(某個(gè)基因名)′這個(gè)sample的基因型的信息∨尤常’NA12878′代表這該名稱(chēng)的樣品捧弃,是由BAM文件中的@RG下的 SM 標(biāo)簽決定的。
4. 基因型信息{即FORMAT[9] 和 R01[10]}
GT:樣品的基因型(genotype)。兩個(gè)數(shù)字中間用’/'分開(kāi)违霞,這兩個(gè)數(shù)字表示雙倍體的sample的基因型嘴办。0 表示樣品中有ref的allele; 1 表示樣品中variant的allele买鸽; 2表示有第二個(gè)variant的allele涧郊。因此: 0/0 表示sample中該位點(diǎn)為純合的,和ref一致眼五; 0/1 表示sample中該位點(diǎn)為雜合的妆艘,有ref和variant兩個(gè)基因型; 1/1 表示sample中該位點(diǎn)為純合的看幼,和variant一致批旺。
AD 和 DP:AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號(hào)分割的兩個(gè)值,前者對(duì)應(yīng)ref基因型诵姜,后者對(duì)應(yīng)variant基因型汽煮; DP(Depth)為sample中該位點(diǎn)的覆蓋度。
GQ:基因型的質(zhì)量值(Genotype Quality)棚唆。Phred格式(Phred_scaled)的質(zhì)量值暇赤,表示在該位點(diǎn)該基因型存在的可能性;該值越高宵凌,則Genotype的可能性越大鞋囊;計(jì)算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。
PL:指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes)瞎惫。這三種指定的基因型為(0/0,0/1,1/1)溜腐,這三種基因型的概率總和為1。和之前不一致微饥,該值越大逗扒,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率欠橘。
5. VCF第8列的信息
該列信息最多了,都是以 “TAG=Value”,并使用”;”分隔的形式现恼。其中很多的注釋信息在VCF文件的頭部注釋中給出肃续。以下是這些TAG的解釋?zhuān)?/p>
AC,AF 和 AN:AC(Allele Count) 表示該Allele的數(shù)目叉袍;AF(Allele Frequency) 表示Allele的頻率始锚; AN(Allele Number) 表示Allele的總數(shù)目。對(duì)于1個(gè)diploid sample而言:則基因型 0/1 表示sample為雜合子喳逛,Allele數(shù)為1(雙倍體的sample在該位點(diǎn)只有1個(gè)等位基因發(fā)生了突變)瞧捌,Allele的頻率為0.5(雙倍體的 sample在該位點(diǎn)只有50%的等位基因發(fā)生了突變),總的Allele為2;基因型 1/1 則表示sample為純合的姐呐,Allele數(shù)為2殿怜,Allele的頻率為1,總的Allele為2曙砂。
DP:reads覆蓋度头谜。是一些reads被過(guò)濾掉后的覆蓋度。
Dels:Fraction of Reads Containing Spanning Deletions鸠澈。進(jìn)行SNP和INDEL calling的結(jié)果中柱告,有該TAG并且值為0表示該位點(diǎn)為SNP,沒(méi)有則為INDEL笑陈。
FS:使用Fisher’s精確檢驗(yàn)來(lái)檢測(cè)strand bias而得到的Fhred格式的p值际度。該值越小越好。一般進(jìn)行filter的時(shí)候涵妥,可以設(shè)置 FS < 10~20乖菱。
HaplotypeScore:Consistency of the site with at most two segregating haplotypes.
最多有2個(gè)分離的單倍型的一致性。
InbreedingCoeff:Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation.
與哈代溫伯格的期望相比妹笆,近親繁殖估計(jì)每個(gè)樣品基因型的可能性块请。
MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed.
對(duì)于等位基因計(jì)數(shù)(不一定與AC相同),每個(gè)ALT 等位基因的最大似然估計(jì)拳缠,在相同的順序被列出墩新。
MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed.
對(duì)于等位基因頻率(不一定與AF相同),每個(gè)ALT 等位基因的最大似然期望窟坐,在相同的順序被列出海渊。
MQ:RMS Mapping Quality.
RMS Mapping質(zhì)量。
MQ0:Total Mapping Quality Zero Reads.
總的Mapping 質(zhì)量 零Reads 哲鸳。
MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities.
對(duì)Alt vs 的Wilcoxon秩和檢驗(yàn)的z 分?jǐn)?shù)臣疑。參考片段映射質(zhì)量。
QD:Variant Confidence/Quality by Depth.
Variant 通過(guò)深度的可信度和質(zhì)量徙菠。
RPA:Number of times tandem repeat unit is repeated, for each allele (including reference).
對(duì)于每個(gè)等位基因(包括參考)讯沈,大量的串聯(lián)重復(fù)序列單位被重復(fù)。
RU:Tandem repeat unit (bases).
串聯(lián)重復(fù)序列單元(基礎(chǔ))婿奔。
ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.
對(duì)Alt vs 的Wilcoxon秩和檢驗(yàn)的z 分?jǐn)?shù)缺狠。參考片段位置偏差。
STR:Variant is a short tandem repeat.
Variant是一個(gè)短的串聯(lián)重復(fù)萍摊。
轉(zhuǎn)自:http://www.reibang.com/p/ff2eb5b38611