VCF文件格式說(shuō)明

1. VCF介紹

VCF是用于描述SNP,INDEL和SV結(jié)果的文本文件憨栽。在GATK軟件中得到最好的支持输钩,當(dāng)然samtools得到的結(jié)果也是VCF格式,和GATK的VCF格式有點(diǎn)差別赏陵。推薦打開(kāi)軟件:notepad++(https://notepad-plus.en.softonic.com/

2. VCF的主體結(jié)構(gòu)

VCF文件分為兩部分內(nèi)容:以“#”開(kāi)頭的注釋部分昭卓;沒(méi)有“#”開(kāi)頭的主體部分。

去掉了頭部的注釋行瘟滨,只留下了代表每一行意義的注釋行候醒。

主體部分中每一行代表一個(gè)Variant的信息。

CHROM[1] POS[2] ID[3] REF[4] ALT[5] QUAL[6] FILTER[7] INFO[8] FORMAT[9] R01[10]

3. Variation

CHROM[1] 和 POS[2]:代表參考序列名和variant的位置杂瘸;如果是INDEL的話倒淫,位置是INDEL的第一個(gè)堿基位置。

ID[3]:variant的ID败玉。比如在dbSNP中有該SNP的id敌土,則會(huì)在此行給出;若沒(méi)有运翼,則用'.'表示其為一個(gè)novel variant返干。

REF[4] 和 ALT[5]:參考序列的堿基和 Variant的堿基。

QUAL[6]:Phred格式(Phred_scaled)的質(zhì)量值血淌,表示在該位點(diǎn)存在variant的可能性矩欠;該值越高,則variant的可能性越大悠夯;計(jì)算方法:Phred值 = -10 * log (1-p) p為variant存在的概率; 通過(guò)計(jì)算公式可以看出值為10的表示錯(cuò)誤概率為0.1癌淮,該位點(diǎn)為variant的概率為90%。

FILTER[7]:使用上一個(gè)QUAL值來(lái)進(jìn)行過(guò)濾的話沦补,是不夠的乳蓄。GATK能使用其它的方法來(lái)進(jìn)行過(guò)濾,過(guò)濾結(jié)果中通過(guò)則該值為”P(pán)ASS”;若variant不可靠夕膀,則該項(xiàng)不為”P(pán)ASS”或”.”虚倒。

INFO[8]: 這一行是variant的詳細(xì)信息,內(nèi)容很多产舞,以下再具體詳述魂奥。

FORMAT[9] 和 R01[10]:這兩行合起來(lái)提供了’R01(某個(gè)基因名)′這個(gè)sample的基因型的信息∨尤常’NA12878′代表這該名稱(chēng)的樣品捧弃,是由BAM文件中的@RG下的 SM 標(biāo)簽決定的。

4. 基因型信息{即FORMAT[9] 和 R01[10]}

GT:樣品的基因型(genotype)。兩個(gè)數(shù)字中間用’/'分開(kāi)违霞,這兩個(gè)數(shù)字表示雙倍體的sample的基因型嘴办。0 表示樣品中有ref的allele; 1 表示樣品中variant的allele买鸽; 2表示有第二個(gè)variant的allele涧郊。因此: 0/0 表示sample中該位點(diǎn)為純合的,和ref一致眼五; 0/1 表示sample中該位點(diǎn)為雜合的妆艘,有ref和variant兩個(gè)基因型; 1/1 表示sample中該位點(diǎn)為純合的看幼,和variant一致批旺。

AD 和 DP:AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號(hào)分割的兩個(gè)值,前者對(duì)應(yīng)ref基因型诵姜,后者對(duì)應(yīng)variant基因型汽煮; DP(Depth)為sample中該位點(diǎn)的覆蓋度。

GQ:基因型的質(zhì)量值(Genotype Quality)棚唆。Phred格式(Phred_scaled)的質(zhì)量值暇赤,表示在該位點(diǎn)該基因型存在的可能性;該值越高宵凌,則Genotype的可能性越大鞋囊;計(jì)算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。

PL:指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes)瞎惫。這三種指定的基因型為(0/0,0/1,1/1)溜腐,這三種基因型的概率總和為1。和之前不一致微饥,該值越大逗扒,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率欠橘。

5. VCF第8列的信息

該列信息最多了,都是以 “TAG=Value”,并使用”;”分隔的形式现恼。其中很多的注釋信息在VCF文件的頭部注釋中給出肃续。以下是這些TAG的解釋?zhuān)?/p>

AC,AF 和 AN:AC(Allele Count) 表示該Allele的數(shù)目叉袍;AF(Allele Frequency) 表示Allele的頻率始锚; AN(Allele Number) 表示Allele的總數(shù)目。對(duì)于1個(gè)diploid sample而言:則基因型 0/1 表示sample為雜合子喳逛,Allele數(shù)為1(雙倍體的sample在該位點(diǎn)只有1個(gè)等位基因發(fā)生了突變)瞧捌,Allele的頻率為0.5(雙倍體的 sample在該位點(diǎn)只有50%的等位基因發(fā)生了突變),總的Allele為2;基因型 1/1 則表示sample為純合的姐呐,Allele數(shù)為2殿怜,Allele的頻率為1,總的Allele為2曙砂。

DP:reads覆蓋度头谜。是一些reads被過(guò)濾掉后的覆蓋度。

Dels:Fraction of Reads Containing Spanning Deletions鸠澈。進(jìn)行SNP和INDEL calling的結(jié)果中柱告,有該TAG并且值為0表示該位點(diǎn)為SNP,沒(méi)有則為INDEL笑陈。

FS:使用Fisher’s精確檢驗(yàn)來(lái)檢測(cè)strand bias而得到的Fhred格式的p值际度。該值越小越好。一般進(jìn)行filter的時(shí)候涵妥,可以設(shè)置 FS < 10~20乖菱。

HaplotypeScore:Consistency of the site with at most two segregating haplotypes.

最多有2個(gè)分離的單倍型的一致性。

InbreedingCoeff:Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation.

與哈代溫伯格的期望相比妹笆,近親繁殖估計(jì)每個(gè)樣品基因型的可能性块请。

MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed.

對(duì)于等位基因計(jì)數(shù)(不一定與AC相同),每個(gè)ALT 等位基因的最大似然估計(jì)拳缠,在相同的順序被列出墩新。

MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed.

對(duì)于等位基因頻率(不一定與AF相同),每個(gè)ALT 等位基因的最大似然期望窟坐,在相同的順序被列出海渊。

MQ:RMS Mapping Quality.

RMS Mapping質(zhì)量。

MQ0:Total Mapping Quality Zero Reads.

總的Mapping 質(zhì)量 零Reads 哲鸳。

MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities.

對(duì)Alt vs 的Wilcoxon秩和檢驗(yàn)的z 分?jǐn)?shù)臣疑。參考片段映射質(zhì)量。

QD:Variant Confidence/Quality by Depth.

Variant 通過(guò)深度的可信度和質(zhì)量徙菠。

RPA:Number of times tandem repeat unit is repeated, for each allele (including reference).

對(duì)于每個(gè)等位基因(包括參考)讯沈,大量的串聯(lián)重復(fù)序列單位被重復(fù)。

RU:Tandem repeat unit (bases).

串聯(lián)重復(fù)序列單元(基礎(chǔ))婿奔。

ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.

對(duì)Alt vs 的Wilcoxon秩和檢驗(yàn)的z 分?jǐn)?shù)缺狠。參考片段位置偏差。

STR:Variant is a short tandem repeat.

Variant是一個(gè)短的串聯(lián)重復(fù)萍摊。


轉(zhuǎn)自:http://www.reibang.com/p/ff2eb5b38611

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末挤茄,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子冰木,更是在濱河造成了極大的恐慌穷劈,老刑警劉巖笼恰,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異歇终,居然都是意外死亡社证,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)练湿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)猴仑,“玉大人,你說(shuō)我怎么就攤上這事肥哎×伤祝” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵篡诽,是天一觀的道長(zhǎng)崖飘。 經(jīng)常有香客問(wèn)我,道長(zhǎng)杈女,這世上最難降的妖魔是什么朱浴? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮达椰,結(jié)果婚禮上翰蠢,老公的妹妹穿的比我還像新娘。我一直安慰自己啰劲,他們只是感情好梁沧,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著蝇裤,像睡著了一般廷支。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上栓辜,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天恋拍,我揣著相機(jī)與錄音,去河邊找鬼藕甩。 笑死施敢,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的狭莱。 我是一名探鬼主播悯姊,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼贩毕!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起仆嗦,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤辉阶,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體谆甜,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡垃僚,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了规辱。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谆棺。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖罕袋,靈堂內(nèi)的尸體忽然破棺而出改淑,到底是詐尸還是另有隱情,我是刑警寧澤浴讯,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布朵夏,位于F島的核電站,受9級(jí)特大地震影響榆纽,放射性物質(zhì)發(fā)生泄漏仰猖。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一奈籽、第九天 我趴在偏房一處隱蔽的房頂上張望饥侵。 院中可真熱鬧,春花似錦衣屏、人聲如沸躏升。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)煮甥。三九已至,卻和暖如春藕赞,著一層夾襖步出監(jiān)牢的瞬間成肘,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工斧蜕, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留双霍,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓批销,卻偏偏與公主長(zhǎng)得像洒闸,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子均芽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容