VCF文件參數(shù)解讀

????VCF (variant callformat) 文件記錄了所有樣品基因組中所有位置變異(主要包括SNP和InDel)信息。后續(xù)幾乎所有分析內(nèi)容都是基于此文件,如進化樹分析霹粥、群體結構分析坊饶、PCA分析、GWAS關聯(lián)分析等挫望。

????整體說明信息(Meta-informationlines)

????VCF文件的開頭是整體注釋信息立润,通常以##作為起始,其后一般接以FILTER媳板,INFO桑腮,F(xiàn)ORMAT等字樣。

????例如:以##FILTER開頭的行蛉幸,表示注釋VCF文件當中第7列中縮寫詞的說明破讨;##INFO開頭的行注釋VCF第8列中的縮寫字母說明,比如AF代表Allele Frequency也就是等位基因頻率奕纫;##FORMAT開頭的行注釋VCF第9列中的縮寫字母說明提陶;另外還有其他的一些信息,文件版本"fileformat=VCFv4.0"等等若锁。還能看到一些歷史命令搁骑,通過這些命令可以知道這個vcf文件是如何得到的。

????VCF各列意義說明

????各列之間用tab空白隔開又固;前面9列為固定列仲器,第10列開始為樣品信息列,可以無限多個仰冠;圖示樣品信息列有130個

????CHROM????POS????ID????REF????ALT????QUAL????FILTER????INFO????FORMAT

????后面的列都為樣品基因型信息列

????具體說明如下

? ??1.CHROM? ? 記錄染色體編號

? ??2.POS????記錄變異位點在參考基因組中的位置乏冀。如果是SNP的話,POS即SNP的位置洋只;如果是INDEL的話辆沦,位置是INDEL的第一個堿基位置昼捍。

? ??3.ID????SNP/INDEL的ID, 如在dbSNP中有該SNP的id,則會在此行給出肢扯;若沒有妒茬,則用’.'表示其為一個novel variant 新變異,dbSNP編號通常以rs開頭,一般只有人類基因組才有dbSNP編號

? ??INDEL指的是在基因組的某個位置上所發(fā)生的small deletion,small inverion小片段序列的插入或者刪除蔚晨,其長度通常在50bp以下

? ??4.REF????參考基因組該位置堿基類型乍钻,必須是A,C,G,T,N????N表示不確定堿基,SNP應該一個位點就是一個堿基

? ??5.ALT????與參考序列比較铭腕,發(fā)生突變的變異堿基類型银择,必須是A,C,G,T,N,.????多個用逗號分割累舷。"." 表示這個地方?jīng)]有reads覆蓋為缺失浩考。

????一般過濾時我們是只保留雙等位基因的SNP(一個基因座上等位基因只有2種類型,A或a被盈,像決定血型的3個等位基因A,B,O情況很少析孽,不考慮了)

? ??理論上講,SNP既可能是二等位多態(tài)性害捕,也可能是3個或4個等位多態(tài)性绿淋,但實際上,后兩者非常少見尝盼,幾乎可以忽略吞滞。因此,通常所說的SNP都是二等位多態(tài)性的盾沫,這種變異可能是 轉(zhuǎn)換 (transition)裁赠,也可能是顛換(transversion)。

? ??6.QUAL????變異位點檢測質(zhì)量值赴精,越高越可靠佩捞。表示在該位點存在variant的可能性,該值越高蕾哟,則variant的可能性越大?

????????等于-10*log10(該變異位點檢測錯誤的概率)一忱。用 . 表示,是質(zhì)量值沒有輸出谭确,不代表質(zhì)量值為0

????? ??log0.1表示10的多少次方等于0.1帘营,即為-1;10的-1次方為十分之一逐哈,10的-2次方為一百分之一

? ??7.FILTER? ? 如果該位點通過過濾標準那么我們可以在該列標記為"PASS",說明該列質(zhì)量值高芬迄。

? ??8.?INFO為variant的詳細信息? ? ?字段的意思可以在header里搜索去看

????上面vcf 中INFO全為“.”了,是因為用 vcftools 某步過濾SNP輸出文件時用了 --recode 昂秃,這樣就不輸出info信息禀梳,以 . 代替了杜窄,想輸出info,可以--recode-INFO xx(如MQ)? 或者 --recode-INFO-all (所有info全部輸出)

????#DP-read depth:樣本在這個位置的reads覆蓋度算途。是一些reads被過濾掉后的覆蓋度塞耕。DP4:高質(zhì)量測序堿基,位于REF或者ALT前后

? ? #QD:通過深度來評估一個變異的可信度郊艘。Variant call confidence normalized by depth of sample reads supporting a variant? ? ? ?

????#MQ:表示覆蓋序列質(zhì)量的均方值RMS Mapping Quality

????#FQ:phred值關于所有樣本相似的可能性

????#AC荷科,AF 和 AN:AC(Allele Count) 表示該Allele的數(shù)目;AF(Allele Frequency) 表示Allele的頻率纱注; AN(Allele Number) 表示Allele的總數(shù)目。

????對于1個diploid sample(雙倍體)而言:則基因型 0/1 表示sample為雜合子胆胰,Allele數(shù)為1 (雙倍體的sample在該位點只有1個等位基因發(fā)生了突變)狞贱,Allele的頻率為0.5 (雙倍體的sample在該位點只有50%的等位基因發(fā)生了突變),總的Allele為2蜀涨;? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 基因型 1/1 則表示sample為純合的瞎嬉,Allele數(shù)為2,Allele的頻率為1厚柳,總的Allele為2氧枣。

????#MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed

????#MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed

????#BaseQRankSum? 比較支持變異的堿基和支持參考基因組的堿基的質(zhì)量,負值表示支持變異的堿基質(zhì)量值不及支持參考基因組的别垮,

???? 正值則相反便监,支持變異的質(zhì)量值好于參考基因組的。0表示兩者無明顯差異碳想。

????#FS? 使用F檢驗來檢驗測序是否存在鏈偏好性烧董。鏈偏好性可能會導致變異等位基因檢測出現(xiàn)錯誤。輸出值Phred-scaled p-value胧奔,值越大越可能出現(xiàn)鏈偏好性逊移。

????#InbreedingCoeff? ? 使用似然法檢驗樣本間的近交系數(shù)(又或者稱為近親關系)。值越高越可能是近親繁殖龙填。

????#MQRankSum? 比較支持變異的序列和支持參考基因組的序列的質(zhì)量胳泉,負值表示支持變異的堿基質(zhì)量值不及支持參考基因組的,只針對雜合岩遗。

???? 正值則相反扇商,支持變異的質(zhì)量值好于參考基因組的。0表示兩者無明顯差異喘先。實際應用中一般過濾掉較小的負值钳吟。

????#BaseCounts? 所有樣本在變異位點ATCG的數(shù)量

????#ClippingRankSum? 同前面兩個類似,負值表示支持變異的read有更的的hard-clip堿基窘拯,正值表示支持參考基因組的的read有更多的hard-clip红且。0最好坝茎,無論是正值還是負值都表示可能可能存在人為偏差。

????#ReadPosRankSum? ? 檢測變異位點是否有位置偏好性(是否存在于序列末端暇番,此時往往容易出錯)嗤放。最佳值為0,表示變異與其在序列上的位置無關壁酬。負值表示變異位點更容易在末端出現(xiàn)次酌,正值表示參考基因組中的等位基因更容易在末端出現(xiàn)。

????#ExcessHet? 檢測這些樣本的相關性舆乔,與InbreedingCoeff相似岳服,值越大越可能是錯誤。

????#LikelihoodRankSum? 評價支持變異和ref的序列與best hyplotype的匹配性希俩,0為最佳值吊宋。負值表示支持變異的read匹配度不及支持ref的匹配度,正值則相反颜武。值越大表示越可能是出現(xiàn)了錯誤璃搜。

????#HaplotypeScore? ? 分數(shù)越高越可能出現(xiàn)錯誤。Higher scores are indicative of regions with bad alignments, typically leading to artifactual SNP and indel calls.

????#SOR:也是一個用來評估是否存在鏈偏向性的參數(shù)鳞上,相當于FS的升級版这吻。The StrandOddsRatio annotation is one of several methods that aims to evaluate whether there is strand bias in the data. It is an updated form of the Fisher Strand Test that is better at taking into account large amounts of data in high coverage situations. It is used to determine if there is strand bias between forward and reverse strands for the reference or alternate allele. The reported value is ln-scaled.

????#IS:插入缺失或部分插入缺失的reads允許的最大數(shù)量

????#G3:ML 評估基因型出現(xiàn)的頻率

????#HWE:chi^2基于HWE的測試p值和G3

????#CLR:在受到或者不受限制的情況下基因型出現(xiàn)可能性log值

????#UGT:最可能不受限制的三種基因型結構

????#CGT:最可能受限制三種基因型的結構

????#PV4:四種P值的誤差,分別是(strand篙议、baseQ唾糯、mapQ、tail distance bias)

????#INDEL:表示該位置的變異是插入缺失

????#PC2:非參考等位基因的phred(變異的可能性)值在兩個分組中大小不同

????#PCHI2:后加權chi^2涡上,根據(jù)p值來測試兩組樣本之間的聯(lián)系

????#QCHI2:Phred scaled PCHI2

????#PR:置換產(chǎn)生的一個較小的PCHI2

????#QBD:Quality by Depth趾断,測序深度對質(zhì)量的影響

????#RPB:序列的誤差位置(Read Position Bias)

????#MDV:樣本中高質(zhì)量非參考序列的最大數(shù)目

????#VDB:Variant Distance Bias,RNA序列中過濾人工拼接序列的變異誤差范圍


? ??9.FORMAT 為后面10列信息的說明列吩愧,通常以" :"隔開各個縮寫詞芋酌。

? ??10列(包含)以后為樣品基因型列,各信息以":"分隔與FORMAT列一一對應雁佳;

? ??GT:樣品的基因型(genotype)脐帝。兩個數(shù)字中間用 / 分開,0 表示樣品中有ref的allele糖权; 1 表示樣品中第一種variant的allele堵腹; 2表示有第二種variant的allele;3表示有第三種......以此類推星澳。因此: 0/0 表示sample中該位點為純合的疚顷,和ref一致; 0/1 表示sample中該位點為雜合的,有ref和variant兩種類型腿堤; 1/1 表示sample中該位點為純合的阀坏,只有variant1一種類型;1/2表示sample中沒有與ref一致的笆檀,有2種變異類型忌堂;2/2 表示sample中該位點為純合的,只有variant2一種類型酗洒;./. 表示缺失士修。

(不確定 1/0與0/1 , 1/2與2/1 , 2/3與3/2 是否為一個意思,猜測可能是一個意思樱衷,沒有去深究)

? ? 在過濾后只剩SNP的vcf文件中棋嘲,GT只會存在 0/0? ??0/1? ??1/1??? ???0(參考基因組等位基因類型)和1(樣品的一種變異等位基因類型)

????因為:SNP所表現(xiàn)的多態(tài)性只涉及到單個堿基的變異,這種變異可由單個堿基的?轉(zhuǎn)換 或 顛換?所引起箫老,也可由堿基的插入或缺失所致封字。但通常所說的SNP并不包括后兩種情況;理論上講耍鬓,SNP既可能是二等位多態(tài)性,也可能是3個或4個等位多態(tài)性流妻,但實際上牲蜀,后兩者非常少見,幾乎可以忽略绅这。因此涣达,通常所說的SNP都是二等位多態(tài)性的,這種變異可能是 轉(zhuǎn)換 (transition)证薇,也可能是顛換(transversion)度苔。

? ??像下圖,還存在除SNP外其他類型的變異浑度,所以GT存在1/2寇窑,2/2等

? ??GT中還存在0|1,1|0等情況(是豎線而非斜線),這在 vcf 文件中至少是2個及以上的位點連續(xù)出現(xiàn)箩张,表示意思是位點A(0|1)甩骏,位點B(1|0)是在同一條染色體上,A位點為0表示的類型時先慷,B位點就是1表示的類型饮笛;A位點為1表示的類型時,B就是位點0表示的類型


? ??AD和DP:AD(Allele Depth)為sample中在此位置支持每種堿基型的reads深度论熙,用逗號分割福青,前者對應ref基因型,后者對應variant基因型; DP(Depth)為sample中該位點的覆蓋度无午,為該變異位點的深度和媒役,也就是AD兩個數(shù)字的和。

? ??GQ基因型質(zhì)量值? ? ? ? Phred值 = -10 * log (p)? p為基因型錯誤的概率? 越高越可靠

? ??PL指定的三種基因型的似然值指厌。這三種指定的基因型為(0/0,0/1,1/1)刊愚,這三種基因型的概率總和為1。數(shù)值越小代表基因型越可靠踩验,最小的數(shù)字對應的基因型判讀為該樣品的最可能的基因型鸥诽。比如最后一列285,0,105,分別對應基因型0/0,0/1,1/1箕憾,說明0/1為可能的基因型牡借。

? ??PGT?PID?也看了,沒咋懂袭异,不記錄了


有記錄錯誤的地方钠龙,麻煩批評指正


參考:

http://www.reibang.com/p/1726696e54e5

http://www.reibang.com/p/13f162636164

https://www.omicsclass.com/article/847

http://www.reibang.com/p/bf0d27368eb9

http://www.reibang.com/p/13f162636164

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市御铃,隨后出現(xiàn)的幾起案子碴里,更是在濱河造成了極大的恐慌,老刑警劉巖上真,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件咬腋,死亡現(xiàn)場離奇詭異,居然都是意外死亡睡互,警方通過查閱死者的電腦和手機根竿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來就珠,“玉大人寇壳,你說我怎么就攤上這事∑拊酰” “怎么了壳炎?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蹂季。 經(jīng)常有香客問我冕广,道長,這世上最難降的妖魔是什么偿洁? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任撒汉,我火速辦了婚禮,結果婚禮上涕滋,老公的妹妹穿的比我還像新娘睬辐。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布溯饵。 她就那樣靜靜地躺著侵俗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪丰刊。 梳的紋絲不亂的頭發(fā)上隘谣,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天,我揣著相機與錄音啄巧,去河邊找鬼寻歧。 笑死,一個胖子當著我的面吹牛秩仆,可吹牛的內(nèi)容都是我干的码泛。 我是一名探鬼主播,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼澄耍,長吁一口氣:“原來是場噩夢啊……” “哼噪珊!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起齐莲,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤痢站,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后选酗,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瑟押,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年星掰,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嫩舟。...
    茶點故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡氢烘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出家厌,到底是詐尸還是另有隱情播玖,我是刑警寧澤,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布饭于,位于F島的核電站蜀踏,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏掰吕。R本人自食惡果不足惜果覆,卻給世界環(huán)境...
    茶點故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望殖熟。 院中可真熱鬧局待,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至薛耻,卻和暖如春营罢,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背饼齿。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工饲漾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人候醒。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓能颁,卻偏偏與公主長得像,于是被迫代替她去往敵國和親倒淫。 傳聞我的和親對象是個殘疾皇子伙菊,可洞房花燭夜當晚...
    茶點故事閱讀 45,573評論 2 359

推薦閱讀更多精彩內(nèi)容