VCF文件INFO列的一些信息意義

轉(zhuǎn)自：
GATK4.0和全基因組數(shù)據(jù)分析實(shí)踐（下）

QualByDepth（QD）

QD是變異質(zhì)量值（Quality）除以覆蓋深度（Depth）得到的比值。這里的變異質(zhì)量值就是VCF中QUAL的值——用來(lái)衡量變異的可靠程度人芽，這里的覆蓋深度是這個(gè)位點(diǎn)上所有 含有變異堿基的樣本的覆蓋深度之和智什，通俗一點(diǎn)說(shuō)婚度，就是這個(gè)值可以通過(guò)累加每個(gè)含變異的樣本（GT為非0/0的樣本）的覆蓋深度（VCF中每個(gè)樣本里面的DP）而得到。舉個(gè)例子：

1     1429249 .       C       T       1044.77  .  .  GT:AD:DP:GQ:PL  0/1:48,15:63:99:311,0,1644  0/0:47,0:47:99:392,0,0  1/1:0,76:76:99:3010,228,0

這個(gè)位點(diǎn)是1:1429249，VCF格式仗处，但我把FILTER和INFO的信息省略了优幸，它的變異質(zhì)量值QUAL=1044.77吨拍。我們可以從中看到一共有三個(gè)樣本，其中一個(gè)是雜合變異（GT=0/1）网杆，一個(gè)純合的非變異（GT=0/0）羹饰，最后一個(gè)是純合的變異（GT=1/1）。每個(gè)樣本的覆蓋深度都在其各自的DP域上碳却，分別是：63队秩，47和76。按照定義昼浦，這個(gè)位點(diǎn)的QD值就應(yīng)該等于質(zhì)量值除以另外兩個(gè)含有變異的樣本的深度之和（排除中間GT=0/0這個(gè)不含變異的樣本）馍资，也就是:

QD = 1044.77 / (63+76) = 7.516

QD這個(gè)值描述的實(shí)際上就是單位深度的變異質(zhì)量值，也可以理解為是對(duì)變異質(zhì)量值的一個(gè)歸一化关噪，QD越高一般來(lái)說(shuō)變異的可信度也越高鸟蟹。在質(zhì)控的時(shí)候乌妙，相比于QUAL或者DP（深度）來(lái)說(shuō)，QD是一個(gè)更加合理的值建钥。因?yàn)槲覀冎捞僭希嫉淖儺愘|(zhì)量值實(shí)際上與覆蓋的read數(shù)目是密切相關(guān)的，深度越高的位點(diǎn)QUAL一般都是越高的熊经，而任何一個(gè)測(cè)序數(shù)據(jù)泽艘，都不可避免地會(huì)存在局部深度不均的情況，如果直接使用QUAL或者DP都會(huì)很容易因?yàn)楦采w深度的差異而帶來(lái)有偏的質(zhì)控結(jié)果镐依。

在上面『執(zhí)行硬過(guò)濾』的例子里面匹涮，我們看到認(rèn)為好的SNP變異，QD的值不能低于2馋吗，但 問(wèn)題是為什么是2焕盟，而不是3或者其它數(shù)值呢？

要回答這個(gè)問(wèn)題宏粤，我們可以通過(guò)利用NA12878 VQSR質(zhì)控之后的變異數(shù)據(jù)和原始的變異數(shù)據(jù)來(lái)進(jìn)行比較脚翘，并把它說(shuō)明白。

首先绍哎，我們可以先把所有變異位點(diǎn)的QD值都提取出來(lái)来农，然后畫一個(gè)密度分布圖（Y軸代表的是對(duì)應(yīng)QD值所占總數(shù)的比例，而不是個(gè)數(shù)）崇堰，看看QD值的總體分布情況（如下圖沃于，來(lái)自NA12878的數(shù)據(jù)）。

QD密度分布

從這個(gè)圖里海诲，我們可以看到QD的范圍主要集中在0~40之間繁莹。同時(shí)，我們可以明顯地看到有兩個(gè)峰值（QD=12和QD=32）特幔。這兩個(gè)峰所反映的恰恰是雜合變異和純合變異的QD值所集中的地方咨演。這里大家可以思考一下，哪一個(gè)是代表雜合變異的峰蚯斯，哪一個(gè)是代表純合變異的峰呢薄风？

回答是，第一個(gè)峰（QD=12）代表雜合拍嵌，而第二峰（QD=32）代表純合遭赂，為什么呢？因?yàn)閷?duì)于純合變異來(lái)說(shuō)横辆，貢獻(xiàn)于質(zhì)量值的read是雜合變異的兩倍撇他，同樣深度的情況下，QD會(huì)更大。對(duì)于大多數(shù)的高深度測(cè)序數(shù)據(jù)來(lái)說(shuō)逆粹，QD的分布和上面的情況差不多募疮，因此這個(gè)分布具有一定的代表性炫惩。

接著僻弹，我們同時(shí)畫出VQSR之后所有 可信變異（FILTER=Pass）和 不可信變異的QD分布圖，如下他嚷，淺綠色代表可信變異的QD分布圖蹋绽，淺紅色代表不可信變異的QD分布圖。

VQSR QD密度分布

你可以看到筋蓖，大多數(shù)Fail的變異卸耘，都集中在左邊的低QD區(qū)域，而且紅波峰恰好是QD=2的地方粘咖，這就是為什么硬過(guò)濾時(shí)設(shè)置QD>2的原因了蚣抗。

可是在上面的圖里，我想你也看到了瓮下，有很多Fail的變異它的QD還是很高的翰铡，有些甚至高于30，通過(guò)這樣的硬過(guò)濾參數(shù)所得到的結(jié)果中就會(huì)包含這部分本該要過(guò)濾掉的壞變異讽坏；而同樣的锭魔，在低QD（<2）區(qū)域其實(shí)也有一些是好的變異，但是卻被過(guò)濾掉了路呜。這其實(shí)也是硬過(guò)濾的一大弊端迷捧，它不會(huì)像VQSR那樣，通過(guò)多個(gè)不同維度的數(shù)據(jù)構(gòu)造合適的高維分類模型胀葱，從而能夠更準(zhǔn)確地區(qū)分好和壞的變異漠秋，而僅僅是一刀切。

當(dāng)你理解了上面有關(guān)QD的計(jì)算和閾值選擇的過(guò)程之后抵屿，要弄懂后面的指標(biāo)和閾值也就容易了庆锦，因?yàn)橛玫囊捕际峭瑯拥乃悸贰?/p>

FisherStrand（FS）

FS是一個(gè)通過(guò)Fisher檢驗(yàn)的p-value轉(zhuǎn)換而來(lái)的值，它要描述的是測(cè)序或者比對(duì)時(shí)對(duì)于只含有變異的read以及只含有參考序列堿基的read是否存在著明顯的正負(fù)鏈特異性（Strand bias晌该，或者說(shuō)是差異性）肥荔。這個(gè)差異反應(yīng)了測(cè)序過(guò)程不夠隨機(jī)，或者是比對(duì)算法在基因組的某些區(qū)域存在一定的選擇偏向朝群。如果測(cè)序過(guò)程是隨機(jī)的燕耿，比對(duì)是沒(méi)問(wèn)題的，那么不管read是否含有變異姜胖，以及是否來(lái)自基因組的正鏈或者負(fù)鏈誉帅，只要是真實(shí)的它們就都應(yīng)該是比較均勻的，也就是說(shuō)，不會(huì)出現(xiàn)鏈特異的比對(duì)結(jié)果蚜锨，F(xiàn)S應(yīng)該接近于零档插。

這里多說(shuō)一句，在VCF的INFO中有時(shí)除了FS之外亚再，有時(shí)你還會(huì)看到SB或者SOR郭膛。它們實(shí)際上是從不同的層面對(duì)鏈特異的現(xiàn)象進(jìn)行描述。只不過(guò)SB給出的是原始各鏈比對(duì)數(shù)目氛悬，而FS則是對(duì)這些數(shù)據(jù)做了精確Fisher檢驗(yàn)则剃；SOR原理和FS類似，但是用了不同的統(tǒng)計(jì)檢驗(yàn)方法計(jì)算差異程度如捅，它更適合于高覆蓋度的數(shù)據(jù)棍现。

與QD一樣，我們先來(lái)看一下質(zhì)控前所有變異的FS總體密度分布圖（如下）镜遣。很明顯與QD相比己肮，F(xiàn)S的范圍更加的大，從0到好幾百的都有悲关。不過(guò)從圖中也可以看出谎僻，絕大部分的變異還是在100以下的。

FS 密度分布

下面這一個(gè)圖則是經(jīng)過(guò)VQSR之后坚洽，畫出來(lái)的FS分布圖戈稿。跟上面的QD一樣，淺綠色代表好變異讶舰，淺紅色代表壞變異鞍盗。我們可以看到，大部分好變異的FS都集中在0~10之間跳昼，而且壞變異的峰值在60左右的位置上般甲，因此過(guò)濾的時(shí)候，我們把FS設(shè)置為大于60鹅颊。其實(shí)設(shè)置這么高的一個(gè)閾值是比較激進(jìn)的（留下很多假變異）敷存，但是從圖中你也可以看到，不過(guò)設(shè)置得多低堪伍，我們總會(huì)保留下很多假的變異锚烦，既然如此我們就干脆選擇盡可能保留更多好的變異，然后祈禱可以通過(guò)『執(zhí)行硬過(guò)濾』里其他的閾值來(lái)過(guò)濾掉那些無(wú)法通過(guò)FS過(guò)濾的假變異帝雇。

VQSR 密度分布

StrandOddsRatio（SOR）

關(guān)于SOR在上面講到FS的時(shí)候涮俄，我就在注釋里提及過(guò)了。它同樣是對(duì)鏈特異（Strand bias）的一種描述尸闸，但是從上面我們也可以看到FS在硬過(guò)濾的時(shí)候并不是非常給力彻亲，而且由于很多時(shí)候read在外顯子區(qū)域末端的覆蓋存在著一定的鏈特異（這個(gè)區(qū)域的現(xiàn)象其實(shí)是正常的）孕锄，往往只有一個(gè)方向的read，這個(gè)時(shí)候該區(qū)域中如果有變異位點(diǎn)的話苞尝，那么FS通常會(huì)給出很差的分值畸肆，這時(shí)SOR就能夠起到比較好的校正作用了。計(jì)算SOR所用的統(tǒng)計(jì)檢驗(yàn)方法也與FS不同宙址，它用的是symmetric odds ratio test轴脐，數(shù)據(jù)是一個(gè)2×2的列聯(lián)表（如下），公式也十分簡(jiǎn)單曼氛，我把公式進(jìn)行了簡(jiǎn)單的展開(kāi)豁辉，從中可以清楚地看出，它考慮的其實(shí)就是ALT和REF這兩個(gè)堿基的read覆蓋方向的比例是否有偏舀患，如果完全無(wú)偏，那么應(yīng)該等于1气破。

SOR列聯(lián)表

sor = (ref_fwd/ref_rev) / (alt_fwd/alt_rev) = (ref_fwd * alt_rev) / (ref_rev * alt_fwd)

OK聊浅，那么同樣的，我們先看一下這個(gè)值總體的密度分布情況（如下）现使〉统祝總的來(lái)說(shuō)，這個(gè)分布明顯集中在0~3之間碳锈，這也和我們的預(yù)期比較一致顽冶。不過(guò)也有比較明顯的長(zhǎng)尾現(xiàn)象，這個(gè)時(shí)候我們也沒(méi)必要定下太過(guò)明確的閾值預(yù)期售碳，先看VQSR的分布結(jié)果强重。

SOR 密度分布

下面這個(gè)圖就是在VQSR之后，區(qū)分了好和壞變異之后贸人，SOR的密度分布间景。很明顯，好的變異基本就在1附近艺智。結(jié)合這個(gè)分布圖倘要，我們?cè)谏厦娴睦永锇阉拈撝刀?基本上也不會(huì)過(guò)損失好的變異了，雖然單靠這個(gè)閾值還是會(huì)保留下不少假的變異十拣，但是至少不合理的長(zhǎng)尾部分可以被砍掉封拧。

VQSR SOR密度分布

RMSMappingQuality（MQ）

MQ這個(gè)值是所有比對(duì)至該位點(diǎn)上的read的比對(duì)質(zhì)量值的均方根（先平方、再平均夭问、然后開(kāi)方泽西，如下公式）。

RMS 計(jì)算公式

它和平均值相比更能夠準(zhǔn)確地描述比對(duì)質(zhì)量值的離散程度甲喝。而且有意思的是尝苇，如果我們的比對(duì)工具用的是bwa mem铛只，那么按照它的算法，對(duì)于一個(gè)好的變異位點(diǎn)糠溜，我們可以預(yù)期淳玩，它的MQ值將等于60。

下面是所有未過(guò)濾的變異位點(diǎn)上MQ的密度分布圖非竿⊥勺牛基本上就只在60的地方存在一個(gè)很瘦很高的峰『熘可以說(shuō)這是目前為止這幾個(gè)指標(biāo)中圖形最為規(guī)則的了承匣，在這個(gè)圖上，我們甚至就可以直接定出MQ的閾值了锤悄，比如所有小于50的就可以過(guò)濾掉了韧骗。

MQ 密度分布

但是，理性告訴我們還是要看一下VQSR的對(duì)比結(jié)果（下圖）零聚。

VQSR 密度分布

你會(huì)發(fā)現(xiàn)似乎所有好的變異都緊緊集中在60旁邊了袍暴，其它地方就都是假的變異了，所以MQ的閾值設(shè)置為50也是合理的隶症。但是同樣要注意到的地方是政模，60這個(gè)范圍實(shí)際上依然有假的變異位點(diǎn)在那里，我們把這個(gè)區(qū)域放大來(lái)看蚂会，如下圖淋样，這里你就會(huì)發(fā)現(xiàn)其實(shí)假變異的密度分布圖也覆蓋到60這個(gè)范圍了。

VQSR 密度分布

考慮到篇幅的問(wèn)題胁住，接下來(lái)MappingQualityRankSumTest（MQRankSum）和ReadPOSRankSumTest（ReadPOSRankSum）的閾值設(shè)定原理趁猴，我不打算再細(xì)說(shuō)下去了，思路和上面的4個(gè)是完全一樣的措嵌。都是通過(guò)比較VQSR之后的密度分布圖躲叼，最后確定了硬過(guò)濾的閾值。

但請(qǐng)不要以為這只是適用于GATK得到的變異企巢，實(shí)際上枫慷，只要我們弄懂了這些指標(biāo)選擇的原因和過(guò)濾的思路，那么通過(guò)任何其他的變異檢測(cè)工具也是依舊可以適用的浪规，區(qū)別就在于GATK幫我們把這些要用的指標(biāo)算好了或听。

同樣地，這些指標(biāo)也不是一成不變的笋婿，可以根據(jù)實(shí)際的情況換成其他誉裆，或者我們自己重新計(jì)算。

Ti/Tv處于合理的范圍

Ti/Tv的值是物種在與自然相互作用和演化過(guò)程中在基因組上留下來(lái)的一個(gè)統(tǒng)計(jì)標(biāo)記缸濒，在物種中這個(gè)值具有一定的穩(wěn)定性足丢。因此粱腻，一般來(lái)說(shuō)，在完成了以上的質(zhì)控之后斩跌，還會(huì)看一下這些變異位點(diǎn)Ti/Tv的值是多少绍些，以此來(lái)進(jìn)一步確定結(jié)果的可靠程度。

Ti（Transition）指的是嘌呤轉(zhuǎn)嘌呤耀鸦，或者嘧啶轉(zhuǎn)嘧啶的變異位點(diǎn)數(shù)目柬批，即A<->G或C<->T；
Tv（Transversion）指的則是嘌呤和嘧啶互轉(zhuǎn)的變異位點(diǎn)數(shù)目袖订，即A<->C氮帐，A<->T，G<->C和G<->T洛姑。（如下圖）

Ti和Tv轉(zhuǎn)換關(guān)系

另外上沐，在哺乳動(dòng)物基因組上C->T的轉(zhuǎn)換比較多，這是因?yàn)榛蚪M上的胞嘧啶C在甲基化的修飾下容易發(fā)生C->T的轉(zhuǎn)變吏口。

說(shuō)了這么多奄容，Ti/Tv的比值應(yīng)該是多少才是正常的呢？如果沒(méi)有 選擇壓力的存在产徊，Ti/Tv將等于0.5，因?yàn)閺母怕噬现vTv將是Ti的兩倍蜀细。但現(xiàn)實(shí)當(dāng)然不是這樣的，比如對(duì)于人來(lái)說(shuō)，全基因組正常的Ti/Tv在2.1左右坚冀，而外顯子區(qū)域是3.0左右戚绕，新發(fā)的變異（Novel variants）則在1.5左右。

最后多說(shuō)一句归斤，Ti/Tv是一個(gè)被動(dòng)指標(biāo)痊夭，它是對(duì)最后質(zhì)控結(jié)果的一個(gè)反應(yīng)，我們是不能夠在一開(kāi)始的時(shí)候使用這個(gè)值來(lái)進(jìn)行變異過(guò)濾的脏里。

作者：黃樹(shù)嘉
鏈接：http://www.reibang.com/p/ff8204ae7ebf
來(lái)源：簡(jiǎn)書
簡(jiǎn)書著作權(quán)歸作者所有她我，任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)繫作者獲得授權(quán)並註明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末迫横，一起剝皮案震驚了整個(gè)濱河市番舆，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌矾踱，老刑警劉巖恨狈，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異呛讲，居然都是意外死亡禾怠，警方通過(guò)查閱死者的電腦和手機(jī)返奉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)吗氏，“玉大人芽偏，你說(shuō)我怎么就攤上這事∩ぃ” “怎么了哮针？”我有些...
開(kāi)封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)坦袍。經(jīng)常有香客問(wèn)我十厢，道長(zhǎng)，這世上最難降的妖魔是什么捂齐？我笑而不...
開(kāi)封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任蛮放，我火速辦了婚禮，結(jié)果婚禮上奠宜，老公的妹妹穿的比我還像新娘包颁。我一直安慰自己，他們只是感情好压真，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布娩嚼。她就那樣靜靜地躺著，像睡著了一般滴肿。火紅的嫁衣襯著肌膚如雪岳悟。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說(shuō)
那天泼差，我揣著相機(jī)與錄音贵少，去河邊找鬼。笑死堆缘，一個(gè)胖子當(dāng)著我的面吹牛滔灶，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播吼肥，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼录平，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了潜沦？” 一聲冷哼從身側(cè)響起萄涯，我...
開(kāi)封第一講書人閱讀 36,927評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎唆鸡，沒(méi)想到半個(gè)月后涝影，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡争占，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年燃逻，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了序目。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡伯襟，死狀恐怖猿涨，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情叛赚，我是刑警寧澤，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布俺附，位于F島的核電站，受9級(jí)特大地震影響事镣，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜揪胃，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一璃哟、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧随闪，春花似錦、人聲如沸骚勘。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案调鲸，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至挽荡，卻和暖如春藐石，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背定拟。一陣腳步聲響...
開(kāi)封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留青自，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓恋腕，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親逆瑞。傳聞我的和親對(duì)象是個(gè)殘疾皇子伙单，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345

VCF文件INFO列的一些信息意義

QualByDepth（QD）

FisherStrand（FS）

StrandOddsRatio（SOR）

RMSMappingQuality（MQ）

Ti/Tv處于合理的范圍

推薦閱讀更多精彩內(nèi)容