GATK官方提供了一個SNP過濾的標(biāo)準(zhǔn)软啼,howto-apply-hard-filters-to-a-call-set,如果你按照它的要求來過濾簡化基因組中的SNP數(shù)據(jù)腻脏,也就是如下標(biāo)準(zhǔn)
QD > 2.0
FS > 60.0
MQ > 40.0
MQRankSum > -12.5
ReadPosRankSum > -8.0
SOR > 3.0
那么一頓操作之后,你會驚喜的發(fā)現(xiàn)贤惯,自己數(shù)據(jù)似乎都不見了啼辣。那么原因是什么呢粥喜?我們先來理解每個標(biāo)準(zhǔn)的含義
- QualByDepth(QD): 變異位點可信度除以未過濾的非參考read數(shù)
- FisherStrand (FS): Fisher精確檢驗評估當(dāng)前變異是strand bias的可能性,這個值在0-60間
- RMSMappingQuality (MQ): 所有樣本中比對質(zhì)量的平方根
- MappingQualityRankSumTest (MQRankSum): 根據(jù)REF和ALT的read的比對質(zhì)量來評估可信度
- ReadPosRankSumTest (ReadPosRankSum) : 通過變異在read的位置來評估變異可信度缴川,通常在read的兩端的錯誤率比較高
- StrandOddsRatio (SOR) : 綜合評估strand bias的可能性
在解釋原因之前茉稠,先讓我們回顧下一個GBS數(shù)據(jù)比對后在IGV的情況
他們的比對位置并不隨機,因此任何和strand bias有關(guān)的標(biāo)準(zhǔn)在過濾時把夸,也就是FS > 60.0 SOR > 3.0
時會過濾掉90%的數(shù)據(jù)而线,因此過濾掉許多真實的變異。
因此恋日,官方提供的標(biāo)準(zhǔn)膀篮,GBS數(shù)據(jù)只要用以下幾個就行
QD > 2
MQ > 40.0
MQRankSum > -12.5
ReadPosRankSum > -8
當(dāng)然具體標(biāo)準(zhǔn),我建議用vcfR
導(dǎo)入VCF文件谚鄙,通過柱狀圖分布來確定各拷。
附上我的一批數(shù)據(jù)通過這些標(biāo)準(zhǔn)過濾的結(jié)果
> table(QD>2)
FALSE TRUE
1140 91348
> table(MQ > 40.0)
FALSE TRUE
8924 83565
> table(MQRankSum > -12.5)
TRUE
92465
> table(ReadPosRankSum > -8)
FALSE TRUE
103 92127
> table(FS >= 60.0)
FALSE TRUE
86515 5974
> table(SOR > 3)
FALSE TRUE
85705 6784