疑問:
當我想要通過VCF文件查看一個突變位點的變異reads支持數(shù)時贡茅,發(fā)現(xiàn)文件展示的DP (total depth) 和AD (allele depth)的數(shù)量對應不上是咋回事兒骂束?比方說咪奖,ADs中記錄的支持ref和alt的總reads數(shù)和DP中展示的總深度對應不起來,更奇怪的是治筒,有時候一個位點的AD竟然是0屉栓,HaplotypeCaller為什么會把這樣的變異call出來?有圖有真相:
2? 151214? .? G? A? 673? .? 77 .? AN=2;DP=10;FS=0.000;MLEAF=0.500;MQ=56.57;MQ0=0;NCC=0;SOR=0.693 GT:AD:DP:GQ:PL? 0/1:0,0:10:38:702,0,38
能看出來耸袜,在FORMAT這列(最后一列)顯示的支持ref和alt的AD都是0友多,但是INFO列和FORMAT列中的DP都是10。因為INFO列的DP是未經(jīng)過過濾的total depth句灌,F(xiàn)ORMAT列的DP是經(jīng)過過濾的total depth夷陋,因此可以推斷這個位置上沒有任何一個read被GATK內(nèi)置的過濾程序過濾掉。再進一步查看“bamout”文件胰锌,就會發(fā)現(xiàn)確實在這個位置上有10個reads的覆蓋骗绕。所以為什么VCF報告的AD值都是0?
原因:uninformative reads
其實這個并不能算一個bug资昧,問題出在uninformative reads上酬土。
當該read給出的most likely allele的可能性并沒有顯著大于second most likely allele時,這個read就被稱為uninformative reads格带。需要說明的是撤缴,該可能性轉(zhuǎn)換為Phred格式(Phred scaled likelihoods)后需要大于0.2才會被軟件認為是具有顯著差異导绷。換句話說舷暮,most likely allell可能性必須比second most likely allele的可能性大60%才行(因為0.2 = 10^0.2 = 1.585,約等于大60%)珠叔。
例如棺亭,我現(xiàn)在有兩條reads和兩個可能的等位基因虎眨,所有的reads都通過了HaplotypeCaller的過濾,這連個等位基因的可能性的值展示在下圖中:
現(xiàn)在把上圖中的值轉(zhuǎn)換為Phred格式镶摘,即取log值:
現(xiàn)在嗽桩,我們想看看read 1是否是imformative read,只需要看看most likely allele (A)和second most likely allele (T)的可能性差值凄敢,即-6.4122-(-6.4352)= 0.023碌冶,由于0.023少于0.2,read 1由此可判斷為uninformative涝缝。同理可以判斷出read 2 是informative扑庞。
小結:
所以譬重,如果一個read 被判定為informative,它將記錄在AD和DP中去嫩挤。如果是uninformative害幅,它只會記錄在DP中,而不記錄在AD中岂昭。AD實際上反應了究竟有多少reads支持了該位置基因型的判定,之所以沒有把uninformative記錄進去狠怨,就是因為這些read的提供的基因型判定證據(jù)不足约啊。
參考:
https://software.broadinstitute.org/gatk/documentation/article?id=11096