從去年開始谚殊,就一直在使用GATK(GenomeAnalysisToolkit)進行人類基因組的SNV Calling工作祟身。后來從官網(wǎng)上得知即將有4.0的版本更新懦尝,眾所周知,這種3.x --> 4.0的變化應該是十分巨大的,所以說其中變化的東西也是十分的多很繁雜祝峻。
所以用這篇日志簡要總結(jié)一下京髓。當然不是其更新日志的翻譯版斩启。饰迹。器虾。那也沒有什么意義。
這篇文章的主旨是在總結(jié)現(xiàn)有的GATK4.0的功能蹦锋,能做什么,需要怎么做欧芽,因為很多工具包雖然有提供一定的Best Practices莉掂,但其實其中還有許多的有用的功能,所以在這里簡要總結(jié)一下千扔。
Best Practices的變化
流程上的變化也已經(jīng)可以看出一部分軟件內(nèi)部的變化憎妙,但是細節(jié)由于gatk的組織還沒有發(fā)表新的文章對其進行評定,而且我這邊也還沒有對兩個版本的進行比較曲楚,所以還沒有更好的解決辦法厘唾。
所以best practice的介紹也就到這里。
官方推薦的best pratice也有對應的github連接龙誊,但是是以WDL的語言寫的抚垃,所以個人覺得還不是很好理解,已經(jīng)提了一個issue詢問是否有命令行版的趟大,只能等回復了鹤树。這里貼上連接。
gatk workflows including gatk4 version
枚舉有用的gatk 工具
工具列表以此處為準
- CountBases 統(tǒng)計一個sam或者bam的總堿基數(shù)逊朽,可以指定區(qū)域罕伯,便于計算平均深度。
- CountReads :(雞肋)可用samtools代替
- metagenomic (整個部分的流程都雞肋)metagenome用的是基于比對的想法叽讳,很難做追他,舊。
- DownsampleSam岛蚤,可以從一個sam/bam里節(jié)選一部分出來邑狸,隨機性高且考慮了分層。
- FastqtoSam : 將一個fastq轉(zhuǎn)成一個偽比對好的sam
- FilterSamReads:與4的區(qū)別在于灭美,這里用的是filter后的推溃,例如unmapped之類的。
- GatherBamFiles :合并多個bam,用于多線程后的合并或者多次測序多次分析后的合并铁坎。