GATK 是 Genome Analysis ToolKit 的縮寫鸥诽,是一款從高通量測(cè)序數(shù)據(jù)中分析變異信息的軟件箕憾,是目前最主流的snp calling 軟件之一。GATK 設(shè)計(jì)之初是用于分析人類的全外顯子和全基因組數(shù)據(jù)钠龙,隨著不斷發(fā)展,現(xiàn)在也可以用于其他的物種碴里,還支持CNV和SV變異信息的檢測(cè)上真。在官網(wǎng)上,提供了完整的分析流程谷羞,叫做GATK Best Practices
溜徙。
4.1.7.0
, 叫做[GATK4](https://www.plob.org/tag/gatk4 "查看與 GATK4 相關(guān)的文章")
蠢壹。 和之前的版本相比,GATK4
在算法上進(jìn)行了優(yōu)化图贸,運(yùn)行速率有所提高,而且整合了picard 軟件的功能偿洁。GATK4
基于java 語言開發(fā)的,需要java 1.8 版本涕滋。下載鏈接如下
https://software.broadinstitute.org/gatk/download/
安裝過程如下:
wget https://github.com/broadinstitute/gatk/releases/download/4.1.7.0/gatk-4.1.7.0.zip
unzip gatk-4.1.7.0.zip
(wes) root@1100150:~/wes_cancer/biosoft# tree -L 1 gatk-4.1.7.0/
gatk-4.1.7.0/
├── GATKConfig.EXAMPLE.properties
├── README.md
├── gatk
├── gatk-completion.sh
├── gatk-package-4.1.7.0-local.jar
├── gatk-package-4.1.7.0-spark.jar
├── gatkPythonPackageArchive.zip
├── gatkcondaenv.yml
├── gatkdoc
└── scripts
2 directories, 8 files
解壓縮之后挠阁,可以看到兩個(gè)后綴為.jar
的文件溯饵,local
用于本地運(yùn)行锨用,spark
用于在spark
集群上運(yùn)行。實(shí)際使用時(shí)啄巧,直接用gatk
這個(gè)可執(zhí)行文件就行了。 通過一個(gè)簡(jiǎn)單的命令跪者,查看程序是否正確安裝
gatk --help
這個(gè)命令能夠打印出所有的子命令,如果打印出來結(jié)果渣玲,說明程序安裝正確。部分子命令截圖如下
子命令后面如果有(picard)
, 說明這個(gè)功能是繼承于picard
軟件逾苫,從這里也可以看出枚钓,GATK4
集成了picard
軟件的功能。再不需要像之前版本一樣星掰,混合使用picard 和 gatk 了嫩舟。 GATK4 的最佳實(shí)踐給出了5套pipeline
- Germline SNPs + Indels
- Somatic SNVs + Indels
- RNAseq SNPs + Indels
- Germline CNVs
- Somatic CNVs
以上五套pipeline 可以根據(jù)研究對(duì)象是DNA還是RNA進(jìn)行劃分:DNA 測(cè)序(包含1,2,4,5)和RNA 測(cè)序(3)〖已幔可以看到,GATK 更多的是傾向于DNA 測(cè)序數(shù)據(jù)的分析蜀踏。對(duì)于DNA測(cè)序而言掰吕,主要識(shí)別SNP和CNV 兩大類型的變異果覆,每種變異類型又有Germline
和Somatic
的區(qū)別殖熟。 Germline
指的是在胚胎發(fā)育早起出現(xiàn)的變異,這種變異會(huì)在所有細(xì)胞中廣泛存在燎猛,是可以遺傳給后代的變異;Somatic
指的是體細(xì)胞變異重绷,身體特定區(qū)域或者組織中出現(xiàn)的變異。通常不會(huì)遺傳給后代愤钾。 在所有的pipeline
之前候醒,都存在一個(gè)數(shù)據(jù)預(yù)處理步驟data pre-processing
。 GATK4 版本的最佳實(shí)踐并不是直接給出了每個(gè)步驟對(duì)應(yīng)的代碼倒淫,而是給出了幾套它們自己編寫的流程,以供參考镜硕。這些流程以WDL
這種workflow 語言進(jìn)行編寫佃扼。官方對(duì)于WDL
, 也給出了詳細(xì)的文檔顽馋,幫助我們了解矩欠。
構(gòu)建索引
conda activate wes
cd ~/wes_cancer/data
gunzip Homo_sapiens_assembly38.fasta.gz
time bwa index -a bwtsw -p gatk_hg38 ~/wes_cancer/data/Homo_sapiens_assembly38.fasta
總結(jié)
- GATK4整合了picard軟件,在算法上進(jìn)行了優(yōu)化躺坟,新增了許多新的功能该默。
- 官網(wǎng)給出了基于GATK4的pipeline, 以
WDL
這種workflow 流程管理語言編寫策彤。