WES/WGS疾党,call變異流程學(xué)習(xí)音诫。
第一步,QC
傳統(tǒng)方法仿贬,F(xiàn)astQC
安裝
$ wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip ./
FastQC的運(yùn)行非常簡(jiǎn)單纽竣,直接在終端通過命令行是最有效直接的,下面我給出一個(gè)例子:
$ /path_to_fastqc/FastQC/fastqc untreated.fq -o fastqc_out_dir/
命令比較簡(jiǎn)單茧泪,這里 唯一值得注意的地方就是 -o 參數(shù)用于指定FastQC報(bào)告的輸出目錄蜓氨,這個(gè)目錄需要事先創(chuàng)建好,如果不指定特定的目錄队伟,那么FastQC的結(jié)果會(huì)默認(rèn)輸出到文件untreated.fq的同一個(gè)目錄下穴吹。它輸出結(jié)果只有兩個(gè),一個(gè)html和一個(gè).zip壓縮包嗜侮。
切除測(cè)序接頭序列和read的低質(zhì)量序列
$ java -jar trimmomatic-0.36.jar
Usage:
PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>...
or:
SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-quiet] <inputFile> <outputFile> <trimmer1>...
or:
-version
fastp
fastp的特性:
對(duì)數(shù)據(jù)自動(dòng)進(jìn)行全方位質(zhì)控港令,生成人性化的報(bào)告
過濾功能(低質(zhì)量,太短锈颗,太多N……);
對(duì)每一個(gè)序列的頭部或尾部顷霹,計(jì)算滑動(dòng)窗內(nèi)的質(zhì)量均值,并將均值較低的子序列進(jìn)行切除(類似Trimmomatic的做法击吱,但是快非常多);
全局剪裁 (在頭/尾部淋淀,不影響去重),對(duì)于Illumina下機(jī)數(shù)據(jù)往往最后一到兩個(gè)cycle需要這樣處理;
去除接頭污染覆醇。厲害的是朵纷,你不用輸入接頭序列,因?yàn)樗惴〞?huì)自動(dòng)識(shí)別接頭序列并進(jìn)行剪裁;
對(duì)于雙端測(cè)序(PE)的數(shù)據(jù)永脓,軟件會(huì)自動(dòng)查找每一對(duì)read的重疊區(qū)域袍辞,并對(duì)該重疊區(qū)域中不匹配的堿基對(duì)進(jìn)行校正;
去除尾部的polyG。對(duì)于Illumina NextSeq/NovaSeq的測(cè)序數(shù)據(jù)常摧,因?yàn)槭莾缮òl(fā)光搅吁,polyG是常有的事,所以該特性對(duì)該兩類測(cè)序平臺(tái)默認(rèn)打開;
對(duì)于PE數(shù)據(jù)中的overlap區(qū)間中不一致的堿基對(duì),依據(jù)質(zhì)量值進(jìn)行校正;
可以對(duì)帶分子標(biāo)簽(UMI)的數(shù)據(jù)進(jìn)行預(yù)處理似芝,不管UMI在插入片段還是在index上那婉,都可以輕松處理;
-可以將輸出進(jìn)行分拆,而且支持兩種模式党瓮,分別是指定分拆的個(gè)數(shù)详炬,或者分拆后每個(gè)文件的行數(shù)
具體看fastp
對(duì)于多樣品的質(zhì)控,一個(gè)一個(gè)看報(bào)告顯然不可行寞奸。這里需要用multiqc
其強(qiáng)大的功能主要體現(xiàn)在以下三個(gè)方面:
1)能將測(cè)序數(shù)據(jù)的多個(gè)QC結(jié)果整合成一個(gè)HTLM網(wǎng)頁交互式報(bào)告呛谜,同時(shí)也能導(dǎo)出pdf文件;
2)支持多種分析類型的質(zhì)控結(jié)果查看枪萄,如:RNAseq隐岛、Whole-Genome Seq、Bisulfite Seq瓷翻、Hi-C和MultiQC_NGI聚凹;
3)支持整合68種軟件分析的結(jié)果,而且支持的軟件還在持續(xù)增加齐帚,也可以自己寫作一個(gè)插件妒牙,具體見下圖。
比對(duì)
bwa
bwa主要用于將低差異度的短序列(一般是同物種)與參考基因組進(jìn)行比對(duì)对妄。主要包含三種比對(duì)算法:backtrack湘今、SW和MEM,第一種只支持短序列比對(duì)(<100bp)剪菱,后兩種支持長(zhǎng)序列比對(duì)(70bp~1M)摩瞎,并支持分割比對(duì)(split alignment)。MEM算法是最新的也是官方推薦的孝常。
先建bwa的索引
bwa index -a bwtsw -p gatk_hg38 ~/reference/genome/gatk_hg38/Homo_sapiens_assembly38.fasta &
比對(duì)
nohup bwa mem -t 4 -R '@RG\tID:KPGP00216\tPL:illumina\tLB:WGS\tSM:KPGP00216' ~/reference/index/bwa/gatk_hg38/gatk_hg38 KPGP-00216_L1_R1.clean.fq KPGP-00216_L1_R2.clean.fq 1>KPGP-00216_L1.sam 2>/dev/null &
GATK 4.0 WGS germline call variant
WEScall variant的流程與之差不多
samtic call snv
可以參考的兩篇博文
GATK4-mutect2來call somatic mutation
Mutect2-腫瘤不同轉(zhuǎn)移時(shí)期的免疫微環(huán)境異質(zhì)性研究