GATK做變異檢測

一、測序數(shù)據(jù)的準(zhǔn)備

新建工作目錄针贬,GATK-analysis

mkdir RNASeq-analysis
cd RNASeq-analysis/

新建data文件夾;
mkdir data

1.1 公司返回的測序下機(jī)數(shù)據(jù)

例如:6個(gè)NGS測序樣本;
Raw data: Sample1_R1.fq.gz; Sample1_R2.fq.gz; Sample2_R1.fq.gz; Sample2_R2.fq.gz; Sample3_R1.fq.gz; Sample3_R2.fq.gz; Sample4_R1.fq.gz; Sample4_R2.fq.gz; Sample5_R1.fq.gz; Sample5_R2.fq.gz; Sample6_R1.fq.gz; Sample6_R2.fq.gz;

1.2 從SRA數(shù)據(jù)庫下載數(shù)據(jù)

第一步逊朽,獲取SRA編號Accession: PRJNA******/SRP******;

第二步曲伊,下載安裝sra-tookit

conda install sra-tools

第三步叽讳,下載數(shù)據(jù)

prefetch SRR******

第四步追他,對數(shù)據(jù)進(jìn)行拆分

使用 SRA-toolkit 軟件包里的 fastq-dump 對數(shù)據(jù)進(jìn)行拆分,并轉(zhuǎn)換為 fastq 格式岛蚤。
nohup fastq-dump --split-3 SRR****** 1>SRR******.log 2>SRR******.err &
將測序數(shù)據(jù)全部置于data文件夾邑狸,
mv Sample* data/

二、對數(shù)據(jù)進(jìn)行質(zhì)控和過濾

for file in `ls *_R1.fq.gz | perl -lpe 's/_R1.fq.gz//'`; do fastp -i ${file}_R1.fq.gz -I ${file}_R2.fq.gz -o ${file}_R1.clean.fq.gz -O ${file}_R2.clean.fq.gz; done

三涤妒、參考基因組準(zhǔn)備

主要準(zhǔn)備基因組文件Species.genome.fasta;
新建references文件夾:
mkdir references
將參考文件置于references文件夾单雾;
mv Species.genome.fasta ~/GATK-analysis/references/

四、bwa比對

新建bwa工作目錄:

 mkdir bwa
cd bwa '
vim bwa.sh 
#bwa.sh
bwa index ../references/Species.genome.fasta
for file in `ls ../data/*_R1.fq.gz | perl -lpe 's/_R1.fq.gz//'`; do 
    bwa mem -t 4 -R '@RG\tID:foo\tPL:illumina\tSM:${file}' ../references/Species.genome.fasta ${file}_R1.fq.gz ${file}_R2.fq.gz > ${file}.sam
    samtools view -b ${file}.sam > ${file}.bam
    samtools sort ${file}.bam > ${file}.sorted.bam
    samtools index ${file}.sorted.bam
done

運(yùn)行bwa:
nohup bash bwa.sh &

五她紫、GATK calling SNP

直接下載安裝:
wget https://github.com/broadinstitute/gatk/releases/download/4.1.7.0/gatk-4.1.7.0.zip
欲了解詳情硅堆,參見官方文檔:
GATK 4.1.7
新建工作目錄:
mkdir gatk
cd gatk
將bwa生成的排序文件移至gatk目錄,并建立參考基因組的軟連接:

mv ../bwa/*.sorted.bam .
ln -s ../references/Species.genome.fasta .

編寫gatk腳本:
vim gatk.sh

samtools faidx Species.genome.fasta
gatk CreateSequenceDictionary -R Species.genome.fasta -O Species.genome.dict
for file in *.sorted.bam;do
    gatk MarkDuplicates -I ${file} -O ${file}.markdup.bam -M ${file}.markdup_metrics.txt
    samtools index ${file}.markdup.bam
    gatk HaplotypeCaller -R Species.genome.fasta --emit-ref-confidence GVCF -I ${file}.markdup.bam -O ${file}.g.vcf
    gatk GenotypeGVCFs -R Species.genome.fasta -V ${file}.g.vcf -O ${file}.vcf    
    bgzip -f ${file}.vcf
    tabix -p vcf ${file}.vcf.gz
    gatk SelectVariants -select-type SNP -V ${file}.vcf.gz -O ${file}.snp.vcf.gz    
    gatk VariantFiltration -V ${file}.snp.vcf.gz --filter-expression "QD < 2.0 || MQ < 40.0 || FS > 60.0 || SOR > 3.0 || MQRankSum < -12.5 || ReadPosRankSum < -8.0" --filter-name "PASS" -O ${file}.snp.filter.vcf.gz
    gatk SelectVariants -select-type INDEL -V ${file}.vcf.gz -O ${file}.indel.vcf.gz
    gatk VariantFiltration -V ${file}.indel.vcf.gz --filter-expression "QD < 2.0 || FS > 200.0 || SOR > 10.0 || MQRankSum < -12.5 || ReadPosRankSum < -8.0" --filter-name "PASS" -O ${file}.indel.filter.vcf.gz
    gatk MergeVcfs -I ${file}.snp.filter.vcf.gz -I ${file}.indel.filter.vcf.gz -O ${file}.filter.vcf.gz
done

運(yùn)行GATK:
nohup bash gatk.sh &

得到結(jié)果文件${file}.filter.vcf.gz贿讹,里面包含SNP和indel渐逃。


參考:

  1. Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu; fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics, Volume 34, Issue 17, 1 September 2018, Pages i884–i890, https://doi.org/10.1093/bioinformatics/bty560
  2. Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup (2009) The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, 25, 2078-9. [PMID: 19505943]
  3. Li H A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics. 2011 Nov 1;27(21):2987-93. Epub 2011 Sep 8. [PMID: 21903627]
  4. Genome Analysis Toolkit
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市民褂,隨后出現(xiàn)的幾起案子茄菊,更是在濱河造成了極大的恐慌,老刑警劉巖赊堪,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件面殖,死亡現(xiàn)場離奇詭異,居然都是意外死亡雹食,警方通過查閱死者的電腦和手機(jī)畜普,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來群叶,“玉大人吃挑,你說我怎么就攤上這事〗至ⅲ” “怎么了舶衬?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長赎离。 經(jīng)常有香客問我逛犹,道長,這世上最難降的妖魔是什么梁剔? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任虽画,我火速辦了婚禮,結(jié)果婚禮上荣病,老公的妹妹穿的比我還像新娘码撰。我一直安慰自己,他們只是感情好个盆,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布脖岛。 她就那樣靜靜地躺著朵栖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柴梆。 梳的紋絲不亂的頭發(fā)上陨溅,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音绍在,去河邊找鬼门扇。 笑死,一個(gè)胖子當(dāng)著我的面吹牛揣苏,可吹牛的內(nèi)容都是我干的悯嗓。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼卸察,長吁一口氣:“原來是場噩夢啊……” “哼脯厨!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起坑质,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤合武,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后涡扼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體稼跳,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年吃沪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了汤善。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡票彪,死狀恐怖红淡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情降铸,我是刑警寧澤在旱,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站推掸,受9級特大地震影響桶蝎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜谅畅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一登渣、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧毡泻,春花似錦胜茧、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至邪铲,卻和暖如春芬位,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背带到。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工昧碉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人揽惹。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓被饿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親搪搏。 傳聞我的和親對象是個(gè)殘疾皇子狭握,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345