一播赁、過(guò)濾與質(zhì)控
測(cè)序獲得一對(duì)fastq文件蕊肥,命名為treatment和control,各含兩個(gè)生物學(xué)重復(fù)扳埂,即:treatment_1业簿、treatment_2;control_1阳懂、control_2
首先梅尤,回貼測(cè)序reads到參考基因組,但是我們都知道測(cè)序reads中可能存在測(cè)序接頭和低質(zhì)量的序列岩调,故需要截去接頭序列和低質(zhì)量序列以保留高質(zhì)量的序列巷燥。
而目前針對(duì)數(shù)據(jù)過(guò)濾、質(zhì)控的軟件也非常的多号枕,為了在最大程度長(zhǎng)挽救分析的reads缰揪,可以采用trim的方式進(jìn)行過(guò)濾處理,即僅把接頭序列和低質(zhì)量的堿基/序列截掉葱淳,故最終的高質(zhì)量reads的長(zhǎng)度一定是長(zhǎng)短不一的钝腺,但不會(huì)對(duì)后續(xù)的分析帶來(lái)影響抛姑。
推薦使用trim_galore進(jìn)行處理:
trim_galore -q 10 --stringency 8 -o ${out} --paired ${sample}_R1.fastq.gz? ${sample}_R2_001.fastq.gz
生成${sample}_R1_val_1.fq.gz和${sample}_R2_val_2.fq.gz
對(duì)于免疫共沉淀測(cè)序數(shù)據(jù)后續(xù)檢峰的需要,需要同時(shí)測(cè)序一個(gè)對(duì)照樣本艳狐,即input樣本定硝。
trim_galore官網(wǎng):http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
類(lèi)似的有trimmomatic等
trimmomatic官網(wǎng):http://www.usadellab.org/cms/index.php?page=trimmomatic
二、比對(duì)
針對(duì)比對(duì)的話(huà)毫目,常用的短序列比對(duì)軟件均可蔬啡,如bwa,bowtie2等等
這里以bwa為例:
# alignment & sort
bwa mem -M -t 8? ${reference}? ${sample}_R1_val_1.fq.gz? ${sample}_R2_val_2.fq.gz | samtools sort -@ 8 - -o ${sample}.bam
# index
samtools index ${sample}.bam
生成比對(duì)后的bam文件及其索引文件:
${sample}.bam
${sample}.bam.bai
三镀虐、Deduplication
由于PCR擴(kuò)增會(huì)產(chǎn)生序列完全一樣的測(cè)序reads從而產(chǎn)生了重復(fù)比對(duì)箱蟆,需要去除這些重復(fù)比對(duì)到同一位置的reads,使用picard-tools里的MarkDuplicates功能進(jìn)行標(biāo)記處理:
# 標(biāo)記重復(fù)
java
-Xmx3G -jar?picard.jarMarkDuplicates VALIDATION_STRINGENCY=SILENT
I={sample}.bam O=${sample}.dedup.bam M=${sample}.markdup.txt
# flag過(guò)濾 & sort
samtools view {sample}.dedup.bam -f 3 -F 3840 -q 10 -b | samtools?sort -@ 20 -T /tmp/ -o ${sample}.clean.bam -
# index
samtools index ${sample}.clean.bam
最終刮便,得到去重復(fù)的顽腾,同時(shí)過(guò)濾低質(zhì)量比對(duì)的、多重比對(duì)的reads诺核,得到高質(zhì)量比對(duì)的用于下游分析的reads抄肖。
保留flag=3,即read paired窖杀、? read mapped in proper pair漓摩;?
過(guò)濾 flag=3840。即 not primary alignment入客、 read fails platform/vendor quality checks和 read is PCR or optical duplicate.
四管毙、檢? 峰
一般,對(duì)于免疫共沉淀測(cè)序的數(shù)據(jù)桌硫,采用macs2等檢峰工具夭咬,python編寫(xiě)、使用方便铆隘、出來(lái)速度較快:
macs2 callpeak --keep-dup all --bdg -f BAMPE -t {sample}.clean.bam -c control.bam -g hs -n ${sample}
其中卓舵,control.bam比對(duì)文件為本文開(kāi)頭提到的input樣本,用于檢峰扣除背景信號(hào)膀钠。
最終掏湾,本步驟會(huì)產(chǎn)生barrowPeak文件,如果存在生物學(xué)重復(fù)肿嘲,需要合并重復(fù)樣本的peak(80%的重疊)融击,可以使用bedtools
merge配合awk命令進(jìn)行篩選,得到重復(fù)樣本的一致性peak雳窟∽鹄耍或者,可以使用IDR軟件得到重復(fù)樣本內(nèi)的consensus peaks。
MACS2軟件: https://pypi.org/project/MACS2/