pre: 盡量寫詳細(xì)點(diǎn)案站,方便理解
1:
illumia機(jī)器測序的方向是3---->5,附上一張圖:
image.png
我是PE150測序,測序的adapter :GATCG GAAGA
拿到數(shù)據(jù)的第一眼予弧,先看一下測序的情況,我先打開一個(gè)fq的文件先看看:
cat XXX_R1.fq | grep GATCGGAAGA
illumia機(jī)器測序的方向是3-5湖饱,從這個(gè)情況來看掖蛤,trim之后的有些reads長度會(huì)短一些。
但是因?yàn)樵诩咏宇^之前需要加A,再加接頭井厌,我們把這個(gè)堿基往前挪去A去看蚓庭,然后就可以發(fā)現(xiàn)都序列特征是AG
這個(gè)是DamID-seq的數(shù)據(jù)
我們需要知道,DamID是利用Dam和DpnI來工作的仅仆,DpnI的位點(diǎn)是G(me)ATC :
結(jié)合3--->5的illumia的測序器赞,我們知道,有AG開頭的reads是我們要的reads.
(PS:記得在Adapter 后面加個(gè)A)
數(shù)據(jù)處理思路
1:先用cutadapt去掉接頭
然后跑一個(gè)fastqc看一些結(jié)果墓拜,如果堿基質(zhì)量很好的話港柜,可以不用trim,如果堿基質(zhì)量不夠好還是需要trim的
cutadapt -a ADAPTER_FWD -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq
2(可選):trimmomatic
java -jar /asnas/sunyl_group/liull/software/Trimmomatic-0.36/trimmomatic-0.36. jar PE Reads_R1. fq.gz Reads_R2.fq.gz reads_R1.trimmo.fq unpair_1.trimo.fq reads_R2.trimmo.fq unpair_2.trimo.fq LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:51
那么好撮弧,接下來把接頭給去了潘懊,并且去掉一些低質(zhì)量的數(shù)據(jù):
接下來就是mapping 到基因組上
總結(jié)一下:
利用cutadapter去了接頭
trimmomatic去了低質(zhì)量數(shù)據(jù)(可選)
fastqc看結(jié)果
下一步:mapping