獲得原始數(shù)據(jù)之后蹋砚,需要對單端序列或雙端序列進行引物的去除桨螺、序列拼接以及序列質(zhì)控
- Cutadapt
該軟件我經(jīng)常用來切除Primer榔组,甚至切序列也很絲滑
Cutadapt — Cutadapt 4.0 documentation
# 傻瓜版本(初學shell表谊,感覺批量處理好復(fù)雜)
for i in $(ls rawdata/*1.fastq)
do
cutadapt -g CCTACGGGNGGCWGCAG -o rawdata/${i##*/}.fq ${i}
done
# 進階版本(入門后回看之前的代碼搔谴,感覺自己是個傻瓜)
for filename in rawdata/*_1.fastq
do
base=$(basename $filename _1.fastq)
echo $base
cutadapt -g CCTACGGGNGGCWGCAG -G GGACTACHVGGGTWTCTAAT \
-o seq/${base}_1.fastq -p seq/${base}_2.fastq \
rawdata/${base}_1.fastq rawdata/${base}_2.fastq
done
- Trimmomatic
該軟件功能超級強大干旁,但大多數(shù)都是以質(zhì)控為主來使用
# 傻瓜版本
for i in $(ls merge/*1.fq)
do
trimmomatic SE -phred33 -t 10 \
${i} seq/${i##*/} \
LEADING:20 TRAILING:20 \
SLIDINGWINDOW:4:20 MINLEN:50
done
# 進階版本
for filename in seq/*_1.fastq
do
base=$(basename $filename _1.fastq)
echo $base
java -jar /public/software/182_software/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 \
-threads 8 seq/${base}_1.fastq seq/${base}_2.fastq \
seq/${base}_1.fq seq/${base}_1.unpaired.fastq \
seq/${base}_2.fq seq/${base}_2.unpaired.fastq \
LEADING:20 TRAILING:20 \
SLIDINGWINDOW:4:20 MINLEN:50
done
- FastQC & Multiqc
這兩個軟件可以可視化質(zhì)控后的結(jié)果驶沼,用法過于簡單,在這里就不贅述了