測序得到的raw reads一般多少會(huì)有些質(zhì)量低或者帶有adapters的序列逆趋,而Trimmomatic是一個(gè)很好的用來處理Illumina公司raw reads的軟件辆影。
1. 下載安裝
直接去官網(wǎng)下載二進(jìn)制軟件,解壓后的trimmomatic-0.36.jar即為我們需要的軟件
wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.36.zip
unzip Trimmomatic
2. 運(yùn)行軟件
一般我們使用默認(rèn)參數(shù)運(yùn)行即可,具體使用方法可參見官網(wǎng)http://www.usadellab.org/cms/?page=trimmomatic
使用默認(rèn)參數(shù)運(yùn)行程序:
sudo java -jar trimmomatic-0.36.jar PE \
-phred33 ~/SRR733/SRR2854733_1.fastq ~/SRR733/SRR2854733_2.fastq \
~/SRR733/clsseq/SRR2854733_1_paired.fq ~/SRR733/clsseq/SRR2854733_1_unpaired.fq \
~/SRR733/clsseq/SRR2854733_2_paired.fq ~/SRR733/clsseq/SRR2854733_2_unpaired.fq \
ILLUMINACLIP:/usr/local/src/Trimmomatic/Trimmomatic-0.36/adapters/TruSeq3-PE.fa:2:30:10 \
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 HEADCROP:8 MINLEN:36
*運(yùn)行程序使需切換到程序安裝路徑運(yùn)行(神TM知道為什么)施绎,adapters也需要使用絕對(duì)路徑
運(yùn)行結(jié)果:
Input Read Pairs: 23396043 Both Surviving: 20842668 (89.09%) Forward Only Surviving: 2537100 (10.84%) Reverse Only Surviving: 13969 (0.06%) Dropped: 2306 (0.01%)
TrimmomaticPE: Completed successfully
3. 常用參數(shù)說明
PE/SE
設(shè)定對(duì)Paired-End或Single-End的reads進(jìn)行處理酝静,其輸入和輸出參數(shù)稍有不一樣。
-threads
設(shè)置多線程運(yùn)行數(shù)
-phred33
設(shè)置堿基的質(zhì)量格式狼忱,可選pred64
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10
切除adapter序列膨疏。參數(shù)后面分別接adapter序列的fasta文件:允許的最大mismatch
數(shù):palindrome模式下匹配堿基數(shù)閾值:simple模式下的匹配堿基數(shù)閾值。
LEADING:3
切除首端堿基質(zhì)量小于3的堿基
TRAILING:3
切除尾端堿基質(zhì)量小于3的堿基
SLIDINGWINDOW:4:15
從5'端開始進(jìn)行滑動(dòng)钻弄,當(dāng)滑動(dòng)位點(diǎn)周圍一段序列(window)的平均堿基低于閾值佃却,則從該處進(jìn)行切除。Windows的size是4個(gè)堿基窘俺,其平均堿基
質(zhì)量小于15饲帅,則切除。
MINLEN:50
最小的reads長度
CROP:<length>
保留reads到指定的長度
HEADCROP:<length>
在reads的首端切除指定的長度
TOPHRED33
將堿基質(zhì)量轉(zhuǎn)換為pred33格式
TOPHRED64
將堿基質(zhì)量轉(zhuǎn)換為pred64格式