質(zhì)控
trimmomatic 去接頭
Trimmomatic工具是用于illumina二代測序數(shù)據(jù)的reads處理伟恶,主要對接頭(adapter)序列和低質(zhì)量序列進(jìn)行過濾颅筋。
一般的質(zhì)控軟件在處理含有接頭序列的 reads 時,通常采用 "在允許錯配的情況下乎婿,如果分析的 read 匹配一定數(shù)量的接頭序列即去除這條 read 或從匹配開始的位置截斷 read,僅保留匹配位置之前的部分序列" 的方式。
如果采取 "去除含有接頭序列的 reads" 的方式夺刑,會造成測序數(shù)據(jù)的浪費 (如果片段選擇沒有控制好,整個 lane 會有很大一部分?jǐn)?shù)據(jù)含有接頭序列分别,怎么辦遍愿?);
如果采取 "從匹配開始的位置截斷 read,僅保留匹配位置之前的部分序列" 的方式耘斩,對于只含有少數(shù)幾個堿基的 reads沼填,普通的質(zhì)控軟件是處理不了的(又該怎么辦?)括授。
But坞笙,Trimmomatic 有兩種模式:Single End Mode 和 Paired End Mode轧邪,對于單端測序數(shù)據(jù),它和其它軟件相比沒有明顯的優(yōu)勢羞海;但如果是雙端測序的數(shù)據(jù)忌愚,Trimmomatic 采用兩種去接頭方式,更強大却邓,更徹底硕糊!
普通模式:匹配一定數(shù)量的接頭序列即截斷序列,保留匹配起始位置之前的序列腊徙,如下圖中A简十、B 所示: A、如果從 reads 的開始就匹配到接頭序列的話撬腾,整條 reads 會被去除螟蝙; B、如果是從 reads 的其它部分匹配到接頭序列民傻,則從匹配的位置截斷序列胰默,保留包含接頭的部分。
超級強大的回文模式漓踢,如上圖 C和 D 所示:想要了解回文模式去接頭的原理牵署,我們需要先熟悉一下:測序結(jié)果中的接頭序列來自哪里筐喳? 由于只有當(dāng)插入片段的長度小于測序的讀長時才會在測序結(jié)果中出現(xiàn)接頭序列站宗。那么對于含有接頭的片段,正反向的 reads 在除接頭之外的部分應(yīng)該是反向互補的均抽。因此挺据,對于雙端測序數(shù)據(jù)的處理上取具,Trimmomatic 在考慮接頭匹配情況的同時也檢查正反向 reads 的序列,從而更加有效的去掉接頭序列扁耐。理論上暇检,即使 read 僅含有 1 個堿基的接頭序列,這 1 個堿基也能被切除做葵!
java -jar Trimmomatic/trimmomatic-0.35.jar PE -threads 10 -trimlog 01_cleandata/${infile}/${infile}.logfile
/Rawdata/${infile}/${infile}_R1.fq.gz /Rawdata/${infile}/${infile}_R2.fq.gz
01_cleandata/${infile}/${infile}_clean_R1.fq 01_cleandata/${infile}/${infile}_clean_unpaired_R1.fq
01_cleandata/${infile}/${infile}_clean_R2.fq 01_cleandata/${infile}/${infile}_clean_unpaired_R2.fq
ILLUMINACLIP:/mnt/raid1/data/Software/Trimmomatic/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:15:30 MINLEN:110 TRAILING:30 AVGQUAL:30
PE 設(shè)置使用trimmomatic處理雙端數(shù)據(jù)占哟,單端數(shù)據(jù)用(‘SE’)
-thread 16 設(shè)置線程數(shù)為16
-phred33 設(shè)置堿基的質(zhì)量格式(默認(rèn)-phred64,自v0.32版本之后可自動識別是phred33還是phred64)
-trimlog trim.log 設(shè)置trimmommatic工具處理的日志文件為’trim.log’酿矢,每兩行為一對reads信息
ILLUMINACLIP:"adapter"/Exome.fa:2:30:9:1:TRUE榨乎,這部分指定2種去接頭模式的參數(shù):"adapter"/Exome.fa:2:30:9:1:TRUE,這部分指定2種去接頭模式的參數(shù):"adapter"/Exome.fa 指明需要匹配的接頭文件瘫筐,2 代表 16 個堿基長度的種子序列中可以有 2 個錯配蜜暑,30 代表采用回文模式時匹配得分至少為30 (約50個堿基),10 代表采用簡單模式時匹配得分至少為10 (約17 個堿基)策肝;
LEADING:20肛捍,從序列的開頭開始去掉質(zhì)量值小于 20 的堿基隐绵;
TRAILING:20,從序列的末尾開始去掉質(zhì)量值小于 20 的堿基拙毫;
SLIDINGWINDOW:4:15依许,從 5' 端開始以 4 bp 的窗口計算堿基平均質(zhì)量,如果此平均值低于 15缀蹄,則從這個位置截斷 read峭跳;
MINLEN:36, 如果 reads 長度小于 36 bp 則扔掉整條 read缺前。
下載
wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip
unzip Trimmomatic-0.38.zip
java -jar~/biosoft/Trimmomatic/Trimmomatic-0.36/trimmomatic-0.36.jar –h
高通量測序數(shù)據(jù)質(zhì)控神器—Trimmomatic
學(xué)習(xí)使用一款數(shù)據(jù)質(zhì)控軟件(Trimmomatic)
測序數(shù)據(jù)質(zhì)控界的寵兒-Trimmomatic
fastqc
fastqc -o output dir -f fastq|bam|sam seqfile1 .. seqfileN