原文鏈接:
測(cè)序數(shù)據(jù)的質(zhì)控:你需要Trimmomatic齐莲!
通過前兩期文章二代測(cè)序原理詳細(xì)解析和測(cè)序數(shù)據(jù)質(zhì)量解析的介紹嚣鄙,我們可以推出二代測(cè)序數(shù)據(jù)的特點(diǎn):大量的短序列(150-250bp)、雙末端測(cè)序鳍怨、末端質(zhì)量較低呻右。因此,在利用我們的測(cè)序數(shù)據(jù)進(jìn)行分析之前鞋喇,首先需要過濾掉低質(zhì)量的堿基與序列声滥,以確保分析結(jié)果的準(zhǔn)確性。
二代測(cè)序數(shù)據(jù)的指控一般包含以下步驟:
1. 切除尾端堿基質(zhì)量小于指定值(一般為20)的堿基确徙⌒汛可以簡(jiǎn)單的單堿基修剪执桌,也即從末端開始進(jìn)行刪除,直到讀取堿基質(zhì)量高于20芜赌;也可以進(jìn)行滑窗修剪仰挣,也即從末端開始以指定堿基數(shù)目的滑窗開始修剪,直到滑窗內(nèi)堿基平均質(zhì)量高于20缠沈。
2. 去除末端修剪后長(zhǎng)度小于指定值的reads膘壶。不同項(xiàng)目指定值不同,一般宏基因組去掉小于50bp的reads(50bp已不夠產(chǎn)生k-mer)洲愤,而擴(kuò)增子測(cè)序則根據(jù)raw reads長(zhǎng)度和PCR插入片段的長(zhǎng)度來確定颓芭,例如V4區(qū)大概260bp,那么可以去掉雙末端reads之和小于280bp的(否則不足以拼接)柬赐。
3. 其他一些要求亡问,例如去除含有N(也即無法讀取位點(diǎn))過多的reads、去除完全重復(fù)的reads等肛宋。
通常質(zhì)控需要我們自己寫腳本來完成州藕。Trimmomatic是一個(gè)便捷好用的Illumina測(cè)序數(shù)據(jù)質(zhì)控工具,可以幫我們省掉很多代碼任務(wù)酝陈,自發(fā)表以來引用量已過萬床玻,安裝可以使用conda:
conda install -c trimmomatic
Trimmomatic基本使用方法及默認(rèn)參數(shù)如下:
java-jar trimmomatic-0.30.jar PE -threads 20 -phred33 R1.fq R2.fq clean.R1.fq unpaired.R1.fq clean.R2.fq unpaired.R2.fq ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
參數(shù)解釋如下:
PE/SE? ? ?設(shè)定對(duì)Paired-End或Single-End的reads進(jìn)行處理,其輸入和輸出參數(shù)稍有不一樣沉帮。
-threads? ? ?設(shè)置多線程運(yùn)行數(shù)锈死,也即核數(shù)
-phred33????? 設(shè)置堿基的質(zhì)量格式,可選pred64
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10? ? ? 切除adapter序列穆壕。參數(shù)后面分別接adapter序列的fasta文件:允許的最大mismatch數(shù):palindrome模式下匹配堿基數(shù)閾值:simple模式下的匹配堿基數(shù)閾值待牵。
LEADING:3????? 切除首端堿基質(zhì)量小于3的堿基
TRAILING:3???? 切除尾端堿基質(zhì)量小于3的堿基
SLIDINGWINDOW:4:15????? 滑窗修剪,一個(gè)Windows的size是4個(gè)堿基粱檀,其平均堿基質(zhì)量小于15洲敢,則切除。
MINLEN:50? ? ? 最小的reads長(zhǎng)度
CROP:? ? ? 保留reads到指定的長(zhǎng)度
HEADCROP:?? 在reads的首端切除指定的長(zhǎng)度
TOPHRED33? ? ?將堿基質(zhì)量轉(zhuǎn)換為pred33格式
TOPHRED64? ? ? 將堿基質(zhì)量轉(zhuǎn)換為pred64格式
下面通過一些實(shí)例為大家介紹該軟件的使用方法:
切除尾端堿基質(zhì)量小于20的堿基(也即從末端開始進(jìn)行刪除茄蚯,直到讀取堿基質(zhì)量高于20),并去掉剪切后長(zhǎng)度小于150的小序列片段:
java -jar trimmomatic-0.30.jar PE -threads 20 -phred33 R1.fq R2.fq clean.R1.fq unpaired.R1.fq clean.R2.fq unpaired.R2.fq TRAILING:20 MINLEN:150
使用末端滑窗修剪睦优,同時(shí)去掉質(zhì)控后長(zhǎng)度過短(小于50bp)的小片段渗常,如下所示:
java -jar trimmomatic-0.33.jar PE -threads 20 -thred33 rm_dup_N_trim_1.fq rm_dup_N_trim_2.fq clean_1.fq unp_clean_1.fq clean_2.fq unp_clean_2.fq SLIDINGWINDOW:4:20 MINLEN:50
質(zhì)控后,我們由raw reads獲得clean reads汗盘,也可以再次使用FastQC進(jìn)行質(zhì)量可視化來查看質(zhì)控效果: