fastp—數(shù)據(jù)過濾&質(zhì)控
一、fastp的安裝及使用
1)conda安裝:conda install fastp
2)源代碼安裝:軟件下載地址 https://github.com/OpenGene/fastp#get-fastp
#從GitHub下載源代碼(也可下載后上傳)
git clone https://github.com/OpenGene/fastp.git
ubzip fastp-master.zip
cd fastp-master
#編譯
make
sudo make install(需sudo權限)
二舟舒、常見用法
過濾
1)質(zhì)量過濾 : -q/--qualified_quality_pherd
高于此值才算數(shù)瞭吃,默認15;-u/--unquantified_percent_limit
允許unqualified的堿基百分比杜跷,默認40%
2)長度過濾:長度過濾默認開啟傍念,可通過-L
取消矫夷,-l/--length_required
定義需要的最短長度,默認為15憋槐;--length_limit
定義接受的最長長度双藕,默認為0表示沒有限制
3)低復雜度過濾:默認不開啟,可通過-y
開啟阳仔,通過-Y
定義過濾條件
Adapter
1)SE數(shù)據(jù):-a
2)PE數(shù)據(jù):--adapter_sequence
指定read1的adapter序列 --adapter_sequence_r2
指定read2的adapter序列忧陪;也可以--detect_adapter_for_pe
開啟illumina系列adapter自動檢測功能
per read cutting by quality score
目前數(shù)據(jù)illumina測序質(zhì)量較好,該功能一般用不上近范,可參考https://github.com/OpenGene/fastp#get-fastp
global trimming
從序列開頭或結尾去除一定數(shù)量的堿基:
-f/--trim_front1
表示從read1的開頭去除嘶摊,-t/--trim_tail1
從read1的尾部去除;-F
-T
則分別表示從read2去除
-b/--max_len1
表示read1經(jīng)trim之后最長的長度 -B
則指read2的相應情況
polyX trimming
-x/--trim_poly_x
實現(xiàn)polyX的去除评矩,默認長度為10
--poly_x_min_len
指定polyX的長度叶堆,默認為10
unique molecular identifier(UMI) processing
常用于duplication的消除和錯誤糾正,常用于如線粒體DNA等深度測序斥杜,普遍用于illumina平臺虱颗,可分為index和read兩部分,使用-U/--umi
來開啟此功能果录,--umi_loc
指定UMI的位置如index1
index2
read1
read2
上枕,若UMI指定在read上,則--umi_len
用于指定UMI的長度
個人常用代碼fastp -f 10 -F 10 --detect_adapter_for_pe -x -i R1.fq.gz -I R2.fq.gz -o R1.out.fq.gz -O R2.out.fq.gz
其優(yōu)缺點個人總結如下:
優(yōu)點:
1)集質(zhì)控和數(shù)據(jù)過濾于一體弱恒,使用方便
2)在序列trim方面處理速度遠快于cutadapt等
3)可實現(xiàn)polyx的除去
缺點:
1)大部分參數(shù)使用較麻煩辨萍,不能直接用單字母實現(xiàn)功能
2)生成的fastp文件不會根據(jù)處理的樣品自動命名,需手動依次更改
在質(zhì)控方面返弹,與fastqc相比锈玉,其在計算duplication level和overrepresented sequence上的統(tǒng)計略有不同,統(tǒng)計結果的呈現(xiàn)方面也不如fastqc直觀(可能由于使用習慣導致)义起。且fastqc的報告文件可由multiqc進行統(tǒng)計拉背,fastp不知是否也可以?