質(zhì)控
高通量測序數(shù)據(jù)下機后的原始fastq文件,包含4行,其中一行為質(zhì)量值董虱,另外一行則為對應(yīng)序列糯钙,得到下機數(shù)據(jù)后我們首先進行質(zhì)量檢測,詳細見質(zhì)量檢測:FastQC
然后進行質(zhì)量控制堵腹,這個過程包括去接頭、過濾低質(zhì)量reads、去除低質(zhì)量的3’和5’端彭雾,去除N較多的reads等
常用軟件:
Fastx_Toolkit:
二代測序經(jīng)典數(shù)據(jù)質(zhì)控過濾軟件
具體使用見http://www.reibang.com/p/c9007e87190f
0.0.13/fastx_quality_stats -i ./1.QC/aaa_trim1.fq -Q 33 -o ./2.rawstat/aaa_1.fastx.stats
Trimmomatic:
java -jar trimmomatic-0.36.jar SE -phred33 \
-trimlog untreated.logfile \
raw_data/untreated.fq u.trimmomatic.fq
SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:20
使用手冊:http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/TrimmomaticManual_V0.32.pdf
cutadapt:
適合去除接頭
使用手冊https://cutadapt.readthedocs.io/en/stable/guide.html
sickle:
適合用來切除read末尾低質(zhì)量堿基
使用手冊:https://github.com/najoshi/sickle/blob/master/README.md
sickle se -f raw_data/untreated.fq -t sanger -o u.sickle.fq
SE input file: raw_data/untreated.fq
Total FastQ records: 250000
FastQ records kept: 249742
FastQ records discarded: 258
SOAPnuke:
華大看家工具集 SOAP 系列之一。適用于多種數(shù)據(jù)類型 ( mRNA锁保,small RNA薯酝,DEG... )
SOAPnuke1.5.6 filter -l 20 -G -Q 2 -1 untreated.fq -C u.soapnuke.fq.gz -o ./
fastp
http://opengene.org/fastp/fastp.html
可以過濾低質(zhì)量數(shù)據(jù) (如較低的質(zhì)量分數(shù)南誊,較短的序列,含 N 較多的序列等等)
可以實現(xiàn)剪切序列的首尾兩端
可以通過對滑動窗口的平均質(zhì)量的評價蜜托,對 5' 和 3' 端序列進行剪切(這個功能與Trimmomatic 軟件功能相似抄囚,但是速度卻更快)
可以自動檢測街頭序列并做切除
對于PE數(shù)據(jù)中的overlap區(qū)間中不一致的堿基對,依據(jù)質(zhì)量值進行校正
支持三代測序或四代測序的long reads (nanopore / pacbio的數(shù)據(jù))
參考:
http://www.reibang.com/p/48eb5f00dd1c
https://zhuanlan.zhihu.com/p/28924793