以上兩張圖是fastqc的結(jié)果牧抽,都表明樣本序列中是含有接頭序列的构回,adapter content的結(jié)果為fail夏块。必須去接頭才能進行下一部的序列比對、表達定量等等纤掸。Trimmomatic是一個可以用來處理Illumina公司raw reads脐供,去掉接頭adapters的軟件。
安裝
conda install trimmomatic
運行
trimmomatic?PE?-threads?4?-phred33?\?? #雙末端測序?4條線路?fastq的質(zhì)量值編碼格式
01raw_data/sample1_R1.fastq.gz?01raw_data/sample1_R2.fastq.gz??\?? #輸入文件
02clean_data/output_forward_paired.fq.gz?\
02clean_data/output_forward_unpaired.fq.gz?\
02clean_data/output_reverse_paired.fq.gz?\
02clean_data/output_reverse_unpaired.fq.gz?\
?ILLUMINACLIP:/root/miniconda3/share/trimmomatic-0.39-1/adapters/TruSeq3-PE-2.fa:2:30:10:1:true?\?? #打開接頭文件
LEADING:3?TRAILING:3?\?? #起始堿基質(zhì)量閾值借跪、末端質(zhì)量閾值
SLIDINGWINDOW:4:20?MINLEN:50?TOPHRED33?#設(shè)定滑窗政己、最短read長度、設(shè)定過濾后的質(zhì)量值
運行過程中掏愁,TruSeq3-PE-2.fa接頭文件(adapters)總是出現(xiàn)file not found 歇由。通過find命令【find / -name TruSeq3-PE-2.fa】就可以運行出TruSeq3-PE-2.fa文件的目錄位置。adapters需要使用絕對路徑果港。
過濾之后雙端序列都保留的就是 paired沦泌,反之如果其中一端序列過濾之后被丟棄了另一端序列保留下來了就是 unpaired(即 成對的clean reads, 未成對的正向序列以及未成對的反向序列) 一般情況下,若paired reads百分比占90%以上辛掠,可只對paired reads進行比對分析
參考:http://www.reibang.com/p/43b564783e32