抱歉拖了這么久,主要是最后分析出來的數(shù)據(jù)跟某平臺對比后發(fā)現(xiàn)差了很多。無法解釋這個結(jié)果侦镇。用了幾個軟件測試,最后的結(jié)果都跟之前平臺的Exp結(jié)果對不上澎埠。最后猜測可能還是這套數(shù)據(jù)有問題……之前查看數(shù)據(jù)庫的時候也這套數(shù)據(jù)明明是單端結(jié)果但是NCBI和ENA都記錄的是雙端測序虽缕。
原因找到了,數(shù)據(jù)可能是把雙端測序的結(jié)果保存在同一個fastq文件里了(感興趣的可以搜索interleaved fastq file)。做seq之前需要把數(shù)據(jù)分開氮趋,具體的指令為:
cat input.fastq | paste - - - - - - - - | tee | cut -f 1-4 | tr "\t" "\n" | egrep -v '^$' > R1.fastq
cat input.fastq | paste - - - - - - - - | tee | cut -f 5-8 | tr "\t" "\n" | egrep -v '^$' > R2.fastq
懶得弄了伍派,這個數(shù)據(jù)也沒查到對應(yīng)數(shù)據(jù)的文章,不折騰了……
接上一節(jié)剩胁,我們發(fā)現(xiàn)了下載的數(shù)據(jù)中有一些短重復(fù)片段诉植,保險起見我們還是需要去除一下接頭和一些低質(zhì)量的讀段。在這里我主要介紹兩個軟件:trimmomatic和fastp昵观。同樣晾腔,我也會介紹TBtools的trimomatic wrap插件的使用方法。
1. Trimmomatic
Trimmomatic基本上是illumina專用的去接頭軟件了啊犬。由于Trimmomatic也是基于java的程序灼擂,所以TBtools兼容這塊只需要做個接口,然后留幾個重要參數(shù)就好了觉至。
安裝Trimmomatic的方法很簡單剔应,在隨便一個位置打開terminal,然后輸入:
conda install -c bioconda trimmomatic
相信大家已經(jīng)發(fā)現(xiàn)了语御,目前用到的生物信息軟件基本都是通過conda安裝的峻贮。總之应闯,遇事不決就conda纤控,conda不行就再加個上bioconda。
首先Trimmomatic會修剪掉下列四種情況的接頭序列或者是人為設(shè)定的technical sequence碉纺。
A:完整匹配的technical sequence
B:部分完整匹配technical sequence的3'末端
C:長讀段中的接頭序列
D:部分匹配的3'末端短接頭
接下來是一些關(guān)鍵參數(shù):
ILLUMINACLIP: Cut adapter and other illumina-specific sequences from the read.
按照你的數(shù)據(jù)選擇接頭文件列表TruSeq3對應(yīng)HiSeq和MiSeq
TruSeq2 (as used in GAII machines)
TruSeq3 (as used by HiSeq and MiSeq machines),SLIDINGWINDOW: Perform a sliding window trimming, cutting once the average quality within the window falls below a threshold.
SLIDINGWINDOW:<windowSize>:<requiredQuality>
對應(yīng)兩個參數(shù)窗口大写颉(堿基數(shù))和對應(yīng)堿基序列的質(zhì)量。一般就是4和15惜辑,沒必要亂改唬涧。除非數(shù)據(jù)質(zhì)量實在是很差。LEADING: Cut bases off the start of a read, if below a threshold quality
因為機(jī)器對初始幾個序列檢測不太準(zhǔn)盛撑,一般默認(rèn)依次把質(zhì)量低于3的堿基切掉TRAILING: Cut bases off the end of a read, if below a threshold quality
同理,尾部也能切掉捧搞,不過沒必要抵卫。尤其是當(dāng)你數(shù)據(jù)是雙端測序結(jié)果的時候CROP: Cut the read to a specified length
直接從中間切斷丟棄尾部序列,慎用HEADCROP: Cut the specified number of bases from the start of the read
切掉頭部對應(yīng)堿基數(shù)并丟棄胎撇,同樣介粘,慎用MINLEN: Drop the read if it is below a specified length
這個參數(shù)重要也不重要,你需要看一眼你的FastQC結(jié)果晚树,一般讀段都在100 bp左右姻采,這個時候默認(rèn)36就好。如果你的讀段是50 bp甚至更短爵憎,你就需要修改這個參數(shù)慨亲。改的越低婚瓜,結(jié)果里就有越多的錯誤讀段。
綜上刑棵,trimmomatic的代碼是:
mkdir trimmomatic;
for i in `seq 56 79`;
do
trimmomatic SE -phred33 \
SRR51316${i}.fastq \
trimmomatic/SRR51316${i}_clean.fastq.gz \
ILLUMINACLIP:/home/barnett/miniconda3/share/trimmomatic-0.39-1/adapters/TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:0 SLIDINGWINDOW:4:15 MINLEN:36;
done
這里需要注意一下ILLUMINACLIP的位置巴刻,由于版本,平臺等問題蛉签,接頭文件的位置不一定相同胡陪,最好用Everything這個軟件找一下,填上正確的文件路徑碍舍。
另外這里介紹的是SE的代碼柠座,如果是雙端結(jié)果那么代碼就是:
mkdir trimmomatic;
for i in `seq 56 79`;
do
trimmomatic PE -threads 8 -phred33 \
#需要剪切的雙端fastq文件名
SRR51316${i}_1.fastq SRR51316${i}_2.fastq \
#雙端保存的位置
trimmomatic/SRR51316${i}_paired_clean_R1.fastq.gz \
trimmomatic/SRR51316${i}_unpaired_clean_R1.fastq.gz \
trimmomatic/SRR51316${i}_paired_clean_R2.fastq.gz \
trimmomatic/SRR51316${i}_unpaired_clean_R2.fastq.gz \
ILLUMINACLIP:/home/barnett/miniconda3/share/trimmomatic-0.39-1/adapters/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:0 SLIDINGWINDOW:4:15 MINLEN:36;
done
這里注意一下你的雙端fastq文件名需要修改成自己文件的名字。不是很建議把raw data和clean data放在同一位置片橡。個人推薦重新建立一個02_clean_data保存剪切后的結(jié)果愚隧。
../02_clean_data/filename_paired(or unpaired)_clean_R1.fastq.gz)
2. Fastp
接下來介紹的是另一款質(zhì)控、剪切一條龍的軟件fastp锻全。
Fastp的優(yōu)點是集成度高狂塘,只要一行代碼就能完成Fastqc→trimmomatic→Fastqc的流程。
當(dāng)然作者還表示這軟件速度比trimmomatic+fastqc快三倍鳄厌,但實際上因為本人硬盤的I/O不是很高荞胡,實際體驗下來區(qū)別沒那么大。具體代碼跟trimmomatic類似:
#fastp做質(zhì)控和接頭剪切
for i in `seq 56 79`;
do
mkdir SRR51316${i};
cd SRR51316${i};
fastp -i ../SRR51316${i}.fastq -o SRR51316${i}.fastq.gz -Q --length_required=25 --cut_front --cut_window_size 4 --cut_mean_quality 15 --compression=6;
cd ..;
done
注意:這里還是只介紹單端的用法了嚎。如果你的數(shù)據(jù)是雙端泪漂,請參考:
fastp
-i in.R1.fq -o out.R1.fq -I in.R2.fq -O out.R2.fq
Fastp每次操作會生成一個網(wǎng)頁報告,為了讓每個網(wǎng)頁都能保存下這里選擇將每一組數(shù)據(jù)保存單獨(dú)的文件夾里歪泳。
最后如果你對其它參數(shù)和功能感興趣的可以看看這里:
http://www.reibang.com/p/6f492058da5b
3. TBtools的Trimmomatic插件
沒啥好講的……枯燥萝勤。
點這里查看接頭文件
不確定哪種數(shù)據(jù)就用Merged.Adapter.fa
單端數(shù)據(jù)是這樣
雙端數(shù)據(jù)格式就是這樣
想改參數(shù)看這里
操作太簡單了不知道該講啥,用就完事了呐伞。