RNA-seq從入門到自閉(Trimmomatic和Fastp)

抱歉拖了這么久,主要是最后分析出來的數(shù)據(jù)跟某平臺對比后發(fā)現(xiàn)差了很多。無法解釋這個結(jié)果侦镇。用了幾個軟件測試,最后的結(jié)果都跟之前平臺的Exp結(jié)果對不上澎埠。最后猜測可能還是這套數(shù)據(jù)有問題……之前查看數(shù)據(jù)庫的時候也這套數(shù)據(jù)明明是單端結(jié)果但是NCBI和ENA都記錄的是雙端測序虽缕。
原因找到了,數(shù)據(jù)可能是把雙端測序的結(jié)果保存在同一個fastq文件里了(感興趣的可以搜索interleaved fastq file)。做seq之前需要把數(shù)據(jù)分開氮趋,具體的指令為:

cat input.fastq | paste - - - - - - - - | tee | cut -f 1-4 | tr "\t" "\n" | egrep -v '^$' > R1.fastq
cat input.fastq | paste - - - - - - - - | tee | cut -f 5-8 | tr "\t" "\n" | egrep -v '^$' > R2.fastq

懶得弄了伍派,這個數(shù)據(jù)也沒查到對應(yīng)數(shù)據(jù)的文章,不折騰了……

接上一節(jié)剩胁,我們發(fā)現(xiàn)了下載的數(shù)據(jù)中有一些短重復(fù)片段诉植,保險起見我們還是需要去除一下接頭和一些低質(zhì)量的讀段。在這里我主要介紹兩個軟件:trimmomatic和fastp昵观。同樣晾腔,我也會介紹TBtools的trimomatic wrap插件的使用方法。

1. Trimmomatic

老板說圖多才有人看

Trimmomatic基本上是illumina專用的去接頭軟件了啊犬。由于Trimmomatic也是基于java的程序灼擂,所以TBtools兼容這塊只需要做個接口,然后留幾個重要參數(shù)就好了觉至。
安裝Trimmomatic的方法很簡單剔应,在隨便一個位置打開terminal,然后輸入:

conda install -c bioconda trimmomatic

相信大家已經(jīng)發(fā)現(xiàn)了语御,目前用到的生物信息軟件基本都是通過conda安裝的峻贮。總之应闯,遇事不決就conda纤控,conda不行就再加個上bioconda。
首先Trimmomatic會修剪掉下列四種情況的接頭序列或者是人為設(shè)定的technical sequence碉纺。



A:完整匹配的technical sequence
B:部分完整匹配technical sequence的3'末端
C:長讀段中的接頭序列
D:部分匹配的3'末端短接頭

接下來是一些關(guān)鍵參數(shù):

  • ILLUMINACLIP: Cut adapter and other illumina-specific sequences from the read.
    按照你的數(shù)據(jù)選擇接頭文件列表TruSeq3對應(yīng)HiSeq和MiSeq
    TruSeq2 (as used in GAII machines)
    TruSeq3 (as used by HiSeq and MiSeq machines),

  • SLIDINGWINDOW: Perform a sliding window trimming, cutting once the average quality within the window falls below a threshold.
    SLIDINGWINDOW:<windowSize>:<requiredQuality>
    對應(yīng)兩個參數(shù)窗口大写颉(堿基數(shù))和對應(yīng)堿基序列的質(zhì)量。一般就是4和15惜辑,沒必要亂改唬涧。除非數(shù)據(jù)質(zhì)量實在是很差。

  • LEADING: Cut bases off the start of a read, if below a threshold quality
    因為機(jī)器對初始幾個序列檢測不太準(zhǔn)盛撑,一般默認(rèn)依次把質(zhì)量低于3的堿基切掉

  • TRAILING: Cut bases off the end of a read, if below a threshold quality
    同理,尾部也能切掉捧搞,不過沒必要抵卫。尤其是當(dāng)你數(shù)據(jù)是雙端測序結(jié)果的時候

  • CROP: Cut the read to a specified length
    直接從中間切斷丟棄尾部序列,慎用

  • HEADCROP: Cut the specified number of bases from the start of the read
    切掉頭部對應(yīng)堿基數(shù)并丟棄胎撇,同樣介粘,慎用

  • MINLEN: Drop the read if it is below a specified length
    這個參數(shù)重要也不重要,你需要看一眼你的FastQC結(jié)果晚树,一般讀段都在100 bp左右姻采,這個時候默認(rèn)36就好。如果你的讀段是50 bp甚至更短爵憎,你就需要修改這個參數(shù)慨亲。改的越低婚瓜,結(jié)果里就有越多的錯誤讀段。

綜上刑棵,trimmomatic的代碼是:

mkdir trimmomatic;
for i in `seq 56 79`;
do
trimmomatic SE -phred33 \
SRR51316${i}.fastq \
trimmomatic/SRR51316${i}_clean.fastq.gz \
ILLUMINACLIP:/home/barnett/miniconda3/share/trimmomatic-0.39-1/adapters/TruSeq3-SE.fa:2:30:10  LEADING:3 TRAILING:0 SLIDINGWINDOW:4:15 MINLEN:36;
done

這里需要注意一下ILLUMINACLIP的位置巴刻,由于版本,平臺等問題蛉签,接頭文件的位置不一定相同胡陪,最好用Everything這個軟件找一下,填上正確的文件路徑碍舍。
另外這里介紹的是SE的代碼柠座,如果是雙端結(jié)果那么代碼就是:

mkdir trimmomatic;
for i in `seq 56 79`;
do
trimmomatic PE -threads 8 -phred33 \
#需要剪切的雙端fastq文件名
SRR51316${i}_1.fastq SRR51316${i}_2.fastq \
#雙端保存的位置
trimmomatic/SRR51316${i}_paired_clean_R1.fastq.gz \
trimmomatic/SRR51316${i}_unpaired_clean_R1.fastq.gz \
trimmomatic/SRR51316${i}_paired_clean_R2.fastq.gz \
trimmomatic/SRR51316${i}_unpaired_clean_R2.fastq.gz \
ILLUMINACLIP:/home/barnett/miniconda3/share/trimmomatic-0.39-1/adapters/TruSeq3-PE.fa:2:30:10  LEADING:3 TRAILING:0 SLIDINGWINDOW:4:15 MINLEN:36;
done

這里注意一下你的雙端fastq文件名需要修改成自己文件的名字。不是很建議把raw data和clean data放在同一位置片橡。個人推薦重新建立一個02_clean_data保存剪切后的結(jié)果愚隧。

../02_clean_data/filename_paired(or unpaired)_clean_R1.fastq.gz)

2. Fastp

接下來介紹的是另一款質(zhì)控、剪切一條龍的軟件fastp锻全。
Fastp的優(yōu)點是集成度高狂塘,只要一行代碼就能完成Fastqc→trimmomatic→Fastqc的流程。
當(dāng)然作者還表示這軟件速度比trimmomatic+fastqc快三倍鳄厌,但實際上因為本人硬盤的I/O不是很高荞胡,實際體驗下來區(qū)別沒那么大。具體代碼跟trimmomatic類似:

#fastp做質(zhì)控和接頭剪切
for i in `seq 56 79`;
do
mkdir SRR51316${i};
cd SRR51316${i};
fastp -i ../SRR51316${i}.fastq -o SRR51316${i}.fastq.gz -Q --length_required=25 --cut_front --cut_window_size 4 --cut_mean_quality 15 --compression=6;
cd ..;
done

注意:這里還是只介紹單端的用法了嚎。如果你的數(shù)據(jù)是雙端泪漂,請參考:

fastp
-i in.R1.fq -o out.R1.fq -I in.R2.fq -O out.R2.fq

Fastp每次操作會生成一個網(wǎng)頁報告,為了讓每個網(wǎng)頁都能保存下這里選擇將每一組數(shù)據(jù)保存單獨(dú)的文件夾里歪泳。
最后如果你對其它參數(shù)和功能感興趣的可以看看這里:
http://www.reibang.com/p/6f492058da5b

3. TBtools的Trimmomatic插件

沒啥好講的……枯燥萝勤。
點這里查看接頭文件



不確定哪種數(shù)據(jù)就用Merged.Adapter.fa


單端數(shù)據(jù)是這樣


單端格式

雙端數(shù)據(jù)格式就是這樣


雙端格式

想改參數(shù)看這里

操作太簡單了不知道該講啥,用就完事了呐伞。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末敌卓,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子伶氢,更是在濱河造成了極大的恐慌趟径,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件癣防,死亡現(xiàn)場離奇詭異蜗巧,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蕾盯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進(jìn)店門幕屹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事望拖∶斐荆” “怎么了?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵靠娱,是天一觀的道長沧烈。 經(jīng)常有香客問我,道長像云,這世上最難降的妖魔是什么锌雀? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮迅诬,結(jié)果婚禮上腋逆,老公的妹妹穿的比我還像新娘。我一直安慰自己侈贷,他們只是感情好惩歉,可當(dāng)我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著俏蛮,像睡著了一般撑蚌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上搏屑,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天争涌,我揣著相機(jī)與錄音,去河邊找鬼辣恋。 笑死亮垫,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的伟骨。 我是一名探鬼主播饮潦,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼携狭!你這毒婦竟也來了继蜡?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤暑中,失蹤者是張志新(化名)和其女友劉穎壹瘟,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鳄逾,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年灵莲,在試婚紗的時候發(fā)現(xiàn)自己被綠了雕凹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖枚抵,靈堂內(nèi)的尸體忽然破棺而出线欲,到底是詐尸還是另有隱情,我是刑警寧澤汽摹,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布李丰,位于F島的核電站,受9級特大地震影響逼泣,放射性物質(zhì)發(fā)生泄漏趴泌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一拉庶、第九天 我趴在偏房一處隱蔽的房頂上張望嗜憔。 院中可真熱鬧,春花似錦氏仗、人聲如沸吉捶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽呐舔。三九已至,卻和暖如春慷蠕,著一層夾襖步出監(jiān)牢的瞬間珊拼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工砌们, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留杆麸,地道東北人。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓浪感,卻偏偏與公主長得像昔头,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子影兽,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,927評論 2 355