生信分析學(xué)習(xí)筆記 - RNAseq (四) trimmomatic

聲明:本文部分內(nèi)容和部分圖片來源于網(wǎng)絡(luò)梢睛。本文為生信小白學(xué)習(xí)筆記竹习,不能保證專業(yè)名詞和內(nèi)容全部正確或權(quán)威。

下圖為某一條RNAseq從數(shù)據(jù)預(yù)處理启涯,序列回帖到數(shù)據(jù)可視化的工作流程,包含了較多的軟件(Linux環(huán)境運(yùn)行)和若干個包(R語言環(huán)境運(yùn)行)恃轩,本系列將按下圖结洼,對每一個步驟進(jìn)行學(xué)習(xí)和理解。

image

某RNAseq分析方法

Trimmomatic軟件

   承接本RNAseq分析上一部分叉跛,F(xiàn)astQC可以得到較詳盡的測序結(jié)果質(zhì)量評估報告补君,并可以通過分析得到導(dǎo)致測序結(jié)果質(zhì)量較低的原因以利于下一步數(shù)據(jù)清洗和過濾。

Trimmomatic是2014年發(fā)表于Bioinformatics昧互,已經(jīng)引用19074次挽铁。主要針對Illumina平臺結(jié)果進(jìn)行分析伟桅,其他測序平臺可選擇相應(yīng)數(shù)據(jù)清洗軟件。

特點(diǎn):Trimmomatic支持多線程叽掘,處理速度很快楣铁,主要用來去除 Illumina 平臺的 Fastq 序列中的接頭(adapter),并根據(jù)堿基質(zhì)量值對 Fastq 進(jìn)行修剪更扁。軟件有兩種過濾模式盖腕,分別對應(yīng) SE 和 PE 測序數(shù)據(jù),同時支持 gzip 和 bzip2 壓縮文件浓镜。

簡單應(yīng)用

雙端測序

   對于大部分測序數(shù)據(jù)溃列,都可以使用較溫和的質(zhì)量修整和接頭修剪。大部分情況下膛薛,不需要前端和末尾修剪(leading and traling clipping)听隐。通常,處理雙端測序文件哄啄,*keepBothReads*很有用雅任,這將保留多余的信息,但也會使分析流程更加可供處理咨跌。注意沪么,在*keepBothReads*前的2是指在palindrome模式的最小adapter長度,可以被設(shè)置為1(默認(rèn)值為8)锌半。

需要注意的是:Trimmomatic過濾數(shù)據(jù)的命令順序決定其過濾步驟禽车,為了更有效地去除接頭,可在其他過濾命令前刊殉,第一步就去除哭当。

java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

不同命令的功能:

  1. 移除接頭(ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
  2. 移除前端低質(zhì)量序列或N堿基(低于質(zhì)量3)(LEADING:3)
  3. 移除尾端低質(zhì)量序列或N堿基(低于質(zhì)量3)(TRAILING:3)
  4. 使用4堿基寬度的滑窗掃描讀段,當(dāng)每堿基平均質(zhì)量低于15時冗澈,進(jìn)行修剪(SLIDINGWINDOW:4:15)
  5. 去除長度小于36堿基的讀段(MINLEN:36)

單端測序

命令參數(shù):

java -jar trimmomatic-0.35.jar SE -phred33 input.fq.gz output.fq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

這段命令具體功能見雙端測序钦勘。

Trimmomatic介紹

針對Illumina雙端測序和單端測序,Trimmomatic呈現(xiàn)了多種有用的修剪工具亚亲。修剪步驟的選擇及其相關(guān)的參數(shù)可在命令行上實現(xiàn)彻采。
現(xiàn)有的修剪步驟:

  1. ILLUMINACLIP:從讀段中,修剪接頭和其他Illumina特有的序列捌归。

  2. SLIDINGWINDOW:提供了一個滑窗修剪工具肛响,一旦在該窗口的平均質(zhì)量低于某個閾值,即刪除該堿基惜索。

  3. LEADING:減去低于質(zhì)量閾值的讀段首端特笋。

  4. TRAILING:減去低于質(zhì)量閾值的讀段末端。

  5. CROP:將讀段剪切為特定的長度

  6. HEADCROP:從讀段的首端減去特定長度的堿基巾兆。

  7. MINLEN:如果低于一定長度猎物,刪除該讀段虎囚。

  8. TOPHRED33:將質(zhì)量分?jǐn)?shù)轉(zhuǎn)換為Phred-33

  9. TOPHRED64:將質(zhì)量分?jǐn)?shù)轉(zhuǎn)換為Phred-64

    對單端測序,需要指定一個輸入和一個輸出文件蔫磨,加上相應(yīng)的處理步驟淘讥;對雙端測序文件,需要指定兩個輸入文件和四個輸出文件堤如,其中兩個為‘paired’輸出文件(包含一對均經(jīng)過篩選后留下的讀段)和兩個相應(yīng)的‘unpaired’輸出文件(包含僅有一個讀段成功經(jīng)過篩選)蒲列。
    

Trimmomatic運(yùn)行

雙端模式

java -jar <path to trimmomatic.jar> PE [-threads <threads] [-phred33 | -phred64] [-trimlog <logFile>] <input 1> <input 2> <paired output 1> <unpaired output 1> <paired output 2> <unpaired output 2> <step 1> ...

java -classpath <path to trimmomatic jar> org.usadellab.trimmomatic.TrimmomaticPE [-threads <threads>] [-phred33 | -phred64] [-trimlog <logFile>] <input 1> <input 2> <paired output 1> <unpaired output 1> <paired output 2> <unpaired output 2> <step 1> ...

單端模式

java -jar <path to trimmomatic jar> SE [-threads <threads>] [-phred33 | -phred64] [-trimlog <logFile>] <input> <output> <step 1> ...

java -classpath <path to trimmomatic jar> org.usadellab.trimmomatic.TrimmomaticSE [-threads <threads>] [-phred33 | -phred64] [-trimlog <logFile>] <input> <output> <step 1> ...
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市搀罢,隨后出現(xiàn)的幾起案子蝗岖,更是在濱河造成了極大的恐慌,老刑警劉巖榔至,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件抵赢,死亡現(xiàn)場離奇詭異,居然都是意外死亡洛退,警方通過查閱死者的電腦和手機(jī)瓣俯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門杰标,熙熙樓的掌柜王于貴愁眉苦臉地迎上來兵怯,“玉大人,你說我怎么就攤上這事腔剂∶角” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵掸犬,是天一觀的道長袜漩。 經(jīng)常有香客問我,道長湾碎,這世上最難降的妖魔是什么宙攻? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮介褥,結(jié)果婚禮上座掘,老公的妹妹穿的比我還像新娘。我一直安慰自己柔滔,他們只是感情好溢陪,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著睛廊,像睡著了一般形真。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上超全,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天咆霜,我揣著相機(jī)與錄音邓馒,去河邊找鬼。 笑死裕便,一個胖子當(dāng)著我的面吹牛绒净,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播偿衰,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼挂疆,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了下翎?” 一聲冷哼從身側(cè)響起缤言,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎视事,沒想到半個月后胆萧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡俐东,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年跌穗,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片虏辫。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡蚌吸,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出砌庄,到底是詐尸還是另有隱情羹唠,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布娄昆,位于F島的核電站佩微,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏萌焰。R本人自食惡果不足惜哺眯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望扒俯。 院中可真熱鬧奶卓,春花似錦、人聲如沸陵珍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽互纯。三九已至瑟幕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背只盹。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工辣往, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人殖卑。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓站削,卻偏偏與公主長得像,于是被迫代替她去往敵國和親孵稽。 傳聞我的和親對象是個殘疾皇子许起,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345