我的ChIP-Seq(2): cutadapt/fastp/Trimmomatic 過濾軟件選擇

過濾軟件的比較與選擇:cutadapt/fastp/trimmomatic

注:還沒有完全搞明白,先總結(jié)一下特點(diǎn)和使用栓拜,之后再慢慢體會(huì)座泳、總結(jié)經(jīng)驗(yàn)
本次只針對(duì)雙端PE
算法都沒好好讀,因?yàn)榭床欢?=

首先幕与,我們對(duì)數(shù)據(jù)進(jìn)行過濾钳榨,是為了:

去掉接頭
去掉低質(zhì)量reads
去掉污染序列
在盡量去掉上述序列的同時(shí),保留盡可能多的有用數(shù)據(jù)纽门,減少損失

CutAdapt,2010
  1. 基于Python营罢,作者是個(gè)德國人赏陵,長得還挺帥氣(???) 不過都9年過去了,嗯饲漾。蝙搔。
  2. 不僅支持illumina,還支持SOLID考传,454等平臺(tái)產(chǎn)出的數(shù)據(jù)
  3. 支持輸入.gz
  4. 需要自己先檢測(cè)接頭類型(fastqc等)吃型,然后搜索接頭序列是啥,手動(dòng)輸入到參數(shù)里僚楞。但是有一個(gè)參數(shù) -n勤晚,若是兩種接頭枉层,也可以指定然后去除:-n 2
  5. 一般命令:
cutadapt -a -A #a是read1的3'接頭,A是read2的3'接頭(5'接頭的反向互補(bǔ)序列)
-e 0.1 -0.5 -m 50 #去除接頭后read長度大于50才保留
-o -p #生成文件:過濾后的R1 R2
read1.fastq read2.fastq #輸入文件
  1. 本次分析沒用赐写,所以詳細(xì)參數(shù)可以閱讀--help
fastp鸟蜡,2018
  1. 基于c++這種強(qiáng)大的語言所以算法比較高效,中科院深圳所發(fā)的挺邀。還沒用過揉忘,不過身邊做RNA-Seq的倆師兄強(qiáng)烈推薦,有空可以test一下端铛。
  2. 主題就是ultra-fast泣矛,all-in-one,而且是只處理FASTQ也就是illuminate下機(jī)數(shù)據(jù)
  3. 特點(diǎn):

能進(jìn)行質(zhì)控禾蚕,生成比fastqc美觀您朽、全面的報(bào)告,但是我看了一遍夕膀,不如fastqc直觀虚倒、fresh-friendly
號(hào)稱去除低質(zhì)量序列的方法類似于trimmomatic但是更快
自動(dòng)識(shí)別序列并去除
支持illuminate short read,也一定程度支持Pacbio/Nanopore long reads产舞,具體支持到什么程度魂奥,需要試驗(yàn)。
參數(shù)眾多易猫,但是挺有條理的耻煤,而且很多都是默認(rèn)不是必需參數(shù),不會(huì)“新手退散”

  1. 最簡單的命令:
    fastp -i r1.fq -o rr1.fq -i r2.fq -o rr2.fq
  2. 這篇介紹寫的不錯(cuò):知乎
    但他說一般下機(jī)數(shù)據(jù)要經(jīng)過fastqc+cutadapt+trimmomatic准颓,有點(diǎn)不太理解哈蝇,要這么麻煩嗎?
Trimmomatic攘已,2014
  1. 也是很好用的炮赦,引用量超高,good at去除低質(zhì)量reads样勃,只針對(duì)illuminate數(shù)據(jù)

  2. 最重要的特點(diǎn):對(duì)數(shù)據(jù)的處理步驟與參數(shù)的順序有關(guān)吠勘!
    所以建議先去接頭,否則接頭被剪更無法有效去除峡眶。

  3. PE數(shù)據(jù)常用參數(shù):
    ILLMINACLIP: 注意以下參數(shù)以:隔開
    <fastaWithAdaptersEtc>: 指定包含接頭和引物序列(所有被視為污染的序列)的 fasta 文件
    <seed mismatches>: 第一步seed搜索時(shí)允許的mismatch個(gè)數(shù)剧防,一般2。
    <palindrome clip threshold>: 指定針對(duì) PE的palindrome clip模式下辫樱,需要R1和 R2之間至少多少比對(duì)分值峭拘,才會(huì)進(jìn)行接頭切除,例如30。
    <simple clip threshold>: 指定切除接頭序列的最低比對(duì)分值鸡挠,一般7-15之間辉饱。
    <minAdapterLength>: 只對(duì) PE 測(cè)序的 palindrome clip 模式有效,指定 palindrome 模式下可以切除的接頭序列最短長度宵凌,默認(rèn)值是 8鞋囊。但實(shí)際上 palindrome 模式可以切除短至 1bp 的接頭污染,所以可以設(shè)置為 1瞎惫。
    <keepBothReads> 重要參數(shù)溜腐!第一次做的時(shí)候沒加這個(gè)參數(shù),結(jié)果20%+的數(shù)據(jù)Unpaired瓜喇,扔掉不現(xiàn)實(shí)挺益,比對(duì)處理太麻煩!正確用法:只對(duì) PE 測(cè)序的 palindrome clip 模式有效乘寒,R1 和 R2 在去除了接頭序列之后剩余的部分是完全反向互補(bǔ)的望众,默認(rèn)參數(shù) false,意味著整條去除與 R1 完全反向互補(bǔ)的 R2伞辛,當(dāng)做重復(fù)去除掉烂翰,但在有些情況下,例如需要用到 paired reads 的 bowtie2 流程蚤氏,就要將這個(gè)參數(shù)改為 true甘耿,否則會(huì)損失一部分 paired reads。

  4. 本次所用命令:(也是公司報(bào)告中所用的)

java -jar trimmomatic-0.38.jar PE -threads 2 #雙端模式竿滨,兩個(gè)線程
ILLUMINACLIP: #顧名思義佳恬,去illumina接頭
TruSeq3-PE.fa: #接頭文件,需要指定全路徑
2:30:10 # 默認(rèn)格式為 2:30:10:8:false于游,可改做:2:30:10:8:true
LEADING:20 #從reads的起始端開始切除質(zhì)量值低于設(shè)定的閾值的堿基毁葱,直到有一個(gè)堿基其質(zhì)量值達(dá)到閾值。一般用LEADING:3???
TRAILING:20 #一般用3贰剥,因?yàn)镮llumina 平臺(tái)有些低質(zhì)量的堿基質(zhì)量值被標(biāo)記為2倾剿,所以設(shè)置為 3 可以過濾掉這部分低質(zhì)量堿基
SLIDINGWINDOW:4:20 #滑窗剪切,統(tǒng)計(jì)滑窗口中所有堿基的平均質(zhì)量值蚌成,如果低于設(shè)定的閾值前痘,則切掉窗口。此處設(shè)置4bp窗口笑陈,閾值20,一般閾值用15葵袭。
MINLEN:50 #可被保留的最短 read 長度

trimmomatic PE模式默認(rèn)處理2個(gè)文件涵妥,也就是說,sh腳本中使用本辦法只能一次列舉R1 R2兩個(gè)文件,不能 In_R1 In_R2 IP_R1 IP_R2這樣四個(gè)文件都列出來蓬网,事實(shí)證明會(huì)報(bào)錯(cuò)窒所,trimmomatic有點(diǎn)傻傻的不知道第三個(gè)開始的文件該干嘛。
所以要批量做帆锋,需要寫循環(huán)吵取,或者是認(rèn)真閱讀使用說明的參數(shù)。

  1. trimmomatic的更多解讀可以參考這個(gè)锯厢,寫得很詳細(xì)皮官。目前我理解的是以上。

最后附一個(gè)圖:
出自:Chen et al. Source Code for Biology and Medicine 2014, 9:8. Software for pre-processing Illumina nextgeneration sequencing short read sequences.


幾種軟件比較
以上实辑∞嗲猓可以test一下trimmomatic的true參數(shù),還有fastp試一下到底強(qiáng)大在哪里剪撬。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末摄乒,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子残黑,更是在濱河造成了極大的恐慌馍佑,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件梨水,死亡現(xiàn)場離奇詭異拭荤,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)冰木,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門穷劈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來踊沸,“玉大人歇终,你說我怎么就攤上這事逼龟。” “怎么了腺律?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵奕短,是天一觀的道長。 經(jīng)常有香客問我匀钧,道長,這世上最難降的妖魔是什么之斯? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上莉擒,老公的妹妹穿的比我還像新娘酿炸。我一直安慰自己,他們只是感情好涨冀,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鹿鳖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪栓辜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天施敢,我揣著相機(jī)與錄音,去河邊找鬼僵娃。 笑死,一個(gè)胖子當(dāng)著我的面吹牛腋妙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播匙睹,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼济竹,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼痕檬!你這毒婦竟也來了送浊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤唁桩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后荒澡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡单山,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衣屏。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡躏升,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出狼忱,到底是詐尸還是另有隱情膨疏,我是刑警寧澤钻弄,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站饲帅,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏灶泵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一赦邻、第九天 我趴在偏房一處隱蔽的房頂上張望实檀。 院中可真熱鬧,春花似錦膳犹、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽余赢。三九已至,卻和暖如春妻柒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背举塔。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留央渣,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓北启,卻偏偏與公主長得像,于是被迫代替她去往敵國和親咕村。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容