測(cè)序數(shù)據(jù)的質(zhì)控:你需要Trimmomatic检激!

原文鏈接:

測(cè)序數(shù)據(jù)的質(zhì)控:你需要Trimmomatic齐莲!

通過前兩期文章二代測(cè)序原理詳細(xì)解析測(cè)序數(shù)據(jù)質(zhì)量解析的介紹嚣鄙,我們可以推出二代測(cè)序數(shù)據(jù)的特點(diǎn):大量的短序列(150-250bp)、雙末端測(cè)序鳍怨、末端質(zhì)量較低呻右。因此,在利用我們的測(cè)序數(shù)據(jù)進(jìn)行分析之前鞋喇,首先需要過濾掉低質(zhì)量的堿基與序列声滥,以確保分析結(jié)果的準(zhǔn)確性。

二代測(cè)序數(shù)據(jù)的指控一般包含以下步驟:

1. 切除尾端堿基質(zhì)量小于指定值(一般為20)的堿基确徙⌒汛可以簡(jiǎn)單的單堿基修剪执桌,也即從末端開始進(jìn)行刪除,直到讀取堿基質(zhì)量高于20芜赌;也可以進(jìn)行滑窗修剪仰挣,也即從末端開始以指定堿基數(shù)目的滑窗開始修剪,直到滑窗內(nèi)堿基平均質(zhì)量高于20缠沈。

2. 去除末端修剪后長(zhǎng)度小于指定值的reads膘壶。不同項(xiàng)目指定值不同,一般宏基因組去掉小于50bp的reads(50bp已不夠產(chǎn)生k-mer)洲愤,而擴(kuò)增子測(cè)序則根據(jù)raw reads長(zhǎng)度和PCR插入片段的長(zhǎng)度來確定颓芭,例如V4區(qū)大概260bp,那么可以去掉雙末端reads之和小于280bp的(否則不足以拼接)柬赐。

3. 其他一些要求亡问,例如去除含有N(也即無法讀取位點(diǎn))過多的reads、去除完全重復(fù)的reads等肛宋。

通常質(zhì)控需要我們自己寫腳本來完成州藕。Trimmomatic是一個(gè)便捷好用的Illumina測(cè)序數(shù)據(jù)質(zhì)控工具,可以幫我們省掉很多代碼任務(wù)酝陈,自發(fā)表以來引用量已過萬床玻,安裝可以使用conda:

conda install -c trimmomatic

Trimmomatic基本使用方法及默認(rèn)參數(shù)如下:

java-jar trimmomatic-0.30.jar PE -threads 20 -phred33 R1.fq R2.fq clean.R1.fq unpaired.R1.fq clean.R2.fq unpaired.R2.fq ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

參數(shù)解釋如下:

PE/SE? ? ?設(shè)定對(duì)Paired-End或Single-End的reads進(jìn)行處理,其輸入和輸出參數(shù)稍有不一樣沉帮。

-threads? ? ?設(shè)置多線程運(yùn)行數(shù)锈死,也即核數(shù)

-phred33????? 設(shè)置堿基的質(zhì)量格式,可選pred64

ILLUMINACLIP:TruSeq3-PE.fa:2:30:10? ? ? 切除adapter序列穆壕。參數(shù)后面分別接adapter序列的fasta文件:允許的最大mismatch數(shù):palindrome模式下匹配堿基數(shù)閾值:simple模式下的匹配堿基數(shù)閾值待牵。

LEADING:3????? 切除首端堿基質(zhì)量小于3的堿基

TRAILING:3???? 切除尾端堿基質(zhì)量小于3的堿基

SLIDINGWINDOW:4:15????? 滑窗修剪,一個(gè)Windows的size是4個(gè)堿基粱檀,其平均堿基質(zhì)量小于15洲敢,則切除。

MINLEN:50? ? ? 最小的reads長(zhǎng)度

CROP:? ? ? 保留reads到指定的長(zhǎng)度

HEADCROP:?? 在reads的首端切除指定的長(zhǎng)度

TOPHRED33? ? ?將堿基質(zhì)量轉(zhuǎn)換為pred33格式

TOPHRED64? ? ? 將堿基質(zhì)量轉(zhuǎn)換為pred64格式

下面通過一些實(shí)例為大家介紹該軟件的使用方法:

切除尾端堿基質(zhì)量小于20的堿基(也即從末端開始進(jìn)行刪除茄蚯,直到讀取堿基質(zhì)量高于20),并去掉剪切后長(zhǎng)度小于150的小序列片段:

java -jar trimmomatic-0.30.jar PE -threads 20 -phred33 R1.fq R2.fq clean.R1.fq unpaired.R1.fq clean.R2.fq unpaired.R2.fq TRAILING:20 MINLEN:150

使用末端滑窗修剪睦优,同時(shí)去掉質(zhì)控后長(zhǎng)度過短(小于50bp)的小片段渗常,如下所示:

java -jar trimmomatic-0.33.jar PE -threads 20 -thred33 rm_dup_N_trim_1.fq rm_dup_N_trim_2.fq clean_1.fq unp_clean_1.fq clean_2.fq unp_clean_2.fq SLIDINGWINDOW:4:20 MINLEN:50

質(zhì)控后,我們由raw reads獲得clean reads汗盘,也可以再次使用FastQC進(jìn)行質(zhì)量可視化來查看質(zhì)控效果:

質(zhì)控前
質(zhì)控后
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末皱碘,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子隐孽,更是在濱河造成了極大的恐慌癌椿,老刑警劉巖健蕊,帶你破解...
    沈念sama閱讀 222,378評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異踢俄,居然都是意外死亡缩功,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門都办,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嫡锌,“玉大人,你說我怎么就攤上這事琳钉∈颇荆” “怎么了?”我有些...
    開封第一講書人閱讀 168,983評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵歌懒,是天一觀的道長(zhǎng)啦桌。 經(jīng)常有香客問我,道長(zhǎng)及皂,這世上最難降的妖魔是什么震蒋? 我笑而不...
    開封第一講書人閱讀 59,938評(píng)論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮躲庄,結(jié)果婚禮上查剖,老公的妹妹穿的比我還像新娘。我一直安慰自己噪窘,他們只是感情好笋庄,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,955評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著倔监,像睡著了一般直砂。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上浩习,一...
    開封第一講書人閱讀 52,549評(píng)論 1 312
  • 那天静暂,我揣著相機(jī)與錄音,去河邊找鬼谱秽。 笑死洽蛀,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的疟赊。 我是一名探鬼主播郊供,決...
    沈念sama閱讀 41,063評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼近哟!你這毒婦竟也來了驮审?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,991評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎疯淫,沒想到半個(gè)月后地来,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,522評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡熙掺,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,604評(píng)論 3 342
  • 正文 我和宋清朗相戀三年未斑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片适掰。...
    茶點(diǎn)故事閱讀 40,742評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡颂碧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出类浪,到底是詐尸還是另有隱情载城,我是刑警寧澤,帶...
    沈念sama閱讀 36,413評(píng)論 5 351
  • 正文 年R本政府宣布费就,位于F島的核電站诉瓦,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏力细。R本人自食惡果不足惜睬澡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,094評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望眠蚂。 院中可真熱鬧煞聪,春花似錦、人聲如沸逝慧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽笛臣。三九已至云稚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間沈堡,已是汗流浹背静陈。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留诞丽,地道東北人鲸拥。 一個(gè)月前我還...
    沈念sama閱讀 49,159評(píng)論 3 378
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像率拒,于是被迫代替她去往敵國(guó)和親崩泡。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,747評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容