fastp全新的數(shù)據(jù)質(zhì)控軟件

各位做生信的小伙伴都知道,對于下機的FASTQ數(shù)據(jù)需要進行質(zhì)控和預處理咪惠,以保證下游分析輸入的數(shù)據(jù)都是干凈可靠的朦蕴。通常我們都是使用FASTQC等軟件進行質(zhì)控凹蜂,使用cutadapt軟件去除接頭,使用Trimmomatic等軟件進行剪裁性宏,然后使用一些自已開發(fā)的腳本進行過濾群井。

好了,現(xiàn)在給大家介紹一個發(fā)表在《bioinfomatics》上的測序質(zhì)控軟件--fastp
文章鏈接請移步:https://academic.oup.com/bioinformatics/article/34/17/i884/5093234

通過掃描fastq文件一次毫胜,就完成從質(zhì)控到處理的工作书斜,而且速度也是很讓人舒服诬辈。

因為是C++開發(fā),而且完美支持多線程<黾(尖叫1涸恪),所以軟件的運算速度還是很快的样屠。
話不多說有需要了解的直接移步:https://github.com/OpenGene/fastp

我們直接來看看軟件的優(yōu)點

對數(shù)據(jù)自動進行全方位質(zhì)控穿撮,生成人性化的報告。
過濾功能(低質(zhì)量瞧哟,太短混巧,太多N……)。
對每一個序列的頭部或尾部勤揩,計算滑動窗內(nèi)的質(zhì)量均值咧党,并將均值較低的子序列進行切除(類似Trimmomatic的做法,但是快非常多)陨亡。
全局剪裁 (在頭/尾部傍衡,不影響去重),對于Illumina下機數(shù)據(jù)往往最后一到兩個cycle需要這樣處理负蠕。
去除接頭污染蛙埂。厲害的是,你不用輸入接頭序列遮糖,因為算法會自動識別接頭序列并進行剪裁绣的。
對于雙端測序(PE)的數(shù)據(jù),軟件會自動查找每一對read的重疊區(qū)域欲账,并對該重疊區(qū)域中不匹配的堿基對進行校正屡江。
去除尾部的polyG。對于Illumina NextSeq/NovaSeq的測序數(shù)據(jù)赛不,因為是兩色法發(fā)光惩嘉,polyG是常有的事,所以該特性對該兩類測序平臺默認打開踢故。
對于PE數(shù)據(jù)中的overlap區(qū)間中不一致的堿基對文黎,依據(jù)質(zhì)量值進行校正
可以對帶分子標簽(UMI)的數(shù)據(jù)進行預處理,不管UMI在插入片段還是在index上殿较,都可以輕松處理耸峭。
可以將輸出進行分拆,而且支持兩種模式斜脂,分別是指定分拆的個數(shù)抓艳,或者分拆后每個文件的行數(shù)。

fastp軟件會生成HTML格式的報告,而且該報告中沒有任何一張靜態(tài)圖片玷或,所有的圖表都是使用JavaScript動態(tài)繪制儡首,非常具有交互性。想要看一下樣板報告的偏友,可以去以下鏈接:http://opengene.org/fastp/fastp.html

而且軟件的開發(fā)者還充分考慮到了各種自動化分析的需求蔬胯,不但生成了人可讀的HTML報告,還生成了程序可讀性非常強的JSON結(jié)果位他,該JSON報告中的數(shù)據(jù)包含了HTML報告100%的信息氛濒,而且該JSON文件的格式還是特殊定制的,不但程序讀得爽鹅髓,你用任何一款文本編輯器打開舞竿,一眼過去也會看得明明白白。想要看一下JSON結(jié)果長什么樣的窿冯,可以去以下鏈接:http://opengene.org/fastp/fastp.json

1.軟件的安裝

如果你的系統(tǒng)安裝了anaconda的話

conda install -c bioconda fastp

下載安裝

wget http://opengene.org/fastp/fastp
chmod a+x ./fastp

源碼安裝

git clone https://github.com/OpenGene/fastp.git

# build
cd fastp
make

# Install
sudo make install

2.軟件的使用

單端測序數(shù)據(jù)(single-end骗奖,SE) 的話

fastp -i in.fq -o out.fq

雙端測序數(shù)據(jù)(paired-end,PE)的話

fastp -i in.R1.fq -o out.R1.fq -I in.R2.fq -O out.R2.fq
#注意大小寫

fastp對于輸入和輸出都支持gzip壓縮醒串,只要文件名的末尾帶有.gz执桌,就會被認為是gzip壓縮文件,會啟用gzip對輸入輸出進行壓縮和解壓處理芜赌。

fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz

4.結(jié)果的分析

1.summary

astp可以對低質(zhì)量序列仰挣,較多N的序列,該功能默認是啟用的缠沈,但可以使用-Q參數(shù)關(guān)閉膘壶。使用-q參數(shù)來指定合格的phred質(zhì)量值,比如-q 15表示質(zhì)量值大于等于Q15的即為合格洲愤,然后使用-u參數(shù)來指定最多可以有多少百分比的質(zhì)量不合格堿基香椎。比如-q 15 -u 40表示一個read最多只能有40%的堿基的質(zhì)量值低于Q15,否則會被扔掉禽篱。使用-n可以限定一個read中最多能有多少個N。

fastp還默認啟用了read長度過濾馍惹,但可以使用-L參數(shù)關(guān)閉躺率。使用-l參數(shù)指定最低要求一個read有多長,比如-l 30表示低于30個堿基的read會被扔掉万矾。這個功能可以用于實現(xiàn)常用的discard模式悼吱,以保證所有輸出的序列都一樣長。

在fastp的HTML報告中良狈,最頭上的Summary表格很清楚地顯示了過濾的統(tǒng)計信息

summary

2.接頭

fastp默認啟用了接頭處理后添,但是可以使用-A命令來關(guān)掉。fastp可以自動化地查找接頭序列并進行剪裁薪丁,也就是說你可以不輸入任何的接頭序列遇西,fastp全自動搞定了馅精!

對于SE數(shù)據(jù),你還是可以-a參數(shù)來輸入你的接頭粱檀,而對于PE數(shù)據(jù)則完全沒有必要洲敢,fastp基于PE數(shù)據(jù)的overlap分析可以更準確地查找接頭,去得更干凈茄蚯,而且對于一些接頭本身就有堿基不匹配情況處理得更好压彭。fastp對于接頭去除會有一個匯總的報告 。

image.png

3.滑窗質(zhì)量剪裁

很多時候渗常,一個read的低質(zhì)量序列都是集中在read的末端壮不,也有少部分是在read的開頭。fastp支持像Trimmomatic那樣對滑動窗口中的堿基計算平均質(zhì)量值皱碘,然后將不符合的滑窗直接剪裁掉询一。使用-5參數(shù)開啟在5’端,也就是read的開頭的剪裁尸执,使用-3參數(shù)開啟在3’端家凯,也就是read的末尾的剪裁。使用-W參數(shù)指定滑動窗大小如失,默認是4绊诲,使用-M參數(shù)指定要求的平均質(zhì)量值,默認是20褪贵,也就是Q20掂之。

4.過濾短序列

默認開啟多序列過濾,默認值為15脆丁,使用-L(--disable_length_filtering)禁止此默認選項世舰。或使用-l(--length_required)自定義最短序列槽卫。

5.雙端測序堿基校正

fastp支持對PE數(shù)據(jù)的每一對read進行分析跟压,查找它們的overlap區(qū)間,然后對于overlap區(qū)間中不一致的堿基歼培,如果發(fā)現(xiàn)其中一個質(zhì)量非常高震蒋,而另一個非常低,則可以將非常低質(zhì)量的堿基改為相應的非常高質(zhì)量值的堿基值躲庄。此選項默認關(guān)閉查剖,可使用-c(--correction)開啟。

6.polyG剪裁

對于兩色發(fā)光法的Illumina設備(NextSeq /NovaSeq)噪窘,因為在沒有光信號情況下base calling的結(jié)果會返回G笋庄,所以在序列的尾端可能會出現(xiàn)較多的polyG,需要被去除。

fastp會自動化地識別NextSeq / NovaSeq的數(shù)據(jù)直砂,然后進行polyG識別和剪裁菌仁。如果你想強制開啟該功能,可以指定-g參數(shù)哆键,如果想強制關(guān)閉該功能掘托,則可以指定-G參數(shù)。

7.分子標簽UMI處理

UMI在處理ctDNA類似的超低頻突變檢測應用中是十分有用的籍嘹,為了更好地對帶UMI的FASTQ文件進行預處理闪盔,fastp也很好地支持了UMI預處理功能。該功能默認沒有啟用辱士,需要使用-U參數(shù)開啟泪掀,另外需要使用--umi_loc來指定UMI所在的位置,它可以是(index1颂碘、 index2异赫、 read1、 read2头岔、 per_index塔拳、 per_read )中的一種,分別表示UMI是在index位置上峡竣,還是在插入片段中靠抑。如果指定了是在插入序列中,還需要使用 --umi_len 參數(shù)來指定UMI所占的堿基長度适掰。

8.質(zhì)量過濾

fastp可以對低質(zhì)量序列颂碧,較多N的序列,該功能默認是啟用的类浪,但可以使用-Q參數(shù)關(guān)閉载城。使用-q參數(shù)來指定合格的phred質(zhì)量值,比如-q 15表示質(zhì)量值大于等于Q15的即為合格费就,然后使用-u參數(shù)來指定最多可以有多少百分比的質(zhì)量不合格堿基诉瓦。比如-q 15 -u 40表示一個read最多只能有40%的堿基的質(zhì)量值低于Q15,否則會被扔掉力细。使用-n可以限定一個read中最多能有多少個N垦搬。

具體參數(shù)的解讀可以移步 喵小媛的博客 里面就有很詳細的講解

其實大部分功能也用的不是很多 軟件最快樂的地方當然是簡單了

最后我們看一下在實際中的應用情況:

for i in {1..18};
do
        fastp -i R${i}_1.fq.gz -o R${i}_1.out.fq -I R${i}_2.fq.gz -O R${i}_2.out.fq -w 8
done

然后就會生成快樂的html文件

參考:

1.fastp: 一款超快速全功能的FASTQ文件自動化質(zhì)控+過濾+校正+預處理軟件

2.質(zhì)控軟件fastp常用參數(shù)說明

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市艳汽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌对雪,老刑警劉巖河狐,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡馋艺,警方通過查閱死者的電腦和手機栅干,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捐祠,“玉大人碱鳞,你說我怎么就攤上這事□庵” “怎么了窿给?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長率拒。 經(jīng)常有香客問我崩泡,道長,這世上最難降的妖魔是什么猬膨? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任角撞,我火速辦了婚禮,結(jié)果婚禮上勃痴,老公的妹妹穿的比我還像新娘谒所。我一直安慰自己,他們只是感情好沛申,可當我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布劣领。 她就那樣靜靜地躺著,像睡著了一般污它。 火紅的嫁衣襯著肌膚如雪剖踊。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天衫贬,我揣著相機與錄音德澈,去河邊找鬼。 笑死固惯,一個胖子當著我的面吹牛梆造,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播葬毫,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼镇辉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了贴捡?” 一聲冷哼從身側(cè)響起忽肛,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎烂斋,沒想到半個月后屹逛,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體础废,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年罕模,在試婚紗的時候發(fā)現(xiàn)自己被綠了评腺。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡淑掌,死狀恐怖蒿讥,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情抛腕,我是刑警寧澤芋绸,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站兽埃,受9級特大地震影響侥钳,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜柄错,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一舷夺、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧售貌,春花似錦给猾、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至恒削,卻和暖如春池颈,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背钓丰。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工躯砰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人携丁。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓琢歇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親梦鉴。 傳聞我的和親對象是個殘疾皇子李茫,可洞房花燭夜當晚...
    茶點故事閱讀 43,627評論 2 350