宏基因組組裝工具如何選擇官脓?MetaSPAdes還是Megahit?

導(dǎo)讀

宏基因組組裝工具非常多涝焙。如何從眾多組裝工具中選擇適合組裝自己的宏基因組測(cè)序數(shù)據(jù)的工具呢卑笨?為了解決這個(gè)問(wèn)題,我搜集了一些近些年已發(fā)表的宏基因組組裝工具仑撞,并且利用已發(fā)表文章的數(shù)據(jù)分析了這些組裝工具的性能赤兴。從比較結(jié)果來(lái)看妖滔,MetaSPAdes和Megahit在組裝上都有著各自出眾的優(yōu)勢(shì)。MetaSPAdes準(zhǔn)確性高桶良,適合做單樣品組裝座舍。Megahit對(duì)計(jì)算內(nèi)存需求相對(duì)最小,速度更快陨帆,適合做多樣本共組裝曲秉。本篇內(nèi)容分為以下四塊:1) 組裝工具盤(pán)點(diǎn);2)組裝質(zhì)量比較疲牵;3)組裝長(zhǎng)度比較承二;4)計(jì)算內(nèi)存需求比較。

一瑰步、組裝工具盤(pán)點(diǎn)

通過(guò)閱讀宏基因組分析相關(guān)文獻(xiàn)矢洲,我整理了近些年常用的宏基因組組裝工具,如下表缩焦。表中的被引量來(lái)自google學(xué)術(shù)(僅供參考)读虏。從表中可以看出,SPAdes是最受宏基因組研究者青睞的組裝工具袁滥,被引量達(dá)到6000+盖桥,遙遙領(lǐng)先于其他工具。SPAdes現(xiàn)在已經(jīng)更新到了第三版题翻,即SPAdes 3揩徊。SPAdes中的‘--meta’功能,即MetaSPAdes在2017年單獨(dú)發(fā)表在Genome Research上嵌赠,僅2年的時(shí)間被引已達(dá)到350塑荒。2015年以來(lái),被引量最高的宏基因組組裝工具是Megahit姜挺,被引量達(dá)到600+齿税。

組裝工具 發(fā)表雜志 發(fā)表時(shí)間 引用量
MetaSPAdes Genome Research 2017 350
MOCAT2 Bioinformatics 2016 55
Megahit Bioinformatics 2015 611
Anvi’o PeerJ 2015 279
MetAMOS Genome Biology 2013 145
SPAdes Journal of Computational Biology 2012 6241
IDBA-UD Bioinformatics 2012 1350
MetaVelvet Nucleic Acids Research 2012 507
Ray Meta Genome Biology 2012 423
SOAP Bioinformatics 2008 2022
SOAPdenovo2 GigaScience 2012 2371
Omega Bioinformatics 2014 64
MetaVelvet-SL DNA research 2014 51

二、組裝質(zhì)量比較

2018年的一篇綜述從多個(gè)角度比較了宏基因組組裝工具 [1]炊豪。根據(jù)AQI(組裝質(zhì)量指數(shù))MetaSPAdes在組裝質(zhì)量上表現(xiàn)最好凌箕,如Table 1(低復(fù)雜度數(shù)據(jù)),Table 2(高復(fù)雜度數(shù)據(jù))词渤。
組裝質(zhì)量指數(shù)(AQI) = N50 * 基因組覆蓋度 * (1 - RAE) * (1 - RUC)
RAE:錯(cuò)誤組裝相對(duì)豐度
RUC:未對(duì)齊contig長(zhǎng)度相對(duì)豐度

1.png

2.png

三牵舱、組裝長(zhǎng)度比較

2019年CELL上的一篇文章比較了MetaSPAdes和Megahit組裝結(jié)果中最大組裝contig和N50的差異 [2]。比較用了多個(gè)不同研究的數(shù)據(jù)缺虐,比較結(jié)果顯示MetaSPAdes能比Megahit組裝出更長(zhǎng)的contig芜壁,組裝能力更加出色。比較結(jié)果如下圖,其中藍(lán)星表示MetaSPAdes>Megahit且差異顯著沿盅,黃星表示MetaSPAdes<Megahit且差異顯著把篓,沒(méi)有星表示差異不顯著。

3.png

四腰涧、計(jì)算內(nèi)存需求比較

2017年的一篇文章從多個(gè)方面比較了多個(gè)組裝工具的性能差異 [3]韧掩,比較結(jié)果顯示在內(nèi)存需求方面(2.50 GHz處理器, 504 GB物理內(nèi)存, 8線程,Tara Ocean數(shù)據(jù)集)窖铡,SPAdes是“內(nèi)存最昂貴的” (157 GB RAM)疗锐,其次是Velvet和MetaVelvet (均為109 GB),這比普通臺(tái)式電腦 (16 GB) 的內(nèi)存大得多费彼。
相比之下滑臊,Megahit (11 GB) 和CLC (16 GB) 是內(nèi)存使用效率最高的組裝程序。與其他工具相比箍铲,相同硬件條件下分析相同的數(shù)據(jù)Megahit內(nèi)存需求最小雇卷,速度相對(duì)也比較快,如下表 [3]颠猴。在大樣本項(xiàng)目中关划,對(duì)于內(nèi)存需求>1Tb RAM的數(shù)據(jù)集和非配對(duì)序列優(yōu)先考慮使用Megahit [2]。

4.png

結(jié)束語(yǔ)

基于組裝的宏基因組數(shù)據(jù)分析(如翘瓮,宏基因組分箱)對(duì)工具的準(zhǔn)確性和計(jì)算資源的要求非常的高贮折。宏基因組組裝分為單樣本組裝和共組裝(多樣本合并后組裝)兩種常用的方法。單樣本組裝對(duì)計(jì)算資源的需求相對(duì)較小资盅,推薦使用組裝質(zhì)量最好的MetaSPAdes调榄。共組裝一般輸入數(shù)據(jù)量很大,推薦使用Megahit [2]呵扛。

參考:
1)Practical evaluation of 11 de novo assemblers in metagenome assembly. J. Microbiol. Methods 2018
2)Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle. Cell 2019
3)Assembling metagenomes, one community at a time. BMC Genomics. 2017

\color{green}{????原創(chuàng)文章每庆,碼字不易,轉(zhuǎn)載請(qǐng)注明出處????}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末今穿,一起剝皮案震驚了整個(gè)濱河市扣孟,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌荣赶,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,198評(píng)論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鸽斟,死亡現(xiàn)場(chǎng)離奇詭異拔创,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)富蓄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門(mén)剩燥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事灭红÷绿玻” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,643評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵变擒,是天一觀的道長(zhǎng)君珠。 經(jīng)常有香客問(wèn)我,道長(zhǎng)娇斑,這世上最難降的妖魔是什么策添? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,495評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮毫缆,結(jié)果婚禮上唯竹,老公的妹妹穿的比我還像新娘。我一直安慰自己苦丁,他們只是感情好浸颓,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著旺拉,像睡著了一般产上。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上账阻,一...
    開(kāi)封第一講書(shū)人閱讀 52,156評(píng)論 1 308
  • 那天蒂秘,我揣著相機(jī)與錄音,去河邊找鬼淘太。 笑死姻僧,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蒲牧。 我是一名探鬼主播撇贺,決...
    沈念sama閱讀 40,743評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼冰抢!你這毒婦竟也來(lái)了松嘶?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,659評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤挎扰,失蹤者是張志新(化名)和其女友劉穎翠订,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體遵倦,經(jīng)...
    沈念sama閱讀 46,200評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡尽超,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了梧躺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片似谁。...
    茶點(diǎn)故事閱讀 40,424評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出巩踏,到底是詐尸還是另有隱情秃诵,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評(píng)論 5 349
  • 正文 年R本政府宣布塞琼,位于F島的核電站菠净,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏屈梁。R本人自食惡果不足惜嗤练,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望在讶。 院中可真熱鬧煞抬,春花似錦、人聲如沸构哺。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,264評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)曙强。三九已至残拐,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間碟嘴,已是汗流浹背溪食。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,390評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留娜扇,地道東北人错沃。 一個(gè)月前我還...
    沈念sama閱讀 48,798評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像雀瓢,于是被迫代替她去往敵國(guó)和親枢析。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容