導(dǎo)讀
宏基因組組裝工具非常多涝焙。如何從眾多組裝工具中選擇適合組裝自己的宏基因組測(cè)序數(shù)據(jù)的工具呢卑笨?為了解決這個(gè)問(wèn)題,我搜集了一些近些年已發(fā)表的宏基因組組裝工具仑撞,并且利用已發(fā)表文章的數(shù)據(jù)分析了這些組裝工具的性能赤兴。從比較結(jié)果來(lái)看妖滔,MetaSPAdes和Megahit在組裝上都有著各自出眾的優(yōu)勢(shì)。MetaSPAdes準(zhǔn)確性高桶良,適合做單樣品組裝座舍。Megahit對(duì)計(jì)算內(nèi)存需求相對(duì)最小,速度更快陨帆,適合做多樣本共組裝曲秉。本篇內(nèi)容分為以下四塊:1) 組裝工具盤(pán)點(diǎn);2)組裝質(zhì)量比較疲牵;3)組裝長(zhǎng)度比較承二;4)計(jì)算內(nèi)存需求比較。
一瑰步、組裝工具盤(pán)點(diǎn)
通過(guò)閱讀宏基因組分析相關(guān)文獻(xiàn)矢洲,我整理了近些年常用的宏基因組組裝工具,如下表缩焦。表中的被引量來(lái)自google學(xué)術(shù)(僅供參考)读虏。從表中可以看出,SPAdes是最受宏基因組研究者青睞的組裝工具袁滥,被引量達(dá)到6000+盖桥,遙遙領(lǐng)先于其他工具。SPAdes現(xiàn)在已經(jīng)更新到了第三版题翻,即SPAdes 3揩徊。SPAdes中的‘--meta’功能,即MetaSPAdes在2017年單獨(dú)發(fā)表在Genome Research上嵌赠,僅2年的時(shí)間被引已達(dá)到350塑荒。2015年以來(lái),被引量最高的宏基因組組裝工具是Megahit姜挺,被引量達(dá)到600+齿税。
組裝工具 | 發(fā)表雜志 | 發(fā)表時(shí)間 | 引用量 |
---|---|---|---|
MetaSPAdes | Genome Research | 2017 | 350 |
MOCAT2 | Bioinformatics | 2016 | 55 |
Megahit | Bioinformatics | 2015 | 611 |
Anvi’o | PeerJ | 2015 | 279 |
MetAMOS | Genome Biology | 2013 | 145 |
SPAdes | Journal of Computational Biology | 2012 | 6241 |
IDBA-UD | Bioinformatics | 2012 | 1350 |
MetaVelvet | Nucleic Acids Research | 2012 | 507 |
Ray Meta | Genome Biology | 2012 | 423 |
SOAP | Bioinformatics | 2008 | 2022 |
SOAPdenovo2 | GigaScience | 2012 | 2371 |
Omega | Bioinformatics | 2014 | 64 |
MetaVelvet-SL | DNA research | 2014 | 51 |
二、組裝質(zhì)量比較
2018年的一篇綜述從多個(gè)角度比較了宏基因組組裝工具 [1]炊豪。根據(jù)AQI(組裝質(zhì)量指數(shù))MetaSPAdes在組裝質(zhì)量上表現(xiàn)最好凌箕,如Table 1(低復(fù)雜度數(shù)據(jù)),Table 2(高復(fù)雜度數(shù)據(jù))词渤。
組裝質(zhì)量指數(shù)(AQI) = N50 * 基因組覆蓋度 * (1 - RAE) * (1 - RUC)
RAE:錯(cuò)誤組裝相對(duì)豐度
RUC:未對(duì)齊contig長(zhǎng)度相對(duì)豐度
三牵舱、組裝長(zhǎng)度比較
2019年CELL上的一篇文章比較了MetaSPAdes和Megahit組裝結(jié)果中最大組裝contig和N50的差異 [2]。比較用了多個(gè)不同研究的數(shù)據(jù)缺虐,比較結(jié)果顯示MetaSPAdes能比Megahit組裝出更長(zhǎng)的contig芜壁,組裝能力更加出色。比較結(jié)果如下圖,其中藍(lán)星表示MetaSPAdes>Megahit且差異顯著沿盅,黃星表示MetaSPAdes<Megahit且差異顯著把篓,沒(méi)有星表示差異不顯著。
四腰涧、計(jì)算內(nèi)存需求比較
2017年的一篇文章從多個(gè)方面比較了多個(gè)組裝工具的性能差異 [3]韧掩,比較結(jié)果顯示在內(nèi)存需求方面(2.50 GHz處理器, 504 GB物理內(nèi)存, 8線程,Tara Ocean數(shù)據(jù)集)窖铡,SPAdes是“內(nèi)存最昂貴的” (157 GB RAM)疗锐,其次是Velvet和MetaVelvet (均為109 GB),這比普通臺(tái)式電腦 (16 GB) 的內(nèi)存大得多费彼。
相比之下滑臊,Megahit (11 GB) 和CLC (16 GB) 是內(nèi)存使用效率最高的組裝程序。與其他工具相比箍铲,相同硬件條件下分析相同的數(shù)據(jù)Megahit內(nèi)存需求最小雇卷,速度相對(duì)也比較快,如下表 [3]颠猴。在大樣本項(xiàng)目中关划,對(duì)于內(nèi)存需求>1Tb RAM的數(shù)據(jù)集和非配對(duì)序列優(yōu)先考慮使用Megahit [2]。
結(jié)束語(yǔ)
基于組裝的宏基因組數(shù)據(jù)分析(如翘瓮,宏基因組分箱)對(duì)工具的準(zhǔn)確性和計(jì)算資源的要求非常的高贮折。宏基因組組裝分為單樣本組裝和共組裝(多樣本合并后組裝)兩種常用的方法。單樣本組裝對(duì)計(jì)算資源的需求相對(duì)較小资盅,推薦使用組裝質(zhì)量最好的MetaSPAdes调榄。共組裝一般輸入數(shù)據(jù)量很大,推薦使用Megahit [2]呵扛。
參考:
1)Practical evaluation of 11 de novo assemblers in metagenome assembly. J. Microbiol. Methods 2018
2)Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle. Cell 2019
3)Assembling metagenomes, one community at a time. BMC Genomics. 2017