宏基因組分箱(binning)|1.Metabat實戰(zhàn)了解binning

Introduction

宏基因組學(xué)是直接從環(huán)境樣本(如土壤烛亦、水、腸道內(nèi)容物等)中回收遺傳物質(zhì)并進(jìn)行研究的學(xué)科膝迎,無需對個體生物進(jìn)行分離或培養(yǎng)掐禁。這一領(lǐng)域的研究為我們提供了對微生物群落多樣性及其功能的深入理解怜械。可以查看我之前寫的宏基因組分析流程傅事,當(dāng)時想著在另一篇里介紹binning,結(jié)果拖了一年峡扩,哈哈??蹭越,現(xiàn)在補(bǔ)上。

宏基因組分箱(Metagenomics Binning)是一個將宏基因組測序獲得的DNA序列分類為離散組或“bins”的過程教届,這些組基于序列間的相似性來定義响鹃。分箱的目的是將DNA序列分配給其來源的生物或分類群,從而更好地了解樣本中存在的微生物群落的多樣性和功能案训。

分箱得到的較高質(zhì)量bins也可以稱為我們經(jīng)常說的MAGs(Metagenome-Assembled Genomes买置,宏基因組組裝基因組)或者draft genome,MAGs代表從宏基因組數(shù)據(jù)中組裝并分箱出來的完整或幾乎完整的基因組强霎。因為許多微生物無法通過傳統(tǒng)的培養(yǎng)方法進(jìn)行研究忿项,MAGs在環(huán)境微生物學(xué)研究中非常有用,可以做后續(xù)的很多深入分析比如BGCs城舞,進(jìn)化分析等轩触。

常用方法

宏基因組分箱有幾種方法,包括:

  • 基于序列組成的分箱:這種方法基于不同基因組具有獨特的序列組成模式(如GC含量或密碼子使用偏好)的觀察家夺。通過分析宏基因組數(shù)據(jù)中的這些模式脱柱,可以將序列片段分配到單個基因組或基因組組。
  • 基于覆蓋度的分箱:這種方法利用測序讀段的覆蓋深度將它們分組拉馋。來自同一基因組的測序讀段預(yù)期具有相似的覆蓋度榨为,這些信息可以用來識別代表單個基因組或基因組簇的讀段組。
  • 混合分箱:這種方法結(jié)合了基于序列組成和基于覆蓋度的分箱煌茴,以提高分箱結(jié)果的準(zhǔn)確性随闺。通過使用多種信息源,混合分箱可以更好地區(qū)分序列組成模式相似的近緣基因組景馁。
  • 基于聚類的分箱:這種方法根據(jù)序列相似性將序列片段分為多個簇板壮,然后根據(jù)其序列組成和覆蓋度將每個簇分配到一個基因組或基因組簇。此方法對于具有高基因組多樣性的宏基因組數(shù)據(jù)集特別有用合住。
  • 基于監(jiān)督機(jī)器學(xué)習(xí)的分箱:這種方法使用在注釋參考基因組上訓(xùn)練的機(jī)器學(xué)習(xí)算法來將宏基因組數(shù)據(jù)分類到各個分箱绰精。這種方法可以實現(xiàn)高準(zhǔn)確性撒璧,但需要大量的注釋基因組進(jìn)行訓(xùn)練。

這些方法都有其優(yōu)點和局限性笨使,分箱方法的選擇取決于宏基因組數(shù)據(jù)集的具體特征和所解決的研究問題卿樱。

存在挑戰(zhàn)

宏基因組分箱是一個復(fù)雜的過程,涉及許多步驟硫椰,由于過程中可能出現(xiàn)的多個問題繁调,這一過程充滿挑戰(zhàn)。宏基因組分箱中常見的一些問題包括:

  • 高復(fù)雜性:宏基因組樣本包含來自多個生物的DNA靶草,這會導(dǎo)致數(shù)據(jù)的高復(fù)雜性蹄胰。
  • 片段化序列:宏基因組測序通常生成片段化的序列,這使得將讀段分配到正確的分箱變得困難奕翔。
  • 覆蓋度不均:宏基因組樣本中的一些生物可能比其他生物更豐富裕寨,導(dǎo)致不同基因組的覆蓋度不均。
  • 不完整或部分基因組:宏基因組測序可能無法捕獲某個生物的完整基因組派继,這使得準(zhǔn)確分箱該生物的序列變得困難宾袜。
  • 水平基因轉(zhuǎn)移:水平基因轉(zhuǎn)移(HGT)可以使一個生物的遺傳物質(zhì)引入到另一個生物中,從而使宏基因組分箱變得復(fù)雜驾窟。
  • 嵌合序列:由于測序錯誤或污染產(chǎn)生的嵌合序列庆猫,會使得準(zhǔn)確分箱讀段變得困難。
  • 菌株變異:同一物種內(nèi)的生物可以表現(xiàn)出顯著的遺傳變異绅络,這使得區(qū)分宏基因組樣本中不同的菌株變得困難月培。

常用軟件

有許多計算工具可以執(zhí)行宏基因組分箱。以下是一些最廣泛使用的工具:

  1. MaxBin (Wu et al. 2015)
    • 一種流行的從頭分箱算法昨稼,使用序列特征和標(biāo)記基因的組合將重疊群聚類到基因組箱中节视。
  2. MetaBAT2(Kang 等人,2019)
    • 另一種廣泛使用的從頭分箱算法假栓,采用基于四核苷酸頻率和覆蓋信息的分層聚類方法寻行。
  3. CONCOCT(Alneberg et al. 2014)
    • 一種從頭分箱工具,使用基于序列組成和覆蓋信息的聚類算法將重疊群分組到基因組箱中匾荆。
  4. MyCC (Lin and Liao 2016)
    • 一種基于參考的分箱工具拌蜘,使用序列比對來識別屬于同一基因組或分類組的重疊群。
  5. GroopM (Imelfort et al. 2014)
    • 一種混合分箱工具,結(jié)合了基于參考和從頭方法來實現(xiàn)高分箱精度。
  6. MetaWRAP (Uritskiy et al. 2018)
    • 一個全面的宏基因組分析流程座硕,包括用于質(zhì)量控制、組裝举娩、分箱和注釋的各種模塊。
  7. Anvi’o (Eren et al. 2015)
    • 一個用于可視化和分析宏基因組數(shù)據(jù)的平臺,包括分箱铜涉、注釋和比較基因組學(xué)的功能智玻。
  8. SemiBin (Pan et al. 2022)
    • 一種利用深度學(xué)習(xí)進(jìn)行宏基因組分箱的命令行工具,可處理短讀和長讀芙代。

Sczyrba等人在2017年進(jìn)行了一項基準(zhǔn)測試研究吊奢,對多種宏基因組分箱工具的性能進(jìn)行了評估。他們發(fā)現(xiàn)纹烹,Metabat2在準(zhǔn)確性和計算效率方面均優(yōu)于以前的MetaBAT和其他替代方案页滚。所有這些評估都是基于默認(rèn)參數(shù)進(jìn)行的(Sczyrba et al. 2017)。

MetaWRAP是一個非常全面詳細(xì)的流程铺呵,包含了binning上下游的各種分析裹驰,還整合了三種軟件的binning結(jié)果,對于剛開始學(xué)習(xí)binning的核心步驟可能不是很合適片挂。
所以我想先從MetaBAT講起邦马,通過MetaBAT2實戰(zhàn)來了解分箱流程。

參考教程:

Nikolaos Pechlivanis, Fotis E. Psomopoulos, Binning of metagenomic sequencing data (Galaxy Training Materials). https://training.galaxyproject.org/training-material/topics/microbiome/tutorials/metagenomics-binning/tutorial.html Online; accessed Wed May 29 2024

Metabat實戰(zhàn)

以下描述來自MetaBat在Bioinformatics發(fā)表的論文:

Grouping large fragments assembled from shotgun metagenomic sequences to deconvolute complex microbial communities, or metagenome binning, enables the study of individual organisms and their interactions. Here we developed automated metagenome binning software, called MetaBAT, which integrates empirical probabilistic distances of genome abundance and tetranucleotide frequency. On synthetic datasets MetaBAT on average achieves 98percent precision and 90% recall at the strain level with 281 near complete unique genomes. Applying MetaBAT to a human gut microbiome data set we recovered 176 genome bins with 92% precision and 80% recall. Further analyses suggest MetaBAT is able to recover genome fragments missed in reference genomes up to 19%, while 53 genome bins are novel. In summary, we believe MetaBAT is a powerful tool to facilitate comprehensive understanding of complex microbial communities.
— Kang et al, 2019

軟件宴卖,數(shù)據(jù)準(zhǔn)備

使用conda安裝Metabat2非常簡單:

conda install -c bioconda metabat2

另外我們安裝一下后續(xù)會用到的dRep和CheckM

conda install drep checkm-genome -y

CheckM需要下載對應(yīng)數(shù)據(jù)庫:https://data.ace.uq.edu.au/public/CheckM_databases并配置環(huán)境變量:

checkm data setRoot <checkm_data_dir>

本文使用的示例數(shù)據(jù)來自https://zenodo.org/records/7818827,這是基于咖啡發(fā)酵系統(tǒng)研究的6個原始數(shù)據(jù)集生成的模擬數(shù)據(jù)集邻悬。

里面已經(jīng)提供了雙端fastq測序文件和組裝好的contigs症昏,我們直接下載下列鏈接即可:

https://zenodo.org/api/records/7818827/files-archive

Binning

Metabat2 需要以組裝的contigs(fasta格式)和覆蓋信息(bam格式)的形式輸入宏基因組測序數(shù)據(jù)。具體而言父丰,Metabat2 需要兩個輸入文件:

  1. fasta文件:包含組裝的contigs肝谭,可以使用MEGAHIT、SPAdes或IDBA-UD等組裝工具從原始宏基因組測序讀段生成蛾扇。

  2. bam文件:包含每個contig的讀段覆蓋信息攘烛,可以使用Bowtie2或BWA等比對軟件從相同的測序讀段生成。

此外镀首,Metabat2 還需要一個配置文件坟漱,用于指定分箱過程的各種參數(shù)和選項,如最小contig長度更哄、要生成的最大簇數(shù)以及最大預(yù)期污染水平芋齿。

具體流程:

  1. 組裝contigs

    • 使用MEGAHIT、SPAdes或IDBA-UD等工具組裝測序讀段成翩,生成contigs.fasta文件觅捆。
    megahit -1 reads_1.fq -2 reads_2.fq -o output_dir
    
  2. 生成覆蓋信息

    • 使用Bowtie2或BWA將讀段比對到組裝的contigs上,并生成bam文件麻敌。
    bowtie2-build contigs.fasta contigs
    bowtie2 -x contigs -1 reads_1.fq -2 reads_2.fq -S alignment.sam
    samtools view -bS alignment.sam > alignment.bam
    samtools sort alignment.bam -o sorted_alignment.bam
    samtools index sorted_alignment.bam
    
  3. 生成覆蓋深度文件

    • 使用MetaBAT提供的工具計算每個contig的覆蓋深度栅炒。
    jgi_summarize_bam_contig_depths --outputDepth depth.txt sorted_alignment.bam
    
  4. 運行Metabat2

    • 使用Metabat2進(jìn)行分箱。
    metabat2 -i contigs.fasta -a depth.txt -o bins_dir/bin
    
  5. 配置文件

    • Metabat2 可以使用默認(rèn)參數(shù)進(jìn)行運行,但用戶也可以通過配置文件指定參數(shù)赢赊,如最小contig長度乙漓、最大簇數(shù)和最大預(yù)期污染水平。配置文件的內(nèi)容示例如下:
    minContig 1500
    maxClusters 200
    maxExpectedContamination 10
    

分別對上述6個樣本跑這個流程域携,MetaBAT 2生成的輸出文件包括(以下某些文件是可選的簇秒,只有在用戶需要時才會生成):

  1. 最終的基因組分箱(FASTA格式)(.fa文件):包含分箱結(jié)果的基因組序列。
  2. 總結(jié)文件(.txt文件):包含每個基因組分箱的信息秀鞭,包括其長度趋观、完整性、污染度和分類信息锋边。
  3. 映射結(jié)果文件(.bam文件):顯示每個contig如何被分配到基因組分箱皱坛。
  4. 基因組分箱豐度估算文件(.txt文件):包含每個基因組分箱的豐度估算信息。
  5. 基因組分箱覆蓋率文件(.txt文件):包含每個基因組分箱的覆蓋率信息豆巨。
  6. 基因組分箱的核苷酸組成文件(.txt文件):包含每個基因組分箱的核苷酸組成信息剩辟。
  7. 預(yù)測的基因序列文件(.faa文件):包含每個基因組分箱的預(yù)測基因序列。

輸出文件示例:

  1. 基因組分箱文件(.fa)

    • 包含分箱后的基因組序列往扔,每個文件代表一個基因組bin贩猎。
    >bin1_contig1
    ATGCGT...
    >bin1_contig2
    ATGCGT...
    
  2. 總結(jié)文件(.txt)

    • 包含每個基因組分箱的詳細(xì)信息,如長度萍膛、完整性吭服、污染度等。
    Bin ID    Length    Completeness    Contamination    Taxonomy
    bin1      3.2 Mb    95%             2%               Bacteria
    bin2      4.1 Mb    90%             5%               Archaea
    
  3. 映射結(jié)果文件(.bam)

    • 包含contigs如何被分配到基因組分箱的映射信息蝗罗。
  4. 豐度估算文件(.txt)

    • 包含每個基因組分箱在樣本中的豐度估算艇棕。
    Bin ID    Abundance
    bin1      0.25
    bin2      0.30
    
  5. 覆蓋率文件(.txt)

    • 包含每個基因組分箱的覆蓋率信息。
    Bin ID    Coverage
    bin1      30x
    bin2      25x
    
  6. 核苷酸組成文件(.txt)

    • 包含每個基因組分箱的核苷酸組成信息串塑。
    Bin ID    GC Content
    bin1      45%
    bin2      50%
    
  7. 預(yù)測基因序列文件(.faa)

    • 包含每個基因組分箱的預(yù)測蛋白質(zhì)序列沼琉。
    >bin1_gene1
    MKTIIALSYIFCLVFA
    >bin1_gene2
    MKSVIIFLCLCVFA
    

這些輸出文件可以進(jìn)一步分析并用于下游應(yīng)用,例如功能注釋桩匪、比較基因組學(xué)和系統(tǒng)發(fā)育分析打瘪。

binning整體流程還是比較慢的,我們也可以下載已經(jīng)跑好的結(jié)果(下面鏈接)看看去做后續(xù)分析:

https://zenodo.org/api/records/7845138/files-archive

里面包含了6個樣本單樣本binning的結(jié)果吸祟,每個樣本各3~8個bins瑟慈。

Checking quality

在宏基因組分箱完成后,評估其質(zhì)量非常重要屋匕。CheckM (Parks et al. 2015) 是一個常用的評估分箱質(zhì)量的工具葛碧。CheckM 使用一組在幾乎所有細(xì)菌和古菌基因組中存在的通用單拷貝標(biāo)記基因來評估基因組分箱的完整性和污染度。

  • CheckM 的關(guān)鍵功能
  1. 基因組完整性估計
    • CheckM 使用一組通用單拷貝標(biāo)記基因來估計基因組分箱的完整性过吻。完整性得分表示這些標(biāo)記基因中有多少比例存在于分箱中进泼,從而提供了回收基因組的程度估計蔗衡。
  2. 基因組污染度估計
    • CheckM 也使用同一組標(biāo)記基因來估計基因組分箱的污染度。污染度得分表示在多個分箱中發(fā)現(xiàn)的標(biāo)記基因的比例乳绕,這表明該基因組分箱可能包含來自多個生物的DNA绞惦。
  3. 潛在錯誤組裝的識別
    • CheckM 可以根據(jù)標(biāo)記基因在基因組中的分布識別潛在的錯誤組裝。
  4. 結(jié)果可視化
    • CheckM 能生成各種圖表和表格來可視化基因組分箱的完整性洋措、污染度和其他質(zhì)量指標(biāo)济蝉,使得結(jié)果更易于解釋。
  5. 分類學(xué)分類
    • CheckM 也可以基于特定標(biāo)記基因的存在對基因組分箱進(jìn)行分類菠发,提供從域到種的不同分類水平的信息王滤。
  • 使用 CheckM 進(jìn)行評估

以下是使用 CheckM 的一個示例工作流程,主要使用 lineage_wf 工作流程來評估基因組分箱的完整性和污染度滓鸠,并進(jìn)行分類學(xué)分類:

  1. 準(zhǔn)備輸入數(shù)據(jù)
    將你的分箱結(jié)果(通常是FASTA文件格式)準(zhǔn)備好雁乡。

    mkdir bins
    mv bin*.fa bins/
    
  2. 運行 CheckM lineage_wf
    使用 lineage_wf 工作流程來評估基因組分箱。

    checkm lineage_wf -x fa bins/ checkm_output/ -t 4
    

    參數(shù)解釋:

    • -x fa 指定文件擴(kuò)展名為 .fa糜俗。
    • bins/ 是輸入分箱文件的目錄踱稍。
    • checkm_output/ 是輸出結(jié)果的目錄。
    • -t 4 指定使用 4 個線程悠抹。

    Lineage_wf(更準(zhǔn)確)珠月,taxonomy_wf(更快)。

  3. 查看結(jié)果
    運行完成后楔敌,結(jié)果會保存在 checkm_output 目錄中桥温。你可以查看主要的結(jié)果文件 bins_stats 以獲得每個分箱的完整性和污染度等信息。

“CheckM lineage_wf”的輸出包括多個文件和表格梁丘,提供了有關(guān)基因組分箱的分類和質(zhì)量評估的信息。以下是一些關(guān)鍵的輸出內(nèi)容:

  1. 輸出報告(CheckM Lineage Workflow Output Report)
    • 該報告提供了 CheckM 進(jìn)行的質(zhì)量評估的總結(jié)旺韭。包括分析的基因組數(shù)量氛谜、它們的完整性、污染度及其他質(zhì)量指標(biāo)区端。
  2. 特定譜系的質(zhì)量評估(Lineage-specific Quality Assessment)
    • CheckM 為每個分析的基因組生成特定譜系的質(zhì)量評估文件值漫。這些文件包含基于分類譜系的基因組完整性和污染度的詳細(xì)信息。
  3. 標(biāo)記集分析(Marker Set Analysis)
    • CheckM 使用一組標(biāo)記基因來估計基因組的完整性和污染度织盼。工具生成標(biāo)記特定分析文件杨何,提供分析基因組中每個標(biāo)記基因的存在、缺失和拷貝數(shù)的詳細(xì)信息沥邻。
  4. 可視化(Visualizations)
    • CheckM 生成各種可視化圖表危虱,以幫助解釋結(jié)果。這些圖包括譜系特定的完整性和污染度圖唐全、散點圖及其他數(shù)據(jù)的可視化表示埃跷。
  5. 表格和數(shù)據(jù)文件(Tables and Data Files)
    • CheckM 生成包含分析基因組詳細(xì)信息的表格數(shù)據(jù)文件蕊玷,包括它們的名稱、分類分配弥雹、完整性評分垃帅、污染度評分和其他相關(guān)指標(biāo)。這些文件對于進(jìn)一步的下游分析或數(shù)據(jù)處理非常有用剪勿。
  • 示例輸出文件和解釋
  1. 輸出報告文件
    • checkm_output/storage/bin_stats_ext.tsv:包含每個分箱的詳細(xì)統(tǒng)計信息贸诚,如完整性、污染度厕吉、標(biāo)記基因數(shù)目等酱固,自行整理為表格:
    Bin Id  Completeness  Contamination  Strain heterogeneity
    bin1    98.5          1.2            0.0
    bin2    85.4          4.7            0.5
    
  2. 譜系特定質(zhì)量評估文件
    • checkm_output/lineage.ms:包含每個基因組分箱的譜系特定質(zhì)量評估信息,自行整理為表格:
    bin1    Bacteria;Proteobacteria;Gammaproteobacteria   98.5   1.2
    bin2    Bacteria;Firmicutes;Bacilli                  85.4   4.7
    
  3. 標(biāo)記基因分析文件
    • checkm_output/marker_gene_stats.tsv:提供分析基因組中每個標(biāo)記基因的存在赴涵、缺失和拷貝數(shù)的詳細(xì)信息媒怯,自行整理為表格:
    Bin Id  Marker gene   Presence  Copy number
    bin1    rplA          Present   1
    bin1    rplB          Present   1
    bin2    rplA          Present   2
    bin2    rplB          Absent    0
    
  4. 可視化文件
    • checkm_output/plots/ 目錄包含各種圖表,如完整性和污染度的散點圖髓窜、譜系特定的完整性和污染度圖等扇苞。

De-replication

去冗余(De-replication)是識別基因組列表中“相同”基因組集合的過程,并從每個冗余集合中去除除“最佳”基因組之外的所有其他基因組寄纵”罘螅基因組需要多相似才被認(rèn)為是“相同的”、如何確定哪個基因組是“最佳的”以及其他重要決策將在重要概念中討論程拭。

去冗余的一個常見用途是針對個別宏基因組數(shù)據(jù)的組裝定踱。如果宏基因組樣本是按系列收集的,一種常見的組裝短讀段的方法是“共組裝”恃鞋。即將所有樣本的讀段結(jié)合在一起進(jìn)行組裝崖媚。然而,這樣做的問題是恤浪,相似菌株的組裝會嚴(yán)重導(dǎo)致組裝的片段化畅哑,妨礙獲得一個好的基因組分箱。

一種替代方案是分別組裝每個樣本水由,然后對每個組裝結(jié)果中的分箱進(jìn)行去冗余荠呐,以生成最終的基因組集合。

MetaBAT 2 并不會明確地執(zhí)行去冗余過程砂客,即在給定的數(shù)據(jù)集中識別相同或高度相似的基因組組泥张。相反,MetaBAT 2 主要通過利用讀段覆蓋率鞠值、樣本間的差異覆蓋率和序列組成等特征來提高分箱的準(zhǔn)確性媚创。它的目標(biāo)是區(qū)分宏基因組數(shù)據(jù)集中不同的基因組,并將contigs分配到適當(dāng)?shù)姆窒渲小?/p>

dRep 是一個專門設(shè)計用于宏基因組數(shù)據(jù)集中基因組去冗余的軟件工具彤恶。其目標(biāo)是保留一個代表性基因組集筝野,以改善后續(xù)的分析晌姚,如分類學(xué)分析和功能注釋。

  • dRep 的典型工作流程
  1. 基因組質(zhì)量評估
    • dRep 會運行checkM評估每個簇內(nèi)基因組的質(zhì)量歇竟,考慮因素包括完整性挥唠、污染度和菌株異質(zhì)性。
  2. 基因組比較
    • dRep 使用成對基因組比較方法來評估給定宏基因組數(shù)據(jù)集中基因組之間的相似性焕议。
  3. 聚類
    • 根據(jù)基因組相似性宝磨,dRep 執(zhí)行聚類,將相似基因組分組為“基因組簇”盅安。每個簇代表一組密切相關(guān)的基因組唤锉。
  4. 基因組選擇
    • 在每個基因組簇內(nèi),dRep 根據(jù)用戶定義的標(biāo)準(zhǔn)選擇一個代表性基因組别瞭。這個代表性基因組被視為簇的“去冗余”版本窿祥。
  5. 去冗余輸出
    • dRep 的輸出包括去冗余基因組的信息,包括它們的身份蝙寨、完整性和污染度晒衩。用戶可以選擇一個基因組相似性閾值來控制去冗余的水平。
  • dRep 的使用示例
  1. 準(zhǔn)備輸入文件

    • 將所有要去冗余的基因組文件放在一個目錄中墙歪。
    mkdir genomes
    mv genome1.fasta genome2.fasta ... genomes/
    
  2. 運行dRep

    • 使用 dRep 對基因組進(jìn)行去冗余听系。以下命令會在指定的輸出目錄中執(zhí)行去冗余分析。
    • 相似性閾值:可以通過 --S_algorithm--S_ani 參數(shù)設(shè)置用于基因組聚類的相似性計算方法和閾值虹菲。
    • 質(zhì)量標(biāo)準(zhǔn):可以通過 --completeness靠胜、--contamination 等參數(shù)設(shè)置選擇代表性基因組的質(zhì)量標(biāo)準(zhǔn)。
    dRep dereplicate output_directory -g genomes/*.fasta
    
    • 如果你已經(jīng)自己運行了checkM毕源,可以直接使用 checkM 的輸出文件指定給 --genomeInfo(畢竟checkM也要很久)浪漠。
    • 自己整理bin_info.csv文件,3列霎褐,分別為genome name郑藏,completeness,contamination瘩欺。
    dRep dereplicate output_directory -g genomes/*.fasta --genomeInfo checkm_output/storage/bin_info.csv
    
    • 如果你自行篩選了bins,也就是說你認(rèn)為輸入的都是合格bins拌牲,可以用--ignoreGenomeQuality 忽略質(zhì)量評估俱饿。
    dRep dereplicate output_directory -g genomes/*.fasta --ignoreGenomeQuality
    
  3. 輸出解釋

    • 輸出目錄中將包含多個文件和子目錄,其中包括:
      • dereplicated_genomes:去冗余后的基因組文件塌忽。
      • cluster_reports:包含每個基因組簇的信息拍埠。
      • quality_reports:評估基因組質(zhì)量的報告。

至此土居,我們就完成了使用Metabat2進(jìn)行基因組分箱枣购,使用checkM評估bins以及使用dRep進(jìn)行bins去冗余得到最終的合格bins嬉探,這些是宏基因組binning分析的核心步驟。

后續(xù)可以對得到的MAGs進(jìn)行物種注釋(比如用GTDB-tk)棉圈,功能注釋(比如antismash分析BGCs)涩堤,以及很多基因組級別的深入分析。

References

  1. Alneberg, J., B. S. Bjarnason, I. de Bruijn, M. Schirmer, J. Quick et al., 2014 Binning metagenomic contigs by coverage and composition. Nature Methods 11: 1144–1146. https://doi.org/10.1038/nmeth.3103
  2. Imelfort, M., D. Parks, B. J. Woodcroft, P. Dennis, P. Hugenholtz et al., 2014 GroopM: an automated tool for the recovery of population genomes from related metagenomes. PeerJ 2: e603. https://doi.org/10.7717/peerj.603
  3. Eren, A. M., ?zcan C. Esen, C. Quince, J. H. Vineis, H. G. Morrison et al., 2015 Anvi’o: an advanced analysis and visualization platform for ‘omics data. PeerJ 3: e1319. https://doi.org/10.7717/peerj.1319
  4. Parks, D. H., M. Imelfort, C. T. Skennerton, P. Hugenholtz, and G. W. Tyson, 2015 CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes. Genome Research 25: 1043–1055. https://doi.org/10.1101/gr.186072.114
  5. Wu, Y.-W., B. A. Simmons, and S. W. Singer, 2015 MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets. Bioinformatics 32: 605–607. https://doi.org/10.1093/bioinformatics/btv638
  6. Lin, H.-H., and Y.-C. Liao, 2016 Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes. Scientific Reports 6: https://doi.org/10.1038/srep24175
  7. Sczyrba, A., P. Hofmann, P. Belmann, D. Koslicki, S. Janssen et al., 2017 Critical Assessment of Metagenome Interpretation—a benchmark of metagenomics software. Nature Methods 14: 1063–1071. https://doi.org/10.1038/nmeth.4458
  8. Uritskiy, G. V., J. DiRuggiero, and J. Taylor, 2018 MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis. Microbiome 6: https://doi.org/10.1186/s40168-018-0541-1
  9. Kang, D. D., F. Li, E. Kirton, A. Thomas, R. Egan et al., 2019 Metabat2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies. PeerJ 7: e7359. https://doi.org/10.7717/peerj.7359
  10. Evans, J. T., and V. J. Denef, 2020 To Dereplicate or Not To Dereplicate? mSphere 5: e00971–19. Publisher: American Society for Microbiology. https://doi.org/10.1128/mSphere.00971-19
  11. Pan, S., C. Zhu, X.-M. Zhao, and L. P. Coelho, 2022 A deep siamese neural network improves metagenome-assembled genomes in microbiome datasets across different environments. Nature Communications 13: https://doi.org/10.1038/s41467-022-29843-y
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末分瘾,一起剝皮案震驚了整個濱河市胎围,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌德召,老刑警劉巖白魂,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異上岗,居然都是意外死亡福荸,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進(jìn)店門肴掷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來敬锐,“玉大人,你說我怎么就攤上這事捆等≈驮欤” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵栋烤,是天一觀的道長谒养。 經(jīng)常有香客問我,道長明郭,這世上最難降的妖魔是什么买窟? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮薯定,結(jié)果婚禮上始绍,老公的妹妹穿的比我還像新娘。我一直安慰自己话侄,他們只是感情好亏推,可當(dāng)我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著年堆,像睡著了一般吞杭。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上变丧,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天芽狗,我揣著相機(jī)與錄音,去河邊找鬼痒蓬。 笑死童擎,一個胖子當(dāng)著我的面吹牛滴劲,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播顾复,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼班挖,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了捕透?” 一聲冷哼從身側(cè)響起聪姿,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎乙嘀,沒想到半個月后末购,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡虎谢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年盟榴,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片婴噩。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡擎场,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出几莽,到底是詐尸還是另有隱情迅办,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布章蚣,位于F島的核電站站欺,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏纤垂。R本人自食惡果不足惜矾策,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望峭沦。 院中可真熱鬧贾虽,春花似錦、人聲如沸吼鱼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽菇肃。三九已至地粪,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間巷送,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工矛辕, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留笑跛,地道東北人付魔。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像飞蹂,于是被迫代替她去往敵國和親几苍。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容