宏基因組分箱(binning)|2. MetaWRAP實(shí)戰(zhàn)深入binning

Introduction

上一篇里通過(guò)Metabat2了解了宏基因組分箱的關(guān)鍵步驟,這篇文章將介紹一個(gè)更全面的binning流程:MetaWRAP的具體使用方法。

MetaWRAP 是一個(gè)集成的宏基因組分析工具包被丧,旨在簡(jiǎn)化和提高宏基因組數(shù)據(jù)的處理、分析和解釋。它結(jié)合了多個(gè)獨(dú)立的宏基因組分析工具麻裳,提供了一系列模塊來(lái)處理從原始數(shù)據(jù)質(zhì)控到基因組注釋的各個(gè)步驟,側(cè)重于宏基因組Binning器钟。本質(zhì)來(lái)說(shuō)津坑,MetaWRAP并不是一種新的binning方法,而是一個(gè)整合其他binning方法的refiner傲霸。

MetaWRAP的文章于2018年發(fā)表于Microbiome疆瑰,軟件主頁(yè):https://github.com/bxlab/metaWRAP,到今天也沒(méi)有重大更新昙啄,但仍然可以比較流暢的使用穆役。以下是metaWRAP的主要工作流程:

圖中紅色代表分析模塊,綠色代表宏基因組數(shù)據(jù)梳凛,橙色代表中間文件孵睬,藍(lán)色代表結(jié)果圖表。

更詳細(xì)的工作流程請(qǐng)查看官方細(xì)節(jié)圖伶跷,還是非常復(fù)雜的掰读。

modules

MetaWRAP的主要功能模塊包括:

宏基因組數(shù)據(jù)預(yù)處理模塊

  1. 質(zhì)控Read_QC: read質(zhì)控剪切和移除人類(lèi)宿主
  2. 組裝Assembly: 使用megahit或metaSPAdes拼接
  3. 物種注釋Kraken: 對(duì)reads和contigs層面進(jìn)行可視化

這幾步不一定要在MetaWRAP的流程中完成,我們?cè)谧鰟e的分析時(shí)可能已經(jīng)做完了這幾步叭莫,只需要將組裝后的contigs拿去后續(xù)的Bin處理模塊即可蹈集。

分箱Bin處理模塊

  1. 分箱Binning: 利用MaxBin2, metaBAT2, 和CONCOCT三個(gè)軟件分別分箱;
  2. 提純Bin_refinement:對(duì)多種Bin結(jié)果評(píng)估和綜合分析雇初,獲得更好的結(jié)果拢肆;
  3. 重組裝Reassemble_bins:利用原始序列和評(píng)估軟件二次組裝,改善Bin的N50靖诗、完整度郭怪;
  4. 定量Quant_bins: 估計(jì)樣品中每個(gè)bin的豐度并熱圖展示;
  5. 氣泡圖Blobology: blobplots可視化群體的contigs的物種和Bin分布刊橘;
  6. 物種注釋Classify_bins: 對(duì)Bin物種注釋?zhuān)?/li>
  7. 基因注釋Annotate_bins: 預(yù)測(cè)Bin中的基因功能鄙才。

MetaWRAP實(shí)戰(zhàn)

軟件,數(shù)據(jù)準(zhǔn)備

  • 安裝

MetaWRAP的資源需求根據(jù)處理的數(shù)據(jù)量而有很大差異促绵。由于許多使用的軟件(KRAKEN 和 metaSPAdes 等)需要大量?jī)?nèi)存攒庵,作者建議使用 8 個(gè)以上內(nèi)核和 64GB 以上 RAM嘴纺。實(shí)際使用感覺(jué)要更多,Binning確實(shí)算是比較耗時(shí)耗算力的分析了浓冒。

MetaWRAP依賴(lài)超過(guò)140個(gè)軟件栽渴,而且很多都是之前的老版本(python用的還是2.7),很容易引起與已經(jīng)安裝的軟件沖突稳懒。
強(qiáng)烈推薦使用conda創(chuàng)建一個(gè)虛擬環(huán)境再安裝闲擦。

conda可能也會(huì)比較慢,畢竟軟件太多了场梆,一定要耐心墅冷,裝好了之后很多依賴(lài)軟件也可以單拎出來(lái)使用;或者參考軟件主頁(yè)方法辙谜,先用conda裝好mamba(可以認(rèn)為是一個(gè)升級(jí)版的更快的conda)俺榆,再用mamba去裝MetaWRAP感昼。

conda create -n metawrap python=2.7
source activate metawrap

# ORDER IS IMPORTANT!!!
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels ursky

conda install -c ursky metawrap-mg

祝你安裝順利装哆!

安裝完成后可以看一下命令行參數(shù):

$metaWRAP -h

MetaWRAP v=1.3.2
用法:metaWRAP [模塊]

    模塊:
    read_qc     原始讀段質(zhì)控模塊(讀段剪切和污染去除)
    assembly    組裝模塊(宏基因組組裝)
    kraken      KRAKEN 模塊(讀段和組裝的分類(lèi)注釋?zhuān)?    kraken2     KRAKEN2 模塊(讀段和組裝的分類(lèi)注釋?zhuān)?    blobology   Blobology 模塊(contigs 和 bins 的 GC vs Abund 圖)

    binning     分箱模塊(metabat, maxbin 或 concoct)
    bin_refinement  分箱模塊的精細(xì)化
    reassemble_bins 使用宏基因組讀段重新組裝 bins
    quant_bins  量化每個(gè) bin 在樣本中的豐度
    classify_bins   對(duì)基因組 bin 進(jìn)行分類(lèi)注釋
    annotate_bins   草圖基因組的功能注釋

    --help | -h     顯示此幫助信息
    --version | -v  顯示 metaWRAP 版本
    --show-config   顯示 metaWRAP 配置文件的存儲(chǔ)位置
  • 配置數(shù)據(jù)庫(kù)

conda安裝軟件并不帶數(shù)據(jù)庫(kù),需要手動(dòng)下載數(shù)據(jù)庫(kù)定嗓,并設(shè)置數(shù)據(jù)庫(kù)的位置蜕琴。

主要大小和依賴(lài)模塊如下:

Database Size Used in module
Checkm 1.4GB binning, bin_refinement, reassemble_bins
KRAKEN 192GB kraken
NCBI_nt 99GB blobology, classify_bins
NCBI_tax 283MB blobology, classify_bins
Indexed hg38 34GB read_qc

這里的根據(jù)需求裝就好了,如果不需要某個(gè)模塊宵溅,就不需要下載對(duì)應(yīng)的數(shù)據(jù)庫(kù)凌简。如果實(shí)驗(yàn)室已經(jīng)有人下載過(guò)了最好設(shè)置軟鏈接到自己目錄并加可讀權(quán)限即可,否則手動(dòng)下載這些還是比較耗時(shí)的恃逻。

我們盡量把數(shù)據(jù)庫(kù)放在一起比如~/db/下雏搂,方便管理和使用。

  1. CheckM 數(shù)據(jù)庫(kù)
# 創(chuàng)建存儲(chǔ)目錄
cd ~/db
mkdir checkm
# 設(shè)置CheckM數(shù)據(jù)存儲(chǔ)位置
checkm data setRoot ~/db/checkm
# 手動(dòng)下載數(shù)據(jù)庫(kù)
cd ~/db/checkm
wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
# 解壓下載的數(shù)據(jù)庫(kù)
tar -xvf checkm_data_2015_01_16.tar.gz
# 刪除壓縮文件
rm checkm_data_2015_01_16.tar.gz
  1. Kraken 數(shù)據(jù)庫(kù)
# 創(chuàng)建存儲(chǔ)目錄
cd ~/db
mkdir kraken
# 下載和建索引標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)
kraken-build --standard --threads 24 --db ~/db/kraken
# 清理臨時(shí)文件
kraken-build --db ~/db/kraken --clean
  1. NCBI_nt 數(shù)據(jù)庫(kù)

NCBI_nt 是一個(gè)非冗余核酸序列數(shù)據(jù)庫(kù)寇损,用于BLAST搜索凸郑。

# 創(chuàng)建存儲(chǔ)目錄
cd ~/db
mkdir NCBI_nt
cd NCBI_nt
# 下載數(shù)據(jù)庫(kù)文件
wget -c "ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz"
# 解壓所有下載的文件
for a in nt.*.tar.gz; do tar xzf $a; done
  1. NCBI 物種信息數(shù)據(jù)庫(kù)
# 創(chuàng)建存儲(chǔ)目錄
cd ~/db
mkdir NCBI_tax
cd NCBI_tax
# 下載數(shù)據(jù)庫(kù)文件,可以找適合自己的版本
wget https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
# 解壓下載的數(shù)據(jù)庫(kù)
tar -xvf taxdump.tar.gz
  1. 人類(lèi)基因組 BMTAGGER 索引

BMTAGGER 是一個(gè)用于從宏基因組數(shù)據(jù)中去除宿主基因組序列的工具矛市。我們將下載并索引人類(lèi)基因組 hg38芙沥。

# 創(chuàng)建存儲(chǔ)目錄
mkdir ~/db/BMTAGGER_INDEX
cd ~/db/BMTAGGER_INDEX
# 下載人類(lèi)基因組序列
wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/*fa.gz
# 解壓所有下載的文件
gunzip *fa.gz
# 合并所有染色體序列
cat *.fa > hg38.fa
# 刪除單個(gè)染色體文件
rm chr*.fa
# 創(chuàng)建 bitmask 索引
bmtool -d hg38.fa -o hg38.bitmask
# 創(chuàng)建 srprism 索引
srprism mkindex -i hg38.fa -o hg38.srprism -M 100000

下載完自己需要的數(shù)據(jù)庫(kù)后,使用which config-metawrap命令查找配置文件位置浊吏,配置文件為config-metawrap而昨,然后再用vim修改這個(gè)配置文件中的數(shù)據(jù)庫(kù)地址即可,比如:

# path to kraken standard database
KRAKEN2_DB=~/db/kraken
# path to indexed human (or other host) genome (see metaWRAP website for guide). This includes .bitmask and .srprism files
BMTAGGER_DB=~/db/BMTAGGER_INDEX
# paths to BLAST databases
BLASTDB=~/db/NCBI_nt
TAXDUMP=~/db/NCBI_tax
  • 示例數(shù)據(jù)

本文使用的示例數(shù)據(jù)和上一篇推文一致找田,來(lái)自https://zenodo.org/records/7818827歌憨,這是基于咖啡發(fā)酵系統(tǒng)研究的6個(gè)原始數(shù)據(jù)集生成的模擬數(shù)據(jù)集。

里面已經(jīng)提供了雙端fastq測(cè)序文件和組裝好的contigs墩衙,我們直接下載下列鏈接即可:

https://zenodo.org/api/records/7818827/files-archive

把其中的雙端fastq測(cè)序文件放在reads文件夾下躺孝,解壓一下后綴改為.fastq享扔。
組裝好的contigs放在contigs文件夾下,把6個(gè)樣本名寫(xiě)入到samplelist植袍。

ls contigs|sed -E 's/contigs_(ERR[0-9]+)\.fasta/\1/' > samplelist

分箱Binning

假設(shè)我們已經(jīng)完成了宏基因組數(shù)據(jù)預(yù)處理模塊的內(nèi)容惧眠,測(cè)序的reads已經(jīng)質(zhì)控并組裝過(guò)了(也可以參考之前寫(xiě)的宏基因組分析流程)。我們從contigs開(kāi)始進(jìn)行binning分析:

for i in `cat samplelist`
do
    metawrap binning -o INITIAL_BINNING_${i} -t 2 -m 4 -a contigs/contigs_${i}.fasta \
     --metabat2 --maxbin2 --concoct reads/${i}*.fastq
done
  • Binning模塊的具體參數(shù):
$ metawrap binning -h

用法:metaWRAP binning [選項(xiàng)] -a assembly.fa -o output_dir readsA_1.fastq readsA_2.fastq ... [readsX_1.fastq readsX_2.fastq]
注意1:請(qǐng)確保提供所有單獨(dú)的重復(fù)讀段文件于个,而不是合并的文件氛魁。
注意2:您也可以使用正確的選項(xiàng)提供單端或交錯(cuò)的讀段。
注意3:如果輸出目錄中已有來(lái)自之前運(yùn)行的 .bam 比對(duì)文件厅篓,此模塊將跳過(guò)重新比對(duì)讀段的步驟秀存。

選項(xiàng):

    -a STR          宏基因組組裝文件
    -o STR          輸出目錄
    -t INT          線(xiàn)程數(shù)(默認(rèn)=1)
    -m INT      可用內(nèi)存大小(默認(rèn)=4)
    -l INT      進(jìn)行分箱的最小contig長(zhǎng)度(默認(rèn)=1000bp)羽氮。注意:metaBAT 默認(rèn)最小為1500bp

    --metabat2      使用 metaBAT2 對(duì) contig 進(jìn)行分箱
    --metabat1  使用原版 metaBAT 對(duì) contig 進(jìn)行分箱
    --maxbin2   使用 MaxBin2 對(duì) contig 進(jìn)行分箱
    --concoct   使用 CONCOCT 對(duì) contig 進(jìn)行分箱

    --universal 在 MaxBin2 中使用通用標(biāo)記基因而不是細(xì)菌標(biāo)記基因(提高古菌分箱效果)
    --run-checkm    在分箱結(jié)果上立即運(yùn)行 CheckM(需要 40GB+ 內(nèi)存)
    --single-end    非配對(duì)讀段模式(提供 *.fastq 文件)
    --interleaved   輸入的讀段文件包含交錯(cuò)的配對(duì)讀段
  • 輸出文件:
    • concoct_bins或链,maxbin2_bins骇扇,metabat2_bins:三個(gè)目錄為三種bin的結(jié)果
    • work_files:三種bin分析所需要的文件吊宋,如不同格式的bin覆蓋度或豐度信息。
  • 運(yùn)行情況(參考):
    • 單樣本reads 一個(gè)文件(*.fastq)為600M讼溺,組裝后的contig為100M
    • 2核cpu令宿,運(yùn)行時(shí)間為1500s
    • 平均內(nèi)存占用1.1G叼耙,最大內(nèi)存占用1.3G
    • 結(jié)果 concoct_bins,maxbin2_bins粒没,metabat2_bins分別有30筛婉,4,5個(gè)MAGs

提純Bin_refinement

三種主流bin結(jié)果各有優(yōu)缺點(diǎn)癞松,我們需要對(duì)這些初步分箱結(jié)果進(jìn)行進(jìn)一步的提純和優(yōu)化爽撒。

我們可以把所有樣本的結(jié)果添加樣本名前綴后,合并在同一文件夾中响蓉,使用metaWRAP的bin_refinement模塊來(lái)提純分箱結(jié)果:

推薦(默認(rèn))使用完整度70硕勿,污染率10的閾值。要求越高厕妖,bin越少首尼,請(qǐng)根據(jù)個(gè)人需要調(diào)整。這里的測(cè)序數(shù)據(jù)較小言秸,僅使用50和10級(jí)別的閾值软能。

metawrap bin_refinement -o REFINED_BINS -t 4 -c 50 -x 10 \
    -A INITIAL_BINNING/maxbin2_bins -B INITIAL_BINNING/metabat2_bins -C INITIAL_BINNING/concoct_bins
  • Bin_refinement模塊的具體參數(shù):
$ metawrap bin_refinement -h

用法:metaWRAP bin_refinement [選項(xiàng)] -o output_dir -A bin_folderA [-B bin_folderB -C bin_folderC]
注意1:請(qǐng)?zhí)峁┲辽賰蓚€(gè)獨(dú)立的bin結(jié)果集合進(jìn)行提純。
注意2:輸出目錄必須為空举畸,以確保結(jié)果不會(huì)被覆蓋查排。

選項(xiàng):

    -o STR          輸出目錄
    -t INT          線(xiàn)程數(shù)(默認(rèn)=1)
    -m INT          可用內(nèi)存大小(默認(rèn)=4)
    -c FLOAT        完整性閾值(默認(rèn)=70.0)
    -x FLOAT        污染度閾值(默認(rèn)=10.0)
    
    -A STR          第一個(gè)分箱結(jié)果集合目錄
    -B STR          第二個(gè)分箱結(jié)果集合目錄
    -C STR          第三個(gè)分箱結(jié)果集合目錄(可選)
    
    --skip-refinement 不要使用binning_refiner來(lái)根據(jù)binner輸出的組合來(lái)提出精煉的bins
    --skip-checkm   跳過(guò)CheckM步驟
    --skip-consolidation  從所有bin細(xì)化迭代中選擇每個(gè)bin的最佳版本
    --keep-ambiguous  對(duì)于最終在多個(gè)bin中的配置抄沮,將它們保存在所有bin中(默認(rèn):僅將它們保存在最佳bin中)
    --remove-ambiguous  對(duì)于最終在多個(gè)bin中的配置跋核,將它們從所有bin中刪除(默認(rèn):僅將它們保留在最佳bin中)
    --quick         為checkm添加--reduced_tree選項(xiàng)岖瑰,減少運(yùn)行時(shí)間,特別是在內(nèi)存不足的情況下
  • 輸出文件:
    • concoct_bins砂代,maxbin2_bins蹋订,metabat2_bins:三個(gè)目錄為三種bin在Refine后保留的結(jié)果
    • concoct_bins.stats,maxbin2_bins.stats刻伊,metabat2_bins.stats:三個(gè)文件為三種bin在Refine后的統(tǒng)計(jì)信息
    • metawrap_50_10_bins:提純后的bin文件目錄露戒,包括最終的提純bin。
    • metawrap_50_10_bins.stats:提純后的bin文件目錄捶箱,包括最終的提純bin智什。
    • work_files:提純過(guò)程中產(chǎn)生的中間文件。
    • *.contigs:contigs
    • figures:提純過(guò)程中產(chǎn)生的圖表丁屎。
  • 運(yùn)行情況(參考):
    • concoct_bins荠锭,maxbin2_bins,metabat2_bins輸入分別有30晨川,4证九,5個(gè)MAGs
    • 4核cpu,運(yùn)行時(shí)間為3926s
    • 平均內(nèi)存占用30GB础爬,最大內(nèi)存占用36GB

.stat文件包含每個(gè)bin的統(tǒng)計(jì):完整性甫贯、污染率吼鳞、GC含量看蚜、物種、N50赔桌、大小和來(lái)源:

bin completeness    contamination   GC  lineage N50 size    binner
bin.1   83.60   1.340   0.389   Lactobacillales 4991    1574040 binsB

figures里展示了提純效果:


重組裝Reassemble_bins (可選)

重組裝模塊用于使用原始的宏基因組測(cè)序數(shù)據(jù)重新組裝已經(jīng)分箱的基因組草圖供炎。這個(gè)模塊可以幫助提高基因組的連續(xù)性和完整性,進(jìn)一步優(yōu)化分箱結(jié)果疾党。

reassemble_bins基于原始reads對(duì)結(jié)果優(yōu)化音诫,只有結(jié)果更優(yōu)的情況,才對(duì)結(jié)果進(jìn)行更新雪位。

metawrap reassemble_bins -o BIN_REASSEMBLY -1 reads/ALL_READS_1.fastq -2 reads/ALL_READS_2.fastq -t 4 -m 800 -c 50 -x 10 -b REFINED_BINS/metaWRAP_bins
  • Reassemble_bins模塊的具體參數(shù):
$ metawrap reassemble_bins -h

用法:metawrap reassemble_bins -o 輸出目錄 -b 分箱結(jié)果文件夾 -1 正向測(cè)序文件.fastq -2 反向測(cè)序文件.fastq

選項(xiàng):
    -b STR:包含已分箱的基因組草圖的文件夾路徑竭钝。
    -o STR:指定輸出目錄。
    -1 STR:用于重新組裝的正向測(cè)序文件雹洗。
    -2 STR:用于重新組裝的反向測(cè)序文件香罐。
    
    -t INT:線(xiàn)程數(shù),默認(rèn)為1时肿。
    -m INT:內(nèi)存大斜用!(GB),默認(rèn)為40螃成。
    -c INT:期望的最小分箱完成度百分比旦签,默認(rèn)為70查坪。
    -x INT:期望的最大分箱污染度百分比,默認(rèn)為10宁炫。
    -l INT:包含在重新組裝中的最小contig長(zhǎng)度偿曙,默認(rèn)為500。
    
    --strict-cut-off:嚴(yán)格讀取映射的最大允許SNP數(shù)羔巢,默認(rèn)為2遥昧。
    --permissive-cut-off:寬容讀取映射的最大允許SNP數(shù),默認(rèn)為5朵纷。
    --skip-checkm:跳過(guò)對(duì)分箱結(jié)果的CheckM評(píng)估炭臭。
    --parallel:并行運(yùn)行Spades重新組裝,但每個(gè)分箱只使用一個(gè)線(xiàn)程袍辞。
  • 輸出文件:
    • reassembled_bins:重新組裝過(guò)的基因組草圖文件夾鞋仍,包含了進(jìn)一步優(yōu)化和改進(jìn)后的基因組序列。
    • reassembled_bins.stats:重組裝過(guò)程的總結(jié)文件搅吁,包含了每個(gè)基因組草圖的改進(jìn)信息和指標(biāo)威创。

我沒(méi)有跑這一步,用時(shí)一般比較久谎懦。

定量Quant_bins

在完成分箱和提純步驟后肚豺,我們需要對(duì)各個(gè)bin進(jìn)行定量分析,評(píng)估每個(gè)bin在不同樣本中的相對(duì)豐度界拦。
合并一下所有的contigs文件為all_contigs.fasta:

metawrap quant_bins -b REFINED_BINS/metawrap_50_10_bins -t 4 -o QUANT_BINS -a contigs/all_contigs.fasta reads/*_1.fastq reads/*_2.fastq
  • Quant_bins模塊的具體參數(shù):
$ metawrap quant_bins -h

用法:metaWRAP quant_bins [選項(xiàng)] -b bins_folder -o output_dir -a assembly.fa readsA_1.fastq readsA_2.fastq ... [readsX_1.fastq readsX_2.fastq]

選項(xiàng):

    -b STR          提純后的bin目錄
    -o STR          輸出目錄
    -t INT          線(xiàn)程數(shù)(默認(rèn)=1)
    -a STR          宏基因組組裝文件
  • 輸出文件:
    • bin_abundance_table.tab:每個(gè)樣本中每個(gè)bin的相對(duì)豐度表格吸申。
    • assembly_index:salmon 給contigs建立的index。
    • alignment_files:salmon 對(duì)每個(gè)樣本進(jìn)行定量后生成的文件享甸。
    • quant_files:salmon 提出的count文件截碴。
    • genome_abundance_heatmap.png:每個(gè)樣本中每個(gè)bin的豐度熱圖。
  • 運(yùn)行情況(參考):
    • 單樣本reads 一個(gè)文件(*.fastq)為600M蛉威,組裝后的contig為100M日丹,合格MAG一個(gè)bin為1.6M
    • 4核cpu,運(yùn)行時(shí)間為302s
    • 平均內(nèi)存占用2.8G蚯嫌,最大內(nèi)存占用3G
    • 結(jié)果 concoct_bins哲虾,maxbin2_bins,metabat2_bins分別有30择示,4束凑,5個(gè)MAGs
    • 一個(gè)MAG繪制熱圖失敗,理論上會(huì)有下列豐度熱圖:

這個(gè)模塊通過(guò)將reads映射回bin对妄,并計(jì)算每個(gè)bin在不同樣本中的覆蓋度湘今,從而定量分析每個(gè)bin的相對(duì)豐度。這樣可以幫助我們了解各個(gè)微生物群體在不同樣本中的分布和豐度變化剪菱。

氣泡圖Blobology

Blobology模塊用于生成氣泡圖摩瞎,以便可視化contigs或bins的GC含量與豐度的關(guān)系拴签。這種可視化方法可以幫助我們識(shí)別和分離不同來(lái)源的序列,檢測(cè)可能的污染旗们,并了解樣本中的微生物群體組成蚓哩。

metawrap blobology --bins REFINED_BINS/metawrap_50_10_bins -t 4 -o BLOBOLOGY -a contigs/all_contigs.fasta reads/*_1.fastq reads/*_2.fastq
  • Blobology模塊的具體參數(shù):
$ metawrap blobology -h

用法:metaWRAP blobology [選項(xiàng)] -a assembly.fasta -o output_dir readsA_1.fastq readsA_2.fastq [readsB_1.fastq readsB_2.fastq ...]

選項(xiàng):

    -a STR          組裝的fasta文件
    -o STR          輸出目錄
    -t INT          線(xiàn)程數(shù)

    --subsample INT 對(duì)contig進(jìn)行子采樣分析的數(shù)量。子采樣是隨機(jī)的上渴。(默認(rèn)=所有)
    --bins STR      包含bin的文件夾岸梨。contig名稱(chēng)必須與組裝文件匹配。(默認(rèn)=None)
  • 輸出文件:
    • blobplot.png:GC含量與豐度的氣泡圖稠氮。
    • all_contigs.binned.blobplot:圖表中數(shù)據(jù)點(diǎn)的詳細(xì)信息曹阔,包括每個(gè)contig的GC含量、豐度和bin分配隔披。

NT數(shù)據(jù)庫(kù)實(shí)在太大了赃份,我沒(méi)有跑這個(gè),看一下理論輸出:

通過(guò)氣泡圖奢米,我們可以直觀(guān)地看到每個(gè)contig或bin的GC含量與其在樣本中的豐度抓韩。不同來(lái)源的序列通常會(huì)顯示出不同的GC含量和豐度模式,從而在圖中形成不同的群體鬓长。這種可視化方法對(duì)于識(shí)別和去除樣本中的污染序列以及了解樣本的微生物群體結(jié)構(gòu)非常有用谒拴。

物種注釋Classify_bins

物種注釋模塊用于對(duì)提純后的基因組bin進(jìn)行分類(lèi)學(xué)注釋。這個(gè)過(guò)程可以幫助我們確定每個(gè)bin所屬的物種或更高的分類(lèi)層次涉波,從而更好地理解樣本中的微生物群落組成英上。

其實(shí)Bin提純和重組裝中,在checkM的stat文件中怠蹂,就有物種的注釋結(jié)果善延,但軟件和數(shù)據(jù)庫(kù)都不完善少态〕遣啵基于NCBI_nt和NCBI_tax數(shù)據(jù)庫(kù),MetaWRAP使用 MEGABLAST和Taxator-tk 進(jìn)行每條contig物種注釋?zhuān)俟烙?jì)bin整體的物種彼妻。

另外物種注釋可以使用GTDB-Tk和GTDB數(shù)據(jù)庫(kù)嫌佑,因?yàn)樗鼘?zhuān)門(mén)針對(duì)微生物基因組的分類(lèi)進(jìn)行了優(yōu)化,但也可以選擇使用其他分類(lèi)數(shù)據(jù)庫(kù)侨歉,如Kraken屋摇。

metawrap classify_bins -b REFINED_BINS/metawrap_50_10_bins -o BIN_CLASSIFICATION -t 4
  • Classify_bins模塊的具體參數(shù):
$ metawrap classify_bins -h

用法:metaWRAP classify_bins [選項(xiàng)] -b bin_folder -o output_dir

選項(xiàng):

    -b STR          提純后的bin目錄
    -o STR          輸出目錄
    -t INT          線(xiàn)程數(shù)(默認(rèn)=1)
  • 輸出文件:
    • bin_taxonomy.txt:每個(gè)bin的分類(lèi)信息,包括門(mén)幽邓、綱炮温、目、科牵舵、屬柒啤、種等分類(lèi)層次倦挂。
    • bin_quality.txt:每個(gè)bin的質(zhì)量信息,包括完整性担巩、污染度等(如果使用了--run_checkm選項(xiàng))方援。
    • classification_plots:分類(lèi)結(jié)果的可視化圖表,展示各個(gè)bin在不同分類(lèi)層次上的分布情況涛癌。
    • work_files:分類(lèi)分析過(guò)程中產(chǎn)生的中間文件犯戏。

NT數(shù)據(jù)庫(kù)實(shí)在太大了,我也沒(méi)有跑這個(gè)拳话,我一般選擇用GTDB-tk做物種注釋先匪。

基因注釋Annotate_bins

基因注釋模塊用于對(duì)分箱結(jié)果中的基因組草圖進(jìn)行功能注釋。這個(gè)模塊通過(guò)多種數(shù)據(jù)庫(kù)和工具弃衍,對(duì)基因組中的編碼基因序列進(jìn)行預(yù)測(cè)和注釋?zhuān)瑤椭覀兝斫馕⑸锶后w的功能特性胚鸯。

MetaWRAP基于PROKKA進(jìn)行基因預(yù)測(cè)和注釋?zhuān){(diào)用Barrnap 預(yù)測(cè)rRNA,Aragorn預(yù)測(cè)tRNA笨鸡。

metawrap annotate_bins -b REFINED_BINS/metawrap_50_10_bins -o FUNCT_ANNOT -t 4 
  • Annotate_bins模塊的具體參數(shù):
$ metawrap annotate_bins -h

用法:metaWRAP annotate_bins [選項(xiàng)] -b bin_folder -o output_dir

選項(xiàng):

    -b STR          包含分箱結(jié)果的文件夾
    -o STR          輸出目錄
    -t INT          線(xiàn)程數(shù)
  • 輸出文件:
    • bin_funct_annotations/*.gff:每個(gè)bin的注釋GFF文件
    • bin_translated_genes/*.faa:每個(gè)bin的翻譯蛋白序列文件
    • bin_untranslated_genes/*.fna:每個(gè)bin的未翻譯蛋白序列文件
    • prokka_out:Prokka預(yù)測(cè)結(jié)果原始文件
  • 運(yùn)行情況(參考):
    • 一個(gè)合格MAGbin姜钳,1.6M
    • 4核cpu,運(yùn)行時(shí)間為405s
    • 平均內(nèi)存占用0.6G形耗,最大內(nèi)存占用0.83G

基因注釋的話(huà)我們還可以把MAGs的所有fasta序列合并起來(lái)哥桥,用prodigal統(tǒng)一預(yù)測(cè)基因并翻譯為蛋白序列,然后用序列比對(duì)軟件diamond比對(duì)各種功能數(shù)據(jù)庫(kù)比如KEGG激涤,Eggnog拟糕,CARD等進(jìn)行注釋整理,從而進(jìn)行更深入的功能分析倦踢。

References

  1. Uritskiy, G. V., DiRuggiero, J., & Taylor, J. (2018). MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis. Microbiome, 6(1), 158.
  2. https://github.com/bxlab/metaWRAP
  3. https://github.com/bxlab/metaWRAP/blob/master/Usage_tutorial.md
  4. https://mp.weixin.qq.com/s/Ecn4DOrhfUhz1HynbgQtnw
  5. https://mp.weixin.qq.com/s/WrbKYybTCKab3AUcSzUWqg
  6. https://blog.csdn.net/woodcorpse/article/details/118124686
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末送滞,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子辱挥,更是在濱河造成了極大的恐慌犁嗅,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件晤碘,死亡現(xiàn)場(chǎng)離奇詭異褂微,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)园爷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)宠蚂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人童社,你說(shuō)我怎么就攤上這事求厕。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵呀癣,是天一觀(guān)的道長(zhǎng)旅东。 經(jīng)常有香客問(wèn)我,道長(zhǎng)十艾,這世上最難降的妖魔是什么抵代? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮忘嫉,結(jié)果婚禮上荤牍,老公的妹妹穿的比我還像新娘。我一直安慰自己庆冕,他們只是感情好康吵,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著访递,像睡著了一般晦嵌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上拷姿,一...
    開(kāi)封第一講書(shū)人閱讀 49,111評(píng)論 1 285
  • 那天惭载,我揣著相機(jī)與錄音,去河邊找鬼响巢。 笑死描滔,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的踪古。 我是一名探鬼主播含长,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼伏穆!你這毒婦竟也來(lái)了拘泞?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤枕扫,失蹤者是張志新(化名)和其女友劉穎陪腌,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體铡原,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡偷厦,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了燕刻。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡剖笙,死狀恐怖卵洗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤过蹂,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布十绑,位于F島的核電站,受9級(jí)特大地震影響酷勺,放射性物質(zhì)發(fā)生泄漏本橙。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一脆诉、第九天 我趴在偏房一處隱蔽的房頂上張望甚亭。 院中可真熱鬧,春花似錦击胜、人聲如沸亏狰。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)暇唾。三九已至,卻和暖如春辰斋,著一層夾襖步出監(jiān)牢的瞬間策州,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工宫仗, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留抽活,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓锰什,卻偏偏與公主長(zhǎng)得像下硕,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子汁胆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容