Introduction
上一篇里通過(guò)Metabat2了解了宏基因組分箱的關(guān)鍵步驟,這篇文章將介紹一個(gè)更全面的binning流程:MetaWRAP的具體使用方法。
MetaWRAP 是一個(gè)集成的宏基因組分析工具包被丧,旨在簡(jiǎn)化和提高宏基因組數(shù)據(jù)的處理、分析和解釋。它結(jié)合了多個(gè)獨(dú)立的宏基因組分析工具麻裳,提供了一系列模塊來(lái)處理從原始數(shù)據(jù)質(zhì)控到基因組注釋的各個(gè)步驟,側(cè)重于宏基因組Binning器钟。本質(zhì)來(lái)說(shuō)津坑,MetaWRAP并不是一種新的binning方法,而是一個(gè)整合其他binning方法的refiner傲霸。
MetaWRAP的文章于2018年發(fā)表于Microbiome疆瑰,軟件主頁(yè):https://github.com/bxlab/metaWRAP,到今天也沒(méi)有重大更新昙啄,但仍然可以比較流暢的使用穆役。以下是metaWRAP的主要工作流程:
圖中紅色代表分析模塊,綠色代表宏基因組數(shù)據(jù)梳凛,橙色代表中間文件孵睬,藍(lán)色代表結(jié)果圖表。
更詳細(xì)的工作流程請(qǐng)查看官方細(xì)節(jié)圖伶跷,還是非常復(fù)雜的掰读。
modules
MetaWRAP的主要功能模塊包括:
宏基因組數(shù)據(jù)預(yù)處理模塊
- 質(zhì)控Read_QC: read質(zhì)控剪切和移除人類(lèi)宿主
- 組裝Assembly: 使用megahit或metaSPAdes拼接
- 物種注釋Kraken: 對(duì)reads和contigs層面進(jìn)行可視化
這幾步不一定要在MetaWRAP的流程中完成,我們?cè)谧鰟e的分析時(shí)可能已經(jīng)做完了這幾步叭莫,只需要將組裝后的contigs拿去后續(xù)的Bin處理模塊即可蹈集。
分箱Bin處理模塊
- 分箱Binning: 利用MaxBin2, metaBAT2, 和CONCOCT三個(gè)軟件分別分箱;
- 提純Bin_refinement:對(duì)多種Bin結(jié)果評(píng)估和綜合分析雇初,獲得更好的結(jié)果拢肆;
- 重組裝Reassemble_bins:利用原始序列和評(píng)估軟件二次組裝,改善Bin的N50靖诗、完整度郭怪;
- 定量Quant_bins: 估計(jì)樣品中每個(gè)bin的豐度并熱圖展示;
- 氣泡圖Blobology: blobplots可視化群體的contigs的物種和Bin分布刊橘;
- 物種注釋Classify_bins: 對(duì)Bin物種注釋?zhuān)?/li>
- 基因注釋Annotate_bins: 預(yù)測(cè)Bin中的基因功能鄙才。
MetaWRAP實(shí)戰(zhàn)
軟件,數(shù)據(jù)準(zhǔn)備
- 安裝
MetaWRAP的資源需求根據(jù)處理的數(shù)據(jù)量而有很大差異促绵。由于許多使用的軟件(KRAKEN 和 metaSPAdes 等)需要大量?jī)?nèi)存攒庵,作者建議使用 8 個(gè)以上內(nèi)核和 64GB 以上 RAM嘴纺。實(shí)際使用感覺(jué)要更多,Binning確實(shí)算是比較耗時(shí)耗算力的分析了浓冒。
MetaWRAP依賴(lài)超過(guò)140個(gè)軟件栽渴,而且很多都是之前的老版本(python用的還是2.7),很容易引起與已經(jīng)安裝的軟件沖突稳懒。
強(qiáng)烈推薦使用conda創(chuàng)建一個(gè)虛擬環(huán)境再安裝闲擦。
conda可能也會(huì)比較慢,畢竟軟件太多了场梆,一定要耐心墅冷,裝好了之后很多依賴(lài)軟件也可以單拎出來(lái)使用;或者參考軟件主頁(yè)方法辙谜,先用conda裝好mamba(可以認(rèn)為是一個(gè)升級(jí)版的更快的conda)俺榆,再用mamba去裝MetaWRAP感昼。
conda create -n metawrap python=2.7
source activate metawrap
# ORDER IS IMPORTANT!!!
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels ursky
conda install -c ursky metawrap-mg
祝你安裝順利装哆!
安裝完成后可以看一下命令行參數(shù):
$metaWRAP -h
MetaWRAP v=1.3.2
用法:metaWRAP [模塊]
模塊:
read_qc 原始讀段質(zhì)控模塊(讀段剪切和污染去除)
assembly 組裝模塊(宏基因組組裝)
kraken KRAKEN 模塊(讀段和組裝的分類(lèi)注釋?zhuān)? kraken2 KRAKEN2 模塊(讀段和組裝的分類(lèi)注釋?zhuān)? blobology Blobology 模塊(contigs 和 bins 的 GC vs Abund 圖)
binning 分箱模塊(metabat, maxbin 或 concoct)
bin_refinement 分箱模塊的精細(xì)化
reassemble_bins 使用宏基因組讀段重新組裝 bins
quant_bins 量化每個(gè) bin 在樣本中的豐度
classify_bins 對(duì)基因組 bin 進(jìn)行分類(lèi)注釋
annotate_bins 草圖基因組的功能注釋
--help | -h 顯示此幫助信息
--version | -v 顯示 metaWRAP 版本
--show-config 顯示 metaWRAP 配置文件的存儲(chǔ)位置
- 配置數(shù)據(jù)庫(kù)
conda安裝軟件并不帶數(shù)據(jù)庫(kù),需要手動(dòng)下載數(shù)據(jù)庫(kù)定嗓,并設(shè)置數(shù)據(jù)庫(kù)的位置蜕琴。
主要大小和依賴(lài)模塊如下:
Database | Size | Used in module |
---|---|---|
Checkm | 1.4GB | binning, bin_refinement, reassemble_bins |
KRAKEN | 192GB | kraken |
NCBI_nt | 99GB | blobology, classify_bins |
NCBI_tax | 283MB | blobology, classify_bins |
Indexed hg38 | 34GB | read_qc |
這里的根據(jù)需求裝就好了,如果不需要某個(gè)模塊宵溅,就不需要下載對(duì)應(yīng)的數(shù)據(jù)庫(kù)凌简。如果實(shí)驗(yàn)室已經(jīng)有人下載過(guò)了最好設(shè)置軟鏈接到自己目錄并加可讀權(quán)限即可,否則手動(dòng)下載這些還是比較耗時(shí)的恃逻。
我們盡量把數(shù)據(jù)庫(kù)放在一起比如~/db/
下雏搂,方便管理和使用。
- CheckM 數(shù)據(jù)庫(kù)
# 創(chuàng)建存儲(chǔ)目錄
cd ~/db
mkdir checkm
# 設(shè)置CheckM數(shù)據(jù)存儲(chǔ)位置
checkm data setRoot ~/db/checkm
# 手動(dòng)下載數(shù)據(jù)庫(kù)
cd ~/db/checkm
wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
# 解壓下載的數(shù)據(jù)庫(kù)
tar -xvf checkm_data_2015_01_16.tar.gz
# 刪除壓縮文件
rm checkm_data_2015_01_16.tar.gz
- Kraken 數(shù)據(jù)庫(kù)
# 創(chuàng)建存儲(chǔ)目錄
cd ~/db
mkdir kraken
# 下載和建索引標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)
kraken-build --standard --threads 24 --db ~/db/kraken
# 清理臨時(shí)文件
kraken-build --db ~/db/kraken --clean
- NCBI_nt 數(shù)據(jù)庫(kù)
NCBI_nt 是一個(gè)非冗余核酸序列數(shù)據(jù)庫(kù)寇损,用于BLAST搜索凸郑。
# 創(chuàng)建存儲(chǔ)目錄
cd ~/db
mkdir NCBI_nt
cd NCBI_nt
# 下載數(shù)據(jù)庫(kù)文件
wget -c "ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz"
# 解壓所有下載的文件
for a in nt.*.tar.gz; do tar xzf $a; done
- NCBI 物種信息數(shù)據(jù)庫(kù)
# 創(chuàng)建存儲(chǔ)目錄
cd ~/db
mkdir NCBI_tax
cd NCBI_tax
# 下載數(shù)據(jù)庫(kù)文件,可以找適合自己的版本
wget https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
# 解壓下載的數(shù)據(jù)庫(kù)
tar -xvf taxdump.tar.gz
- 人類(lèi)基因組 BMTAGGER 索引
BMTAGGER 是一個(gè)用于從宏基因組數(shù)據(jù)中去除宿主基因組序列的工具矛市。我們將下載并索引人類(lèi)基因組 hg38芙沥。
# 創(chuàng)建存儲(chǔ)目錄
mkdir ~/db/BMTAGGER_INDEX
cd ~/db/BMTAGGER_INDEX
# 下載人類(lèi)基因組序列
wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/*fa.gz
# 解壓所有下載的文件
gunzip *fa.gz
# 合并所有染色體序列
cat *.fa > hg38.fa
# 刪除單個(gè)染色體文件
rm chr*.fa
# 創(chuàng)建 bitmask 索引
bmtool -d hg38.fa -o hg38.bitmask
# 創(chuàng)建 srprism 索引
srprism mkindex -i hg38.fa -o hg38.srprism -M 100000
下載完自己需要的數(shù)據(jù)庫(kù)后,使用which config-metawrap
命令查找配置文件位置浊吏,配置文件為config-metawrap而昨,然后再用vim修改這個(gè)配置文件中的數(shù)據(jù)庫(kù)地址即可,比如:
# path to kraken standard database
KRAKEN2_DB=~/db/kraken
# path to indexed human (or other host) genome (see metaWRAP website for guide). This includes .bitmask and .srprism files
BMTAGGER_DB=~/db/BMTAGGER_INDEX
# paths to BLAST databases
BLASTDB=~/db/NCBI_nt
TAXDUMP=~/db/NCBI_tax
- 示例數(shù)據(jù)
本文使用的示例數(shù)據(jù)和上一篇推文一致找田,來(lái)自https://zenodo.org/records/7818827歌憨,這是基于咖啡發(fā)酵系統(tǒng)研究的6個(gè)原始數(shù)據(jù)集生成的模擬數(shù)據(jù)集。
里面已經(jīng)提供了雙端fastq測(cè)序文件和組裝好的contigs墩衙,我們直接下載下列鏈接即可:
https://zenodo.org/api/records/7818827/files-archive
把其中的雙端fastq測(cè)序文件放在reads文件夾下躺孝,解壓一下后綴改為.fastq享扔。
組裝好的contigs放在contigs文件夾下,把6個(gè)樣本名寫(xiě)入到samplelist植袍。
ls contigs|sed -E 's/contigs_(ERR[0-9]+)\.fasta/\1/' > samplelist
分箱Binning
假設(shè)我們已經(jīng)完成了宏基因組數(shù)據(jù)預(yù)處理模塊的內(nèi)容惧眠,測(cè)序的reads已經(jīng)質(zhì)控并組裝過(guò)了(也可以參考之前寫(xiě)的宏基因組分析流程)。我們從contigs開(kāi)始進(jìn)行binning分析:
for i in `cat samplelist`
do
metawrap binning -o INITIAL_BINNING_${i} -t 2 -m 4 -a contigs/contigs_${i}.fasta \
--metabat2 --maxbin2 --concoct reads/${i}*.fastq
done
- Binning模塊的具體參數(shù):
$ metawrap binning -h
用法:metaWRAP binning [選項(xiàng)] -a assembly.fa -o output_dir readsA_1.fastq readsA_2.fastq ... [readsX_1.fastq readsX_2.fastq]
注意1:請(qǐng)確保提供所有單獨(dú)的重復(fù)讀段文件于个,而不是合并的文件氛魁。
注意2:您也可以使用正確的選項(xiàng)提供單端或交錯(cuò)的讀段。
注意3:如果輸出目錄中已有來(lái)自之前運(yùn)行的 .bam 比對(duì)文件厅篓,此模塊將跳過(guò)重新比對(duì)讀段的步驟秀存。
選項(xiàng):
-a STR 宏基因組組裝文件
-o STR 輸出目錄
-t INT 線(xiàn)程數(shù)(默認(rèn)=1)
-m INT 可用內(nèi)存大小(默認(rèn)=4)
-l INT 進(jìn)行分箱的最小contig長(zhǎng)度(默認(rèn)=1000bp)羽氮。注意:metaBAT 默認(rèn)最小為1500bp
--metabat2 使用 metaBAT2 對(duì) contig 進(jìn)行分箱
--metabat1 使用原版 metaBAT 對(duì) contig 進(jìn)行分箱
--maxbin2 使用 MaxBin2 對(duì) contig 進(jìn)行分箱
--concoct 使用 CONCOCT 對(duì) contig 進(jìn)行分箱
--universal 在 MaxBin2 中使用通用標(biāo)記基因而不是細(xì)菌標(biāo)記基因(提高古菌分箱效果)
--run-checkm 在分箱結(jié)果上立即運(yùn)行 CheckM(需要 40GB+ 內(nèi)存)
--single-end 非配對(duì)讀段模式(提供 *.fastq 文件)
--interleaved 輸入的讀段文件包含交錯(cuò)的配對(duì)讀段
- 輸出文件:
- concoct_bins或链,maxbin2_bins骇扇,metabat2_bins:三個(gè)目錄為三種bin的結(jié)果
- work_files:三種bin分析所需要的文件吊宋,如不同格式的bin覆蓋度或豐度信息。
- 運(yùn)行情況(參考):
- 單樣本reads 一個(gè)文件(*.fastq)為600M讼溺,組裝后的contig為100M
- 2核cpu令宿,運(yùn)行時(shí)間為1500s
- 平均內(nèi)存占用1.1G叼耙,最大內(nèi)存占用1.3G
- 結(jié)果 concoct_bins,maxbin2_bins粒没,metabat2_bins分別有30筛婉,4,5個(gè)MAGs
提純Bin_refinement
三種主流bin結(jié)果各有優(yōu)缺點(diǎn)癞松,我們需要對(duì)這些初步分箱結(jié)果進(jìn)行進(jìn)一步的提純和優(yōu)化爽撒。
我們可以把所有樣本的結(jié)果添加樣本名前綴后,合并在同一文件夾中响蓉,使用metaWRAP的bin_refinement模塊來(lái)提純分箱結(jié)果:
推薦(默認(rèn))使用完整度70硕勿,污染率10的閾值。要求越高厕妖,bin越少首尼,請(qǐng)根據(jù)個(gè)人需要調(diào)整。這里的測(cè)序數(shù)據(jù)較小言秸,僅使用50和10級(jí)別的閾值软能。
metawrap bin_refinement -o REFINED_BINS -t 4 -c 50 -x 10 \
-A INITIAL_BINNING/maxbin2_bins -B INITIAL_BINNING/metabat2_bins -C INITIAL_BINNING/concoct_bins
- Bin_refinement模塊的具體參數(shù):
$ metawrap bin_refinement -h
用法:metaWRAP bin_refinement [選項(xiàng)] -o output_dir -A bin_folderA [-B bin_folderB -C bin_folderC]
注意1:請(qǐng)?zhí)峁┲辽賰蓚€(gè)獨(dú)立的bin結(jié)果集合進(jìn)行提純。
注意2:輸出目錄必須為空举畸,以確保結(jié)果不會(huì)被覆蓋查排。
選項(xiàng):
-o STR 輸出目錄
-t INT 線(xiàn)程數(shù)(默認(rèn)=1)
-m INT 可用內(nèi)存大小(默認(rèn)=4)
-c FLOAT 完整性閾值(默認(rèn)=70.0)
-x FLOAT 污染度閾值(默認(rèn)=10.0)
-A STR 第一個(gè)分箱結(jié)果集合目錄
-B STR 第二個(gè)分箱結(jié)果集合目錄
-C STR 第三個(gè)分箱結(jié)果集合目錄(可選)
--skip-refinement 不要使用binning_refiner來(lái)根據(jù)binner輸出的組合來(lái)提出精煉的bins
--skip-checkm 跳過(guò)CheckM步驟
--skip-consolidation 從所有bin細(xì)化迭代中選擇每個(gè)bin的最佳版本
--keep-ambiguous 對(duì)于最終在多個(gè)bin中的配置抄沮,將它們保存在所有bin中(默認(rèn):僅將它們保存在最佳bin中)
--remove-ambiguous 對(duì)于最終在多個(gè)bin中的配置跋核,將它們從所有bin中刪除(默認(rèn):僅將它們保留在最佳bin中)
--quick 為checkm添加--reduced_tree選項(xiàng)岖瑰,減少運(yùn)行時(shí)間,特別是在內(nèi)存不足的情況下
- 輸出文件:
- concoct_bins砂代,maxbin2_bins蹋订,metabat2_bins:三個(gè)目錄為三種bin在Refine后保留的結(jié)果
- concoct_bins.stats,maxbin2_bins.stats刻伊,metabat2_bins.stats:三個(gè)文件為三種bin在Refine后的統(tǒng)計(jì)信息
- metawrap_50_10_bins:提純后的bin文件目錄露戒,包括最終的提純bin。
- metawrap_50_10_bins.stats:提純后的bin文件目錄捶箱,包括最終的提純bin智什。
- work_files:提純過(guò)程中產(chǎn)生的中間文件。
- *.contigs:contigs
- figures:提純過(guò)程中產(chǎn)生的圖表丁屎。
- 運(yùn)行情況(參考):
- concoct_bins荠锭,maxbin2_bins,metabat2_bins輸入分別有30晨川,4证九,5個(gè)MAGs
- 4核cpu,運(yùn)行時(shí)間為3926s
- 平均內(nèi)存占用30GB础爬,最大內(nèi)存占用36GB
.stat文件包含每個(gè)bin的統(tǒng)計(jì):完整性甫贯、污染率吼鳞、GC含量看蚜、物種、N50赔桌、大小和來(lái)源:
bin completeness contamination GC lineage N50 size binner
bin.1 83.60 1.340 0.389 Lactobacillales 4991 1574040 binsB
figures里展示了提純效果:
重組裝Reassemble_bins (可選)
重組裝模塊用于使用原始的宏基因組測(cè)序數(shù)據(jù)重新組裝已經(jīng)分箱的基因組草圖供炎。這個(gè)模塊可以幫助提高基因組的連續(xù)性和完整性,進(jìn)一步優(yōu)化分箱結(jié)果疾党。
reassemble_bins基于原始reads對(duì)結(jié)果優(yōu)化音诫,只有結(jié)果更優(yōu)的情況,才對(duì)結(jié)果進(jìn)行更新雪位。
metawrap reassemble_bins -o BIN_REASSEMBLY -1 reads/ALL_READS_1.fastq -2 reads/ALL_READS_2.fastq -t 4 -m 800 -c 50 -x 10 -b REFINED_BINS/metaWRAP_bins
- Reassemble_bins模塊的具體參數(shù):
$ metawrap reassemble_bins -h
用法:metawrap reassemble_bins -o 輸出目錄 -b 分箱結(jié)果文件夾 -1 正向測(cè)序文件.fastq -2 反向測(cè)序文件.fastq
選項(xiàng):
-b STR:包含已分箱的基因組草圖的文件夾路徑竭钝。
-o STR:指定輸出目錄。
-1 STR:用于重新組裝的正向測(cè)序文件雹洗。
-2 STR:用于重新組裝的反向測(cè)序文件香罐。
-t INT:線(xiàn)程數(shù),默認(rèn)為1时肿。
-m INT:內(nèi)存大斜用!(GB),默認(rèn)為40螃成。
-c INT:期望的最小分箱完成度百分比旦签,默認(rèn)為70查坪。
-x INT:期望的最大分箱污染度百分比,默認(rèn)為10宁炫。
-l INT:包含在重新組裝中的最小contig長(zhǎng)度偿曙,默認(rèn)為500。
--strict-cut-off:嚴(yán)格讀取映射的最大允許SNP數(shù)羔巢,默認(rèn)為2遥昧。
--permissive-cut-off:寬容讀取映射的最大允許SNP數(shù),默認(rèn)為5朵纷。
--skip-checkm:跳過(guò)對(duì)分箱結(jié)果的CheckM評(píng)估炭臭。
--parallel:并行運(yùn)行Spades重新組裝,但每個(gè)分箱只使用一個(gè)線(xiàn)程袍辞。
- 輸出文件:
- reassembled_bins:重新組裝過(guò)的基因組草圖文件夾鞋仍,包含了進(jìn)一步優(yōu)化和改進(jìn)后的基因組序列。
- reassembled_bins.stats:重組裝過(guò)程的總結(jié)文件搅吁,包含了每個(gè)基因組草圖的改進(jìn)信息和指標(biāo)威创。
我沒(méi)有跑這一步,用時(shí)一般比較久谎懦。
定量Quant_bins
在完成分箱和提純步驟后肚豺,我們需要對(duì)各個(gè)bin進(jìn)行定量分析,評(píng)估每個(gè)bin在不同樣本中的相對(duì)豐度界拦。
合并一下所有的contigs文件為all_contigs.fasta:
metawrap quant_bins -b REFINED_BINS/metawrap_50_10_bins -t 4 -o QUANT_BINS -a contigs/all_contigs.fasta reads/*_1.fastq reads/*_2.fastq
- Quant_bins模塊的具體參數(shù):
$ metawrap quant_bins -h
用法:metaWRAP quant_bins [選項(xiàng)] -b bins_folder -o output_dir -a assembly.fa readsA_1.fastq readsA_2.fastq ... [readsX_1.fastq readsX_2.fastq]
選項(xiàng):
-b STR 提純后的bin目錄
-o STR 輸出目錄
-t INT 線(xiàn)程數(shù)(默認(rèn)=1)
-a STR 宏基因組組裝文件
- 輸出文件:
- bin_abundance_table.tab:每個(gè)樣本中每個(gè)bin的相對(duì)豐度表格吸申。
- assembly_index:salmon 給contigs建立的index。
- alignment_files:salmon 對(duì)每個(gè)樣本進(jìn)行定量后生成的文件享甸。
- quant_files:salmon 提出的count文件截碴。
- genome_abundance_heatmap.png:每個(gè)樣本中每個(gè)bin的豐度熱圖。
- 運(yùn)行情況(參考):
- 單樣本reads 一個(gè)文件(*.fastq)為600M蛉威,組裝后的contig為100M日丹,合格MAG一個(gè)bin為1.6M
- 4核cpu,運(yùn)行時(shí)間為302s
- 平均內(nèi)存占用2.8G蚯嫌,最大內(nèi)存占用3G
- 結(jié)果 concoct_bins哲虾,maxbin2_bins,metabat2_bins分別有30择示,4束凑,5個(gè)MAGs
- 一個(gè)MAG繪制熱圖失敗,理論上會(huì)有下列豐度熱圖:
這個(gè)模塊通過(guò)將reads映射回bin对妄,并計(jì)算每個(gè)bin在不同樣本中的覆蓋度湘今,從而定量分析每個(gè)bin的相對(duì)豐度。這樣可以幫助我們了解各個(gè)微生物群體在不同樣本中的分布和豐度變化剪菱。
氣泡圖Blobology
Blobology模塊用于生成氣泡圖摩瞎,以便可視化contigs或bins的GC含量與豐度的關(guān)系拴签。這種可視化方法可以幫助我們識(shí)別和分離不同來(lái)源的序列,檢測(cè)可能的污染旗们,并了解樣本中的微生物群體組成蚓哩。
metawrap blobology --bins REFINED_BINS/metawrap_50_10_bins -t 4 -o BLOBOLOGY -a contigs/all_contigs.fasta reads/*_1.fastq reads/*_2.fastq
- Blobology模塊的具體參數(shù):
$ metawrap blobology -h
用法:metaWRAP blobology [選項(xiàng)] -a assembly.fasta -o output_dir readsA_1.fastq readsA_2.fastq [readsB_1.fastq readsB_2.fastq ...]
選項(xiàng):
-a STR 組裝的fasta文件
-o STR 輸出目錄
-t INT 線(xiàn)程數(shù)
--subsample INT 對(duì)contig進(jìn)行子采樣分析的數(shù)量。子采樣是隨機(jī)的上渴。(默認(rèn)=所有)
--bins STR 包含bin的文件夾岸梨。contig名稱(chēng)必須與組裝文件匹配。(默認(rèn)=None)
- 輸出文件:
- blobplot.png:GC含量與豐度的氣泡圖稠氮。
- all_contigs.binned.blobplot:圖表中數(shù)據(jù)點(diǎn)的詳細(xì)信息曹阔,包括每個(gè)contig的GC含量、豐度和bin分配隔披。
NT數(shù)據(jù)庫(kù)實(shí)在太大了赃份,我沒(méi)有跑這個(gè),看一下理論輸出:
通過(guò)氣泡圖奢米,我們可以直觀(guān)地看到每個(gè)contig或bin的GC含量與其在樣本中的豐度抓韩。不同來(lái)源的序列通常會(huì)顯示出不同的GC含量和豐度模式,從而在圖中形成不同的群體鬓长。這種可視化方法對(duì)于識(shí)別和去除樣本中的污染序列以及了解樣本的微生物群體結(jié)構(gòu)非常有用谒拴。
物種注釋Classify_bins
物種注釋模塊用于對(duì)提純后的基因組bin進(jìn)行分類(lèi)學(xué)注釋。這個(gè)過(guò)程可以幫助我們確定每個(gè)bin所屬的物種或更高的分類(lèi)層次涉波,從而更好地理解樣本中的微生物群落組成英上。
其實(shí)Bin提純和重組裝中,在checkM的stat文件中怠蹂,就有物種的注釋結(jié)果善延,但軟件和數(shù)據(jù)庫(kù)都不完善少态〕遣啵基于NCBI_nt和NCBI_tax數(shù)據(jù)庫(kù),MetaWRAP使用 MEGABLAST和Taxator-tk 進(jìn)行每條contig物種注釋?zhuān)俟烙?jì)bin整體的物種彼妻。
另外物種注釋可以使用GTDB-Tk和GTDB數(shù)據(jù)庫(kù)嫌佑,因?yàn)樗鼘?zhuān)門(mén)針對(duì)微生物基因組的分類(lèi)進(jìn)行了優(yōu)化,但也可以選擇使用其他分類(lèi)數(shù)據(jù)庫(kù)侨歉,如Kraken屋摇。
metawrap classify_bins -b REFINED_BINS/metawrap_50_10_bins -o BIN_CLASSIFICATION -t 4
- Classify_bins模塊的具體參數(shù):
$ metawrap classify_bins -h
用法:metaWRAP classify_bins [選項(xiàng)] -b bin_folder -o output_dir
選項(xiàng):
-b STR 提純后的bin目錄
-o STR 輸出目錄
-t INT 線(xiàn)程數(shù)(默認(rèn)=1)
- 輸出文件:
- bin_taxonomy.txt:每個(gè)bin的分類(lèi)信息,包括門(mén)幽邓、綱炮温、目、科牵舵、屬柒啤、種等分類(lèi)層次倦挂。
- bin_quality.txt:每個(gè)bin的質(zhì)量信息,包括完整性担巩、污染度等(如果使用了
--run_checkm
選項(xiàng))方援。 - classification_plots:分類(lèi)結(jié)果的可視化圖表,展示各個(gè)bin在不同分類(lèi)層次上的分布情況涛癌。
- work_files:分類(lèi)分析過(guò)程中產(chǎn)生的中間文件犯戏。
NT數(shù)據(jù)庫(kù)實(shí)在太大了,我也沒(méi)有跑這個(gè)拳话,我一般選擇用GTDB-tk做物種注釋先匪。
基因注釋Annotate_bins
基因注釋模塊用于對(duì)分箱結(jié)果中的基因組草圖進(jìn)行功能注釋。這個(gè)模塊通過(guò)多種數(shù)據(jù)庫(kù)和工具弃衍,對(duì)基因組中的編碼基因序列進(jìn)行預(yù)測(cè)和注釋?zhuān)瑤椭覀兝斫馕⑸锶后w的功能特性胚鸯。
MetaWRAP基于PROKKA進(jìn)行基因預(yù)測(cè)和注釋?zhuān){(diào)用Barrnap 預(yù)測(cè)rRNA,Aragorn預(yù)測(cè)tRNA笨鸡。
metawrap annotate_bins -b REFINED_BINS/metawrap_50_10_bins -o FUNCT_ANNOT -t 4
- Annotate_bins模塊的具體參數(shù):
$ metawrap annotate_bins -h
用法:metaWRAP annotate_bins [選項(xiàng)] -b bin_folder -o output_dir
選項(xiàng):
-b STR 包含分箱結(jié)果的文件夾
-o STR 輸出目錄
-t INT 線(xiàn)程數(shù)
- 輸出文件:
- bin_funct_annotations/*.gff:每個(gè)bin的注釋GFF文件
- bin_translated_genes/*.faa:每個(gè)bin的翻譯蛋白序列文件
- bin_untranslated_genes/*.fna:每個(gè)bin的未翻譯蛋白序列文件
- prokka_out:Prokka預(yù)測(cè)結(jié)果原始文件
- 運(yùn)行情況(參考):
- 一個(gè)合格MAGbin姜钳,1.6M
- 4核cpu,運(yùn)行時(shí)間為405s
- 平均內(nèi)存占用0.6G形耗,最大內(nèi)存占用0.83G
基因注釋的話(huà)我們還可以把MAGs的所有fasta序列合并起來(lái)哥桥,用prodigal統(tǒng)一預(yù)測(cè)基因并翻譯為蛋白序列,然后用序列比對(duì)軟件diamond比對(duì)各種功能數(shù)據(jù)庫(kù)比如KEGG激涤,Eggnog拟糕,CARD等進(jìn)行注釋整理,從而進(jìn)行更深入的功能分析倦踢。
References
- Uritskiy, G. V., DiRuggiero, J., & Taylor, J. (2018). MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis. Microbiome, 6(1), 158.
- https://github.com/bxlab/metaWRAP
- https://github.com/bxlab/metaWRAP/blob/master/Usage_tutorial.md
- https://mp.weixin.qq.com/s/Ecn4DOrhfUhz1HynbgQtnw
- https://mp.weixin.qq.com/s/WrbKYybTCKab3AUcSzUWqg
- https://blog.csdn.net/woodcorpse/article/details/118124686