宏基因組分箱(Binning)技術(shù)

導(dǎo)讀

  • 宏基因組分箱(Binning)是將宏基因組測序得到的混合了不同生物的序列或序列組裝得到的contigs按物種分開歸類的過程,類似下圖[1]卖宠。傳統(tǒng)的單物種全基因組序列都是經(jīng)純培養(yǎng)之后巍杈,再進行全基因組de novo測序才獲得的,但是環(huán)境中存在著大量的不可培養(yǎng)微生物扛伍,宏基因組分箱技術(shù)有助于獲得不可培養(yǎng)微生物的全基因組序列筷畦,獲得新物種的基因組序列和功能,預(yù)測未知物種的培養(yǎng)方法等等刺洒。


    分箱.png

一鳖宾、分箱工具盤點

  • 早在2011年,science上的一篇文章就用了宏基因組Binning技術(shù)對來自牛瘤胃的樣本進行了宏基因組測序研究逆航。該研究從268 Gbp的宏基因數(shù)據(jù)中成功Binning出了15個不能培養(yǎng)的微生物的全基因組序列(可見分箱對數(shù)據(jù)量要求很大)鼎文。從那以后,宏基因組Binning技術(shù)開始被更多的人關(guān)注和重視纸泡,也逐漸出現(xiàn)了很多宏基因組Binning工具漂问。查了一些文獻(xiàn)和資料,我羅列了一下近幾年的分箱工具女揭,引用量僅供參考(google學(xué)術(shù)蚤假,2019.8.29)。
分箱工具 發(fā)表雜志 發(fā)表時間 引用量
ProxiMeta Genome Biology 2019 1
MetaBAT2 PeerJ 2019 4
MetaWRAP Microbiome 2018 14
DAS Tool Nature Microbiology 2018 59
Binning_refiner Bioinformatics 2017 13
COCACOLA Bioinformatics 2017 56
CoMet BMC Bioinformatics 2017 4
MetaBAT PeerJ 2015 465
MaxBin 2.0 Bioinformatics 2015 211
VizBin Microbiome 2015 110
Anvi’o PeerJ 2015 279
CONCOCT Nature Methods 2014 429
GroopM PeerJ 2014 188
MetaCluster 5.0 Bioinformatics 2012 115
PhyloPythiaS Plos One 2012 99

二吧兔、分箱工具比較

  1. 2017年Nature Methods上一篇文章對宏基因組數(shù)據(jù)處理各個過程中的軟件進行了評估[ Critical Assessment of Metagenome Interpretation-a benchmark of metagenomics software ]磷仰。從文章的分析結(jié)果來看,不同的方法各有優(yōu)缺(下圖)境蔼,MaxBin2可能是相對較好的一個分箱軟件灶平。
  • 比較結(jié)果:


    NM.png
  1. 加利福利亞大學(xué)在通過整合多個算法設(shè)計出了新的Binning軟件DAS tool并在2018年發(fā)表在Nature Microbiology上 [ Recovery of genomes from metagenomes via a dereplication, aggregation and scoring strategy ]。集合了多個算法的DAS tool各項Binning指數(shù)要明顯優(yōu)于CONCOCT箍土,MaxBin 2逢享,MetaBAT等方法,比較分析結(jié)果如下:
  • 比較結(jié)果:


    對不同樣本來源的宏基因組數(shù)據(jù)進行分箱完成度分析.png

    對模擬微生物群落進行基因組重建分析.png
  1. 同年吴藻,Microbiome上發(fā)表了另一個整合了多個工具的分箱分析流程MetaWRAP [MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis. Microbiome]瞒爬。
  • MetaWRAP流程不僅納入了最流行的MetaBAT、CONCOCT和MaxBin2分箱方法沟堡,還整合了質(zhì)控侧但、拼接、分箱航罗、提煉禀横、評估、注釋等多種功能粥血。MetaWRAP可以解決分箱分析中可能遇到的絕大多數(shù)問題柏锄,而且比較分析發(fā)現(xiàn)綜合多個工具的MetaWRAP分箱法不僅比單個工具分箱效果好,也比同樣是綜合多個算法的DAS tool分箱法效果好立莉,比較分析結(jié)果如下:

  • 比較結(jié)果:


    完成度和污染度的比較(CAMI數(shù)據(jù)集).png

    完成度和污染度的比較(水绢彤、腸道、土壤數(shù)據(jù)).png

    metaWRAP重組裝分箱效果更佳.png

三蜓耻、分箱實戰(zhàn)

  • MetaWRAP集合的算法和工具很全很多茫舶,但是也很慢,有條件的話可以自己嘗試使用MetaWRAP刹淌。[Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle. Cell. 2019]這篇文章提到饶氏,MetaBAT2在單樣本分箱中表現(xiàn)最佳,也在Metawrap文章中表現(xiàn)不錯有勾。Metawrap看似有前途疹启,但是存在兩個缺點:1)沒有獨立驗證;2)計算成本高蔼卡『把拢考慮到時間,下面只以MetaBAT2為例簡介分箱工作流程。

1. 準(zhǔn)備

測試數(shù)據(jù).png
  • 下載得到已經(jīng)組裝好的contigs文件assembly.fa和兩個樣本的bam文件荤懂。

2. 統(tǒng)計contig深度

jgi_summarize_bam_contig_depths --outputDepth depth_var.txt *.bam

  • 統(tǒng)計結(jié)果:


    contigs深度.png
  • 結(jié)果說明:
    第一列:contigName
    第二列:contigLen
    第三列:totalAvgDepth
    第四列:library1.sorted.bam
    第五列:library1.sorted.bam-var
    第六列:library2.sorted.bam
    第七列:library2.sorted.bam-var

3. 分箱(4線程茁裙,21秒)

time metabat2 -t 4 -i assembly.fa -a depth_var.txt -o metabat2/bin –v

  • 分箱結(jié)果:


    分箱結(jié)果.png

4. 分箱評估 (4線程,32分鐘)

time checkm lineage_wf -f metabat2/checkm.txt -t 4 -x fa metabat2/ metabat2/checkm/
##  評估結(jié)果保存在checkm.txt文件中节仿。

5. 評估結(jié)果:

  • 提取ID晤锥,Taxonomy,Completeness廊宪,Contamination信息:
grep 'bin' checkm.txt | sed 's/^  //' | awk '{print $1,$2,$13,$14}' | sed 's/\ /\t/g'| sed 's/\./\t/' | sort -n -k 2 | sed 's/\t/./' > test.txt
##  從checkm.txt提取

  • 提取結(jié)果:


    分箱評估結(jié)果.png

第一列:Bin Id
第二列:Marker lineage
第三列:Completeness
第四列:Contamination

結(jié)束語

metawrap concoct報錯

/public/home/zzumgg03/huty/softwares/miniconda3/envs/metawrap-env/bin/concoct_coverage_table.py:48: FutureWarning: read_table is deprecated, use read_csv instead, passing sep='\t'.
  df = pd.read_table(fh, header=None)
Traceback (most recent call last):
  File "/public/home/zzumgg03/huty/softwares/miniconda3/envs/metawrap-env/bin/concoct_coverage_table.py", line 77, in <module>
    generate_input_table(args.bedfile, args.bamfiles, samplenames=samplenames)
  File "/public/home/zzumgg03/huty/softwares/miniconda3/envs/metawrap-env/bin/concoct_coverage_table.py", line 52, in generate_input_table
    avg_coverage_depth.to_csv(sys.stdout, index_label='contig', sep='\t', float_format='%.3f')
  File "/public/home/zzumgg03/huty/softwares/miniconda3/envs/metawrap-env/lib/python2.7/site-packages/pandas/core/generic.py", line 3007, in to_csv
    from pandas.io.formats.csvs import CSVFormatter
ImportError: cannot import name CSVFormatter

參考:

  1. 句句干貨壕翩!一文讀懂宏基因組binning
  2. Microbiome:宏基因組分箱流程MetaWRAP簡介
  3. 宏基因組分箱Binning以及MaxBin的使用
  4. 分箱原理

\color{green}{????原創(chuàng)文章,碼字不易傅寡,轉(zhuǎn)載請注明出處????}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末戈泼,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子赏僧,更是在濱河造成了極大的恐慌大猛,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淀零,死亡現(xiàn)場離奇詭異挽绩,居然都是意外死亡,警方通過查閱死者的電腦和手機驾中,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門唉堪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人肩民,你說我怎么就攤上這事唠亚。” “怎么了持痰?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵灶搜,是天一觀的道長。 經(jīng)常有香客問我工窍,道長割卖,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任患雏,我火速辦了婚禮鹏溯,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘淹仑。我一直安慰自己丙挽,他們只是感情好肺孵,可當(dāng)我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著颜阐,像睡著了一般悬槽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上瞬浓,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機與錄音蓬坡,去河邊找鬼猿棉。 笑死,一個胖子當(dāng)著我的面吹牛屑咳,可吹牛的內(nèi)容都是我干的萨赁。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼兆龙,長吁一口氣:“原來是場噩夢啊……” “哼杖爽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起紫皇,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤慰安,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后聪铺,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體化焕,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡际长,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年矢门,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片墨坚。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡键兜,死狀恐怖凤类,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情普气,我是刑警寧澤谜疤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站现诀,受9級特大地震影響茎截,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赶盔,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一企锌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧于未,春花似錦撕攒、人聲如沸陡鹃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽萍鲸。三九已至,卻和暖如春擦俐,著一層夾襖步出監(jiān)牢的瞬間脊阴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工蚯瞧, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留嘿期,地道東北人。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓埋合,卻偏偏與公主長得像备徐,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子甚颂,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容