目錄
- 背景知識(shí)
- 1.1. 根據(jù)分析對(duì)象的分類(lèi)
- 1.2. 三個(gè)基本數(shù)據(jù)處理問(wèn)題
- 1.3. 一般分析流程
- 1.4. 比較宏基因組學(xué)的應(yīng)用
- 1.5. 目前存在的技術(shù)問(wèn)題
- 實(shí)驗(yàn)設(shè)計(jì)
- 2.1. 幾點(diǎn)指導(dǎo)意見(jiàn)
- 2.2. 測(cè)序平臺(tái)的選擇
- Metagenome assembly
- 宏基因組binning
- 4.1. binning原理
- 4.2. binning具體操作
- 4.3. 目前binning工具存在的問(wèn)題
- Taxonomic profiling
- 5.1. Assembly-free strategy
- 5.2. 比較 Assembly-based profiling 與 Read-based profiling
- Metabolic function profiling
1. 背景知識(shí)
1.1. 根據(jù)分析對(duì)象的分類(lèi)
根據(jù)分析對(duì)象和實(shí)驗(yàn)?zāi)康母昂昊蚪M的研究基本上可以分為
- 擴(kuò)增子測(cè)序:
核糖體rDNA(細(xì)菌和古細(xì)菌 16S rDNA 或真菌 18S卦碾、28S rDNA 和 ITS (Internal Transcribed Spacer,真菌 rDNA 基因非轉(zhuǎn)錄區(qū)的一部分))的分類(lèi)和鑒定
獲得環(huán)境中各個(gè)細(xì)菌種類(lèi)的相對(duì)豐度和多樣性水平靠粪,從而了解環(huán)境中微生物群落的組成和結(jié)構(gòu)
single marker genes(一般為功能基因震桶,比如固氮還原酶nifH基因和氨基氧化酶amoA基因等)的多樣性和分類(lèi)分析
揭示各個(gè)功能菌群的構(gòu)成和多樣性
- 宏基因組全測(cè)序 Shotgun metagenomics:全部宏基因組DNA的整體測(cè)序和分析
- profile taxonomic composition
- functional potential of microbial communities
- to recover whole genome sequences
1.2. 三個(gè)基本數(shù)據(jù)處理問(wèn)題
1.3. 一般分析流程
1. Pre-processing
- minimize fundamental sequence biases or artifacts such as removal of sequencing adaptors
- quality trimming
- removal of sequencing duplicates
- filter foreign or non-target DNA sequences
- samples are subsampled to normalize read numbers if the diversity of taxa or functions is compared
2. Sequence analysis
包括兩種分析策略:read-based (mapping) 和 assembly-based
簡(jiǎn)單來(lái)說(shuō)休傍,assembly-based approach 受到覆蓋度的制約,因?yàn)榻M裝時(shí)低覆蓋度的區(qū)域是不會(huì)進(jìn)行組裝的尼夺,而是被丟棄尊残,這樣低豐度的細(xì)菌的信息就被丟棄了,反映在reads利用率上淤堵,就是往往reads利用率極低寝衫,往往低于50%
而 read-based (mapping) approach 則受到reference databases的制約,因?yàn)榧?xì)菌的遺傳多樣性很高拐邪,即便是同一個(gè)菌種慰毅,它的不同菌株,其基因組的組成也是有相對(duì)比較大的差異的扎阶,那么在mapping的時(shí)候就會(huì)出現(xiàn)mapping不上的問(wèn)題汹胃,使得mapping效率不夠高;而且只能分析reference databases中有的物種东臀,對(duì)于reference databases未收錄的新物種着饥,是無(wú)法進(jìn)行分析的。
不過(guò)可用的微生物參考基因組正在迅速地增加惰赋,包括那些原先難以培養(yǎng)的細(xì)菌由于培養(yǎng)方法的改進(jìn)宰掉,使得對(duì)其進(jìn)行測(cè)序成為可能,再加上單細(xì)胞測(cè)序的途徑和 metagenomic assembly的途徑得到的基因組序列×薇簦現(xiàn)在一些類(lèi)型的環(huán)境樣品(如人腸道)的參考基因組的多樣性已經(jīng)可以滿(mǎn)足 assembly-free taxonomic profiling 的要求轨奄。
1.4. 比較宏基因組學(xué)的應(yīng)用
- 了解微生物群體結(jié)構(gòu)隨著時(shí)間和地理環(huán)境的變化,以及通過(guò)比較不同個(gè)體拒炎、不同時(shí)間點(diǎn)挪拟、不同藥物作用時(shí)微生物的變化與疾病的相關(guān)性
1.5. 目前存在的技術(shù)問(wèn)題
- 分析難度大,分析成本高
隨著測(cè)序成本的下降和測(cè)序深度的增加击你,其分析難度將會(huì)越來(lái)越大玉组,制約效應(yīng)也將會(huì)越來(lái)越明顯
預(yù)計(jì)的單位測(cè)序成本將會(huì)以指數(shù)關(guān)系下降,但其中計(jì)算成本下降的幅度會(huì)遠(yuǎn)慢于測(cè)序成
- 宏基因組全測(cè)序的分析主要受限于計(jì)算技術(shù)的發(fā)展
在數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理的層面上谎柄,rDNA和擴(kuò)增序列的分析難度較小,基本可以在個(gè)人電腦或者小型服務(wù)器上完成惯雳,但宏基因組全測(cè)序的分析卻主要受限于計(jì)算技術(shù)的發(fā)展
數(shù)據(jù)存儲(chǔ)的容量
原始測(cè)序數(shù)據(jù)量本來(lái)就不小谷誓,而隨后的分析又會(huì)產(chǎn)生10倍以上的數(shù)據(jù)量
序列的拼接
目前比較成熟的序列拼接算法都是基于一個(gè)或少數(shù)幾個(gè)基因組的數(shù)據(jù)(如 Genovo,MetaVelvet吨凑,MAP等),而對(duì) HiSeq 2000 所產(chǎn)生的宏基因組數(shù)據(jù)無(wú)能為力户辱,其最主要的原因是所有的拼接算法都需要龐大的內(nèi)存資源鸵钝,而這一需求遠(yuǎn)大于市面上最大的單服務(wù)器所支持的內(nèi)存數(shù)量(4 Tb 左右)
序列拼接、基因和基因功能預(yù)測(cè)的準(zhǔn)確性同速度之間的矛盾
拼接和基因預(yù)測(cè)算法往往需要耗費(fèi)大量的運(yùn)算資源庐镐,而很多近似或高速算法往往以犧牲準(zhǔn)確性作為代價(jià)恩商。因此,如何在保證準(zhǔn)確性的前提下提高速度是決定宏基因組分析質(zhì)量的關(guān)鍵
- 數(shù)據(jù)挖掘的層面上存在難點(diǎn)
物種多樣性(Taxonomy diversity)必逆、功能多樣性 (Functional diversity) 和遺傳多樣性(Genetic diversity)的估算
因?yàn)橄∮形锓N的大量檢出怠堪,經(jīng)典的估算方法如 Chao 等都會(huì)產(chǎn)生嚴(yán)重的偏差
宏觀生態(tài)理論在分子生態(tài)中的運(yùn)用
現(xiàn)代生態(tài)學(xué)經(jīng)過(guò) 20 世紀(jì)的發(fā)展已經(jīng)積累了大量成熟的理論和模型,然而大部分的生態(tài)群落理論還是建立在宏觀生態(tài)的基礎(chǔ)之上名眉,這些理論是否也適用于微觀領(lǐng)域粟矿,現(xiàn)在還沒(méi)有明確的結(jié)果支持
微生物物種間關(guān)聯(lián)的不確定性
生物群落的結(jié)構(gòu)不僅包括多樣性和物種數(shù)量上的分布,而且應(yīng)該包含物種間的相互作用關(guān)系损拢,而這些關(guān)系在物質(zhì)陌粹、能量、信息循環(huán)中起到了至關(guān)重要的作用福压。然而目前微生物物種間的相互作用往往法像宏觀生態(tài)中予以觀察和定性
2. 實(shí)驗(yàn)設(shè)計(jì)
即使在同一個(gè)環(huán)境中獲取的不同樣本掏秩,其微生物組成也會(huì)存在比較大的差異,這使得在樣本集之間荆姆,尋找具有統(tǒng)計(jì)學(xué)顯著性和生物學(xué)意義的差異變得很困難蒙幻。因此如何做到,在即使其影響因素的作用程度很小的情況下胆筒,也能有效地檢測(cè)出差異就顯得十分重要邮破。
- 評(píng)估實(shí)驗(yàn)與分析結(jié)果的可靠性
一種策略是,構(gòu)造 pilot data腐泻,即將不同濃度的絕對(duì)定量 control (spike-in) 加入到樣本中决乎,來(lái)評(píng)估實(shí)驗(yàn)與分析方法的穩(wěn)健性(robust);
另一種策略:two-tiered approach派桩,即挑取少部分樣本构诚,既做 16s rDNA 測(cè)序,又做 shotgun metagenomics 測(cè)序铆惑,對(duì)比這兩個(gè)層次的結(jié)果來(lái)評(píng)估實(shí)驗(yàn)結(jié)果的穩(wěn)健性范嘱。
- 橫向/縱向 研究策略的比較
兩種研究策略:
- cross-sectional studies —— 橫向研究送膳,又叫橫斷研究或橫向比較研究,就是在同一時(shí)間內(nèi)對(duì)每個(gè)對(duì)象進(jìn)行觀察與測(cè)定丑蛤,在相互比較的基礎(chǔ)上對(duì)特定因素或各種因素間的關(guān)系進(jìn)行分析與考察的研究方案
- longitudinal studies —— 縱向追蹤研究叠聋,亦稱(chēng)作縱向研究或追蹤研究,是在比較長(zhǎng)的時(shí)間內(nèi)對(duì)相同對(duì)象進(jìn)行有系統(tǒng)的定期研究受裹,或者從時(shí)間的發(fā)展過(guò)程中考察研究對(duì)象的研究方案
由于在研究宏基因組過(guò)程中碌补,比如研究人類(lèi)的微生物群,影響其微生物群的因素眾多棉饶,包括宿主基因型厦章,年齡,飲食習(xí)慣等等照藻,當(dāng)進(jìn)行兩個(gè)環(huán)境微生物群橫向比較時(shí)袜啃,很難做到控制變量,使得在進(jìn)行比較分析時(shí)混入了許多干擾因素幸缕;此時(shí)如果進(jìn)行單一環(huán)境微生物群多時(shí)間點(diǎn)采樣的縱向比較群发,就可以從很大程度上消除這種影響。
2.1. 幾點(diǎn)指導(dǎo)意見(jiàn)
1. 樣本量與測(cè)序深度
當(dāng)實(shí)驗(yàn)?zāi)康氖菣z出顯著性差異時(shí)发乔,樣本量與測(cè)序深度的選擇取決于(1)不同樣本間微生物組組成的一致性熟妓,(2)樣本固有的微生物多樣性,(3)影響因素的效應(yīng)量(effect size)
建議:參考前人在類(lèi)似環(huán)境中的研究栏尚。若沒(méi)有可參照的類(lèi)似研究滑蚯,選擇marker gene做預(yù)實(shí)驗(yàn)
2. Confounding variables and control groups
在進(jìn)行宏基因組研究時(shí),往往很難找到與目標(biāo)樣本集對(duì)應(yīng)的沒(méi)有其他干擾因素的對(duì)照組
建議:目前最佳的解決策略是抵栈,盡可能地搜集各個(gè)樣本群體的元數(shù)據(jù) (metadata)告材,然后在隨后的比較分析中將它們考慮進(jìn)去。比如臨床樣本古劲,包括性別斥赋、年齡、是否使用抗生素/藥物产艾、取樣位置疤剑、飲食習(xí)慣等等。比如環(huán)境樣本闷堡,包括地理位置隘膘、季節(jié)、pH杠览、溫度等等弯菊。
元數(shù)據(jù)的搜集可以參照MIMARKS (Minimum information about a marker gene sequence) 和 MIxS (minimum information about any (x) gene sequence) 標(biāo)準(zhǔn)
3. Sample collection/preservation
樣本的處理和保存過(guò)程的差異會(huì)帶來(lái)系統(tǒng)偏差,比如when samples are provided from a number of locations by different research groups踱阿,或者在縱向研究中管钳,不同取樣時(shí)間點(diǎn)的樣本的保存時(shí)間長(zhǎng)短不一钦铁。有時(shí)這些處理步驟的效應(yīng)量可能比你感興趣的生物學(xué)變量還大。
建議:盡可能按照相同的標(biāo)準(zhǔn)來(lái)進(jìn)行取樣和保存
4. Biomass/Contamination
當(dāng)前采用的基于測(cè)序的方法具有很高的靈敏度 (highly sensitive)才漆,即使非常微量的DNA也能被檢測(cè)出來(lái)牛曹。而實(shí)驗(yàn)室中使用到的常規(guī)儀器和試劑并不是無(wú)菌的,這樣就很可能在實(shí)驗(yàn)操作過(guò)程中醇滥,人為地引入污染黎比。由于檢測(cè)方法的高靈敏度,當(dāng)原樣本的微生物量很少時(shí)鸳玩,污染帶來(lái)的信號(hào)很可能會(huì)蓋過(guò)真實(shí)的信號(hào)焰手。
建議:在上機(jī)測(cè)序前,做好微生物量的定量 (qPCR)怀喉。當(dāng)樣品中的微生物數(shù)量少于105數(shù)量級(jí)時(shí),其極有可能會(huì)受到背景污染的干擾船响。此時(shí)躬拢,可以參照以下的方法進(jìn)行細(xì)胞/DNA的富集:
可以增設(shè)負(fù)對(duì)照實(shí)驗(yàn) (Negative control),對(duì)其進(jìn)行與實(shí)際樣本相同的操作见间,使用相同的試劑聊闯,以此來(lái)找出污染的細(xì)菌類(lèi)型,這樣就可以在后續(xù)的生物信息學(xué)分析過(guò)程中將其過(guò)濾掉米诉。
5. 選擇合適的DNA提取方法
DNA提取的效果會(huì)直接對(duì)后續(xù)的實(shí)驗(yàn)和分析產(chǎn)生巨大的影響菱蔬。DNA提取方法的選擇依賴(lài)于樣品中細(xì)胞類(lèi)型的組成,然而即使是相同類(lèi)型的樣品其微生物組成也具有較大的差異(當(dāng)人糞便中革蘭氏陰性菌主導(dǎo)時(shí)史侣,細(xì)胞很容易裂解拴泌,而當(dāng)由相對(duì)頑強(qiáng)的革蘭氏陽(yáng)性菌主導(dǎo)時(shí),則相反)惊橱。
因此不存在適用于所有樣品的最佳的DNA提取方案蚪腐。
若方案選擇不當(dāng),則獲得的DNA主要來(lái)自于那些易裂解的細(xì)菌
建議:
2.2. 測(cè)序平臺(tái)的選擇
Illumina測(cè)序儀通量大 (up to 1.5 Tb per run)税朴,且準(zhǔn)確率高 (with a typical error rate of 0.1–1%)回季,通過(guò)在不同樣本的序列上添加兩重barcode,可以一次測(cè)序多個(gè)samples正林。
然而泡一,Illumina測(cè)序儀存在carryover (between runs) 和 carry-between (within runs)的問(wèn)題。最新的測(cè)序儀由于使用了新的擴(kuò)增方法 (ExAmp)觅廓,導(dǎo)致較高比例的‘index hopping’鼻忠。
雖然沒(méi)有一個(gè)明確的指導(dǎo)意見(jiàn),告訴你在哪個(gè)特定的環(huán)境樣品中應(yīng)該測(cè)多大的覆蓋度杈绸,但是一個(gè)基本的原則就是通量要盡可能地大粥烁,這樣低豐度的細(xì)菌也能被測(cè)到贤笆。Illumina HiSeq 2500/4000, NextSeq 和 NovaSeq 的測(cè)序通量都很大讨阻,都適用于 metagenomics 的研究芥永。
HiSeq 2500 在 rapid-run 模式下能產(chǎn)生 2 × 250-nt 的 reads (up to 180 Gb per flow cell),在 high-output 模式下能產(chǎn)生 2 × 125-nt 的 reads (up to 1 Tb)
新一些的HiSeq 3000 和 4000钝吮,通量提高 (up to 1.5 Tb for the 4000)埋涧,但是測(cè)序長(zhǎng)度限制在 150nt
NextSeq 的通量與 HiSeq 2500 的 high-output 模式相同,而花費(fèi)只有Hiseq的一半奇瘦,但是長(zhǎng)度限制為 150nt
最近才推出的 Novaseq 有望達(dá)到 3 Tb per flow cell
MiSeq 受制于它的通量 (up to 15 Gb in 2 × 300 mode)棘催,但仍然是目前 single-marker-gene microbiome studies 的金標(biāo)準(zhǔn)
3. Metagenome assembly
Metagenome de novo assembly 采用的策略與 whole-genome assembly 相同,均為 de Bruijn 圖方法
用 de Bruijn 圖方法進(jìn)行宏基因組的從頭組裝時(shí)耳标,面臨著以下的挑戰(zhàn):
- 測(cè)序覆蓋度不均勻
當(dāng)進(jìn)行單一基因組的組裝時(shí)醇坝,其有一個(gè)前提假設(shè):整個(gè)基因組的測(cè)序覆蓋度是相對(duì)均勻的,這樣就可以利用覆蓋度信息來(lái)識(shí)別重復(fù)序列和鑒定測(cè)序錯(cuò)誤和等位變異次坡。
而metagenome中呼猪,各個(gè)組成基因組的覆蓋度取決于它們的物種豐度,低豐度物種的基因組就會(huì)由于總體測(cè)序深度不夠而使得最終組裝出來(lái)的基因組是支離破碎的砸琅。使用更短的 k-mer 有助于低豐度基因組的組裝宋距,但是這會(huì)使得圖中重復(fù) k-mer 的頻率大大增加,降低了組裝的準(zhǔn)確性症脂。
這需要組裝工具在考量低豐度物種與獲得高豐度物種更長(zhǎng)更準(zhǔn)確的contig之間進(jìn)行權(quán)衡叶堆,即選擇合適的 k-mer :
If k is too large, there will be a lot of gap problems in the graph.
If k is too small, there will a lot of branch problems.
Meta-IDBA:使用多重 k-mer
IDBA-UD:基于Meta-IDBA的升級(jí)紧憾,對(duì)測(cè)序深度不均勻數(shù)據(jù)的組裝過(guò)程進(jìn)行了優(yōu)化
- 同種細(xì)菌不同菌株的干擾
同種細(xì)菌的不同菌株,它們的基因組組成很相近,常常就是一個(gè)堿基的變異或者整個(gè)基因/操縱子的丟失散址,當(dāng)進(jìn)行 de Bruijn 圖組裝時(shí)幢痘,就會(huì)在這些差異的位置出現(xiàn)分叉盾饮,組裝工具在遇到這些分叉時(shí)裳瘪,常常會(huì)停在這些位置,從而導(dǎo)致一個(gè)個(gè)不連續(xù)組裝片段的產(chǎn)生橙凳。
Meta-IDBA:將圖依據(jù)其拓?fù)浣Y(jié)構(gòu)拆分成各個(gè)元件蕾殴,每個(gè)元件代表各個(gè)亞種的共有區(qū)域
Meta-IDBA handles this problem grouping similar regions of similar subspecies by partitioning the graph into
components based on the topological structure of the graph. Each component represents a similar region between
subspecies from the same species or even from different species. After the components areseparated, all contigs
in it are aligned to produced a consensus and also the multiple alignment.
解決計(jì)算能力與內(nèi)存不足的策略:
使用分布式 assemblers,例如 ABySS岛啸、Ray
將metagenome的組裝圖分割成相互連接的部分钓觉,然后在各個(gè)部分內(nèi)部分別進(jìn)行相對(duì)獨(dú)立地組裝,即分而治之的策略坚踩。
4. 宏基因組binning
Metagenome 組裝完成后荡灾,我們得到的是成千上萬(wàn)的 contigs,我們需要知道哪些 contigs 來(lái)自哪一個(gè)基因組,或者都有哪些微生物的基因組批幌。所以需要將 contigs 按照物種水平進(jìn)行分組歸類(lèi)础锐,稱(chēng)為 "bining"
Supervised binning methods: use databases of already sequenced genomes to label contigs into taxonomic classes
Unsupervised (clustering) methods: look for natural groups in the data
Both supervised and unsupervised methods have two main elements: a metric to define the similarity between a given contig and
a bin, and an algorithm to convert those similarities into assignments
一個(gè)很容易想到的策略就是,將組裝得到的片段與已知物種的參考基因組進(jìn)行比對(duì)荧缘,根據(jù)同源性進(jìn)行歸類(lèi)皆警。然而目前大多數(shù)的微生物的基因組還沒(méi)有測(cè)序出來(lái),因此限制了這種方法的可行性截粗。
目前主流的 bining 策略利用的是 contigs 的序列組成特點(diǎn)信姓。
4.1. binning原理
- 根據(jù)核酸組成信息來(lái)進(jìn)行binning:k-mer frequencies
依據(jù):來(lái)自同一菌株的序列,其核酸組成是相似的
例如根據(jù)核酸使用頻率(oligonucleotide frequency variations)绸罗,通常是四核苷酸頻率(tetranucleotide frequency)意推,GC含量和必需的單拷貝基因等
優(yōu)勢(shì):即便只有一個(gè)樣品的宏基因組數(shù)據(jù)也可以進(jìn)行binning,這在原理上是可操作的
不足:由于很多微生物種內(nèi)各基因型之間的基因組相似性很高珊蟀,想利用1個(gè)樣品的宏基因組數(shù)據(jù)通過(guò)核酸組成信息進(jìn)行binning菊值,效果往往并不理想或難度很大。利用核酸組成信息進(jìn)行binning育灸,基本上只適合那些群落中物種基因型有明顯核酸組成差異的腻窒,例如低GC含量和一致的寡核苷酸使用頻率
- 根據(jù)豐度信息來(lái)進(jìn)行binning
依據(jù):來(lái)自同一個(gè)菌株的基因在不同的樣品中 ( 不同時(shí)間或不同病理程度 ) 的豐度分布模式是相似的【PMID: 24997787】。
原因:比如描扯,某一細(xì)菌中有兩個(gè)基因,A和B趟薄,它們?cè)谠摷?xì)菌基因組中的拷貝數(shù)比例為 A:B = 2:1绽诚,則不管在哪個(gè)樣品中這種細(xì)菌的數(shù)量有多少,這兩個(gè)基因的豐度比例總是為 2:1
優(yōu)勢(shì):這種方法更有普適性杭煎,一般效果也比較好恩够,能達(dá)到菌株的水平
不足:必須要大樣本量,一般至少要50個(gè)樣本以上羡铲,至少要有2個(gè)組能呈現(xiàn)豐度變化 ( 即不同的處理蜂桶,不同的時(shí)間,疾病和健康也切,或者不同的采樣地點(diǎn)等 ) 扑媚,每個(gè)組內(nèi)的生物學(xué)重復(fù)也要盡量的多
對(duì)于像質(zhì)粒這樣的可移動(dòng)遺傳單元 (mobile genetic elements (MGEs)),由于其復(fù)制獨(dú)立于細(xì)菌染色體雷恃,則同一種細(xì)菌的不同個(gè)體疆股,該質(zhì)粒的拷貝數(shù)可能存在差異,使得無(wú)法用豐度信息進(jìn)行有效地bining
- 同時(shí)依據(jù)核酸組成和豐度變化信息
將核酸組成信息和豐度差異信息創(chuàng)建一個(gè)綜合的距離矩陣倒槐,既能保證binning效果旬痹,也能相對(duì)節(jié)約計(jì)算資源,現(xiàn)在比較主流的binning軟件多是同時(shí)依據(jù)核酸組成和豐度變化信息
- 根據(jù)基因組甲基化模式
依據(jù):不同的細(xì)菌,其基因組甲基化模式不同两残,平均一種細(xì)菌有3種特意的甲基化 motif永毅。MGEs (mobile genetic elements) 中含有 MTase 基因,其基因水平轉(zhuǎn)移是細(xì)菌甲基化組多樣性的驅(qū)動(dòng)因素人弓。雖然 MGEs 在不同個(gè)體的拷貝數(shù)不同沼死,但是都存在,因此具有相同 MGEs 的細(xì)菌個(gè)體票从,其總遺傳物質(zhì)(包括染色體和 MGEs )都會(huì)受到相同的MTase的作用而得到相同的甲基化模式漫雕。
4.2. binning具體操作
Q1:從哪些序列下手進(jìn)行binning呢?
從原始的clean reads峰鄙,還是從組裝成的contig浸间,還是從預(yù)測(cè)到的gene,都可以吟榴。根據(jù)基于聚類(lèi)的序列類(lèi)型的不同魁蒜,暫且分為reads binning, contig binning和 genes binning
比較這三種binning的優(yōu)劣:
contig binning
由于核酸組成和物種豐度變化模式在越長(zhǎng)的序列中越顯著和穩(wěn)定吩翻,基于contig binning效果可能更好
reads binning
基于reads binning的優(yōu)勢(shì)是可以聚類(lèi)出宏基因組中豐度非常低的物種
考慮到在宏基因組組裝中reads利用率很低兜看,單樣品5Gb測(cè)序量情況下,環(huán)境樣品組裝reads利用率一般只有10%左右狭瞎,腸道樣品或極端環(huán)境樣品組裝reads利用率一般能達(dá)到30%细移,這樣很多物種,尤其是低豐度的物種可能沒(méi)有被組裝出來(lái)熊锭,沒(méi)有體現(xiàn)在gene 或者contig 中弧轧,因此基于reads binning 才有可能得到低豐度的物種
genes binning
應(yīng)用非常廣泛
原因可能是(1)基于genes豐度變化模式進(jìn)行binning可操作性比較強(qiáng),宏基因組分析中肯定都會(huì)計(jì)算gene豐度碗殷,一般不會(huì)計(jì)算contig豐度精绎,gene豐度數(shù)據(jù)可以信手拈來(lái);(2)基于genes binning有很多可參考的文獻(xiàn)锌妻,過(guò)程也并不復(fù)雜代乃,可復(fù)制性強(qiáng);(3)對(duì)計(jì)算機(jī)資源消耗比較低
總體來(lái)說(shuō)應(yīng)用最廣泛的就是基于genes binning 和 contig binning
Genes binning的一般流程
在宏基因組做完組裝和基因預(yù)測(cè)之后仿粹,把所有樣品中預(yù)測(cè)到的基因混合在一起搁吓,去冗余得到unique genes集合,對(duì)這個(gè)unique genes集合進(jìn)行binning吭历,主要是根據(jù)gene在各個(gè)樣品中的豐度變化模式擎浴,計(jì)算gene之間的相關(guān)性,利用這種相關(guān)性進(jìn)行聚類(lèi)
該圖中的聚類(lèi)過(guò)程類(lèi)似于K-means聚類(lèi):隨機(jī)選擇幾個(gè)seed genes作為誘餌毒涧,計(jì)算其他基因豐度分布模式與seed genes的相關(guān)性贮预,按照固定的相關(guān)性值PCC>0.9贝室,將它們歸屬于不同seed genes所代表的類(lèi),然后在聚好的類(lèi)內(nèi)重新選擇seed genes仿吞,進(jìn)行迭代滑频,最終聚類(lèi)得到一個(gè)個(gè)基因集合,較大的集合(超過(guò)700個(gè)基因)稱(chēng)為 metagenomic species (MGS)唤冈,較小的集合稱(chēng)為 co-abundance gene group (CAG)
基于 bining 結(jié)果進(jìn)行單菌組裝:
Sequence reads from individual samples that map to the MGS genes and their contigs are then extracted and used to assembly a draft genome sequence for an MGS
4.3. 目前binning工具存在的問(wèn)題
- 還有很多可提升的空間
比如對(duì)核酸組成信息的利用峡迷,開(kāi)發(fā)得就不夠充分,四堿基使用頻率因簡(jiǎn)單而被廣泛使用和接受你虹,但現(xiàn)在已有研究表明k-mer豐度信息也是很好的種系特征绘搞,同時(shí)越長(zhǎng)的k-mer含有越多的信息,還有基因和參考基因組間的同源關(guān)系也是有價(jià)值的種系信號(hào)傅物,但這些都還沒(méi)有被自動(dòng)化的binning軟件整合
- 對(duì)于參數(shù)設(shè)置是很敏感的夯辖,且只有有限的可調(diào)整的參數(shù)
想要獲得高質(zhì)量的bins經(jīng)常需要手動(dòng)調(diào)整
5. Taxonomic profiling
Taxonomic profiling: identifies which microbial species are present in a metagenome and estimates their abundance
5.1. Assembly-free strategy
- reference-based approaches
優(yōu)點(diǎn):
mitigate assembly problems
speed up computation
enable profiling of low-abundance organisms that cannot be assembled de novo
當(dāng)然它也有局限性:
previously uncharacterized microbes are difficult to profile
對(duì)于與人類(lèi)密切相關(guān)的樣品,比如人腸道董饰,可以使用該策略蒿褂,而且已經(jīng)有相關(guān)的成功實(shí)踐
- Marker-based approaches: by selecting representative or discriminative genes (markers)
By looking at co-abundant markers from preassembled environment-specific gene catalogs
即前人研究 (MetaHIT consortium) 已經(jīng)得出特定環(huán)境下的微生物的組成,這些微生物中有某些 co-abundant markers(這些 marker genes 的豐度與其物種的豐度成正比)卒暂,這樣就可以基于對(duì)這些 markers 的定量得到對(duì)應(yīng)的物種豐度
選擇 markers 的不同策略:
mOTU: universally conserved but phylogenetically informative markers
MetaPhlAn: several thousand clade-specific markers
with high discriminatory power and was effective to quantitatively profile the microbiome from multiple body areas for the Human Microbiome Project (HMP) with a very low false positive discovery rate
當(dāng)樣本量巨大啄栓,都進(jìn)行組裝是明顯不切實(shí)際的,此時(shí)采用 marker-based approaches 是一個(gè)不錯(cuò)的選擇也祠;而且昙楚,如果該環(huán)境來(lái)源的樣本其組成微生物是研究比較充分時(shí),marker-based approaches 能得到比較準(zhǔn)確的物種定量結(jié)果诈嘿。
5.2. 比較 Assembly-based profiling 與 Read-based profiling
Assembly-based profiling | Read-based profiling |
---|---|
6. Metabolic function profiling
Gene identification
homology-based annotation pipelines
translated sequence searches against functionally characterized protein families, such as KEGG or UniProt
Characterization of the functional potential of the microbiome
- 策略一:Aggregate single protein families into higher-level metabolic pathways and functional modules
Cleaned short DNA reads are aligned to the KEGG Orthology(or any other characterized sequence database) using accelerated translated BLAST.
Gene family abundances are calculated as weighted sums of the alignments from each read, normalized by gene length and alignment quality.
Assigning gene families to pathways and modules
Pathway reconstruction is performed using a maximum parsimony approach followed by taxonomic limitation (to remove false positive pathway identifications) and gap filling (to account for rare genes in abundant pathways).
The resulting output is a set of matrices of pathway coverages (presence/absence) and abundances
局限性: lack of annotations for accessory genes in most microbial species
因?yàn)樵谠u(píng)估微生物群體的代謝潛能時(shí)堪旧,只對(duì)那些高度保守和 housekeeping 類(lèi)型的功能進(jìn)行了注釋?zhuān)@就解釋了,為什么來(lái)自不同環(huán)境的不同樣品永淌,它們的功能特征常常是十分相似的崎场,即使它們的物種組成有很大差異佩耳。
- 策略二:An in-depth characterization of specific functions of interest
例如遂蛀,鑒定出微生物群落中的抗生素抗性基因,該方法高度依賴(lài)特定功能相關(guān)基因集注釋的質(zhì)量干厚。
參考資料:
(1) 魏子艷, 金德才, 鄧曄. 環(huán)境微生物宏基因組學(xué)研究中的生物信息學(xué)方法[J]. 微生物學(xué)通報(bào), 2015, 42(5):890-901.
(2) Quince C, Walker A W, Simpson J T, et al. Shotgun metagenomics, from sampling to analysis[J]. Nature Biotechnology, 2017, 35(9):833.
(4) Nielsen H B, Almeida M, Juncker A S, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.
(5) Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.
(6) Abubucker, S. et al. Metabolic reconstruction for metagenomic data and its application to the human microbiome. PLoS Comput. Biol. 8, e1002358(2012).
(7) Beaulaurier J, Zhu S, Deikus G, et al. Metagenomic binning and association of plasmids with bacterial host genomes using DNA methylation.[J]. Nature Biotechnology, 2017, 36(1).