1.Abstract
本文作者從實驗設(shè)計,分子分析技術(shù)的選擇灌危,數(shù)據(jù)分析方法以及多種組學數(shù)據(jù)的解析等方面湾笛,對如何實現(xiàn)最優(yōu)的微生物組學研究進行探討俯树。比如對近期快速發(fā)展的精確序列變異(exact sequence variants/ESV,詳者注:目前更多使用ASV的名稱)的方法替代傳統(tǒng)基于聚類的OTU分析畜挨,整合宏基因組學和代謝組學的方法筒繁,組成型數(shù)據(jù)分析問題等方面的近期突破性的進展開展探討。但在研究中還是應當關(guān)注實驗設(shè)計和與研究可重復性相關(guān)的經(jīng)典問題巴元。
2.Introduction
和其他研究一樣毡咏,在微生物組研究中,扎實的實驗是至關(guān)重要的逮刨,實驗方法呕缭、環(huán)境因素和分析都會影響最終結(jié)果。本領(lǐng)域當前研究獲得了很多引人注目的成果修己,但仍然缺少數(shù)據(jù)收集和分析方法的標準恢总。因此本領(lǐng)域目前最重要的挑戰(zhàn)是,整合微生物組研究中獨有的新方法箩退,同時記得采用廣泛應用于科學研究的標準方法离熏。本綜述旨在為微生物組實驗設(shè)計和分析數(shù)據(jù)結(jié)果提供直接的指導標準,特別關(guān)注人類戴涝、模式生物以及環(huán)境微生物組。
3.Experimental design
設(shè)計可以獲得有意義數(shù)據(jù)的實驗是分析的第一步钻蔑。典型的科學問題啥刻,例如疾病-對照(case–control)和,縱向干預(longitudinal interventions)研究等都可以放在微生物組的背景下研究。研究者可以分析在不同群落之間或時間序列下咪笑,微生物群落之間結(jié)構(gòu)組成可帽、遺傳學或功能的潛在差異。需要考慮的重要問題是實驗設(shè)計和樣品收集**窗怒。嚴密的實驗設(shè)計中隔離和詢問感興趣的可變因素等都是至關(guān)重要的映跟。
微生物組實驗設(shè)計中的注意事項
- 混雜因子對照:年齡蓄拣、性別、飲食和生活方式努隙。疾病組 vs 對照組
- 縱向取樣:取樣地點球恤,季節(jié)變化-春、夏荸镊、秋咽斧、冬
- 實驗技術(shù)引入的偏差:引物、空白對照躬存、試劑差異或污染
首先必須確定實驗范圍张惹,然后為感興趣的問題選取適合的實驗設(shè)計,例如岭洲,橫向研究(cross-sectional studies)適用于發(fā)現(xiàn)不同人群(如健康和疾病)或生活在不同區(qū)域人群之間的微生物群落差異宛逗。基于分析計劃和特定的科學問題來設(shè)計實驗可以幫助我們確定樣本量。((推薦閱讀:樣品生物學重復數(shù)據(jù)選擇 1必要性 2需要多少重復盾剩?).然而統(tǒng)計能力和效應量分析(effect size analysis)仍然是微生物組研究中的一大挑戰(zhàn)雷激。目前用于分析統(tǒng)計能力和效應量分析的方法大多基于置換多元回歸方差分析(permutational multivariate analysis of
variance,PERMANOVA彪腔,原理詳見:Adonis和ANOSIM方法組間整體差異評估原理)侥锦、狄利克雷-多項式分布(Dirichlet Multinomial)或者隨機森林分析,詳見的分類德挣、回歸實例恭垦。
3.Box 1 Good working practices
相似的微生物組研究常常產(chǎn)生相反的結(jié)果鹦蠕,如果沒有詳細的樣品采集方法探遵、實驗設(shè)計、數(shù)據(jù)處理和分析過程的詳細記錄笆搓,就很難檢查和解釋出現(xiàn)差異的原因屯掖。
在收集樣品時玄柏,采樣的詳細過程應當完整記錄,并且應當考慮到更多的影響因素贴铜。另外粪摘,實驗中要遵循基因組標準聯(lián)盟提出的標記基因(marker gene)和宏基因組的基因組最小信息標準(minimum information standards, MIxS):MIMARKS和MIMS(此外還有不可培養(yǎng)細菌、古菌的單擴增基因組Single Amplified Genome (MISAG)和宏基因組裝基因組Metagenome-Assembled Genome (MIMAG)绍坝、末培養(yǎng)病毒基因Uncultivated Virus Genome (MIUViG)等標準可參考)徘意。研究人員應該跟蹤它們運行的所有命令和軟件版本,并且將原始數(shù)據(jù)和樣本元數(shù)據(jù)儲存在公共數(shù)據(jù)庫中轩褐。我們推薦使用Jupyter Notebooks椎咧,R Markdown等工具來實現(xiàn)這個目的,然后將其儲存在GitHub等版本控制管理系統(tǒng)中把介。
4.Box 2 Considerations for different microbiomes
實驗設(shè)計和方法的選擇還是需要認真全面的考慮不同的樣品類型勤讽。對于被非微生物DNA嚴重污染的樣品蟋座,如植物、動物組織(通常宿主DNA占樣本的90-99%脚牍,想要獲得6 Gb微生物數(shù)據(jù)向臀,理論上需要測序60 - 600 GB原始數(shù)據(jù))等如果不排除掉宿主的DNA,鳥槍法宏基因組測序是不太可行的莫矗,如NBT封面:納米孔宏基因組6小時識別下呼吸道病原體中采用皂苷去除99.99%宿主使病原體可以準確檢測飒硅、Science:病原菌激活植物內(nèi)生菌群的抑病功能中采用離心等方法富集根內(nèi)生菌的方法。如果樣品被死亡微生物等DNA遺跡嚴重污染(如土壤樣品)作谚,則需要在提取DNA之前使用物理方法來去除遺跡DNA(relic DNA)三娩,例如使用單疊氮化丙錠。研究中收集妹懒、保存和儲存的方法應該在所有樣品中保持一致雀监,以避免混淆因子引起的變異。
5.Defining controls and exclusion criteria
確定明確的選擇和排除標準眨唬,可有效的限制混淆因子的影響会前。
6.Technical variation
從DNA提取到測序,不同實驗方法之間的技術(shù)差異很大匾竿。在研究中所有樣品必須使用相同的試劑盒瓦宜,并且在縱向研究中應當收集多個基礎(chǔ)樣品用來評估時間點間在變異性。在采樣岭妖、DNA提取临庇、PCR和測序過程中,設(shè)計空白(陰性)對照對于監(jiān)測污染至關(guān)重要昵慌。總之假夺,使用不同方法產(chǎn)生的微生物組數(shù)據(jù)一致性依然是一個未能解決的難題。
7.Sequencing targets and methods
標記基因斋攀、宏基因組以及宏轉(zhuǎn)錄組測序研究微生物組會產(chǎn)生不同的結(jié)果已卷。問題、假設(shè)淳蔼、樣品類型和分析目標都應該與所選的方法相匹配侧蘸。
不同分析方法的優(yōu)缺點。
標記基因分析(擴增子)
1.優(yōu)點
- 樣品制備和分析速度快鹉梨、簡單闺魏、成本較低
- 與基因組含量的相關(guān)性較高
- 適合于生物量較低、宿主DNA污染程度較高的樣品
- 可用于與現(xiàn)有的大量公共數(shù)據(jù)集比較
2.缺點- 不能區(qū)分DNA來源中生物體是否有生命
- 受到擴增偏好性的影響較大
- 引物和可變區(qū)的選擇對結(jié)果影響較大
- 要求對微生物群落有一定的先驗知識
- 物種鑒定分辨率通常限于屬水平
- 需要適當?shù)年幮詫φ?/li>
- 獲得的功能信息有限
全宏基因組測序
1.優(yōu)點
- 可以直接獲得微生物功能基因的相對豐度俯画;基于已知物種可鑒定分辨率可達物種、甚至菌株水平
- 不需要微生物群落相關(guān)的先驗知識(如捕獲噬菌體司草、病毒艰垂、質(zhì)粒以及微小真核生物等)
- 一般不會產(chǎn)生PCR偏好性
- 可以估算有參考基因組微生物的原位生長速率
- 可組裝獲得群體平均基因組(甚至可以獲得其中一些微生物較完整的基因組)
- 可以挖掘新的基因家族
2.缺點- 成本相對較高泡仗,樣品制備和分析較復雜
- 來自宿主和細胞器的DNA污染可能會掩蓋微生物的特征
- 病毒和質(zhì)粒通常無法自動化注釋
- 與其他方法相比,通常需要較高的測序通量(幾G - 幾百G)
- 不能區(qū)分DNA來源于有生命或無生命的生物體
- 由于受組裝影響猜憎,平均群體微生物基因組往往不準確
全宏轉(zhuǎn)錄組測序
1.優(yōu)點
- 當與標記基因分析結(jié)合使用時娩怎,可以估算群落中哪些微生物正在進行積極的轉(zhuǎn)錄過程
- 只能鑒定活動生物,排除休眠胰柑、死亡微生物及胞外DNA
- 能夠捕捉個體內(nèi)部的動態(tài)變化
- 直接評估微生物的活性截亦,包括對干擾或者暴露等情況的響應
全宏轉(zhuǎn)錄組測序
2.缺點- 費用最高,樣品制備和分析過程最復雜
- 必須排除宿主的mRNA柬讨、和rRNA污染
- 樣品的收集和存儲要十分小心
- 數(shù)據(jù)結(jié)果對有高轉(zhuǎn)錄率的生物體有偏向性
- 需要與DNA測序結(jié)果結(jié)合崩瓤,才能獲得細菌豐度變化和轉(zhuǎn)錄率
16S測序后,我們推薦使用Deblur獲得單堿基變異的參考序列(sOTUs),盡管DADA2與Deblur結(jié)果類似踩官,但Deblur支持并行處理速度更快且更穩(wěn)定(在不同樣品中獲得相同sOTUs)却桶。宏基因組和宏轉(zhuǎn)錄組首先要去除宿主DNA或rRNA,和宿主RNA蔗牡。過濾后的序列可以采用Kraken颖系、MEGAN或HUMAnN等有參方法(read-based),或De novo組裝的方法metaSPAdes和MEGAHIT分析辩越。
8.Marker gene analysis
這個區(qū)域通常包含高度可變區(qū)嘁扼,可用于區(qū)分研究對象的組成,并且兩側(cè)包含可以用作PCR引物結(jié)合位點的高度保守區(qū)黔攒。但是由于這些引物擴增區(qū)域的DNA序列不同趁啸,可能對DNA序列的親和力不同產(chǎn)生偏好性,從而影響PCR擴增結(jié)果亏钩。莲绰。標記基因測序中的偏好性來源可能是由于不同的可變區(qū)選擇、擴增子片段大小和PCR循環(huán)次數(shù)等姑丑。關(guān)于擴增子引物選擇蛤签,可進一步閱讀:16S結(jié)構(gòu) 16S單V4區(qū)是最佳選擇?引物評估等文章。
9.Whole metagenome analysis
宏基因組分析就是對樣本內(nèi)所有微生物基因組進行測序的方法栅哀。宏基因組測序在基因水平上獲得整個群落功能的能力遠超標記基因可分析的范圍震肮。關(guān)于宏基因組學的全面綜述,推薦閱讀2017年自然生物技術(shù)的綜述:宏基因組從取樣到分析留拾,詳見《Nature綜述:2萬字帶你系統(tǒng)入門鳥槍法宏基因組實驗和分析》
10.Metatranscriptome analysis
宏轉(zhuǎn)錄組分析是通過使用RNA測序來分析微生物組的轉(zhuǎn)錄過程戳晌,從而提供關(guān)于基因表達和微生物組功能活性等信息。值得注意的是痴柔,采用疊氮溴化丙錠(propidium monoazide, PMA)去除遺跡DNA的方法也是獲得活性微生物組的可選方法之一沦偎。如果你想全面了解宏轉(zhuǎn)錄組學分析,請閱讀《使用宏轉(zhuǎn)錄組進行微生物組研究》的文章(Bashiardes, S., et al. 2016. Bioinform. Biol. Insights.)。
11. Marker gene analyses
分析標記基因數(shù)據(jù)的第一步是去除序列錯誤:盡管序列錯誤率很低豪嚎,在Illumina測序中搔驼,每個核苷酸的錯誤率僅為 ~ 0.1%,但是很大部分明顯的序列多樣性來源于測序錯誤(如1M堿基可能擁有1000個測序錯誤侈询,造成增長成百上千的多樣性舌涨;大規(guī)模的實驗測序量可達 Billion)。OTUs聚類扔字,即將相似的序列(通常具有97%相似性閾值)合并歸為單個的特征囊嘉,然后將序列的變體(包括通過序列錯誤引入的序列變體)合并成可用于隨后分析的單個OTU。但是這種方法會在一定程度上革为,遺漏一些細微但真實的生物序列變異扭粱,例如存在SNP的序列本該為多個獨立OTUs。寡聚分型基于16S rRNA基因測序中位置的特異性信息篷角,來鑒定單堿基變異(SNP)從而加以區(qū)分非常相似但不同的分類群焊刹。諸如Deblur和DADA2等算法,使用測序錯誤校正的模型來轉(zhuǎn)換測序數(shù)據(jù)為精確序列(標記基因序列)恳蹲,也稱為亞-OTUs(sOTUs)虐块。這些方法得到的結(jié)果是一個DNA序列表,是每個樣品中的不同序列數(shù)嘉蕾,而不是OTU群組贺奠。因此我們推薦,當需要與常見的全長數(shù)據(jù)參考數(shù)據(jù)庫比對的時候错忱,這些方法替代現(xiàn)有基于OTU的方法儡率,除非需要組合使用不同技術(shù)(即Illumina測序和454焦磷酸測序)產(chǎn)生的測序數(shù)據(jù)或者是引物不同。
一個關(guān)鍵的分析步驟是為微生物序列進行物種分類注釋以清。原則上儿普,與三大參考數(shù)據(jù)庫(三個最具特色且經(jīng)常使用的是Greengenes,RDP和Silva)精確匹配應當提供更好特異性的分類學分配掷倔,但當存在大量未知的分類群時這種方法的敏感性較差眉孩。此外,由片段較短的標記基因構(gòu)建的系統(tǒng)發(fā)育樹通常結(jié)果較差勒葱,將標記基因序列插入到基于全長序列的參考序列系統(tǒng)發(fā)育樹中是一種更好的做法浪汪。另外,應當對未分類的微生物進行核糖核酸序列分析是否為細胞器的序列凛虽,如葉綠體死遭、線粒體**(宿主非特異擴增序列)。
功能預測分析是一種將標記基因和可用的微生物基因組相聯(lián)系的技術(shù)凯旋,用來預測宏基因組呀潭,從而推斷其生物功能钉迷。這種分析通常需要基于參考數(shù)據(jù)庫生成OTU表,然后基于演繹模型(如PICRUSt,其中PICRUSt2:OTU/ASV等16S序列隨意預測宏基因組蜗侈,參考數(shù)據(jù)庫增大10倍)為這些基因含量預測提供置信區(qū)間篷牌,即在距離參考基因組較遠的樹置信度低,而在許多參考基因組可用的區(qū)域則置信度高踏幻。
12. Metagenome and metatranscriptome analyses
將未組裝的DNA或mRNA序列與參考數(shù)據(jù)庫比對,可以獲得物種和功能基因注釋.Cell:20種宏基因組學物種分類工具大比拼,物種分類標記基因方法采用廣泛關(guān)注的單拷貝基因戳杀,MetaPhlAn2一條命令獲得宏基因組物種組成该面。
想要組裝獲得部分或完善的單菌基因組,長序列通常采用MaxBin2信卡,或CONCOCT進行分箱(binning隔缀,或分類)為假定的單菌基因組,分箱主要原理是基于豐度和核酸組成等信息傍菇。
此外猾瘸,有許多工具可以進行更為復雜的標準化方法,如edgeR和DESeq2(采用基于負二項分析的標準化方法丢习,在高通量測序數(shù)據(jù)領(lǐng)域應用極廣泛牵触,edgeR使用實戰(zhàn)詳見3熱圖:差異菌、OTU及功能)咐低。
13. Higher-level analyses
微生物組數(shù)據(jù)經(jīng)過處理揽思,可以獲得特征(features,如物種不同分類級或基因)與樣本的豐度矩陣见擦。但這一結(jié)果是存在迷惑性(deceptively)的,因為微生物組數(shù)據(jù)通常是高維數(shù)據(jù)鲤屡,包括幾千個不同物種损痰,表格存在許多零值的稀疏性特點;因此需要注意的統(tǒng)計處理方法酒来,以挖掘有意義的結(jié)果卢未。Alpha
和Beta
多樣性常用于評估微生物組的整體變異。Alpha多樣性可以量化樣品內(nèi)的特征多樣性役首,也可以進行樣品組間比較尝丐。Alpha多樣性物種測量的方法有三類:豐富度(richness)的測量常用觀測的物種數(shù)(Observed OTU / Richness)和Chao1豐度估計(估計真實物種多樣性),進化距離測量采用信任系統(tǒng)發(fā)育多樣性(Faith’s phylogenetic diversity)衡奥,這兩類方法受樣本測序深度影響很大爹袁;此外還有一類即考慮豐富度,又考慮均勻度的Shannon指數(shù)矮固,對測序量不敏感失息。詳見箱線圖:Alpha多樣性解讀譬淳。Beta多樣性比較每對樣品間的差異,產(chǎn)生所有樣品對間的距離矩陣盹兢。度量標準的選擇對結(jié)果影響較大邻梆,需牢記我們在挖掘生物學數(shù)據(jù)并關(guān)注其背景的意義。Bray-Curtis绎秒、Canberra浦妄、 有權(quán)重的UniFrac等定量度量采用特征的豐度信息進行計算,binary-Jaccard见芹、無權(quán)重的UniFrac定性方法僅考慮特征的有無剂娄。進化方法的Unifrac分析需要進化樹文件,可提供更生物學的解析玄呛,但缺少樹文件時無法使用阅懦。(Alpha多樣性組間常用ANOVA),無參數(shù)的置換(permutation)檢驗方法PERMANOVA徘铝、ANOSIM用于估計的不同組間beta多樣性的顯著性耳胎,其中PERMANOVA應用于組間變異較大的數(shù)據(jù)集更好用。計算Alpha和beta多樣性惕它,需要研究者掌握抽樣技術(shù)(即每個樣本中抽取相同數(shù)量的序列)怕午,不同的抽樣數(shù)量級可影響結(jié)果。目前計算Unifrac最好的方式是稀疏/稀釋(rarefracation)怠缸,但一些特殊情況下的成對差異豐度比較需要完整的樣本數(shù)據(jù)集诗轻。Beta多樣性數(shù)據(jù)可視化采用排序的技術(shù),常用如主坐標軸分析(PCoA)或主成分分析(PCA)揭北。點我讀懂PCA和PCoA扳炬、PCoA繪制時間序列R代碼實例 。這類方法將復雜的距離矩陣搔体,轉(zhuǎn)換為可觀察的2或3維空間恨樟,代表樣品間距離。樣品可以按分組信息著色疚俱,方便觀察組間差異劝术,屬于無監(jiān)督的方法。EMPeror框架提供可交互式的顯示PCoA圖呆奕。微生物組數(shù)據(jù)具有高維养晋、松散、組成型等特點梁钾,鑒定解析微生物群落差異的分類群具有挑戰(zhàn)性绳泉。例如,己知某個病人的藥物只影響一個微生物屬姆泻,對其它菌無任何影響零酪。盡量其它微生物不受藥物影響冒嫡,但它們相對豐度減少,是由單個微生物屬過度生長引起的四苇。這種情況影響許多經(jīng)典方法的結(jié)果孝凌,如參數(shù)統(tǒng)計檢驗(如student’ t-test和ANOVA,還有wilcoxon秩和檢驗)月腋、計算相關(guān)性(如Spearman排序相關(guān)系數(shù))通常導致完全不可接受的超90%假陽性率蟀架。一種方法是在統(tǒng)計檢驗上強制進行強生物假設(shè):如Lovell’s比例度量方法僅檢測正相關(guān)。其它一些工具為微生物組數(shù)據(jù)專門做了優(yōu)化罗售,假定小部分物種是相關(guān)的辜窑,大多數(shù)的相關(guān)系數(shù)為0,如SparCC和SPEIC-EASI寨躁。機器學習是在微生物組領(lǐng)域非常有效的方法,可基于當前狀態(tài)區(qū)分樣品(分類牙勘,由己知的分類與結(jié)果學習职恳,預測末知分類,如健康和疾病方面、亞種分類【NBT封面:預測水稻亞種】)放钦。ourceTracker可以估計末知群體微生物來源和組成,最有用的是可根據(jù)環(huán)境樣品來分類微生物的來源恭金。
14.Integrating other omics data
了解微生物群落的組成并不是研究的終點操禀,我們更想知道群體的功能。擴增子測序横腿,宏基因組颓屑,宏轉(zhuǎn)錄組,宏蛋白組耿焊,宏代謝組和其它技術(shù)的多組學數(shù)據(jù)整合揪惦,可用于特定微生物群體功能和組成的深入研究。
Nature Protocols:整合宏基因組罗侯、代謝組和表型分析的的計算框架綜上所述器腋,整合多組學數(shù)據(jù)可以更全面的理解微生物組——從DNA鑒定到蛋白和代謝物的功能,使用研究結(jié)果可有科學意義钩杰。
14.Metabolomics and the microbiome
微生物產(chǎn)生代謝物可影響宿主和微生物群體動態(tài)變化纫塌,并與宿主的疾病和健康狀態(tài)有關(guān)。代謝物有益處(如短鏈脂肪酸)或毒性(基因毒率大腸桿菌素)影響宿主
15.Conclusions
本綜述討論了微生物組研究各階段工作的指南讲弄,從實驗設(shè)計措左、收集儲存樣品、測序數(shù)據(jù)的圖形結(jié)果中挖掘規(guī)律等垂睬,均對結(jié)果與生物學解釋有影響媳荒。
本文主要參考文獻:Best practices for analysing microbiomes
以及參考公眾號劉永鑫Adam