復(fù)雜的微生物群落塑造了從哺乳動物胃腸道到土壤的各種環(huán)境的動態(tài)斋荞。與早期方法相比桐臊,DNA測序技術(shù)和數(shù)據(jù)分析的進(jìn)步極大地改善了微生物組分析惨撇,例如在分類學(xué)分辨率伊脓,錯誤發(fā)現(xiàn)率控制和其他特性方面。此文章介紹微生物分析的最佳實踐方法魁衙,討論內(nèi)容包括實驗設(shè)計报腔、分子分析技術(shù)選擇、數(shù)據(jù)分析和多個組學(xué)數(shù)據(jù)集集成的方法等方面纺棺。
實驗設(shè)計
實驗設(shè)計是分析中重要的第一步榄笙,它決定能否產(chǎn)生有意義的實驗數(shù)據(jù)。微生物分析的一般方法適用于任何來源的樣本祷蝌,但是茅撞,對于不同來源的樣本需要有特殊的分析細(xì)節(jié)。對于微生物組分析,重現(xiàn)性非常重要米丘。相同的微生物組分析通常會產(chǎn)生相互矛盾的結(jié)果剑令。如果沒有合適的樣本采集、數(shù)據(jù)處理和分析方法拄查,就很難重新檢查這些數(shù)據(jù)并調(diào)和兩次分析的差異吁津。隨著該領(lǐng)域的發(fā)展,重新審視早期實驗并利用新工具對數(shù)據(jù)進(jìn)行分析將非常有必要堕扶。收集樣本時碍脏,應(yīng)將收集過程的詳細(xì)信息記錄在實驗metadata中,以確保盡可能多地考慮收集過程中可能存在的問題稍算。此外典尾,需要遵循MIMARKS和MIMS。在生物信息學(xué)處理過程中糊探,研究人員應(yīng)跟蹤他們運行的所有命令和他們使用的所有軟件版本钾埂,并將其原始數(shù)據(jù)和matadata存放在公共存儲庫中。
盡管微生物組數(shù)據(jù)分析方法廣泛適用于許多樣品類型和環(huán)境科平,但實驗設(shè)計和方法選擇需要仔細(xì)考慮不同的樣品類型褥紫。首先,必須考慮樣品的組成和用于不同方法的可行性瞪慧,例如對于被非微生物 DNA 嚴(yán)重污染的樣品(例如組織)髓考,如果不去除非微生物DNA,那么鳥槍法宏基因組測序不適用弃酌。根據(jù)實驗的問題绳军,被死亡微生物的relic DNA(細(xì)胞外或“遺跡”DNA是生物圈中最大的核酸庫之一。遺跡DNA可以影響許多重要的生態(tài)和進(jìn)化過程矢腻,但它也可能影響微生物豐度和多樣性的估計,這對理解環(huán)境射赛、工程和宿主相關(guān)生態(tài)系統(tǒng)有意義)嚴(yán)重污染的樣品多柑,例如土壤樣品,可能需要通過單氮化丙啶物理去除 relic DNA或者用其他方法進(jìn)行去除楣责;要收集的樣品量也由樣品類型決定竣灌。高生物量糞便樣品可能只需要拭子采樣即可滿足要求,但微生物密度低的樣品可能需要更大的體積和更深的濃度才能充分提取 DNA秆麸。樣品保存方法由分析方法和樣品類型決定初嘹。例如,宏轉(zhuǎn)錄組學(xué)需要rNase抑制劑沮趣,代謝組學(xué)需要不干擾代謝物提取或數(shù)據(jù)收集的樣品保存屯烦。
首先,必須確定實驗的范圍,并為感興趣的問題選擇適當(dāng)?shù)膶嶒炘O(shè)計驻龟。例如cross-sectional 研究有助于發(fā)現(xiàn)不同人群之間微生物群落的差異温眉,例如健康個體和患有疾病的個體或生活在不同地理區(qū)域的個體。然而由于個體微生物組的巨大差異已經(jīng)生活方式翁狐、飲食类溢、藥物和生理差異,人群之間的差異可能來自目標(biāo)疾病之外的其他因素露懒。Longitudinal studies闯冷,特別是前瞻性Longitudinal studies,在疾病發(fā)作之前采集樣本作為 baseline 樣本懈词,可以幫助解決以上問題蛇耀。為方便下游統(tǒng)計分析,longitudinal studies需要仔細(xì)計劃樣本采集時間钦睡。有趣的是蒂窒,群落的不穩(wěn)定性可以成為疾病活動的有力預(yù)測指標(biāo),而不是單個時間點存在的特定類群荞怒。介入研究洒琢,包括雙盲隨機對照研究,對于確定一個療程對微生物組和疾病狀態(tài)的具體影響特別有用褐桌。設(shè)計具有分析計劃和特定實驗問題的研究可以幫助確定樣本量衰抑。
定義對照和排除標(biāo)準(zhǔn)
在case-control實驗設(shè)計中,必須適當(dāng)選擇和匹配對照荧嵌。年齡和性別是常見的控制標(biāo)準(zhǔn)呛踊,盡管性別對身體部位的大多數(shù)人類微生物組的影響相對較弱,而藥物和飲食等其他變量通常是更重要的混雜因素啦撮。收集全面的臨床數(shù)據(jù)對于識別無法控制的混雜因素至關(guān)重要谭网。
動物模型
研究微生物組的主要動物模型是嚙齒動物,如小鼠赃春。其他具有不同微生物復(fù)雜性的模型愉择,如短尾魷魚、昆蟲或斑馬魚织中,通匙短椋可用于研究宿主和微生物之間的特定相互作用(例如,微生物組和宿主遺傳學(xué)如何相互影響)狭吼。然而层坠,嚙齒動物通常是首選,因為它們具有很好的特征并且與人類有許多生理相似之處刁笙。嚙齒動物微生物組研究需要特別仔細(xì)的設(shè)計破花。由于嚙齒動物具有糞便谦趣,籠式伴侶糞便微生物組隨著時間的推移變得更加均勻,因此必須在多個籠子中重復(fù)實驗以控制籠子效應(yīng)旧乞。
技術(shù)差異
從DNA提取到測序的實驗方法之間的技術(shù)差異很大蔚润。研究中的所有樣品必須使用相同的試劑盒,并且應(yīng)收集多個baseline樣品以評估縱向研究中時間點之間的內(nèi)在變異性尺栖。在取樣嫡纠、DNA提取、PCR和測序過程中使用空白對照對于檢測污染至關(guān)重要延赌。污染的reads可以在分析過程中進(jìn)行去除除盏。
根據(jù)實驗范圍(包括整體實驗設(shè)計、樣品類型和來源挫以、測序方法以及下面討論的其他因素)者蠕,研究人員可以致力于獲得廣泛的、社區(qū)級 樣本概述掐松、詳細(xì)的基因組水平理解踱侣,甚至是微生物群落功能變異的特征。
測序目標(biāo)和方法
調(diào)查微生物群落的不同方法大磺,包括標(biāo)記基因抡句、宏基因組和宏轉(zhuǎn)錄組測序,可以產(chǎn)生不同的結(jié)果杠愧。所有廣泛使用的方法都有優(yōu)點和缺點待榔,因此實驗問題、假設(shè)流济、樣品類型和分析目標(biāo)都應(yīng)在方法選擇時考慮在內(nèi)锐锣。以下是16S、宏基因組和宏轉(zhuǎn)錄組的Best 流程绳瘟。
Mark gene 分析
標(biāo)記基因測序使用靶向目標(biāo)基因特定區(qū)域的引物雕憔,以確定樣品的微生物系統(tǒng)發(fā)育。該區(qū)域通常包含一個高度可變的區(qū)域糖声,可用于詳細(xì)鑒定橘茉,其兩側(cè)是高度保守的區(qū)域,可用作PCR引物的結(jié)合位點姨丈。標(biāo)記基因擴增和測序(例如用于細(xì)菌和古菌的 16S rRNA 以及用于真菌的內(nèi)部轉(zhuǎn)錄間隔 (ITS))是經(jīng)過充分測試、快速且具有成本效益的方法擅腰,用于獲得微生物群落的低分辨率視圖蟋恬。這種方法適用于被宿主DNA污染的樣品,例如組織和低生物量樣品趁冈。然而歼争,由于這些引物擴增區(qū)域的DNA序列不同拜马,引物對所有可能的DNA序列親和力也不相同,因此在PCR擴增過程中會引起偏差沐绒。Mark gene測序中固有偏倚的其他來源包括可變區(qū)域選擇俩莽、擴增子大小和PCR的循環(huán)數(shù)等。低生物量樣品特別容易受到偏差的影響乔遮,主要由于過度擴增引入扮超,隨著 PCR 循環(huán)次數(shù)的增加优俘,污染微生物的代表性越來越高盾剩。選擇合適的引物有助于減輕bias,但是這需要有微生物群落組成的先驗知識姨裸,以評估目標(biāo)群落的分類分辨率和覆蓋度坯辩。但是馁龟,即使是經(jīng)過良好優(yōu)化的引物分類分辨率也只能達(dá)到屬的水平。
全宏基因組分析
宏基因組學(xué)是對樣品內(nèi)所有微生物基因組進(jìn)行測序的方法漆魔。與單獨的mark gene測序相比坷檩,宏基因組測序可產(chǎn)生更詳細(xì)的基因組信息和分類分辨率,但制備改抡、測序和分析樣品的成本相對較高矢炼。這種方法捕獲樣本中的所有DNA,包括病毒雀摘、真核生物DNA裸删。給定足夠的測序深度,分類分辨率可以達(dá)到物種或菌株水平阵赠,也可以利用短DNA序列reads組裝整個微生物基因組涯塔。但是無法對功能基因進(jìn)行從頭注釋。宏基因組測序從基因水平上分析整個菌落功能清蚀,分辨率遠(yuǎn)遠(yuǎn)超出了mark gene分析的極限匕荸。但是與mark gene方法相比,文庫構(gòu)建枷邪、組裝榛搔、用于注釋的參考數(shù)據(jù)庫會引入更多不為人知的bias。隨著宏基因組學(xué)領(lǐng)域的成熟东揣,這些注釋步驟將繼續(xù)得到改進(jìn)和驗證践惑。
宏轉(zhuǎn)錄組分析
宏轉(zhuǎn)錄組學(xué)使用RNA測序來分析微生物組中的轉(zhuǎn)錄組,提供有關(guān)基因表達(dá)和微生物組活性功能輸出的信息嘶卧。宏轉(zhuǎn)錄組不同于mark gene 和宏基因組測序尔觉,后者對樣品中的DNA進(jìn)行測序,而不管細(xì)胞活力或活性如何芥吟。雖然有從死細(xì)胞中去除relicDNA的方法侦铜,對微生物RNA進(jìn)行測序可以更好地了解微生物群落的功能活性专甩,盡管宏轉(zhuǎn)錄組分析偏向于轉(zhuǎn)錄活性較高的生物體。宿主RNA污染钉稍,特別是來自高峰度rRNA的污染涤躲,也是一個重要的考慮因素,需要考慮從樣品中將污染RNA排除贡未。由于RNA容易降解种樱,所以保存時需要仔細(xì),以避免在所有情況下RNA的降解羞秤。此外一些特殊的樣本類型需要專門的RNA純化方案缸托。宏轉(zhuǎn)錄組學(xué)數(shù)據(jù)可以提供獨特的內(nèi)容,并且瘾蛋,轉(zhuǎn)錄組相比于基因組俐镐,其在體內(nèi)的差異更大。
宏基因組和宏轉(zhuǎn)錄組分析
基于reads的分析
對未組裝的DNA或RNA reads與參考數(shù)據(jù)庫進(jìn)行比較哺哼,進(jìn)行分類或進(jìn)行基因注釋佩抹。Kraken/Kraken2 基于k-mer精確比對,采用LCA投票結(jié)果取董,對宏基因組DNA序列進(jìn)行快速的物種注釋棍苹,分類原理如下圖所示:
或者利用Burrows-Wheeler transform (BWT)算法對數(shù)據(jù)庫進(jìn)行壓縮,例如Bowtie2茵汰,Centrifuge枢里。Mark gene的方法(MetaPhlAn2和TIPP)利用基因組特定區(qū)域進(jìn)行分類,主要是通用單拷貝原件蹂午。HUMAnN2可以進(jìn)行基因注釋和代謝通路分析栏豺。MEGAN整合兩種分析內(nèi)容,如果需要進(jìn)行兩種注釋時可以使用這種工具豆胸“峦荩基于reads的分析方法單獨考慮每條reads的信息,因此此方法可以有效的擴展到大型復(fù)雜的數(shù)據(jù)集晚胡,例如土壤微生物組數(shù)據(jù)集灵奖。需要注意的是,物種分類和功能注釋依賴reads和參考基因組的同源性估盘,因此數(shù)據(jù)庫的選擇至關(guān)重要瓷患。對于人類腸道等特征明確的環(huán)境,RefSeq 等基因組數(shù)據(jù)庫和 Pfam 或 UniRef 等蛋白質(zhì)家族數(shù)據(jù)庫可提高結(jié)果的準(zhǔn)確性并降低計算成本遣妥。而對于來自不佳環(huán)境的樣本擅编,應(yīng)考慮使用大型數(shù)據(jù)庫,例如NCBI nt燥透、nr和IMG/M沙咏,因為數(shù)據(jù)庫更大,計算復(fù)雜性增加班套,特異性降低肢藐。特定的分類和功能類別必須使用專門的數(shù)據(jù)庫進(jìn)行注釋。例如PHASTER對噬菌體進(jìn)行注釋吱韭,Resfams對抗生素耐藥基因進(jìn)行注釋吆豹,F(xiàn)OAM對環(huán)境樣本進(jìn)行注釋。
基于組裝的分析
另一種分析宏基因組和宏轉(zhuǎn)錄組的方法是將reads組裝成更長的contigs理盆。這些contigs可以通過相似性進(jìn)一步sorted或binning痘煤,對微生物基因組進(jìn)行組裝,得到部分基因組進(jìn)而得到完整的基因組猿规。預(yù)測多基因生物合成途徑衷快,甚至可以使用antiSMASH工具進(jìn)行代謝重建。在一些情況下姨俩,基于組裝的分析方法并不適用蘸拔,較高的生物多樣性、樣本中存在許多相關(guān)菌株环葵、低覆蓋率等會使組裝產(chǎn)生的contig很多调窍,在下游分析中,物種分類會不明確张遭。例如土壤樣本由于微生物多樣本高邓萨,微生物分布不均勻,通常很難組裝菊卷。需要的工具包括metaSPAdes和MEGAHIT缔恳。可以使用MaxBin2和CONCOCT等工具對單個微生物部分基因組組裝為完整基因組的烁『侄可以使用單拷貝基因分析工具,例如CheckM渴庆,估計基因組完整性和污染狀況铃芦,以評估分箱和組裝基因組的質(zhì)量。VizBin等可視化工具顯示宏基因組序列的聚類襟雷。由于宏基因組組裝的方法復(fù)雜刃滓,可以使用Anvio、ATLAS耸弄、MetAMOS等workflow 工具對數(shù)據(jù)自動化分析咧虎。
為了比較不同測序樣本的reads數(shù),可以采用多種方法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化计呈。常見的標(biāo)準(zhǔn)化方法有RPKM砰诵、FPKM征唬、TPM。常用工具有 edgeR和DESeq2茁彭。
高級分析
微生物組變異的總體模式通常通過Alpha和Beta?多樣性進(jìn)行評估总寒。
Alpha多樣性量化單個樣本中的特征多樣性,并且可以跨樣本組進(jìn)行比較理肺。例如摄闸,當(dāng)將患有疾病的個體樣本與健康對照組進(jìn)行比較時,可以使用Alpha多樣性來比較兩個樣本之間的平均物種多樣性妹萨。物種豐富度和系統(tǒng)發(fā)育對樣本序列數(shù)敏感年枕,結(jié)合豐富度和均勻度(香農(nóng)指數(shù))則可以降低這種敏感性。但是乎完,應(yīng)該注意的是熏兄,這些方法僅針對16S rRNA數(shù)據(jù)進(jìn)行了評估,可能不適用于其他微生物組數(shù)據(jù)類型囱怕。
Beta 多樣性比較每對樣本之間的特征差異霍弹,生成所有樣本對之間的 beta 多樣性距離的距離矩陣。?矩陣的的選擇會影響結(jié)果的獲得娃弓,在選擇相應(yīng)矩陣時應(yīng)結(jié)合生物數(shù)據(jù)的解釋典格。定量指標(biāo)(Bray-Curtis,Canberra和weighted UniFrac)在計算中使用特征豐度數(shù)據(jù)台丛,而定性指標(biāo)(binary-Jaccard和unweighted UniFrac)僅考慮特征的存在與否耍缴。UniFrac 等系統(tǒng)發(fā)育測定通常提供可解釋的生物模式,這些指標(biāo)需要系統(tǒng)發(fā)育樹挽霉,因此不能與沒有系統(tǒng)發(fā)育樹的組學(xué)數(shù)據(jù)直接進(jìn)行比較防嗡。進(jìn)行Alpha和Beta多樣性計算的軟件,如 QIIME侠坎、Mothur蚁趁、和R 包vegan。非參數(shù)置換檢驗PERMANOVA和ANOSIM用于評估組間顯著的β多樣性聚類实胸,但是PERMANOVA 在組內(nèi)具有不同分散度的數(shù)據(jù)集上可能表現(xiàn)更好他嫡。
?對于Beta多樣性數(shù)據(jù)的可視化,通常使用排序技術(shù)庐完。例如PCOA或PCA钢属。PCoA (principal co-ordinates analysis)是一種研究數(shù)據(jù)相似性或差異性的可視化方法,通過一系列的特征值和特征向量進(jìn)行排序后门躯,選擇主要排在前幾位的特征值淆党, PCoA 可以找到距離矩陣中最主要的坐標(biāo),結(jié)果是數(shù)據(jù)矩陣的一個旋轉(zhuǎn),它沒有改變樣品點之間的相互位置關(guān)系染乌,只是改變了坐標(biāo)系統(tǒng)山孔。通過PCoA 可以觀察個體或群體間的差異。這些方法將大而復(fù)雜的距離矩陣轉(zhuǎn)化為樣本距離的二維或三維度展示荷憋。然后基于metadata類別對樣本進(jìn)行著色饱须,以無監(jiān)督方式進(jìn)行可視化聚類。EMPeror提供用于操作PCoA作圖的交互式框架台谊。
另一種常見的分析方法是在感興趣的比較組(即治療組與對照組)中查看差異豐度的微生物或功能元件(例如genes和pathways)。識別可解釋微生物群落間差異的微生物分類群有非常高的挑戰(zhàn)性譬挚,因為微生物數(shù)據(jù)集高維(包含數(shù)千個分類群)锅铅、稀疏、組成性問題减宣。組成是主要問題盐须。當(dāng)群落中一種微生物比例升高,那么其他微生物的比例必然減少漆腌,因為群落組成整體是1贼邓。例如,假設(shè)患者服用的藥物僅增加單個微生物屬的生長速率闷尿,而不影響其他微生物屬的生長塑径。雖然其他微生物不受藥物的影響,但由于單一微生物屬的生長填具,其他微生物的相對豐度也會降低统舀。這對很多經(jīng)典方法帶來很大的挑戰(zhàn),例如參數(shù)統(tǒng)計檢驗(Student's t-test劳景;方差分析)誉简,相關(guān)性分析包括Spearman’s rank correlation通常會導(dǎo)致無法接受的假陽性率(可能超過90%)。compositionally aware methods 解決了組成和相對豐度的問題盟广。一是:統(tǒng)計檢驗中強制使用強有力的生物學(xué)假設(shè)闷串。還有一些對微生物組數(shù)據(jù)分析進(jìn)行優(yōu)化的工具,例如SparCC和SPEIC-EASI筋量,他們假設(shè)物種相關(guān)性很小烹吵,因此相關(guān)系數(shù)為0。BAnOCC也是解決物種組成性問題的工具毛甲。isometric log ratio transform (ilr)方法通過測試微生物豐度之間對數(shù)比率的變化(通常稱為平衡(balance))來控制由于比例性而導(dǎo)致的假陽性年叮。平衡可以根據(jù)先驗知識進(jìn)行構(gòu)建,比如進(jìn)化史玻募。應(yīng)用ILR后只损,標(biāo)準(zhǔn)統(tǒng)計工具,如多元響應(yīng)、線性回歸和分類跃惫,可以有效地測試微生物之間平衡或?qū)?shù)比率的差異叮叹,而不是原始微生物豐度的差異,從而控制組成爆存。其他方法例如可以使用絕對定量分析解決組成的問題蛉顽。絕對定量分析能反映樣本每種微生物的真實數(shù)量和組間樣本的真實差異。
機器學(xué)習(xí)在微生物分析中應(yīng)用越來越廣泛先较⌒可以基于當(dāng)前狀態(tài)(健康或患病)分離樣本闲勺,或預(yù)測未來狀態(tài)曾棕。例如,可以根據(jù)個體的口腔微生物群對牙齦炎的嚴(yán)重程度和易感性進(jìn)行建模菜循。SourceTracker是基于Bayesian原理的估計器翘地,可以分析未知群落的微生物起源,可以根據(jù)起源環(huán)境對微生物樣本進(jìn)行分類癌幕。機器學(xué)習(xí)分析需要大量的樣本量衙耕,應(yīng)始終與交叉驗證、獨立測試集或其他實驗和生物學(xué)驗證相結(jié)合勺远,以確保結(jié)果的可靠性橙喘。
整合其他組學(xué)數(shù)據(jù)進(jìn)行分析
對于給定的研究,整合其他數(shù)據(jù)類型(包括標(biāo)記基因測序胶逢、宏基因組學(xué)渴杆、宏轉(zhuǎn)錄組學(xué)、宏蛋白質(zhì)組學(xué)宪塔、代謝組學(xué)和其他技術(shù))對于全面了解微生物群落的組成和功能至關(guān)重要磁奖。多組學(xué)分析整合了化學(xué)和生物學(xué)知識,以提供更完整的生物系統(tǒng)圖景某筐,并且是一個活躍的研究領(lǐng)域比搭,其方法在很大程度上未經(jīng)測試。
集成多組學(xué)分析本質(zhì)上存在困難南誊。例如身诺,基因表達(dá)和代謝在不同時間尺度上運作,微生物產(chǎn)生許多代謝物通常只響應(yīng)來自其他物種的分子信號抄囚。此外霉赡,宏基因組和代謝組學(xué)數(shù)據(jù)集(其中數(shù)據(jù)矩陣主要由零組成)比宏蛋白質(zhì)組數(shù)據(jù)集稀疏得多,這可能會給某些方法帶來技術(shù)問題幔托。目前也有一些工具進(jìn)行整合分析穴亏。XCMS在線整合代謝組學(xué)和代謝途徑數(shù)據(jù)蜂挪,以及轉(zhuǎn)錄組學(xué)和蛋白組學(xué)數(shù)據(jù)。傳統(tǒng)方法嗓化,如Pearson和Spearman棠涮,可以實現(xiàn)跨組學(xué)數(shù)據(jù)集的特征之間的成對關(guān)聯(lián)。然而刺覆,由于微生物組和代謝組數(shù)據(jù)集的稀疏性和高維性严肪,這些容易出現(xiàn)假陽性。Procrustes分析(Procrustes Analysis谦屑,普魯克分析)使用降維數(shù)據(jù)測試一個數(shù)據(jù)集中樣本之間的模式(距離)是否在另一個數(shù)據(jù)集中觀察到驳糯,是一種通過分析形狀分布,比較兩組數(shù)據(jù)一致性的方法氢橙。數(shù)學(xué)上來講结窘,就是不斷迭代,尋找標(biāo)準(zhǔn)形狀(canonical shape)充蓝,并利用最小二乘法尋找每個對象形狀到這個標(biāo)準(zhǔn)形狀的仿射變化方式。該過程也稱為最小二乘正交映射(least-squares orthogonal mapping)喉磁。先進(jìn)的綜合分析工具GNPS的分子網(wǎng)絡(luò)可以識別代謝物和途徑注釋谓苟。盡管存在這些挑戰(zhàn),但組學(xué)數(shù)據(jù)集成的未來潛力是有希望的协怒。有許多宏基因組涝焙、宏轉(zhuǎn)錄組和代謝組數(shù)據(jù)被成功整合的例子,闡明了微生物組中的基因調(diào)控孕暇,并將微生物的存在與代謝物相關(guān)聯(lián)仑撞。總體而言妖滔,整合組學(xué)數(shù)據(jù)可以提供對微生物組的更全面和機械的理解 - 從DNA鑒定到代謝物和蛋白質(zhì)的功能生產(chǎn) - 理想情況下導(dǎo)致更具可操作性的科學(xué)見解隧哮。
本文使用 文章同步助手 同步