縱向微生物組研究可以捕捉微生物組內(nèi)的時(shí)間變化,以獲得對(duì)微生物系統(tǒng)的機(jī)理認(rèn)識(shí)结借。近日筐摘,《Briefings in Bioinformatics》發(fā)表綜述文章,回顧了縱向微生物組研究的現(xiàn)有統(tǒng)計(jì)方法,以強(qiáng)調(diào)其優(yōu)勢(shì)和局限性咖熟。
縱向微生物組研究
分析目標(biāo)
一項(xiàng)成功的研究始于清晰圃酵、明確的科學(xué)研究目標(biāo)♀晒埽縱向微生物組研究的共同目標(biāo):
1)研究感興趣的群體(如病例與對(duì)照組郭赐、疾病或治療組)之間的微生物豐度如何隨時(shí)間變化,以及微生物豐度與其他因素(如臨床結(jié)果确沸、疾病或治療)之間的關(guān)聯(lián)如何隨時(shí)間變化捌锭。在這種情況下,時(shí)間和患者或單個(gè)組之間差異都可能是有意義的罗捎。
2)對(duì)具有類似時(shí)間豐度模式的微生物進(jìn)行分組观谦。這種分析往往要求我們首先對(duì)每種微生物的時(shí)間軌跡進(jìn)行建模。
3)構(gòu)建一個(gè)微生物網(wǎng)絡(luò)宛逗,了解各組微生物之間的時(shí)間關(guān)系坎匿。
研究設(shè)計(jì)
縱向微生物組數(shù)據(jù)通常來自兩種不同的情況:來自設(shè)計(jì)實(shí)驗(yàn)(如小鼠)[L1]和人類隨訪或隊(duì)列研究[L2]。對(duì)于L1類縱向數(shù)據(jù)雷激,時(shí)間點(diǎn)通常比L2研究緊密,每個(gè)受試者的時(shí)間點(diǎn)數(shù)量相同(或非常相似)告私。相比之下屎暇,L2類數(shù)據(jù)通常具有受試者時(shí)間點(diǎn)數(shù)量不均勻和時(shí)間點(diǎn)間隔不均勻的特點(diǎn)。此外驻粟,在L2研究中根悼,一些外部因素(如飲食)也可能影響微生物組,但可能經(jīng)常無法測(cè)量或不受控制蜀撑,這使得建模更具挑戰(zhàn)性挤巡。
數(shù)據(jù)特征
L1和L2設(shè)計(jì)均使用擴(kuò)增子或宏基因組測(cè)序來生成原始數(shù)據(jù)。由于微生物組數(shù)據(jù)的性質(zhì)酷麦,這兩種測(cè)序方法產(chǎn)生的數(shù)據(jù)具有許多分析挑戰(zhàn)矿卑,這些數(shù)據(jù)稀疏、過度分散沃饶、高維母廷、多線性、多變量和高度可變糊肤。
縱向微生物組研究的統(tǒng)計(jì)方法
鑒定不同時(shí)間琴昆、不同組別、不同組別和不同時(shí)間之間豐度不同的微生物
當(dāng)前方法
1. Zero-inf lated beta regression Model
ZIBR可以同時(shí)評(píng)估每個(gè)分類群隨時(shí)間和組間的豐度變化馆揉。適用于相對(duì)豐度(比例)數(shù)據(jù)业舍,并使用伯努利分布捕捉微生物的存在或不存在,以及使用貝塔分布捕捉非零豐度。ZIBR具有高度的可行性舷暮,可以評(píng)估分析目標(biāo)1中說明的所有效應(yīng)态罪。
其優(yōu)點(diǎn)之一是它能夠通過使用邏輯組件來解釋數(shù)據(jù)的稀疏性。然而脚牍,ZIBR有幾個(gè)局限性:該模型沒有明確說明模型中的受試者內(nèi)相關(guān)結(jié)構(gòu)(即自回歸相關(guān)結(jié)構(gòu))向臀;ZIBR無法處理給定主題在給定時(shí)間點(diǎn)丟失的數(shù)據(jù)等。
2.Negative binomial mixed model
NBMM可以檢測(cè)微生物計(jì)數(shù)(無轉(zhuǎn)換)與協(xié)變量(如治療诸狭、表型券膀、年齡、飲食習(xí)慣等)之間的關(guān)聯(lián)驯遇,同時(shí)考慮受試者內(nèi)部和之間微生物豐度的時(shí)間趨勢(shì)芹彬。NBMM模型可以用不同的固定效應(yīng)進(jìn)行擬合,如時(shí)間效應(yīng)叉庐、治療效應(yīng)以及時(shí)間和治療之間的交互作用舒帮。因此,與ZIBR相似陡叠,NBMM也可以評(píng)估分析目標(biāo)1中說明的所有效應(yīng)玩郊。
NBMM可以適應(yīng)同一受試者觀察結(jié)果之間不同的相關(guān)結(jié)構(gòu),而ZIBR則沒有這種靈活性枉阵。然而該方法沒有明確地處理零膨脹译红。
3.Block Bootstrap Method
BBM是縱向微生物組計(jì)數(shù)數(shù)據(jù)引導(dǎo)法的擴(kuò)展,其旨在確定樣本組之間的差異豐度兴溜,但不關(guān)注時(shí)間效應(yīng)侦厚。因此,該方法只能識(shí)別組間差異表達(dá)的分類群拙徽。BBM是非參數(shù)的刨沦,不需要特定的數(shù)據(jù)分布。它可以處理對(duì)象內(nèi)的依賴性膘怕,并解釋不同的庫大小想诅,以解決數(shù)據(jù)的組成性質(zhì)。
作為限制因素淳蔼,該方法計(jì)算量大侧蘸,需要足夠多的時(shí)間點(diǎn)(至少五個(gè))來指定兩個(gè)調(diào)整參數(shù)(初始區(qū)塊大小、子采樣的重復(fù)觀察數(shù))鹉梨。稀疏性和可變性仍然存在問題讳癌,需要預(yù)先過濾,以去除由于時(shí)間變化(技術(shù)和生物來源)造成的不必要的噪音存皂。BBM不考慮其他協(xié)變量晌坤,當(dāng)所有受試者的觀察次數(shù)相同時(shí)逢艘,其表現(xiàn)最佳。在解釋方面骤菠,該方法評(píng)估了一個(gè)樣本組的豐度是否高于另一個(gè)它改,但沒有量化這種差異。
4.?SplinectomeR
SplinectomeR是一個(gè)R包商乎,它使用加權(quán)局部多項(xiàng)式(Loess splines)來總結(jié)縱向研究中假設(shè)檢驗(yàn)的數(shù)據(jù)央拖。
SplinectomeR中的方法易于解釋,可以直接比較多個(gè)時(shí)間點(diǎn)的觀察結(jié)果鹉戚,而無需對(duì)這些時(shí)間點(diǎn)進(jìn)行平均或匯總鲜戒。它們還可以處理缺失或不平衡的數(shù)據(jù)。然而抹凳,這些方法可能會(huì)受到異常值的影響遏餐,特別是在稀疏數(shù)據(jù)集中,并且不考慮組成數(shù)據(jù)赢底。
5.Zero-inf lated Gaussian mixed models
ZIGMM用于解釋受試者內(nèi)的相關(guān)性和微生物組數(shù)據(jù)的其他特性失都。與上述所有方法類似,ZIGMM也是單變量的幸冻。與其他兩種零信息方法ZIBR和ZINBMM相比粹庞,ZIGMM在計(jì)算效率方面優(yōu)于以前開發(fā)的各種方法。與ZIBR和NBMM類似洽损,ZIGMM還可以評(píng)估時(shí)間效應(yīng)信粮、組效應(yīng)和時(shí)間×組相互作用效應(yīng)。
ZIGMM的主要優(yōu)點(diǎn)是能夠模擬受試者內(nèi)樣本之間的時(shí)間依賴性效應(yīng)和相關(guān)性趁啸。此外,該方法可以包括正態(tài)分布和零相關(guān)模型的各種固定效應(yīng)和隨機(jī)效應(yīng)督惰。該方法還可以解釋樣本之間不同的自回歸相關(guān)結(jié)構(gòu)不傅。最后,該方法可以分析微生物組比例數(shù)據(jù)以及擴(kuò)增子或宏基因組測(cè)序技術(shù)生成的計(jì)數(shù)數(shù)據(jù)赏胚。然而访娶,ZGMM也遇到了控制假陽性率的擬合問題,特別是在分析復(fù)雜數(shù)據(jù)(包括宏基因組學(xué))時(shí)觉阅。
6.Bayesian semi-parametric generalized linear model
該方法使用具有均值約束的正則先驗(yàn)來避免可識(shí)別性問題崖疤,并在微生物變量、樣本和時(shí)間點(diǎn)之間借用信息典勇。由于數(shù)據(jù)的高維性和協(xié)變量之間的高度相關(guān)性劫哼,產(chǎn)生了稀疏估計(jì)。與其他方法相比割笙,這種方法是多變量的权烧。然而眯亦,需要更多的發(fā)展來靈活捕捉響應(yīng)函數(shù)中的不同形狀,納入變量選擇般码,并允許時(shí)間相關(guān)的協(xié)變量妻率。由于數(shù)據(jù)稀疏性,必須謹(jǐn)慎處理后驗(yàn)計(jì)算板祝,并且需要納入先驗(yàn)信息以進(jìn)行準(zhǔn)確推斷宫静。
7.?Fast zero-inf lated negative binomial mixed model
FZINBMM模型可以評(píng)估時(shí)間和群體效應(yīng)以及時(shí)間×群體相互作用效應(yīng)。在此前的模擬和真實(shí)數(shù)據(jù)評(píng)估中FZINBMM在經(jīng)驗(yàn)?zāi)芰蜋z測(cè)到的分類群的高比例方面優(yōu)于其他計(jì)數(shù)方法券时,如LMMs孤里、NBMMs和ZIGMMs。然而革为,當(dāng)數(shù)據(jù)不是高度稀疏時(shí)扭粱,F(xiàn)ZINBMM的表現(xiàn)與ZIGMMs和NBMMs相似。
性能評(píng)估
研究團(tuán)隊(duì)模擬數(shù)據(jù)以評(píng)估不同豐度方法的性能:除ZIGMM外震檩,基于計(jì)數(shù)數(shù)據(jù)的所有其他方法(NBMM琢蛤、FZINBMM)在檢測(cè)時(shí)間效應(yīng)和群體效應(yīng)方面表現(xiàn)良好。然而抛虏,ZIGMM計(jì)數(shù)模型在檢測(cè)具有時(shí)間和組交互效應(yīng)的變量方面優(yōu)于所有方法博其。在基于相關(guān)數(shù)據(jù)的方法(例如ZIGMM、SplinectomeR)中迂猴,ZIBR在檢測(cè)時(shí)間和組效應(yīng)方面表現(xiàn)良好慕淡。
研究團(tuán)隊(duì)將所有方法應(yīng)用于一項(xiàng)縱向研究,調(diào)查抗生素治療后抗萬古霉素腸球菌(VREfm)定植期間腸道微生物組的作用:除ZIBR和SplinectomeR外沸毁,由于方法的技術(shù)限制峰髓,所有其他方法在模型擬合過程中至少會(huì)出現(xiàn)一個(gè)錯(cuò)誤;FZINBMM產(chǎn)生的顯著分類群數(shù)量最多息尺,這一結(jié)果可能是由于與初始階段相比携兵,抗生素和VREfm效應(yīng)較大。
識(shí)別具有類似時(shí)間模式的微生物
?當(dāng)前方法
1.動(dòng)態(tài)時(shí)間規(guī)整(DTW)距離
一種基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)距離的聚類方法以識(shí)別具有相似時(shí)間模式的分類群搂誉。與基于歐氏距離的聚類方法相比徐紧,DTW考慮到了跨時(shí)間序列的失真,因此適用于識(shí)別異相的時(shí)間行為炭懊。
2.?圍繞中心點(diǎn)分割和層次聚類
一項(xiàng)研究中研究人員將這兩類聚類算法應(yīng)用于微生物組時(shí)間序列數(shù)據(jù)并级。圍繞medoids的分區(qū)(PAM)是一種實(shí)現(xiàn)k-medoids聚類的流行算法,據(jù)此侮腹,數(shù)據(jù)被分配到k個(gè)聚類中(類似于k-means聚類)嘲碧。在k-medoids聚類中,每個(gè)聚類由聚類中最中心的medoid代表凯旋。一個(gè)medoid是一個(gè)數(shù)據(jù)點(diǎn)呀潭,它使自己與集群中所有其他數(shù)據(jù)點(diǎn)之間的平均不相似度最小钉迷。由于PAM使用medoids而不是平均值,因此與k-means聚類相比钠署,該方法對(duì)噪聲和異常值的敏感性較低糠聪。Hclust是一種分層聚類算法,它采用自底向上的方法根據(jù)相似性對(duì)分類群進(jìn)行分組谐鼎。
3.?使用主成分分析和稀疏主成分分析進(jìn)行聚類
多變量降維技術(shù)主成分分析(PCA)和稀疏主成分分析(sPCA)被用來對(duì)具有類似時(shí)間模式的分類群進(jìn)行聚類舰蟆。當(dāng)時(shí)間點(diǎn)的數(shù)量較少(即5-10個(gè))讶迁,并且預(yù)計(jì)數(shù)據(jù)在不同時(shí)間段遵循規(guī)律和類似的趨勢(shì)時(shí)本鸣,這些方法最適合灸眼。
性能評(píng)估
研究團(tuán)隊(duì)模擬數(shù)據(jù)以評(píng)估聚類方法的性能:與其他聚類方法(即PCA窍侧、DTW、層次聚類)相比台颠,k-medoid聚類的中值聚類精度最高瞎嬉。然而姐赡,正如預(yù)期的那樣唐片,隨著噪聲水平的增加丙猬,所有方法的聚類精度都會(huì)降低。k-medoid聚類费韭、DTW和層次聚類都具有相似的中值聚類精度茧球,但DTW在其精度上具有很高的可變性。
聚類方法分別應(yīng)用于VREfm案例兩組:初始階段(對(duì)照組)和VRE階段(治療組)星持。所有四種方法都將與VREfm相關(guān)的分類群(即腸球菌科)劃分為一個(gè)小類群抢埋,表明其與其他劃分為較大類群的分類群不同。此外督暂,治療組中屬于類桿菌科的兩個(gè)分類群的豐度隨著時(shí)間的推移而增加揪垄,并通過PCA和DTW聚類被分配到同一個(gè)聚類,表明這兩種方法表現(xiàn)良好逻翁。
了解微生物之間的生物和時(shí)間關(guān)系
?當(dāng)前方法
1.Two-stage dynamic Bayesian Nnetwork
TS-DBN構(gòu)建具有離散和連續(xù)變量的網(wǎng)絡(luò)福侈,其中在離散變量上指定條件概率分布,在連續(xù)變量上定義條件線性高斯密度函數(shù)卢未。在樣本量較小的情況下,納入臨床和人口統(tǒng)計(jì)學(xué)變量可能會(huì)導(dǎo)致過度擬合堰汉。目前辽社,該方法僅限于兩個(gè)時(shí)間點(diǎn),對(duì)于稀有分類群可能表現(xiàn)不佳翘鸭,因?yàn)榫W(wǎng)絡(luò)連接顯示出較低的置信度滴铅。
2.Granger causality based interaction networks
web應(yīng)用程序“TIME”中的網(wǎng)絡(luò)模型基于Granger因果關(guān)系,該因果關(guān)系評(píng)估給定個(gè)體兩個(gè)分類群“A”和“B”之間的成對(duì)因果關(guān)系就乓。除了成對(duì)Granger因果關(guān)系外汉匙,該方法還使用“Granger-Lasso因果關(guān)系”識(shí)別所有分類群之間的潛在因果關(guān)系拱烁。這些網(wǎng)絡(luò)中的因果關(guān)系是統(tǒng)計(jì)預(yù)測(cè),不能解釋因果關(guān)系(相互作用可能是由于間接原因)噩翠。因此戏自,應(yīng)謹(jǐn)慎解釋。結(jié)合其他功能數(shù)據(jù)伤锚,如代謝相關(guān)性擅笔,可以加強(qiáng)解釋。這種方法的一個(gè)局限性是在構(gòu)建交互網(wǎng)絡(luò)時(shí)沒有考慮臨床或人口統(tǒng)計(jì)學(xué)變量屯援。
3.?Microbial time-series prior Lasso
MTPLasso可以推斷微生物之間的相互作用猛们。與基于Granger因果關(guān)系的交互網(wǎng)絡(luò)類似,該方法也用于開發(fā)針對(duì)個(gè)體的網(wǎng)絡(luò)狞洋。與之前的方法類似弯淘,MTPLasso在建模交互網(wǎng)絡(luò)時(shí)也忽略了任何臨床或人口統(tǒng)計(jì)學(xué)變量。
差異豐度和聚類方法的主要局限性是數(shù)據(jù)的組成性質(zhì)吉懊。通過忽略組成性庐橙,這些方法可能會(huì)產(chǎn)生有偏見或誤導(dǎo)性的結(jié)果。此外惕它,大多數(shù)差異豐度方法是單變量的怕午,因此忽略了微生物之間的相互關(guān)系,這可能導(dǎo)致虛假結(jié)果淹魄。在實(shí)踐中郁惜,研究人員可能傾向于為所有分類群擬合特定方法,而不管其稀疏程度如何甲锡。因此兆蕉,可以通過更大的靈活性來改進(jìn)零相關(guān)模型,根據(jù)每個(gè)分類單元的稀疏程度包括或排除其零相關(guān)部分缤沦。
網(wǎng)絡(luò)模型有望用于縱向微生物組數(shù)據(jù)分析虎韵,但仍處于起步階段。這些模型推斷微生物之間的相互作用缸废,以了解微生物在疾病中的作用和影響包蓝,以及它們隨時(shí)間的協(xié)同進(jìn)化。另一種分析是調(diào)查微生物網(wǎng)絡(luò)隨時(shí)間的變化(例如由于抗生素干預(yù))企量。網(wǎng)絡(luò)模型未來有希望的應(yīng)用是設(shè)計(jì)合成微生物組來驗(yàn)證數(shù)據(jù)驅(qū)動(dòng)的生態(tài)網(wǎng)絡(luò)测萎。
由于篇幅有限,更多方法細(xì)節(jié)可參考文獻(xiàn)原文~本文所有分析都是使用R進(jìn)行的届巩,可通過如下鏈接上的代碼完全重現(xiàn) :
https://github.com/SarithaKodikara/Longitudinal_microbiome_data_analysis??
首發(fā)公號(hào)國家基因庫大數(shù)據(jù)平臺(tái)
參考文獻(xiàn)
Kodikara S, Ellul S, Lê Cao K A. Statistical challenges in longitudinal microbiome data analysis[J]. Briefings in Bioinformatics, 2022, 23(4): bbac273.
圖片均來源于參考文獻(xiàn)硅瞧,如有侵權(quán)請(qǐng)聯(lián)系刪除。