熱點(diǎn)綜述 | 縱向微生物組研究的統(tǒng)計(jì)方法總結(jié)

縱向微生物組研究可以捕捉微生物組內(nèi)的時(shí)間變化,以獲得對(duì)微生物系統(tǒng)的機(jī)理認(rèn)識(shí)结借。近日筐摘,《Briefings in Bioinformatics》發(fā)表綜述文章,回顧了縱向微生物組研究的現(xiàn)有統(tǒng)計(jì)方法,以強(qiáng)調(diào)其優(yōu)勢(shì)和局限性咖熟。

縱向微生物組研究

分析目標(biāo)

一項(xiàng)成功的研究始于清晰圃酵、明確的科學(xué)研究目標(biāo)♀晒埽縱向微生物組研究的共同目標(biāo):

1)研究感興趣的群體(如病例與對(duì)照組郭赐、疾病或治療組)之間的微生物豐度如何隨時(shí)間變化,以及微生物豐度與其他因素(如臨床結(jié)果确沸、疾病或治療)之間的關(guān)聯(lián)如何隨時(shí)間變化捌锭。在這種情況下,時(shí)間和患者或單個(gè)組之間差異都可能是有意義的罗捎。

2)對(duì)具有類似時(shí)間豐度模式的微生物進(jìn)行分組观谦。這種分析往往要求我們首先對(duì)每種微生物的時(shí)間軌跡進(jìn)行建模。

3)構(gòu)建一個(gè)微生物網(wǎng)絡(luò)宛逗,了解各組微生物之間的時(shí)間關(guān)系坎匿。


研究設(shè)計(jì)

縱向微生物組數(shù)據(jù)通常來自兩種不同的情況:來自設(shè)計(jì)實(shí)驗(yàn)(如小鼠)[L1]和人類隨訪或隊(duì)列研究[L2]。對(duì)于L1類縱向數(shù)據(jù)雷激,時(shí)間點(diǎn)通常比L2研究緊密,每個(gè)受試者的時(shí)間點(diǎn)數(shù)量相同(或非常相似)告私。相比之下屎暇,L2類數(shù)據(jù)通常具有受試者時(shí)間點(diǎn)數(shù)量不均勻和時(shí)間點(diǎn)間隔不均勻的特點(diǎn)。此外驻粟,在L2研究中根悼,一些外部因素(如飲食)也可能影響微生物組,但可能經(jīng)常無法測(cè)量或不受控制蜀撑,這使得建模更具挑戰(zhàn)性挤巡。


數(shù)據(jù)特征

L1和L2設(shè)計(jì)均使用擴(kuò)增子或宏基因組測(cè)序來生成原始數(shù)據(jù)。由于微生物組數(shù)據(jù)的性質(zhì)酷麦,這兩種測(cè)序方法產(chǎn)生的數(shù)據(jù)具有許多分析挑戰(zhàn)矿卑,這些數(shù)據(jù)稀疏、過度分散沃饶、高維母廷、多線性、多變量和高度可變糊肤。

縱向微生物組研究的統(tǒng)計(jì)方法

鑒定不同時(shí)間琴昆、不同組別、不同組別和不同時(shí)間之間豐度不同的微生物

當(dāng)前方法

1. Zero-inf lated beta regression Model

ZIBR可以同時(shí)評(píng)估每個(gè)分類群隨時(shí)間和組間的豐度變化馆揉。適用于相對(duì)豐度(比例)數(shù)據(jù)业舍,并使用伯努利分布捕捉微生物的存在或不存在,以及使用貝塔分布捕捉非零豐度。ZIBR具有高度的可行性舷暮,可以評(píng)估分析目標(biāo)1中說明的所有效應(yīng)态罪。

其優(yōu)點(diǎn)之一是它能夠通過使用邏輯組件來解釋數(shù)據(jù)的稀疏性。然而脚牍,ZIBR有幾個(gè)局限性:該模型沒有明確說明模型中的受試者內(nèi)相關(guān)結(jié)構(gòu)(即自回歸相關(guān)結(jié)構(gòu))向臀;ZIBR無法處理給定主題在給定時(shí)間點(diǎn)丟失的數(shù)據(jù)等。

2.Negative binomial mixed model

NBMM可以檢測(cè)微生物計(jì)數(shù)(無轉(zhuǎn)換)與協(xié)變量(如治療诸狭、表型券膀、年齡、飲食習(xí)慣等)之間的關(guān)聯(lián)驯遇,同時(shí)考慮受試者內(nèi)部和之間微生物豐度的時(shí)間趨勢(shì)芹彬。NBMM模型可以用不同的固定效應(yīng)進(jìn)行擬合,如時(shí)間效應(yīng)叉庐、治療效應(yīng)以及時(shí)間和治療之間的交互作用舒帮。因此,與ZIBR相似陡叠,NBMM也可以評(píng)估分析目標(biāo)1中說明的所有效應(yīng)玩郊。

NBMM可以適應(yīng)同一受試者觀察結(jié)果之間不同的相關(guān)結(jié)構(gòu),而ZIBR則沒有這種靈活性枉阵。然而該方法沒有明確地處理零膨脹译红。

3.Block Bootstrap Method

BBM是縱向微生物組計(jì)數(shù)數(shù)據(jù)引導(dǎo)法的擴(kuò)展,其旨在確定樣本組之間的差異豐度兴溜,但不關(guān)注時(shí)間效應(yīng)侦厚。因此,該方法只能識(shí)別組間差異表達(dá)的分類群拙徽。BBM是非參數(shù)的刨沦,不需要特定的數(shù)據(jù)分布。它可以處理對(duì)象內(nèi)的依賴性膘怕,并解釋不同的庫大小想诅,以解決數(shù)據(jù)的組成性質(zhì)。

作為限制因素淳蔼,該方法計(jì)算量大侧蘸,需要足夠多的時(shí)間點(diǎn)(至少五個(gè))來指定兩個(gè)調(diào)整參數(shù)(初始區(qū)塊大小、子采樣的重復(fù)觀察數(shù))鹉梨。稀疏性和可變性仍然存在問題讳癌,需要預(yù)先過濾,以去除由于時(shí)間變化(技術(shù)和生物來源)造成的不必要的噪音存皂。BBM不考慮其他協(xié)變量晌坤,當(dāng)所有受試者的觀察次數(shù)相同時(shí)逢艘,其表現(xiàn)最佳。在解釋方面骤菠,該方法評(píng)估了一個(gè)樣本組的豐度是否高于另一個(gè)它改,但沒有量化這種差異。

4.?SplinectomeR

SplinectomeR是一個(gè)R包商乎,它使用加權(quán)局部多項(xiàng)式(Loess splines)來總結(jié)縱向研究中假設(shè)檢驗(yàn)的數(shù)據(jù)央拖。

SplinectomeR中的方法易于解釋,可以直接比較多個(gè)時(shí)間點(diǎn)的觀察結(jié)果鹉戚,而無需對(duì)這些時(shí)間點(diǎn)進(jìn)行平均或匯總鲜戒。它們還可以處理缺失或不平衡的數(shù)據(jù)。然而抹凳,這些方法可能會(huì)受到異常值的影響遏餐,特別是在稀疏數(shù)據(jù)集中,并且不考慮組成數(shù)據(jù)赢底。

5.Zero-inf lated Gaussian mixed models

ZIGMM用于解釋受試者內(nèi)的相關(guān)性和微生物組數(shù)據(jù)的其他特性失都。與上述所有方法類似,ZIGMM也是單變量的幸冻。與其他兩種零信息方法ZIBR和ZINBMM相比粹庞,ZIGMM在計(jì)算效率方面優(yōu)于以前開發(fā)的各種方法。與ZIBR和NBMM類似洽损,ZIGMM還可以評(píng)估時(shí)間效應(yīng)信粮、組效應(yīng)和時(shí)間×組相互作用效應(yīng)。

ZIGMM的主要優(yōu)點(diǎn)是能夠模擬受試者內(nèi)樣本之間的時(shí)間依賴性效應(yīng)和相關(guān)性趁啸。此外,該方法可以包括正態(tài)分布和零相關(guān)模型的各種固定效應(yīng)和隨機(jī)效應(yīng)督惰。該方法還可以解釋樣本之間不同的自回歸相關(guān)結(jié)構(gòu)不傅。最后,該方法可以分析微生物組比例數(shù)據(jù)以及擴(kuò)增子或宏基因組測(cè)序技術(shù)生成的計(jì)數(shù)數(shù)據(jù)赏胚。然而访娶,ZGMM也遇到了控制假陽性率的擬合問題,特別是在分析復(fù)雜數(shù)據(jù)(包括宏基因組學(xué))時(shí)觉阅。

6.Bayesian semi-parametric generalized linear model

該方法使用具有均值約束的正則先驗(yàn)來避免可識(shí)別性問題崖疤,并在微生物變量、樣本和時(shí)間點(diǎn)之間借用信息典勇。由于數(shù)據(jù)的高維性和協(xié)變量之間的高度相關(guān)性劫哼,產(chǎn)生了稀疏估計(jì)。與其他方法相比割笙,這種方法是多變量的权烧。然而眯亦,需要更多的發(fā)展來靈活捕捉響應(yīng)函數(shù)中的不同形狀,納入變量選擇般码,并允許時(shí)間相關(guān)的協(xié)變量妻率。由于數(shù)據(jù)稀疏性,必須謹(jǐn)慎處理后驗(yàn)計(jì)算板祝,并且需要納入先驗(yàn)信息以進(jìn)行準(zhǔn)確推斷宫静。

7.?Fast zero-inf lated negative binomial mixed model

FZINBMM模型可以評(píng)估時(shí)間和群體效應(yīng)以及時(shí)間×群體相互作用效應(yīng)。在此前的模擬和真實(shí)數(shù)據(jù)評(píng)估中FZINBMM在經(jīng)驗(yàn)?zāi)芰蜋z測(cè)到的分類群的高比例方面優(yōu)于其他計(jì)數(shù)方法券时,如LMMs孤里、NBMMs和ZIGMMs。然而革为,當(dāng)數(shù)據(jù)不是高度稀疏時(shí)扭粱,F(xiàn)ZINBMM的表現(xiàn)與ZIGMMs和NBMMs相似。

性能評(píng)估

研究團(tuán)隊(duì)模擬數(shù)據(jù)以評(píng)估不同豐度方法的性能:除ZIGMM外震檩,基于計(jì)數(shù)數(shù)據(jù)的所有其他方法(NBMM琢蛤、FZINBMM)在檢測(cè)時(shí)間效應(yīng)和群體效應(yīng)方面表現(xiàn)良好。然而抛虏,ZIGMM計(jì)數(shù)模型在檢測(cè)具有時(shí)間和組交互效應(yīng)的變量方面優(yōu)于所有方法博其。在基于相關(guān)數(shù)據(jù)的方法(例如ZIGMM、SplinectomeR)中迂猴,ZIBR在檢測(cè)時(shí)間和組效應(yīng)方面表現(xiàn)良好慕淡。


研究團(tuán)隊(duì)將所有方法應(yīng)用于一項(xiàng)縱向研究,調(diào)查抗生素治療后抗萬古霉素腸球菌(VREfm)定植期間腸道微生物組的作用:除ZIBR和SplinectomeR外沸毁,由于方法的技術(shù)限制峰髓,所有其他方法在模型擬合過程中至少會(huì)出現(xiàn)一個(gè)錯(cuò)誤;FZINBMM產(chǎn)生的顯著分類群數(shù)量最多息尺,這一結(jié)果可能是由于與初始階段相比携兵,抗生素和VREfm效應(yīng)較大。


識(shí)別具有類似時(shí)間模式的微生物

?當(dāng)前方法

1.動(dòng)態(tài)時(shí)間規(guī)整(DTW)距離

一種基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)距離的聚類方法以識(shí)別具有相似時(shí)間模式的分類群搂誉。與基于歐氏距離的聚類方法相比徐紧,DTW考慮到了跨時(shí)間序列的失真,因此適用于識(shí)別異相的時(shí)間行為炭懊。

2.?圍繞中心點(diǎn)分割和層次聚類

一項(xiàng)研究中研究人員將這兩類聚類算法應(yīng)用于微生物組時(shí)間序列數(shù)據(jù)并级。圍繞medoids的分區(qū)(PAM)是一種實(shí)現(xiàn)k-medoids聚類的流行算法,據(jù)此侮腹,數(shù)據(jù)被分配到k個(gè)聚類中(類似于k-means聚類)嘲碧。在k-medoids聚類中,每個(gè)聚類由聚類中最中心的medoid代表凯旋。一個(gè)medoid是一個(gè)數(shù)據(jù)點(diǎn)呀潭,它使自己與集群中所有其他數(shù)據(jù)點(diǎn)之間的平均不相似度最小钉迷。由于PAM使用medoids而不是平均值,因此與k-means聚類相比钠署,該方法對(duì)噪聲和異常值的敏感性較低糠聪。Hclust是一種分層聚類算法,它采用自底向上的方法根據(jù)相似性對(duì)分類群進(jìn)行分組谐鼎。

3.?使用主成分分析和稀疏主成分分析進(jìn)行聚類

多變量降維技術(shù)主成分分析(PCA)和稀疏主成分分析(sPCA)被用來對(duì)具有類似時(shí)間模式的分類群進(jìn)行聚類舰蟆。當(dāng)時(shí)間點(diǎn)的數(shù)量較少(即5-10個(gè))讶迁,并且預(yù)計(jì)數(shù)據(jù)在不同時(shí)間段遵循規(guī)律和類似的趨勢(shì)時(shí)本鸣,這些方法最適合灸眼。

性能評(píng)估

研究團(tuán)隊(duì)模擬數(shù)據(jù)以評(píng)估聚類方法的性能:與其他聚類方法(即PCA窍侧、DTW、層次聚類)相比台颠,k-medoid聚類的中值聚類精度最高瞎嬉。然而姐赡,正如預(yù)期的那樣唐片,隨著噪聲水平的增加丙猬,所有方法的聚類精度都會(huì)降低。k-medoid聚類费韭、DTW和層次聚類都具有相似的中值聚類精度茧球,但DTW在其精度上具有很高的可變性。


聚類方法分別應(yīng)用于VREfm案例兩組:初始階段(對(duì)照組)和VRE階段(治療組)星持。所有四種方法都將與VREfm相關(guān)的分類群(即腸球菌科)劃分為一個(gè)小類群抢埋,表明其與其他劃分為較大類群的分類群不同。此外督暂,治療組中屬于類桿菌科的兩個(gè)分類群的豐度隨著時(shí)間的推移而增加揪垄,并通過PCA和DTW聚類被分配到同一個(gè)聚類,表明這兩種方法表現(xiàn)良好逻翁。

了解微生物之間的生物和時(shí)間關(guān)系

?當(dāng)前方法

1.Two-stage dynamic Bayesian Nnetwork

TS-DBN構(gòu)建具有離散和連續(xù)變量的網(wǎng)絡(luò)福侈,其中在離散變量上指定條件概率分布,在連續(xù)變量上定義條件線性高斯密度函數(shù)卢未。在樣本量較小的情況下,納入臨床和人口統(tǒng)計(jì)學(xué)變量可能會(huì)導(dǎo)致過度擬合堰汉。目前辽社,該方法僅限于兩個(gè)時(shí)間點(diǎn),對(duì)于稀有分類群可能表現(xiàn)不佳翘鸭,因?yàn)榫W(wǎng)絡(luò)連接顯示出較低的置信度滴铅。

2.Granger causality based interaction networks

web應(yīng)用程序“TIME”中的網(wǎng)絡(luò)模型基于Granger因果關(guān)系,該因果關(guān)系評(píng)估給定個(gè)體兩個(gè)分類群“A”和“B”之間的成對(duì)因果關(guān)系就乓。除了成對(duì)Granger因果關(guān)系外汉匙,該方法還使用“Granger-Lasso因果關(guān)系”識(shí)別所有分類群之間的潛在因果關(guān)系拱烁。這些網(wǎng)絡(luò)中的因果關(guān)系是統(tǒng)計(jì)預(yù)測(cè),不能解釋因果關(guān)系(相互作用可能是由于間接原因)噩翠。因此戏自,應(yīng)謹(jǐn)慎解釋。結(jié)合其他功能數(shù)據(jù)伤锚,如代謝相關(guān)性擅笔,可以加強(qiáng)解釋。這種方法的一個(gè)局限性是在構(gòu)建交互網(wǎng)絡(luò)時(shí)沒有考慮臨床或人口統(tǒng)計(jì)學(xué)變量屯援。

3.?Microbial time-series prior Lasso

MTPLasso可以推斷微生物之間的相互作用猛们。與基于Granger因果關(guān)系的交互網(wǎng)絡(luò)類似,該方法也用于開發(fā)針對(duì)個(gè)體的網(wǎng)絡(luò)狞洋。與之前的方法類似弯淘,MTPLasso在建模交互網(wǎng)絡(luò)時(shí)也忽略了任何臨床或人口統(tǒng)計(jì)學(xué)變量。

差異豐度和聚類方法的主要局限性是數(shù)據(jù)的組成性質(zhì)吉懊。通過忽略組成性庐橙,這些方法可能會(huì)產(chǎn)生有偏見或誤導(dǎo)性的結(jié)果。此外惕它,大多數(shù)差異豐度方法是單變量的怕午,因此忽略了微生物之間的相互關(guān)系,這可能導(dǎo)致虛假結(jié)果淹魄。在實(shí)踐中郁惜,研究人員可能傾向于為所有分類群擬合特定方法,而不管其稀疏程度如何甲锡。因此兆蕉,可以通過更大的靈活性來改進(jìn)零相關(guān)模型,根據(jù)每個(gè)分類單元的稀疏程度包括或排除其零相關(guān)部分缤沦。

網(wǎng)絡(luò)模型有望用于縱向微生物組數(shù)據(jù)分析虎韵,但仍處于起步階段。這些模型推斷微生物之間的相互作用缸废,以了解微生物在疾病中的作用和影響包蓝,以及它們隨時(shí)間的協(xié)同進(jìn)化。另一種分析是調(diào)查微生物網(wǎng)絡(luò)隨時(shí)間的變化(例如由于抗生素干預(yù))企量。網(wǎng)絡(luò)模型未來有希望的應(yīng)用是設(shè)計(jì)合成微生物組來驗(yàn)證數(shù)據(jù)驅(qū)動(dòng)的生態(tài)網(wǎng)絡(luò)测萎。


由于篇幅有限,更多方法細(xì)節(jié)可參考文獻(xiàn)原文~本文所有分析都是使用R進(jìn)行的届巩,可通過如下鏈接上的代碼完全重現(xiàn) :

https://github.com/SarithaKodikara/Longitudinal_microbiome_data_analysis??


首發(fā)公號(hào)國家基因庫大數(shù)據(jù)平臺(tái)

參考文獻(xiàn)

Kodikara S, Ellul S, Lê Cao K A. Statistical challenges in longitudinal microbiome data analysis[J]. Briefings in Bioinformatics, 2022, 23(4): bbac273.

圖片均來源于參考文獻(xiàn)硅瞧,如有侵權(quán)請(qǐng)聯(lián)系刪除。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末恕汇,一起剝皮案震驚了整個(gè)濱河市腕唧,隨后出現(xiàn)的幾起案子或辖,更是在濱河造成了極大的恐慌,老刑警劉巖枣接,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件颂暇,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡月腋,警方通過查閱死者的電腦和手機(jī)蟀架,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來榆骚,“玉大人片拍,你說我怎么就攤上這事〖酥” “怎么了捌省?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長碉钠。 經(jīng)常有香客問我纲缓,道長,這世上最難降的妖魔是什么喊废? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任祝高,我火速辦了婚禮,結(jié)果婚禮上污筷,老公的妹妹穿的比我還像新娘工闺。我一直安慰自己,他們只是感情好瓣蛀,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布陆蟆。 她就那樣靜靜地躺著,像睡著了一般惋增。 火紅的嫁衣襯著肌膚如雪叠殷。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天诈皿,我揣著相機(jī)與錄音林束,去河邊找鬼。 笑死稽亏,一個(gè)胖子當(dāng)著我的面吹牛诊县,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播措左,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼避除!你這毒婦竟也來了怎披?” 一聲冷哼從身側(cè)響起胸嘁,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎凉逛,沒想到半個(gè)月后性宏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡状飞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年毫胜,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片诬辈。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡酵使,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出焙糟,到底是詐尸還是另有隱情口渔,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布穿撮,位于F島的核電站缺脉,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏悦穿。R本人自食惡果不足惜攻礼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望栗柒。 院中可真熱鬧礁扮,春花似錦、人聲如沸傍衡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蛙埂。三九已至倦畅,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绣的,已是汗流浹背叠赐。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留屡江,地道東北人芭概。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像惩嘉,于是被迫代替她去往敵國和親罢洲。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容