第三章微生物組數(shù)據(jù)統(tǒng)計分析簡介

3.1?人類微生物組數(shù)據(jù)研究的主題和統(tǒng)計假設(shè)

目前的微生物組研究主要有兩個主題：(1)描述微生物組特征與生物筐眷、遺傳匀谣、臨床或?qū)嶒灄l件之間的關(guān)系武翎；(2)確定與微生物組組成相關(guān)的潛在生物和環(huán)境因素。研究目的是了解宿主膏执、遺傳和環(huán)境因素形成微生物群落的機制。從這些研究中獲得的見解可能有助于開發(fā)調(diào)節(jié)人類疾病微生物群組成的治療策略.

環(huán)境迟几、微生物群和寄主之間的相互作用是動態(tài)的和復(fù)雜的.

微生物組研究中環(huán)境蛉加、微生物群和宿主之間的動態(tài)相互作用

為了研究這種相互作用厂抽，可以提出三個一般性的研究假設(shè)。假設(shè)1是測試微生物群和宿主之間的聯(lián)系：微生物群或“非生物”微生物群的組成是否與宿主的健康或疾病有關(guān)饲化。例如，在炎癥性腸病(IBD)的研究中，我們假設(shè)生物失調(diào)與疾病的進展族奢。在維生素D受體(VDR)和微生物群的研究中靠欢，我們假設(shè)缺乏VDR會導致小鼠腸道微生物群的失調(diào)和功能改變骡澈。這一假設(shè)也可能基于微生物群落和生物學因素，如細菌群落的改變與腸上皮細胞中的VDR狀態(tài)有關(guān)护锤。

假設(shè)2是測試微生物群是否與環(huán)境或生物協(xié)變量相關(guān)拧粪，環(huán)境因素是否影響微生物群宴杀，或干預(yù)措施是否對健康和疾病中的特定微生物群組成(多樣性)產(chǎn)生影響。例如拾因，我們可以測試飲食干預(yù)是否影響腸道菌群旺罢，或者益生菌干預(yù)是否影響人類菌群組成。我們還可以假設(shè)抗生素和飲食影響腸道微生物群落結(jié)構(gòu)绢记，營養(yǎng)影響腸道微生物群組成扁达，或者抗生素治療影響腸道細菌菌株的多樣性。

假設(shè)3是測試環(huán)境和宿主之間的聯(lián)系跪解。為了檢驗這一假設(shè)，我們可以使用其他生物醫(yī)學科學中常用的標準統(tǒng)計方法和模型草丧。對于微生物組研究岖赋，重點放在假設(shè)1和2上。這些統(tǒng)計假設(shè)的核心主題可以是相同的碗脊，即探索環(huán)境或外部因素(例如干預(yù))對微生物群組成和/或微生物區(qū)系豐富度的影響卧须。然而研铆，研究主題在alpha多樣性(每個個體樣本中的物種多樣性)咏窿、細菌豐富度平斩、獨特可操作分類單元(OTU)的總數(shù)情组、系統(tǒng)發(fā)育多樣性(不同系統(tǒng)發(fā)生譜系的相對數(shù)量)和每個樣本中的物種均勻性之間是不同的。

統(tǒng)計假設(shè)可能是alpha多樣性。例如，對于抗生素研究因悲，我們假設(shè)抗生素治療會降低微生物多樣性，或不降低微生物多樣性。因此儒洛，接受特別抗生素治療的兒童具有或多或少相同的腸道微生物區(qū)系。統(tǒng)計假設(shè)也可以是β多樣性躬审，例如窖式，物種或菌株的Jaccard指數(shù)或UniFrac系統(tǒng)發(fā)育距離饶米。統(tǒng)計假設(shè)甚至可以是時間微生物群落。例如，我們可以假設(shè)所有的菌株都是相似的镐依，微生物群落是穩(wěn)定的(不會隨著時間的推移而改變)涩咖，或者與非抗生素使用者相比循诉，抗生素治療使菌株不那么相似和不穩(wěn)定芭毙。

3.2 微生物組研究的經(jīng)典統(tǒng)計方法和模型

經(jīng)典統(tǒng)計檢驗：有許多經(jīng)典的統(tǒng)計檢驗可以用來分析微生物群织咧。微生物分類群中的假設(shè)檢驗可以通過比較α和β多樣性指數(shù)來進行。根據(jù)數(shù)據(jù)是正態(tài)分布還是非正態(tài)分布、實驗組數(shù)或?qū)嶒灄l件如捅，我們可以使用t檢驗鞍盗、方差分析(ANOVA)或相應(yīng)的非參數(shù)檢驗蛉拙。兩樣本t檢驗及其非參數(shù)對應(yīng)的Wilcoxon秩和檢驗在微生物群研究中被廣泛用于比較兩組間的連續(xù)變量餐抢。例如，使用標準t檢驗來比較α多樣性或種群數(shù)量在兩組相對豐度數(shù)據(jù)之間陕见。標準t檢驗甚至被用來比較健康志愿者和結(jié)直腸癌(CRC)患者之間不同門和屬的相對豐度。采用非參數(shù)相似Wilcoxon秩和檢驗(也稱為Mann-Whitney檢驗)來比較α多樣性刊咳，例如Shannon多樣性绍些，由細菌分類組成定義的兩個簇昂勒。Wilcoxon秩和檢驗也被用來識別微生物分類群或OTUS的差異，以及其他非參數(shù)測量，以及不同門和屬的相對豐度压真。當比較兩組以上時枣察，選擇單向方差分析或其非參數(shù)等價的Kruskal-Wallis檢驗，這取決于變量是否為正態(tài)分布。方差分析用于分析分類多樣性數(shù)據(jù)，例如β多樣性游两，以比較成比例的豐度颤芬，以評估腸道微生物群對體重指數(shù)或血脂的風險模型验靡，以及分類學和特定于功能的偏向衫生。方差檢驗也被用來比較腸道不同部位的微生物群的功能能力宗挥。Kruskal-Wallis單因素方差分析用于比較樣本的細菌和真菌比例的歸一化z分數(shù)盯滚，以及微生物組數(shù)據(jù)的不等方差《卡方檢驗通常用于比較分類微生物組數(shù)據(jù)埃篓。例如，測試單個先驗指定的分類單元在不同的組之間以不同的速度出現(xiàn)翻翩。為了檢測差異豐富的分類群都许，有研究小組結(jié)合了幾種經(jīng)典的統(tǒng)計方法和程序，提出了一種統(tǒng)計方法嫂冻，稱為“Metastats”胶征。首先，將原始排序計數(shù)(豐度數(shù)據(jù))歸一化或轉(zhuǎn)換為表示每個分類單元對每個個體的比例的相對豐度數(shù)據(jù)桨仿。其次睛低，利用Storey和Tibshiani的排列法，采用雙樣本非參數(shù)t檢驗分析了兩個處理組之間的差異豐度服傍。第三钱雷，為了控制多重假設(shè)檢驗分類群中的錯誤發(fā)現(xiàn)率(FDR)，使用Q值來評估檢驗的重要性吹零。最后罩抗，為了處理稀疏計數(shù)，費舍爾精確檢驗被用來比較稀疏樣本(稀有)分類群的微分豐度灿椅。Metastats表明它優(yōu)于學生的t檢驗套蒂，Lu等人的對數(shù)線性模型和負二項(NB)模型。實際上茫蛹，該方法是一種結(jié)合了幾種經(jīng)典統(tǒng)計方法和過程的混合方法操刀。統(tǒng)計框架是雙樣本t檢驗的擴展。

多元統(tǒng)計工具：環(huán)境中的微生物群落可以用多元統(tǒng)計方法或模型進行分析婴洼。有許多統(tǒng)計模型和方法可用于分析微生物群落組成與環(huán)境協(xié)變量和結(jié)果之間的關(guān)系骨坑。微生物群研究中使用的大多數(shù)多元統(tǒng)計工具都來自生態(tài)研究領(lǐng)域和環(huán)境科學。由于數(shù)據(jù)的高維性柬采、非正態(tài)性和系統(tǒng)發(fā)育結(jié)構(gòu)欢唾，很難利用OTUS或類群豐度直接測試微生物組組成與潛在環(huán)境因子的關(guān)聯(lián)。一般情況下警没，多變量分析首先需要選擇一種距離度量方法匈辱，然后再進行距離度量分析估計的距離，其中定義了兩個微生物樣本之間的距離度量杀迹。在分析微生物組數(shù)據(jù)時亡脸，可以使用幾種組間差異測試：多變量排列方差分析(PERMANOVA)、組相似性分析(ANOSIM)树酪、多響應(yīng)排列程序(MRPP)和Mantel檢驗(Mantel)浅碾。PERMANOVA是由Anderson和McArdle提出的，用于將強大的方差分析應(yīng)用于多變量生態(tài)數(shù)據(jù)集续语。PERMANOVA是將多變量模型擬合到微生物組數(shù)據(jù)中應(yīng)用最廣泛的非參數(shù)方法之一垂谢。它是一種基于距離矩陣和排列的多變量方差分析。與MRPP和其他多變量分析類似疮茄，PERMANOVA通常與距離度量方法之一一起使用滥朱。例如根暑，使用未加權(quán)的UniFrac距離測量的PERMANOVA被用來顯示雜食動物與素食者腸道微生物區(qū)系的組成，以評估與β多樣性措施的關(guān)聯(lián)徙邻，以測試種群之間的微生物差異和BrayCurtis相異度矩陣排嫌。ANOSIM是微生物組研究中應(yīng)用最廣泛的多變量方法之一。它用于比較組內(nèi)和組間的相似性缰犁，以檢驗組內(nèi)樣本之間的平均等級相似性與屬于不同組的樣本之間的平均等級相似性相同的零假設(shè)淳地。例如，使用加權(quán)和未加權(quán)的UniFrac距離來測試處理之間和處理內(nèi)時間點之間與微生物群組成的關(guān)聯(lián)強度帅容。在微生物組文獻中颇象，在成對加權(quán)的UniFrac距離矩陣上進行MRPP以確認聚類的意義，以測試影響微生物群落的因素并徘，并將群落差異與Bray-Curtis距離進行比較遣钳。與相關(guān)分析一樣，曼特爾的測試也被用來測試環(huán)境因素和宿主微生物群之間的關(guān)聯(lián)饮亏。例如耍贾，為了測試微生物群變異是否解釋宿主中的微生物群變異，宿主遺傳距離與群落β多樣性方差之間的關(guān)聯(lián)路幸，捐贈者微生物群和BMI荐开，甚至找出微生物群組成的預(yù)測因子。

過度分散和零膨脹模型：微生物組研究中的類群計數(shù)數(shù)據(jù)简肴，如微生物組分類reads或來自擴增子測序?qū)嶒灥腛TU計數(shù)晃听，或來自RNA-Seq實驗的差異表達數(shù)據(jù)，通常是過度分散的砰识，并且具有多余的零能扒。在宏基因組計數(shù)數(shù)據(jù)中，基因特異性變異性在基因和過度分散經(jīng)常發(fā)生辫狼，并影響識別差異豐富的基因初斑。在宏基因組學中，由于各種因素也會出現(xiàn)過多的零膨处，例如见秤，由于生物醫(yī)學技術(shù)的限制而無法檢測到的基因的豐度。由于細菌群落之間的巨大多樣性真椿，抽樣零也可能發(fā)生鹃答。為了擬合具有超離散度和過零點的微生物計數(shù)數(shù)據(jù)，通常采用負二項模型和零膨脹模型突硝。例如测摔，用NB模型分析了帕金森病的微生物組豐度數(shù)據(jù)和腸道微生物組。NB模型用于評估序列標簽豐度的差異，并檢測臨床宏基因組樣本中差異豐富的特征锋八。人類腸道中細菌的豐度的特點是在較低的分類水平上有越來越多的零浙于，并且是右偏的。為了捕捉過多零點的特征并對偏斜的微生物組數(shù)據(jù)進行建模挟纱，需要一個零膨脹模型路媚，如零膨脹泊松模型(ZIP)、零膨脹負二項模型(ZINB)或柵欄模型樊销。在微生物群研究中使用零膨脹模型的適宜性是通過廣泛的模擬和真實的人類微生物群研究來評估的。為了捕獲多余的零并對傾斜的微生物組數(shù)據(jù)進行建模脏款，有研究小組使用具有負二項分布的障礙模型來分析細菌的物種(97%的相似性閾值OTUS)围苫。為了識別與不同細菌分類群相關(guān)的環(huán)境或生物協(xié)變量，同時考慮到過度分散和許多零撤师，有研究小組提出應(yīng)用加性Logistic正態(tài)多項式回歸模型將協(xié)變量與細菌組成(計數(shù))聯(lián)系起來剂府，并應(yīng)用該模型來分析飲食和糞便微生物群組成之間的關(guān)聯(lián)。

3.3? 新發(fā)展的多元變量統(tǒng)計方法

為了更好地擬合多變量數(shù)據(jù)剃盾，特別是微生物組數(shù)據(jù)腺占，近年來，研究者和統(tǒng)計學家開發(fā)了幾種參數(shù)和非參數(shù)模型痒谴，以下幾個發(fā)展多元統(tǒng)計方法的方向衰伯。

Dirichlet-多項式模型：在參數(shù)概率模型中，多項式分布和Dirichlet多項式分布是最常用的积蔚∫饩ǎ基于Dirichlet多項式混合模型橡羞、La Rosa和同事們進一步提出了一種多元統(tǒng)計方為基于分類學的人類微生物群數(shù)據(jù)的假設(shè)檢驗和功率計算魁瞪。作者將Dirichlet多項式模型重新參數(shù)化到Dirichlet多項式混合，使其適合于基于位置(均值比較)和尺度(方差比較/離散度)之間的差異進行跨組假設(shè)檢驗灾梦。它在R統(tǒng)計軟件包“HMP”中實現(xiàn)漱贱。使用來自NIH人類微生物組項目(IHMP)的數(shù)據(jù)槐雾。當研究人員和統(tǒng)計學家設(shè)計微生物組研究時，它進行功率計算的能力也很有吸引力幅狮。

UniFrac距離度量類：為了比較微生物群落募强，多變量分析首先需要選擇一種距離測量方法。已經(jīng)提出了許多距離措施彪笼。其中钻注，系統(tǒng)發(fā)育距離度量是非常強大的工具箱，因為它利用了不同序列之間的差異程度配猫，它解釋了分類群之間的系統(tǒng)發(fā)育關(guān)系幅恋。為了在計算微生物群落之間的差異時捕捉系統(tǒng)發(fā)育信息，Lozupone和Knight在2005年提出了UniFrac距離度量泵肄。UniFrac測量系統(tǒng)發(fā)育樹中分類群組之間的系統(tǒng)發(fā)育距離捆交。UniFrac距離度量的目標是實現(xiàn)來自不同條件的微生物樣本之間的客觀比較淑翼。2007年，Lozupone 向原始的UniFrac添加了比例權(quán)重品追，并將它們區(qū)分為未加權(quán)的UniFrac和加權(quán)的UniFrac玄括。從那時起，UniFrac的兩個版本在微生物組文獻中可用肉瓦，并已被應(yīng)用于數(shù)千種研究出版物遭京，幾乎涵蓋了從人類疾病到一般生態(tài)學的一切。未加權(quán)的UniFrac距離只考慮物種的存在和缺失信息泞莉，計算每個群落特有的分枝長度哪雕；加權(quán)的UniFrac距離利用物種豐度信息，根據(jù)豐度差異對分枝長度進行加權(quán)鲫趁。這兩個UniFrac距離已成為應(yīng)用最廣泛的系統(tǒng)發(fā)育距離度量斯嚎。然而，它們也有局限性：評估給稀有譜系(未加權(quán)的UniFrac距離)或最豐富的譜系(加權(quán)的UniFrac距離)賦予了太多的權(quán)重挨厚，因此堡僻，在檢測適度豐富的譜系的變化方面可能不是很強大∫咛辏基于方差調(diào)整的加權(quán)UniFrac距離(VAWUniFrac)钉疫，開發(fā)的廣義UniFrac距離擴展了加權(quán)和未加權(quán)的UniFrac距離，用于檢測更廣泛的生物學范圍微生物群組成的相關(guān)變化〕布郏現(xiàn)在陌选，UniFrac工具箱系列已從UniFrac距離擴展到通用UniFrac距離。通過分析兩個真實的人類腸道微生物組數(shù)據(jù)集蹄溉，證明了廣義UniFrac距離在檢測微生物組差異方面的作用咨油，這些數(shù)據(jù)集與人類腸道微生物組組成和長期飲食有關(guān)，并測試吸煙者和不吸煙者之間的上呼吸道微生物群差異使用PERMANOVA柒爵。通過結(jié)合UniFrac距離和PERMANOVA役电，廣義UniFrac距離度量提供了一種統(tǒng)計方法來檢驗微生物群組成與環(huán)境協(xié)變量之間的關(guān)聯(lián)。UniFrac工具箱中增加了兩個新開發(fā)的UniFrac工具：Micropower R Package和UniFrac R程序棉胀。在微能組件中法瑟，將未加權(quán)和加權(quán)UniFrac距離的度量納入成對距離的分析中，并將PERMANOVA用于冪估計和樣本量估計唁奢。在成分數(shù)據(jù)分析的背景下霎挟，引入了兩個新的權(quán)重：信息統(tǒng)一幀(Information UniFrac)和比率統(tǒng)一幀(Ratio UniFrac)，它們對稀疏不那么敏感麻掸，并且允許比傳統(tǒng)的未加權(quán)和加權(quán)統(tǒng)一幀更好地分離異常值酥夭。其目標是解決未加權(quán)UniFrac對稀疏實例高度敏感的限制，以及在沒有清晰結(jié)構(gòu)或組間分離的統(tǒng)一數(shù)據(jù)集中對測序深度的限制。

多元貝葉斯模型：①Multivariate Bayesian Mixed-Effects Model：Grantham等人熬北。提出了一個貝葉斯混合效應(yīng)模型疙描，稱為MIMIX(微生物組混合模型)，用于聯(lián)合而不是單獨分析微生物分類群讶隐。MIMIX的能力包括：全局測試對微生物組組成的實驗性處理效果起胰，局部測試和評估對單個分類群的處理效果；量化分析微生物組的異質(zhì)性巫延，以及表征微生物組中的潛在結(jié)構(gòu)效五。MIMIX是基于Logistic正態(tài)多項式(LNM)的混合效應(yīng)模型。作為一種貝葉斯模型炉峰，MIMIX使用貝葉斯因子分析來捕捉微生物分類群之間的復(fù)雜依賴模式火俄，并使用連續(xù)收縮的Dirichlet-Laplace先驗以確定對實驗條件反應(yīng)相似的微生物群。該模型的作者認為讲冠，在模擬研究和真實數(shù)據(jù)中，MIMIX在檢測顯著信號的存在和估計稀疏處理效果方面優(yōu)于具有Bray-Curtis不同的PERMANOVA适瓦。然而竿开，需要更多的研究來證實這一模型的性能。類似于Grantham等人聯(lián)合模擬微生物類群豐度的方法玻熙，Ren等人否彩。提出了一個貝葉斯廣義混合效應(yīng)回歸模型來解釋微生物分類群之間的相關(guān)性，并允許借用跨分類群的信息嗦随。以前的多變量方法要么假設(shè)多變量Logistic正態(tài)分布或獨立的Dirichlet分發(fā)列荔。Ren等人提出的貝葉斯非參數(shù)模型的區(qū)別。在于：(1)在調(diào)整低維空間的同時枚尼，使用邊際Dirichlet過程先驗和潛在因素上的收縮先驗將微生物組成和協(xié)變量聯(lián)系起來贴浙，以及(2)可視化協(xié)變量和微生物組成之間的關(guān)聯(lián)。②Multivariate Bayesian Graphical Compositional Regression：在第一章第二節(jié)描述了微生物群落組成數(shù)據(jù)具有以下特點：(A)高維署恍；(B)稀疏性和過零點計數(shù)崎溃；(C)復(fù)雜的協(xié)方差結(jié)構(gòu)；(D)過度離散性盯质。為了瞄準大的組內(nèi)異質(zhì)性和潛在的混雜因素袁串，提出了一種針對組成微生物組數(shù)據(jù)的貝葉斯圖形回歸，基于Dirichlet樹多項式(DTM)模型呼巷。與Dirichlet-Polyomial(DM)分布類似囱修，所提出的方法使用DM并納入系統(tǒng)發(fā)育信息，但直接使用系統(tǒng)發(fā)育樹作為推理工具王悍。建議的方法將DTM分布和圖形模型納入貝葉斯測試框架下破镰。DTM將傳統(tǒng)的DM擴展到系統(tǒng)發(fā)育樹上，并提供了更大的靈活性。此外啤咽，開發(fā)的貝葉斯圖形測試側(cè)重于通過調(diào)整協(xié)變量在貝葉斯圖形組成回歸(BGCR)框架下有效地比較組差異晋辆。將BGCR方法與DTM方法進行比和DM測試，BGCR的性能優(yōu)于其他方法宇整。③Bayesian Variable Selection for Multivariate Zero-Inflated Models：聯(lián)合建模多個分類單元比特定于分類單元的單變量分析更有效瓶佳。然而，微生物組數(shù)據(jù)的多變量分析鳞青，特別是具有協(xié)變量的零膨脹微生物組數(shù)據(jù)的多變量分析是一個挑戰(zhàn)霸饲。Lee提出了一種多元零膨脹高維協(xié)變量數(shù)據(jù)的貝葉斯變量選擇方法。所提出的多變量零膨脹泊松(MZIP)分布模型不需要指定協(xié)方差結(jié)構(gòu)臂拓，而是結(jié)合了貝葉斯變量選擇厚脉。

Phylogenetic LASSO and Microbiome：微生物組數(shù)據(jù)是高維的，往往具有很大的p和很小的n胶惰，這表明數(shù)據(jù)觀測很少傻工，分類群很多，分類群甚至比數(shù)據(jù)觀測還要多孵滞。在數(shù)據(jù)矩陣方面中捆，p表示列數(shù)，n表示行數(shù)坊饶，則問題大p小n意味著較小的n個樣本(數(shù)據(jù)觀測)包含較大的p個分類群泄伪。從圖形上看，這意味著在p維空間中有n個樣本匿级。從統(tǒng)計學上講蟋滴，高維數(shù)據(jù)的建模有很多挑戰(zhàn)。我們需要處理兩個不排除的問題：解決大p和小n問題痘绎，以及處理變截面問題津函。通常，較大的p需要較大的n孤页。為了有效地模擬具有較大p和較小n的高維微生物組數(shù)據(jù)球散，一種方法是充分降維，即降低預(yù)測因子的維數(shù)散庶，直到預(yù)測因子與響應(yīng)之間的回歸關(guān)系仍然保持蕉堰。在微生物群研究中，協(xié)變量之間也是相互關(guān)聯(lián)的悲龟，這給變量的選擇帶來了更多的挑戰(zhàn)屋讶。因此，需要有足夠的變量選擇须教。為了解決大p皿渗，小n的問題斩芭，人們提出了許多降維和變量選擇的方法。在變量選擇方法中乐疆，幾種基于模型的懲罰方法非常有用划乖，包括套索〖吠粒“生命樹”示意圖琴庵，即與系統(tǒng)發(fā)育相關(guān)的不同分類級別的細菌群，增加了高維數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性仰美。Kim和他的團隊通過系統(tǒng)發(fā)育LASSO(最小絕對收縮和選擇算子)技術(shù)迷殿，將微生物群作為響應(yīng)生物學或臨床結(jié)果的協(xié)變量納入其中。與其他變量選擇方法類似咖杂，它們的變量選擇方法也結(jié)合了生命樹模式庆寺。Kim等人發(fā)展的系統(tǒng)發(fā)育套索。具有分級懲罰方案和可行的協(xié)變量分組方式诉字。例如懦尝，基于分組是否嵌套，分別以圖形方式表示樹或循環(huán)壤圃。此外陵霉，系統(tǒng)發(fā)育套索使用凸對數(shù)似然函數(shù)，不同于使用懲罰最小二乘的等級制H-套索埃唯。系統(tǒng)發(fā)育套索估計算法依賴于迭代自適應(yīng)重加權(quán)。系統(tǒng)發(fā)育套索可以用來選擇OTU鹰晨、類群或任何其他“組學”數(shù)據(jù)作為協(xié)變量墨叛，然后用Logistic回歸對響應(yīng)進行建模，如協(xié)變量是否可以預(yù)測糞菌移植(FMT)模蜡。Kim等人漠趁。將系統(tǒng)發(fā)育套索模型與SCAD(平滑剪裁絕對偏差)模型，以及甲骨文模型的普通最小二乘(OLS)進行比較忍疾，他們得出結(jié)論：基于一項真實的臨床研究闯传，系統(tǒng)發(fā)育套索模型優(yōu)于SCAD和OLS模型。

3.4? 微生物組數(shù)據(jù)的組成型分析

早在1897年卤妒， Pearson就已經(jīng)說甥绿，當在器官測量中使用兩個絕對測量的比率時，可能會形成“虛假相關(guān)”则披。自二十世紀下半葉以來共缕，研究人員在地質(zhì)學中已經(jīng)知道，使用標準的統(tǒng)計方法來分析成分數(shù)據(jù)可能會使結(jié)果無法解釋士复。20世紀80年代图谷，特別是在1986年的開創(chuàng)性工作)中翩活，艾奇森意識到關(guān)于成分的每一項陳述都可以用成分比率來表示，并開發(fā)了一套基本原則便贵、各種方法菠镇、操作和工具來進行成分數(shù)據(jù)分析。其中承璃，logro變換方法被地質(zhì)學利耍、生態(tài)學和其他領(lǐng)域的統(tǒng)計學家和研究人員廣泛接受，因為通過LOGITO變換绸硕，可以消除成分數(shù)據(jù)的受限樣本空間(單純形)的問題堂竟，并將數(shù)據(jù)投影到多變量實數(shù)空間。因此玻佩，所有可用的標準多變量技術(shù)都可以再次用于分析成分數(shù)據(jù)出嘹。一系列出版物已經(jīng)表明，地質(zhì)學咬崔、生態(tài)學和其他領(lǐng)域中用于成分數(shù)據(jù)分析的現(xiàn)有工具易于修改税稼，也是分析微生物組高通量測序數(shù)據(jù)的有效方法。微生物組分數(shù)據(jù)分析的方法和工具的發(fā)展是最新的垮斯。開發(fā)方法側(cè)重于消除成分限制：樣本中所有微生物的相對豐度之和為1郎仆。這種約束導致組成數(shù)據(jù)駐留在單純形而不是歐幾里德空間。為了適當比較微生物組成兜蠕，開發(fā)方法從樣本中的類群豐度(OTU)推斷其在生態(tài)系統(tǒng)中的分類單元相對豐度(OTU)扰肌，而不是生態(tài)系統(tǒng)中的總豐度(OTU)。為了避免“虛假相關(guān)”熊杨，Lovell提出了用于分析相對數(shù)據(jù)的比例度量曙旭，因為比例是對相關(guān)數(shù)據(jù)進行適當?shù)南嚓P(guān)性分析。ERB和NOTREDAME進一步提出了部分相稱性晶府，這是從部分相關(guān)性中采納的定義桂躏。為了識別比例豐富的分類群，ERb等人提出了差別比例的統(tǒng)計數(shù)據(jù)川陆。它相當于分類單元比的單因素方差分析剂习。比較微生物組組成最具代表性的研究方法是類方差分析差異表達(ALDEx和ALDEx2)。從根本上說较沪，這兩種方法都使用LOGITRO變換技術(shù)來轉(zhuǎn)換微生物組數(shù)據(jù)鳞绕，從而消除了成分限制，使標準的多變量技術(shù)適用于分析尸曼。ANCOM是一個統(tǒng)計框架猾昆，開發(fā)該框架是為了說明在生態(tài)系統(tǒng)水平上檢測微生物平均類群豐度差異時的成分限制，以減少錯誤發(fā)現(xiàn)骡苞。它是以成分對數(shù)比為基礎(chǔ)的垂蜗。作者將ANCOM與ZIG進行了比較楷扬，并將t檢驗與模擬研究和實際數(shù)據(jù)進行了比較。他們的結(jié)論是贴见，ANCOM在以下方面優(yōu)于ZIG方法烘苹，大大降低了FDR，提高了功率片部。ANCOM很有吸引力镣衡，因為它不做分布假設(shè)，可以在線性模型框架中實現(xiàn)档悠，以調(diào)整協(xié)變量和模型縱向數(shù)據(jù)廊鸥。與ANCOM相比，ALDEx和ALDEx2更全面辖所。它們幾乎適用于由高通量測序產(chǎn)生的任何類型的數(shù)據(jù)惰说。它們適用于多種不同實驗設(shè)計的比較。統(tǒng)計分析包括雙樣本配對t檢驗缘回、方差分析和非參數(shù)檢驗吆视，如Welch t檢驗、Wilcoxon秩和檢驗酥宴、Kruskal-Wallis檢驗等啦吧。他們還可以選擇使用Benjamin-Hochberg方法調(diào)整p值。

3.5? 微生物群研究中的縱向數(shù)據(jù)分析與因果推理

微生物群是動態(tài)的拙寡，由與宿主和環(huán)境的相互作用驅(qū)動授滓，并且隨著時間的推移而變化。因此肆糕，縱向微生物組數(shù)據(jù)分析提供了關(guān)于微生物組與宿主和環(huán)境相互作用的豐富信息般堆。縱向研究的顯著特點是在研究期間重復(fù)測量受試者擎宝，從而可以直接評估響應(yīng)變量隨時間的變化郁妈』肼辏縱向研究還捕捉到個體間的差異(個體間的異質(zhì)性)和受試者內(nèi)部的動態(tài)變化绍申。它提供了研究復(fù)雜的生物學、心理學和行為假說的機會顾彰，特別是那些涉及隨時間變化的假說极阅。縱向分析的優(yōu)勢也適用于微生物組數(shù)據(jù)涨享。通過對飲食等方面的干預(yù)筋搏，以及對由微生物群引起的慢性病的發(fā)展和持續(xù)，將加深我們對微生物菌群的短期和長期趨勢的了解厕隧。

標準縱向模型：微生物組數(shù)據(jù)的縱向設(shè)計和分析已被用于各個領(lǐng)域奔脐，包括：人類嬰兒腸道微生物組在1型糖尿病發(fā)展中的作用俄周。廣義估計方程(GEES)和廣義線性混合效應(yīng)模型(GLMM)是縱向背景下最流行的兩種樣式。因此髓迎，GEE和GLMM最有可能用于微生物組研究峦朗。例如，這些模型被用來分析懷孕和非懷孕婦女在微生物群組成和穩(wěn)定性方面的差異排龄；ZINB混合效應(yīng)模型用于分析食管炎患者的人體微生物區(qū)系序列數(shù)據(jù)波势。通常，為了解釋分類豐度計數(shù)數(shù)據(jù)的過度離散和零膨脹特征橄维，選擇NB或零膨脹NB分布來模擬具有隨機效應(yīng)的每個系統(tǒng)類型的計數(shù)數(shù)據(jù)尺铣，以考慮縱向數(shù)據(jù)設(shè)置下的相關(guān)性。重要的是争舞，我們需要比較微生物的相對豐度凛忿，而不是組間的絕對計數(shù)。通過向NB分量的線性預(yù)測器函數(shù)添加偏移項兑障，即讀取總reads的對數(shù)侄非，將絕對計數(shù)轉(zhuǎn)換為考慮到每個樣本的可變reads的相對豐度。為了將分類群豐度視為連續(xù)變量流译，并對分類群豐度和協(xié)變量之間的趨勢(線性關(guān)系)進行建模逞怨，使用了在對象協(xié)方差結(jié)構(gòu)內(nèi)具有自回歸的線性混合效應(yīng)模型。但是福澡，這種方法并沒有明確處理數(shù)據(jù)中的零膨脹和過度離散性叠赦。

新發(fā)展的過分散和零膨脹縱向模型：①Zero-Inflated Gaussian Mixture Model，為了解決零膨脹和過度分散的問題革砸，同時識別與協(xié)變量相關(guān)的細菌分類群除秀，已經(jīng)提出了幾個統(tǒng)計模型。Paulson提出了零膨脹高斯(ZIG)混合模型算利〔岵龋混合模型的設(shè)計使用累積和尺度歸一化技術(shù)來校正總和歸一化在差分豐度評估中引入的偏差，以及零膨脹高斯分布混合模型來解釋由于微生物群落的欠采樣而導致的差分豐度測試中的偏差效拭。該模型尋求直接估計由于采樣不足或從計數(shù)分布(微生物群落中沒有分類特征)的檢測分布產(chǎn)生觀測到的零的概率暂吉。Zig型混合模型對數(shù)變換16SrRNA測序數(shù)據(jù)的讀取計數(shù)，然后使用經(jīng)驗貝葉斯過程估計緩和方差缎患。由于樣本中的零計數(shù)慕的，緩和的方差解釋了偏差。使用來自縱向微生物組研究的數(shù)據(jù)挤渔，應(yīng)用了這種ZIG方法肮街。它在metagenomeSeq BioConductor軟件包中實現(xiàn)。作者使用模擬研究和真實數(shù)據(jù)將ZIG與現(xiàn)有工具進行比較判导，并得出結(jié)論：ZIG優(yōu)于該領(lǐng)域中廣泛使用的其他統(tǒng)計方法嫉父，如Kruskal-Wallis檢驗沛硅，并且ZIG產(chǎn)生了對數(shù)據(jù)更精確的生物學解釋。然而绕辖，經(jīng)驗貝葉斯方法到縱向環(huán)境的擴展被審查為不清楚稽鞭。②Extensions of Negative Binomial Mixed-Effects and Zero-Inflated Negative Binomial Models，在縱向設(shè)置內(nèi)引镊，負二項混合效應(yīng)模型(NBMM)是用于檢測微生物群與宿主環(huán)境/臨床因素之間的關(guān)聯(lián)的統(tǒng)計模型朦蕴，用于相關(guān)的微生物群計數(shù)數(shù)據(jù)。NBMM以NB模型為基礎(chǔ)弟头，在固定效應(yīng)中加入隨機效應(yīng)吩抓，以考慮樣本間的相關(guān)性。NBMM通過來自NB的過色散參數(shù)處理過色散并改變總reads赴恨。標準NB模型與NBMM的不同之處在于NBMM采用迭代加權(quán)最小二乘(IWLS)算法進行擬合疹娶。然而，這些模型不能處理零通脹伦连。為了解釋過度分散和過多的零點雨饺，同一作者提出了ZINB回歸，用于識別兩個或更多種群之間差異豐富的類群惑淳。建議的ZINB使用兩部分混合：NB分量用于說明過度分散额港，Logistic回歸分量用于說明多余的零。標準ZINB模型與這種ZINB擴展模型的區(qū)別在于后者使用了IWLS和EM(期望最大化)算法歧焦。在該方法的作者進行的模擬研究中移斩，ZINB在基于AUC(曲線下面積)估計的各種稀疏場景中的性能優(yōu)于DESeq、Edger和metagenomeSeq绢馍。實際數(shù)據(jù)也表明向瓷，這一結(jié)果與之前的研究一致。③Bayesian Semiparametric Generalized Linear Regression Model舰涌，Lee和Sison-Mangus提出了一個貝葉斯半?yún)?shù)廣義線性回歸模型來研究微生物豐度和演替變化與宿主環(huán)境/臨床因素(即物理和生物因素)之間的關(guān)系猖任。該模型在廣義線性回歸模型的基礎(chǔ)上，利用稀疏誘導先驗--拉普拉斯先驗瓷耙，改進了協(xié)變量效應(yīng)對OTUS代表的微生物物種平均豐度的估計朱躺。類似于Zhang等人的NBMM，該方法指定Nb分布哺徊，并假定OTU計數(shù)的過色散參數(shù)室琢。與其他方法相比乾闰，例如在Romero等人中落追，在建模之前，所提出的方法不會對OTU計數(shù)進行歸一化以調(diào)整樣本總數(shù)之間的差異涯肩。相反轿钠，它聯(lián)合分析所有OTU巢钓，同時執(zhí)行對OTU豐度的協(xié)變量效應(yīng)的歸一化和估計。④Zero-Inflated Beta Regression Model with Random-Effects疗垛，在縱向微生物群數(shù)據(jù)設(shè)置下症汹，Chen和Li提出了一個具有隨機效應(yīng)的兩部分零膨脹Beta回歸模型(ZIBR)來檢驗微生物豐度與臨床協(xié)變量之間的關(guān)系。ZIBR將微生物組數(shù)據(jù)視為成分贷腕。ZIBR的目的是解釋微生物組組成數(shù)據(jù)的三個特征：高度傾斜背镇，有界在[0，1]內(nèi)泽裳，在考慮同一對象上重復(fù)測量的觀測結(jié)果的相關(guān)性時瞒斩，通常以許多零來稀疏。⑤Differential Distribution Analysis Based on Zero-Inflated Negative Binomial Model涮总，Chen提出了一個基于ZINB(零膨脹負二項)回歸模型的微生物組數(shù)據(jù)差分分布分析的一般框架胸囱。首先，基于計數(shù)的ZINB模型已被測試為最適合于零膨脹和過度分散的數(shù)據(jù)瀑梗。有人建議微生物組數(shù)據(jù)在統(tǒng)計學上和生物學上也更合適烹笔。其次，零膨脹模型在生物學上更具解釋力抛丽，因為與 hurdle model 相比谤职，混合觀測零點(即“結(jié)構(gòu)零點”和“采樣零點”)的假設(shè)與觀察到的人類微生物群數(shù)據(jù)更一致。以前的零膨脹模型將離散視為所有協(xié)變量上的公害和公共參數(shù)亿鲜。相反柬帕，建議的方法允許協(xié)變量相關(guān)的離散度：離散度依賴于協(xié)變量，如疾病狀況狡门，并解決異常值以提高零膨脹模型的穩(wěn)健性陷寝。為了識別相關(guān)的微生物類群，該方法還可以進行流行度其馏、豐度和分散度參數(shù)的綜合測試凤跑。⑥Mixed-Effects Dirichlet-Tree Multinomial (DTM) Model，有人提出了一種混合效應(yīng)的DTM模型叛复，以便容易地使用經(jīng)驗貝葉斯收縮來增強微生物比例推斷仔引。它結(jié)合了微生物組研究中的協(xié)變量和相關(guān)的分類群。在考慮協(xié)變量時褐奥，側(cè)重于預(yù)測咖耘，而不是比較。建議的混合效果DTM模型有三個特點：首先撬码，使用混合效應(yīng)的Dirichlet-tree多項式分布來提高表型-微生物組關(guān)聯(lián)性的檢測和預(yù)測的準確性儿倒。利用DTM自然結(jié)合測序深度、過度分散和容易適應(yīng)局部信號的優(yōu)點。其次夫否，基于混合效應(yīng)DTM模型去除了不需要的協(xié)變量效應(yīng)彻犁，并采用多尺度經(jīng)驗貝葉斯收縮來改進微生物比例的估計。第三凰慈，使用隨機森林結(jié)合收縮估計器(解釋變量)作為預(yù)測工具汞幢，例如，從微生物群組預(yù)測重量微谓。

基于回歸的時間序列模型：動態(tài)微生物群可以通過基于回歸的時間序列模型進行分析森篷，即將類群的相對豐度、腸道微生物區(qū)系隨時間的生態(tài)多樣性作為一系列觀測(因變量)豺型，將時間的函數(shù)和其他協(xié)變量作為自變量疾宏。例如，我們可以使用回歸來評估人類陰道微生物群對月經(jīng)周期中的時間和其他協(xié)變量触创，一種自回歸(AR)模型坎藐，以評估不同細菌分類群體的趨勢；以及處理微生物菌群計數(shù)的無限混合模型哼绑。①Time-Series Clustering Method岩馍，時間序列聚類法是根據(jù)OTU的時間剖面相似性將其分組在一起的方法。它采用假設(shè)的OTU水平分析的方法抖韩，而不是平均OTUS蛀恩。例如，MC-TIMME(微生物組計數(shù)軌跡無限混合引擎)是由Gerber(2015)和Gerber等人開發(fā)的時間序列聚類算法茂浮。非參數(shù)貝葉斯技術(shù)被調(diào)整為從微生物組數(shù)據(jù)自動推斷時間模式双谆，然后將數(shù)據(jù)集中的OTU分配給所推斷的時間模式。②Dynamical Systems Theory Model席揽，已有幾種微生物時間序列的自回歸模型被提出顽馋。最流行的是Lotka-Volterra(LV)模型。Stein將動力系統(tǒng)模型應(yīng)用于微生物組時間序列數(shù)據(jù)幌羞。該模型基于廣義Lotka-Volterra(GLV)非線性微分方程寸谜，假設(shè)生態(tài)系統(tǒng)中物種的生長是密度受限的，并受到系統(tǒng)中其他物種的正或負調(diào)控属桦。自回歸模型還通過使用GLV方程分析了OTUS相對豐度的動態(tài)熊痴。③Time-Dependent Generalized Additive Models，另一種動力系統(tǒng)理論模型是依賴于時間的廣義加性模型(GAMS)聂宾。GAMS的框架是非參數(shù)的果善，通常更適合在系統(tǒng)先驗信息很少的情況下使用。GAMS已被廣泛應(yīng)用于生態(tài)時間序列數(shù)據(jù)的分析系谐。為了捕捉人類嬰兒腸道微生物區(qū)系的動態(tài)巾陕，Trosvik應(yīng)用GAMS分析微生物區(qū)系時間序列數(shù)據(jù)。④Non-autoregressive Microbial Time Series Model，Gibbons及其同事認為惜论，人體腸道微生物群有兩種動態(tài)機制：外部環(huán)境波動和內(nèi)部過程。外部環(huán)境波動是非自回歸的止喷，由外部因素(如飲食)驅(qū)動馆类。換句話說，大多數(shù)生物體的功能是一種穩(wěn)定的弹谁、均值回歸的行為乾巧，在個體之間承載著固定的能力和豐富的類群。當系統(tǒng)從較大的沖擊中恢復(fù)時预愤，偶爾會發(fā)生自回歸動態(tài)。然而，外部的非自回歸波動決定了人體腸道微生物群落的動態(tài)泞遗。微生物群是一個動態(tài)穩(wěn)定的系統(tǒng)看幼，不斷受到內(nèi)力和外力的沖擊，盡管腸道生態(tài)系統(tǒng)經(jīng)常被破壞销睁，將微生物群推回到保守的穩(wěn)定狀態(tài)供璧。吉本斯和他的同事們腸道微生物時間序列中的非自回歸方法，而不是關(guān)注自回歸模型冻记。他們使用向量自回歸模型分別對自回歸和非自回歸分量進行建模睡毒。VaR模型靈活易用，適用于平穩(wěn)多變量時間序列的分析冗栗。該模型假設(shè)時間序列過程具有自相關(guān)演顾、互相關(guān)和序列不相關(guān)或獨立噪聲。此外隅居，他們使用連續(xù)的方法來表征宿主內(nèi)部的動態(tài)钠至，而不是采用社區(qū)狀態(tài)聚類法。綜上所述胎源，時間序列方法在近幾年得到了越來越多的應(yīng)用棕洋。這些方法特別需要用適當?shù)姆治龉ぞ咦屑氃O(shè)計和分析。否則乒融，結(jié)果可能極具誤導性掰盘。首先，我們不能忽視微生物組數(shù)據(jù)的時間性這一因素赞季。例如愧捕，我們不能將時間序列數(shù)據(jù)視為靜態(tài)時間點，并通過簡單的統(tǒng)計過程(如t檢驗)對其進行檢驗申钩。我們不能將時間點作為獨立樣本對待次绘，這可能會高估不同組之間的差異。第二，我們不能平均混合種群的豐度邮偎，特別是在基于序列的微生物組數(shù)據(jù)分析中不能平均這些豐度管跺。例如，我們不能將兩個種群動態(tài)相反的OTU或物種組合在一起或聚集在一起禾进。如果您聚合OTU或物種豁跑，從而獲得錯誤的微生物群譜，時間信息可能會丟失泻云。

因果關(guān)系檢測：微生物組數(shù)據(jù)的因果推斷與中介分析：首先艇拍，微生物群可能對寄主有致病作用。人類和動物研究都證明了以下因素：(1)對野生型小鼠的研究和斑馬魚宠纯。(2)微生物群在宿主免疫系統(tǒng)的成熟卸夕，甚至在腸道的解剖發(fā)育中發(fā)揮了作用；(2)微生物區(qū)系在宿主免疫系統(tǒng)的成熟婆瓜，甚至在腸道的解剖發(fā)育中發(fā)揮了作用快集；(2)微生物區(qū)系在宿主免疫系統(tǒng)的成熟，甚至腸道的解剖發(fā)育中發(fā)揮了作用廉白。其次碍讨，腸道微生物區(qū)系的細菌組成(種類、成員和豐度)是個性化的蒙秒。大多數(shù)微生物群在不同的寄主物種之間有著驚人的差異勃黍。在生命周期中，我們的微生物群會隨身體棲息地和時間的不同而發(fā)生系統(tǒng)的變化晕讲，可以短暫地或長期地被疾病(如感染)所改變或醫(yī)療干預(yù)覆获，如抗生素。這樣的趨勢可能最終揭示微生物群的變化是如何引起或預(yù)防疾病的瓢省。減少的物種在肥胖人群中觀察到了多樣性弄息；大腸癌患者結(jié)腸中梭菌門的豐度顯著增加。因此勤婚，微生物組領(lǐng)域的研究人員不僅需要了解細菌在人類疾病中的相關(guān)性摹量，還需要了解細菌在人類疾病中的致病功能。第三馒胆，微生物群與寄主之間的相互關(guān)系提出了因果推斷模型缨称，或者可以進行中介分析和縱向分析。目前祝迂，微生物組研究人員將他們的重點從相關(guān)性轉(zhuǎn)移到因果關(guān)系睦尽。然而，由于微生物組數(shù)據(jù)和統(tǒng)計模型的復(fù)雜性型雳，在微生物組研究中識別原因仍然很少見当凡。我們應(yīng)該區(qū)分因果關(guān)系和相關(guān)性山害，不能從兩個變量之間的關(guān)系直接推斷因果關(guān)系，因為“相關(guān)性既不是建立因果關(guān)系的必要條件沿量，也不是充分條件”浪慌。中介分析為研究人員提供了一個關(guān)于導致某事的一系列效應(yīng)的故事。它使我們能夠進行科學調(diào)查來解釋某事是如何發(fā)生的朴则。檢測微生物群权纤、干預(yù)和宿主之間的動態(tài)因果關(guān)系是非常關(guān)鍵的。然而佛掖，據(jù)我們所知妖碉，因果推理和中介分析的應(yīng)用有限涌庭。

微生物組數(shù)據(jù)的薈萃分析：由于異質(zhì)性芥被，類似的微生物組研究經(jīng)常被報道效果不一致。薈萃分析旨在減少研究偏差坐榆，確保穩(wěn)健的結(jié)果拴魄，增加統(tǒng)計能力，并改善對研究效果的整體生物學理解席镀，例如在類似實驗條件或治療下的臨床試驗匹中。微生物組研究的薈萃分析是為了在不同的條件或處理上檢驗相似的基本假設(shè)，如IBD和肥胖豪诲。目前顶捷，基于網(wǎng)絡(luò)的統(tǒng)計工具和R軟件包可用于微生物組數(shù)據(jù)的薈萃分析。例如屎篱，基于網(wǎng)絡(luò)的工具“MicrobiomeAnalyst”具有薈萃分析功能服赎。R軟件包“metammicrobiomeR”旨在使用隨機效應(yīng)模型在微生物組研究中進行薈萃分析。微生物組相對豐度數(shù)據(jù)的分析方法是基于零膨脹的beta GAMLSS(位置交播、規(guī)模和形狀的廣義加法模型)：GAMLSS-BEZI重虑。它使用GAMLSS-BEZI估計組間相對豐度的對數(shù)(優(yōu)勢比)，使用隨機和固定效應(yīng)薈萃分析模型匯集估計及其標準誤差秦士，以評估微生物組研究的異質(zhì)性和整體影響缺厉。薈萃分析可以使用不同的算法或方法來實現(xiàn)，例如組合來自多個研究的p值隧土、效果大小提针、排名順序、投票曹傀，或者直接將不同的原始數(shù)據(jù)集合并成巨型數(shù)據(jù)集关贵，然后將其視為單個數(shù)據(jù)集。投票法是最簡單的薈萃分析方法卖毁。它首先根據(jù)每個數(shù)據(jù)集的特定標準(例如揖曾，調(diào)整p<0.05)選擇差異表達的基因或豐富的分類群落萎；然后統(tǒng)計在所有數(shù)據(jù)集中檢測到的差異表達的基因或豐富的分類群的總數(shù)。除非其他方法行不通炭剪，否則不應(yīng)該使用投票方法练链，因為它被認為在統(tǒng)計上效率不高。直接合并不同原始數(shù)據(jù)集的方法通常應(yīng)該將其應(yīng)用限制在相同或相似的平臺上奴拦，因為它忽略了來自不同來源的數(shù)據(jù)集的固有偏見和異構(gòu)性媒鼓。與其他研究領(lǐng)域的研究相比，由于單個數(shù)據(jù)質(zhì)量和單個數(shù)據(jù)集固有的異構(gòu)性問題較大错妖，對微生物組數(shù)據(jù)進行嚴格的統(tǒng)計薈萃分析具有更大的挑戰(zhàn)性绿鸣。在設(shè)計和執(zhí)行微生物組數(shù)據(jù)的薈萃分析時，我們應(yīng)該遵循薈萃分析的指導方針暂氯。嚴格的統(tǒng)計薈萃分析應(yīng)該使用適當?shù)幕A(chǔ)統(tǒng)計方法和固定效應(yīng)模型或隨機效應(yīng)模型來比較集合數(shù)據(jù)集上的各組潮模，此外還應(yīng)考慮個體數(shù)據(jù)質(zhì)量和個體數(shù)據(jù)集的固有異質(zhì)性〕帐基于這一標準擎厢，目前大多數(shù)微生物組數(shù)據(jù)的薈萃分析并不像統(tǒng)計薈萃分析那樣嚴謹。目前辣吃，大多數(shù)微生物組數(shù)據(jù)的薈萃分析直接將不同的原始數(shù)據(jù)集合并成一個巨型數(shù)據(jù)集动遭，然后使用常用的方法如α分集、主坐標分析(PCoA)對合并后的數(shù)據(jù)集進行分析神得。其他研究獨立地對每個數(shù)據(jù)集的分類群相對豐度進行單變量檢驗厘惦，并使用統(tǒng)計方法(即Kruskal-Wallis檢驗)來比較各研究的結(jié)果，并用校正方法(即Benjamini-Hochberg錯誤發(fā)現(xiàn)率(FDR))調(diào)整p值哩簿。目前“微生物分析儀”的薈萃分析功能主要集中在可視化探索或富集分析上宵蕉。“微生物分析儀”工具缺乏適當?shù)慕y(tǒng)計方法進行群體比較卡骂。因此国裳，這不是嚴格的統(tǒng)計薈萃分析。從使用統(tǒng)計方法和模型來檢查跨研究的總體匯集效應(yīng)的角度來看全跨，MetammicrobiomeR包中的方法是嚴格的統(tǒng)計薈萃分析缝左。基于一項模擬研究浓若，該軟件包的作者陳述了它的三個優(yōu)點：第一渺杉，GAMLSS-BEZI通過零膨脹的貝塔分布直接和適當?shù)靥幚砦⑸锝M相對豐度數(shù)據(jù)的分布；第二挪钓，它在檢測組間微分相對豐度方面比使用反正方根變換的線性模型具有更好的能力是越。第三，不同群體之間相對豐度的估計對數(shù)(優(yōu)勢比)在不同研究之間是直接可比的碌上。

3.6 統(tǒng)計包簡介

生物信息學流程和R包在開發(fā)用于假設(shè)檢驗和統(tǒng)計分析的統(tǒng)計方法和模型方面起著非常重要的作用倚评。

生物信息學流程：QIIME和mothur是兩條流行的生物信息學流程浦徊。QIIME和MOTHUR的能力是全面和支持性的文檔，可以用來生成微生物組組成數(shù)據(jù)天梧，也可以用來分析16SrRNA基因測序數(shù)據(jù)盔性。QIIME和MOTHUR可以執(zhí)行微生物組組成和統(tǒng)計分析，包括α和β多樣性呢岗、單因素方差分析冕香、配對和兩個樣本t檢驗、Adonis后豫、ANOSIM悉尾、MRPP、PERMANOVA挫酿、PERMDISP构眯、db-RDA和Mantel檢驗。

R Packages Adopted from Other Fields：在微生物群研究中饭豹，研究者和統(tǒng)計學家使用現(xiàn)有的標準方法和模型或借用其他相關(guān)領(lǐng)域的統(tǒng)計工具來應(yīng)用于他們的研究鸵赖，特別是在早期階段务漩。Vegan是一種非常重要和使用最廣泛的R包拄衰，最初是為社區(qū)生態(tài)學家設(shè)計的。Vegan不是自給自足的饵骨。它依賴于許多其他R包翘悉，并且必須在R統(tǒng)計環(huán)境下運行。然而居触，Vegan包含了最流行的多變量分析方法和多樣性分析工具妖混，以及其他可能有用的功能。因此轮洋，它被廣泛應(yīng)用于生態(tài)群落分析制市，并已被應(yīng)用于微生物群數(shù)據(jù)的分析。使用Vegan包來計算多樣性和其他指標弊予。.DESeq祥楣，DESeq2，Edger最初是為分析數(shù)字基因表達數(shù)據(jù)和基因表達系列分析(SAGE)而開發(fā)的汉柒。它們對于過度分散的計數(shù)數(shù)據(jù)的假設(shè)檢驗和統(tǒng)計分析很有用误褪。DESeq和DESeq2都使用負二項分布來測試差異表達；Edger Package實現(xiàn)了Robinson和Smyth碾褂，Robinson等人描述的原始統(tǒng)計方法兽间。采用它們來分析過度分散的微生物群計數(shù)數(shù)據(jù)。LIMMA軟件包最初是為了檢測物種的差異豐度而開發(fā)的正塌。

新發(fā)展的微生物組數(shù)據(jù)R軟件包：一些R軟件包是專門為微生物組數(shù)據(jù)開發(fā)的嘀略。近年來恤溶，微生物組研究人員和統(tǒng)計學家沿著提出的統(tǒng)計方法開發(fā)了更多的R包。這些軟件包有其特定的進行假設(shè)檢驗和統(tǒng)計分析的能力帜羊。將介紹并實現(xiàn)幾個R包宏娄。HMP和micropower 是用于進行功率和樣本量計算的兩個R軟件包。在新開發(fā)的R軟件包中逮壁，phyloseq軟件包是更通用的統(tǒng)計工具孵坚。首先，它集成了其他可用的統(tǒng)計軟件包來執(zhí)行統(tǒng)計假設(shè)檢驗和分析窥淆。例如卖宠，它與DESeq、DESeq2忧饭、Edger軟件包集成或擴展到DESeq扛伍、DESeq2、Edger軟件包词裤，以便于分類學多樣性分析和統(tǒng)計建模刺洒。它還包含R中基于微陣列的微生物組概況數(shù)據(jù)集分析的通用工具。第二吼砂，phyloseq軟件包配備了管理微生物組數(shù)據(jù)集的工具逆航。例如，它具有從其他軟件包導入和導出數(shù)據(jù)的能力渔肩，甚至可以從生物信息管道(如QIIME和MOTHUR)導入和導出數(shù)據(jù)因俐。第三，Phyloseq具有執(zhí)行各種分集度量分析的能力周偎。例如抹剩，在將數(shù)據(jù)導入R之后，可以使用40多個不同生態(tài)距離度量中的任何一個或全部輕松地執(zhí)行β多樣性分析蓉坎；實施阿爾法多樣性度量澳眷；執(zhí)行更復(fù)雜的分析，例如k表分析和微生物組數(shù)據(jù)的差異分析蛉艾。最后钳踊，phyloseq軟件包具有通過柱狀圖、盒圖伺通、密度圖箍土、熱圖、運動圖和網(wǎng)絡(luò)以及排序和聚類來可視化微生物組數(shù)據(jù)的功能和工具罐监。微生物組包根據(jù)Phyloseq級進行統(tǒng)計分析吴藻。它包含基于微陣列的R微生物群譜數(shù)據(jù)集分析的通用工具。它為微生物群數(shù)據(jù)集增加了額外的功能弓柱，以執(zhí)行微生物區(qū)系組成分析沟堡、雙穩(wěn)性分析侧但、計算多樣性指數(shù)并通過配對比較和關(guān)聯(lián)研究擬合線性模型。作為phyloseq軟件包航罗，微生物組軟件包具有通過柱狀圖禀横、框圖、密度圖粥血、熱圖柏锄、運動圖、網(wǎng)絡(luò)复亏、排序和聚類來可視化微生物組數(shù)據(jù)的功能和工具趾娃。MetagenomeSeq是實現(xiàn)零膨脹高斯(ZIG)的混合模型。MetagenomeSeq包括關(guān)于t統(tǒng)計量的非參數(shù)置換檢驗缔御、非參數(shù)Kruskal-Wallis檢驗抬闷。MAO等人提出的實現(xiàn)貝葉斯圖形成分回歸(BGCR)的R代碼「唬可在https://github.com/MaStatLab/bgcr免費獲得笤成。MBVS軟件包實現(xiàn)了Lee等人提出的多元零膨脹高維協(xié)變量的貝葉斯變量選擇方法。ANCOM軟件包實現(xiàn)了對微生物群組成的分析眷茁。ALDEx和ALDEx2軟件包實現(xiàn)了比較微生物組組成的方法炕泳。在第10章中，我們使用真實的微生物組數(shù)據(jù)運行ALDEx2蔼卡。BhGLM包實現(xiàn)了NBMMS和ZINB兩種方法喊崖。ZIBR軟件包實現(xiàn)了具有隨機效應(yīng)的兩部分零膨脹Beta回歸模型挣磨。我們在第12章中舉例說明了它的用法雇逞。MicrobiomeDDA實現(xiàn)了基于ZINB(零膨脹負二項)回歸模型的微生物組數(shù)據(jù)差異分布分析的一般框架。MetammicrobiomeR使用零膨脹的Beta GAMLSS和使用隨機和固定效應(yīng)模型的跨研究薈萃分析茁裙，實現(xiàn)了對微生物組相對豐度數(shù)據(jù)的分析塘砸。

3.7? 現(xiàn)存統(tǒng)計方法的局限性和將來的發(fā)展方向

本章全面回顧了目前可用于或已經(jīng)用于微生物組數(shù)據(jù)分析的統(tǒng)計方法和模型。統(tǒng)計方法和模型的目的是針對微生物組數(shù)據(jù)的特定特征晤锥，無論是橫截面還是縱向設(shè)置掉蔬。這些方法將微生物組數(shù)據(jù)視為相對豐度，使用原始數(shù)據(jù)作為輸入數(shù)據(jù)集矾瘾，或基于系統(tǒng)發(fā)育樹的數(shù)據(jù)結(jié)構(gòu)進行分析女轿。經(jīng)典的統(tǒng)計方法仍然被廣泛使用，而新的方法在過去的幾年里得到了發(fā)展壕翩。新開發(fā)的方法大多針對微生物組數(shù)據(jù)的一個或多個特定特征：高維蛉迹、過度離散、零點過多的稀疏性和復(fù)雜的協(xié)方差結(jié)構(gòu)放妈。然而北救，現(xiàn)有的統(tǒng)計方法仍有其局限性荐操，包括：(A)在檢測因果關(guān)系和因果推斷方面，調(diào)解分析仍處于初級階段珍策。近年來托启，微生物群研究的重點已從相關(guān)性轉(zhuǎn)向因果關(guān)系。在生態(tài)學中攘宙，已經(jīng)討論了如何識別因果關(guān)系屯耸，并提出了在復(fù)雜生態(tài)系統(tǒng)中識別因果關(guān)系的框架。然而蹭劈，在微生物組研究中肩民，合適的縱向和因果推斷模型非常有限。為了滿足對動態(tài)復(fù)雜的微生物組數(shù)據(jù)建模的需要链方，仍然需要合適的統(tǒng)計工具來分析假設(shè)因素之間的因果關(guān)系和中介關(guān)系持痰。(B)一些研究在使用經(jīng)典統(tǒng)計方法分析微生物組比例數(shù)據(jù)時，完全忽略了微生物組數(shù)據(jù)的約束問題或組成性質(zhì)祟蚀。例如工窍，皮爾遜相關(guān)分析、t-檢驗和方差分析仍然被廣泛用于微生物組數(shù)據(jù)的分析前酿，而不需要檢驗數(shù)據(jù)的分布或轉(zhuǎn)換患雏。(C)目前成分數(shù)據(jù)分析沒有解決零值問題。微生物組分數(shù)據(jù)的分析主要集中在兩個方面：用對數(shù)比來避免約束問題罢维，用比例來代替相關(guān)性來解決“偽相關(guān)”問題淹仑。這兩種方法都依賴于對數(shù)比變換。通常肺孵，將一個較小的值加到零讀取計數(shù)以使對數(shù)比轉(zhuǎn)換可定義匀借。但是，添加小值的算法不被允許平窘。此外吓肋，人為的值是否會改變結(jié)果也很難檢驗。(D)基于計數(shù)的方法仍然需要提高聯(lián)合建模過度分散和零通貨膨脹的能力瑰艘。建議將微生物組數(shù)據(jù)視為計數(shù)數(shù)據(jù)是鬼，而不是成分數(shù)據(jù)∽闲拢基于計數(shù)的模型針對微生物組的多變量高維數(shù)據(jù)結(jié)構(gòu)均蜜、稀疏性、過度分散性和零膨脹等特點芒率，具有很好的概念調(diào)整能力囤耳，因此被認為是更適合于微生物組數(shù)據(jù)的統(tǒng)計和生物學模型。近年來，在橫截面或縱向設(shè)置中已經(jīng)開發(fā)了幾種基于計數(shù)的模型紫皇。然而慰安，一些方法將細菌類群視為獨立的，忽略了細菌類群之間的相關(guān)性聪铺；一些方法雖然聯(lián)合建模多個細菌類群化焕，但在處理過度分散和/或零膨脹方面的能力有限。(E)系統(tǒng)發(fā)育樹的方法似乎另有希望铃剔，因為與成分和基于計數(shù)的方法相比撒桨，它們考慮了多個級別的分類群。然而键兜，不同級別的細菌類群之間的進化比其他領(lǐng)域(即生態(tài)學)更為復(fù)雜凤类。我們?nèi)匀蝗狈m當?shù)姆椒ɑ蚰Ｐ蛠砺?lián)合擬合多個水平的分類群，并考慮到微生物組數(shù)據(jù)的特點普气，如過度分散和/或零膨脹谜疤。

近年來，现诀，微生物組數(shù)據(jù)的統(tǒng)計分析取得了很大的進展夷磕，針對橫斷面和縱向環(huán)境中微生物組數(shù)據(jù)的具體特征的方法和模型證明了這一點。在選擇標準統(tǒng)計方法仔沿、借鑒其他領(lǐng)域的統(tǒng)計方法坐桩、發(fā)展自己獨特的統(tǒng)計方法等方面都取得了進展。一些新發(fā)展的統(tǒng)計方法和模型對于微生物組數(shù)據(jù)是可行的和很好的擬合封锉。然而绵跷，微生物群研究中的統(tǒng)計方法和模型仍有發(fā)展的空間。作為一般指導方針成福，新統(tǒng)計方法的重點可以放在以下幾個方面：(A)開發(fā)縱向和因果模型碾局，使更準確的因果推斷能夠適應(yīng)微生物群、環(huán)境和宿主之間的動態(tài)和復(fù)雜聯(lián)系闷叉。預(yù)期的模型應(yīng)該有強大的統(tǒng)計工具來將微生物群的變化與宿主因素(即健康或疾病)聯(lián)系起來擦俐，并有能力調(diào)整混雜因素，以建立與反應(yīng)變量的時間甚至因果關(guān)系握侧。(B)繼續(xù)開發(fā)適當?shù)哪Ｐ停怨餐瑪M合和有效地解釋具有多變量高維數(shù)據(jù)結(jié)構(gòu)嘿期、過度分散和具有過多零點的稀疏性的微生物組數(shù)據(jù)的特點品擎，包括薈萃分析的統(tǒng)計工具。(C)考慮到微生物組數(shù)據(jù)的組成性質(zhì)备徐，并將微生物組數(shù)據(jù)擬合為組成數(shù)據(jù)萄传，同時解決了多變量高維數(shù)據(jù)結(jié)構(gòu)、過度分散和帶有多余零點的稀疏性的特點。(D)討論并提出在系統(tǒng)發(fā)育樹框架下研究細菌分類群進化的統(tǒng)計模型秀菱。

最后編輯于：2021.05.30 00:02:53

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末振诬，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子衍菱，更是在濱河造成了極大的恐慌赶么，老刑警劉巖，帶你破解...
沈念sama閱讀 206,839評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件脊串，死亡現(xiàn)場離奇詭異辫呻，居然都是意外死亡，警方通過查閱死者的電腦和手機琼锋，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門放闺，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人缕坎，你說我怎么就攤上這事怖侦。” “怎么了谜叹？”我有些...
開封第一講書人閱讀 153,116評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵础钠，是天一觀的道長。經(jīng)常有香客問我叉谜，道長旗吁，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,371評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任停局，我火速辦了婚禮很钓，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘董栽。我一直安慰自己码倦，他們只是感情好，可當我...
茶點故事閱讀 64,384評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布锭碳。她就那樣靜靜地躺著袁稽，像睡著了一般。火紅的嫁衣襯著肌膚如雪擒抛。梳的紋絲不亂的頭發(fā)上推汽，一...
開封第一講書人閱讀 49,111評論 1贊 285
城市分裂傳說
那天，我揣著相機與錄音歧沪，去河邊找鬼歹撒。笑死，一個胖子當著我的面吹牛诊胞，可吹牛的內(nèi)容都是我干的暖夭。我是一名探鬼主播，決...
沈念sama閱讀 38,416評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼迈着！你這毒婦竟也來了竭望？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,053評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤裕菠，失蹤者是張志新（化名）和其女友劉穎咬清，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體糕韧，經(jīng)...
沈念sama閱讀 43,558評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡枫振，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,007評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了萤彩。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片粪滤。...
茶點故事閱讀 38,117評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖雀扶，靈堂內(nèi)的尸體忽然破棺而出杖小，到底是詐尸還是另有隱情，我是刑警寧澤愚墓，帶...
沈念sama閱讀 33,756評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布予权，位于F島的核電站，受9級特大地震影響浪册，放射性物質(zhì)發(fā)生泄漏扫腺。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,324評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一村象、第九天我趴在偏房一處隱蔽的房頂上張望笆环。院中可真熱鬧，春花似錦厚者、人聲如沸躁劣。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評論 0贊 19
一樁弒父案库菲，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽账忘。三九已至，卻和暖如春熙宇，著一層夾襖步出監(jiān)牢的瞬間鳖擒，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,539評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工奇颠，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留败去，地道東北人。一個月前我還...
沈念sama閱讀 45,578評論 2贊 355
代替公主和親
正文我出身青樓烈拒，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子荆几，可洞房花燭夜當晚...
茶點故事閱讀 42,877評論 2贊 345

第三章 微生物組數(shù)據(jù)統(tǒng)計分析簡介