差異代謝物分析
差異代謝物分析包括多元統(tǒng)計分析和單維統(tǒng)計分析综芥,其中多元統(tǒng)計能捕捉到具有相互關聯(lián)的差異性變量有利于代謝調控網(wǎng)絡研究;單維的統(tǒng)計能獨立分析單個變量的統(tǒng)計學意義猎拨,在數(shù)據(jù)分析中起到驗證和補充的作用膀藐;因此代謝組學中使用多元統(tǒng)計和單維統(tǒng)計同時篩選到的差異變量應該是最重要和最值得關注的差異代謝物。
主成分分析(PCA)
主成分分析是一種無監(jiān)督的多元統(tǒng)計分析方法红省,能從總體上反應各組樣本之間的總體差異和組內樣本之間的變異度大小额各±嗳基本原理是利用數(shù)學的方法臊泰,將原來變量重新組合成新的互相無關的幾個綜合變量(即主成分),對所有因素按重要性排序缸逃,通常靠后的微小因素被忽略掉厂抽,通過降維需频,從而起到簡化數(shù)據(jù)的作用。實際項目中筷凤,我們可以通過PCA找出離群樣品昭殉、判別相似性高的樣品簇等。
在模型計算時挪丢,首先找到一條直線使所有樣品距離該直線的殘差平方和最小蹂风,而投影在此數(shù)軸方向的矢量平方和最大,那么該直線方向也就體現(xiàn)了樣品間最大差異乾蓬,由此得到第一個主成分(PC1)惠啄;在此基礎上,沿著與前一個主成分直線垂直方向找到其次差異最顯著的直線撵渡,得到第二個主成分(PC2),如此反復死嗦。判別PCA模型質量好壞的主要參數(shù)為R2X趋距,該值代表降維后的數(shù)據(jù)對原始數(shù)據(jù)的解釋率,該值越接近1越理想越除,一般認為R2X大于0.5說明模型效果較好节腐。
偏最小二乘判別分析(PLS-DA)
PLS-DA(Partial Least Squares Discriminant Analysis)是基于經(jīng)典的偏最小二乘回歸模型的判別分析方法廊敌,其響應變量是一組反應統(tǒng)計單元間類別關系的分類信息铜跑,是一種有監(jiān)督的判別分析方法,經(jīng)常用來處理分類和判別問題锅纺。通過對主成分適當?shù)男D,PLS-DA可以有效的對組間觀察值進行區(qū)分肋殴,并且能夠找到導致組間區(qū)別的影響變量囤锉。PLS-DA作為一種有監(jiān)督的分析方法,在分析時必須對樣品進行指定并分組护锤,這樣分組后模型將自動加上一個隱含的數(shù)據(jù)集Y官地,這種模型計算的方法強行把各組分門別類烙懦,有利于發(fā)現(xiàn)不同組間的異同點驱入。
對于組間差異不夠明顯的樣品,采用PCA方法常常無法區(qū)分樣品的組間差異氯析,這種情況下采用PLS-DA模型可能更加有效。
正交偏最小二乘判別分析(OPLS-DA)
OPLS-DA(Orthogonal Partial Least Squares Discriminant Analysis)是PLS-DA的衍生算法掩缓,與PLS-DA相比雪情,OPLS-DA是結合了正交信號矯正(OSC)和PLS-DA兩個方法,能夠將X矩陣信息分解成與Y相關和不相關的兩類信息你辣,通過去除不相關的差異巡通,相關的信息就集中表現(xiàn)在第一個預測成分(predictive component)尘执。
與PLS相比宴凉,OPLS的觀測變量矩陣X中與預測變量矩陣Y中無關聯(lián)的“噪音”變量會被濾除/忽略誊锭,即除去X數(shù)據(jù)變量中與Y變量無關或正交的變異因素弥锄。OPLS-DA根據(jù)數(shù)據(jù)表Y的差異將數(shù)據(jù)表X的差異分為兩個部分炉旷,第一部分代表與Y相關的差異,第二部分代表與Y不相關(正交垂直)的差異叉讥,OPLS-DA可將這兩部分差異進行區(qū)分饥追。通過這種方式图仓,OPLS-DA可以更好地區(qū)分組間差異,提高模型的有效性和解析能力但绕。
模型質量評價
主成分個數(shù)的確定
R2X是用來評價PCA 模型對X變量差異的解釋率。隨著主成分的增加捏顺,R2X 值累加值也會增加六孵,但是當主成分增加到一定的程度時,也就是累計解釋率達到某一個閾值(0.5)時幅骄,主成分個數(shù)將不再增加劫窒。R2Y和Q2Y分別用來評價PLS和OPLS模型的建模能力和預測能力。隨著建模主成分的增加主巍,Q2值累加值也會增加,但是當主成分增加到一定的程度時挪凑,Q2值出現(xiàn)平臺或開始下降孕索,例如,當增加到第六個主成分時,建模的Q2開始下降躏碳,那么應該選擇前5個主成分作為最終的建模所需數(shù)目搞旭。
七次循環(huán)交互驗證(****7-fold cross validation****)
每次建立PLS-DA或OPLS-DA模型時菇绵,首先排除1/7的樣本建模肄渗,然后利用建立的模型對這部分樣本進行預測,一直循環(huán)到所有樣本都排除過一次為止脸甘,最后建立的模型是綜合建立的所有模型的結果。 模型的評價參數(shù)是R2X丹诀,R2Y和Q2钝的,其中R2X 和R2Y分別表示對X矩陣和Y矩陣的解釋率翁垂,Q2是通過交叉驗證計算得出,表示模型的預測能力硝桩。這三個指標越接近于1沿猜,表示模型越穩(wěn)定可靠碗脊。
置換檢驗(****response permutation testing****)
RPT一種用來評價PLS和OPLS模型準確性的隨機排序方法啼肩,用來標識監(jiān)督性學習方法獲得分類不是偶然的。該方法固定X矩陣祈坠,將先前定義的分類Y矩陣的變量進行隨機排列n次(一般100~1000次),每次排列組合后矢劲,構建新的PLS或OPLS模型赦拘,計算相應的模型累積的R2Y和Q2值。將原始分類的Y矩陣芬沉、n次不同排列的Y矩陣與R2Y躺同、Q2進行線性回歸丸逸,得到的回歸直線與y軸的截距值作為衡量模型是否過擬合的標準蹋艺。通常R2截距值應明顯小于模型變量解釋度,并小于0.3(越接近0越好)黄刚,Q2截距值應明顯小于模型變量預測度,并小于0.05隘击。
差異顯著性檢驗方法
1.多組比較
(1)單因素方差分析(One-way ANOVA)侍芝,它適用于只研究一個試驗因素的情況,目的在于正確判斷該試驗因素各處理的相對效果埋同;用于檢驗多組樣本的均值是否相同州叠,比較物種、功能或基因在3組或3組以上樣本組中的分布是否存在顯著性差異咧栗,然后對有差異的物種、功能或基因進行post-hoc檢驗虱肄,找出多組中存在差異的樣本組致板。
(2)post-hoc檢驗是指在進行多組檢驗之后進行的進一步檢驗,對有差異的多組的組別再進行兩兩比較咏窿,檢測多組中存在差異的樣本組斟或,其檢驗方法包括“Games-Howell”集嵌,“Scheffe”萝挤,“Tukey-Kramer”御毅,“Welch's (uncorrected)”怜珍,兩兩比較的顯著性水平分別為:0.90端蛆、0.95、0.98酥泛、0.99、0.999柔袁。
Gameshowell
Gameshowell即成對比較檢驗呆躲。當方差和樣本容量不相等時,適合使用此檢驗捶索。當方差不相等且樣本容量較小時歼秽,Tukey-Kramer法更合適。
Scheffe
各個水平試驗次數(shù)不盡相同時可用scheffe法情组,簡稱S法箩祥。
Scheffe(最常用院崇,不需要樣本數(shù)目相同)為均值的所有可能的成對組合執(zhí)行并發(fā)的聯(lián)合成對比較。使用F取樣分布底瓣。可用來檢查組均值的所有可能的線性組合蕉陋,而非僅限于成對組合捐凭。
Scheffe的應用指征:(1)各組樣本數(shù)相等或不等均可以,但是以各組樣本數(shù)不相等使用較多凳鬓;(2)如果比較的次數(shù)明顯地大于均數(shù)的個數(shù)時茁肠,Scheffe法的檢驗功效可能優(yōu)于Bonferroni法和Sidak法缩举。
Tukey-kramer (也稱為Tukey法)
Tukey(最常用垦梆,需要樣本數(shù)目相同)使用學生化的范圍統(tǒng)計量進行組間所有成對比較,將試驗誤差率設置為所有成對比較的集合的誤差率仅孩。
Tukey(1952,1953)以學生化極差為理論根據(jù)辽慕,提出了專門用于兩兩比較的檢驗(有時也稱最大顯著差檢驗)京腥。當各組樣本含量相等時,此檢驗控制MEER(最大試驗誤差率)溅蛉;當樣本含量不等時公浪,Tukey(1953)和Kramer(1956)分別獨立地提出修正的方法他宛。對Tukey- Kramer法控制MEER沒有一般的證明因悲,但Dunnett(1980)用蒙特卡洛法研究發(fā)現(xiàn)此法非常好堕汞。
Welch's (uncorrected)
(1)兩組比較的樣本的總體方差不相等的情況下,使用welch檢驗晃琳,計算統(tǒng)計量t。
(2)Kruskal-Wallis秩和檢驗卫旱,它是一種將兩個獨立樣本的Wilcoxon秩和檢驗推廣到多組(大于等于3)獨立樣本非參數(shù)檢驗的方法人灼,該分析可以對多組樣本的物種/功能進行顯著性差異分析。
(3)多重檢驗校正顾翼,對P值進行多重檢驗校正的方法投放,包括:“holm”,“hochberg”适贸, “hommel”, “bonferroni”拜姿,“BH”烙样,“BY”,“fdr”蕊肥,“none”谒获。“none”即不校正批狱,默認為“fdr”。
Bonferroni
通常把“至少有一個錯誤”的概率稱為FWER(Family-Wise Error Rate)展东。
FWER = 1 - (1-α) m
假設我們做m個相互獨立的檢驗赔硫,我們的目標是:FWER = 1- (1- α)m =0.05。
由于當α很小時盐肃,存在這一的近似關系 (1-α)m ≈ 1-mα卦停,因此
1-(1-α)m = mα = 0.05恼蓬,即α=0.05/m惊完。
也就是說每一個檢驗的顯著水平不再是0.05了,而應該是0.05/m处硬。對于每一個檢驗的P值,有P<α=0.05/m,我們才能拒絕H0凿跳;
這樣我們就校正了顯著水平件豌,當然我們也可以讓α保持不變,去校正P值:P*m<α=0.05控嗜,我們才能拒絕H0茧彤;
也就是說,每一個檢驗做出來的P值曾掂,我們都要乘以m,叫做校正后的P值壁顶,然后去和0.05進行比較珠洗。
Fdr
一共有m個檢驗,其中最終選擇接受原假設的有W個若专,拒絕的有R個许蓖,在拒絕的R個中,有V個是錯誤拒絕的膊爪,有S個是正確拒絕的。fdr(Falsely Discovery Rate)的定義為:
fdr = E(V/R)嚎莉。
fdr也就是錯誤拒絕的檢驗個數(shù)占所有拒絕的檢驗個數(shù)的比蚁飒,它只關注所有拒絕掉的檢驗中,錯誤拒絕的比例萝喘,fdr的目的就是要將這個比例降低到α。
原理:首先琼懊,對m個P值按從小到大的順序進行排序,從P(1)開始哼丈,到P(2)启妹、P(3) ...,挨個進行比較醉旦,直到找到最大的P(i)滿足:
找到之后饶米,拒絕之前所有的原假設H(i),i=1檬输,2,3...i匈棘。
至此丧慈,完成fdr的校正。或者逃默,保持α不變鹃愤,將P值校正為mP(i)/i完域,這個值又稱為Q值: Q-value(i) = m × P(i)/i < α软吐。
分析軟件:R的stats包和Python的scipy包。
2.兩組比較
(1)Student's T檢驗(方差相等)吟税,在兩組樣本方差相等時可選擇該檢驗∥诿睿可用于檢驗兩組樣本的均值是否相同使兔,通過此分析可以比較物種/功能在兩組樣本組中的分布是否存在顯著性差異,并對P值進行多種方法的校正藤韵。
(2)Welch's T檢驗(方差不等)虐沥,在兩組樣本方差不相等時可選擇該檢驗≡笏遥可用于檢驗兩組樣本的均值是否相同,通過此分析可以比較物種/功能在兩組樣本組中的分布是否存在顯著性差異匹涮,并對P值進行多種方法的校正天试。
(3)Wilcoxon秩和檢驗,也叫曼-惠特尼U檢驗(Mann–Whitney U test)然低,是兩組獨立樣本非參數(shù)檢驗的一種方法喜每。其原假設為兩組獨立樣本來自的兩總體分布無顯著差異,通過對兩組樣本平均秩的研究來實現(xiàn)判斷兩總體的分布是否存在差異雳攘,該分析可以對兩組樣本的物種/功能進行顯著性差異分析,并對P值進行多種方法的校正吨灭。
(4)Wilcoxon符號秩檢驗刚照,主要用于兩組配對樣本的非參數(shù)檢驗,推斷兩組相關樣本所來自的兩個總體的中位數(shù)是否相等喧兄。其原假設為兩組配對樣本差值的中位值為0无畔,通過對等級差值的絕對值從小到大編秩,根據(jù)差值標上正負符號吠冤,分別求正負秩次之和,進行假設檢驗拯辙, 從而判斷兩組總體的分布是否存在差異闸昨。該分析可以對兩組樣品的物種/功能進行顯著性差異分析,并對P值進行多種方法的校正。
(5)多重檢驗校正饵较,對P值進行多重檢驗校正的方法拍嵌,包括:“holm”循诉,“hochberg”横辆, “hommel”, “bonferroni”茄猫,“BH”,“BY”划纽,“fdr”脆侮,“none”∮铝樱“none”即不校正靖避,默認為“fdr”。
(6)單雙尾檢驗比默,用于指定所求置信區(qū)間的類型,可選擇雙尾檢驗(求置信區(qū)間)命咐,左尾檢驗(求置信上限)和右尾檢驗(求置信下限)篡九。
(7)CI計算方法,即計算置信區(qū)間的方法醋奠,包括“bootstrap”榛臼,“Student's inverted”和“Welch's inverted”,置信度可選擇:0.90窜司,0.95,0.98例证,0.99,0.999迷捧。
bootstrap算法對應Wilcoxon秩和檢驗和Wilcoxon符號秩檢驗织咧。
Student's inverted對應Student's T檢驗。
Welch's inverted對應Welch's T檢驗漠秋。
分析軟件:R的stats包和Python的scipy包笙蒙。
3.兩樣本比較
(1)卡方檢驗庆锦,對兩個樣本間的物種/功能的豐度差異進行比較捅位,通過此分析可獲得物種/功能在兩個對比樣本中的差異顯著性。適用條件:兩個樣本容量都大于20。
(2) Fisher's 精確檢驗尿扯,對兩個樣本間的物種/功能的豐度差異進行比較,通過此分析可獲得物種/功能在兩個對比樣本中的差異顯著性焰雕。適用條件:兩個樣本容量小于等于20衷笋。
(3)單雙尾檢驗,單雙尾檢驗矩屁,用于指定所求置信區(qū)間的類型辟宗,可選擇雙尾檢驗(求置信區(qū)間),左尾檢驗(求置信上限)和右尾檢驗(求置信下限)吝秕。
(4)多重檢驗校正,對P值進行多重檢驗校正的方法烁峭,包括:“holm”容客,“hochberg”, “hommel”则剃, “bonferroni”耘柱,“BH”,“BY”棍现,“fdr”,“none”己肮∈堪溃“none”即不校正,默認為“fdr”谎僻。
(5)CI計算方法娄柳,即計算置信區(qū)間的方法,方法包括:“Diff Between Prop Asymptotic CC”艘绍,“Diff Between Prop Asymptotic”,“Newcombe Wilson”诱鞠。置信度可選擇:0.90挎挖,0.95,0.98航夺,0.99蕉朵,0.999。
Diff Between Prop Asymptotic:即DP: Asymptotic阳掐,標準大樣本法冷蚂。
Diff Between Prop Asymptotic CC:即DP: Asymptotic with CC,基于連續(xù)校正的標準大樣本法解釋分布的近似離散性汛闸。
Newcombe Wilson:即DP: Newcombe-Wilson蝙茶,該方法為Newcombe對比7種漸近方法后的推薦方法。
分析軟件:R的stats包和Python的scipy包蛉拙。