PCA分析忆蚀、PCoA分析矾利,NMDS分析,CCA分析馋袜,RDA分析
16S測序和宏基因組測序中常用男旗,用降維的思路對主要成分進(jìn)行排序
1、只使用物種組成的數(shù)據(jù)進(jìn)行非限制性排序欣鳖,包括:
PCA(principal components analysis)主成分分析
CA(correspondence analysis)對應(yīng)分析
DCA(detrended correspondence analysis)去趨勢對應(yīng)分析
PCoA(principal coordinate analysis)主坐標(biāo)分析
NMDS(non-metric multi-dimensinal scaling)非度量多維尺度分析
比較下PCA和PCoA:
PCA分析是基于原始的物種組成矩陣所做的排序分析察皇,而PCoA分析則是基于由物種組成計(jì)算得到的距離矩陣得出的。
PCoA分析中泽台,計(jì)算距離矩陣的方法有很多種什荣,例如Euclidean、Bray-Curtis怀酷、Jaccard稻爬、(un)weighted Unifrac等。
2蜕依、限制性排序桅锄,包括:
CCA(canonical correspondence analysis)典型相關(guān)分析
RDA(redundancy analysis)冗余分析
CCA
典型相關(guān)分析是研究兩組變量之間關(guān)系的一種多變量統(tǒng)計(jì)分析方法,它可以反映兩組變量之間的相互依賴的線性關(guān)系样眠。設(shè)兩組變量用x1友瘤,x2…xp,及y1檐束,y2….yq表示辫秧,采用類似主成分分析的做法,在每一組變量中選擇若干個具有代表性的綜合指標(biāo)(變量的線性組合)被丧,通過研究兩組的綜合指標(biāo)間的關(guān)系來反映兩組變量之間的相關(guān)關(guān)系盟戏。基本原理是:首先在每組變量中找出變量的線性組合晚碾,使其具有最大相關(guān)性抓半,如此繼續(xù)下去,直到兩組變量之間的相關(guān)性被提取完畢格嘁。
RDA
多元回歸分析的直接擴(kuò)展笛求,用于多變量響應(yīng)數(shù)據(jù)建模
RDA基于線性模型,CCA則是基于單峰模型。一般我們會選擇CCA來做直接梯度分析探入。但是狡孔,如果CCA排序的效果不太好,就可以考慮換做用RDA分析蜂嗽。RDA或CCA選擇原則:先用species-sample資料做DCA分析苗膝,看分析結(jié)果中Lengths of gradient 的第一軸的大小,如果大于4.0植旧,就應(yīng)選CCA辱揭;如果在3.0-4.0之間,選RDA和CCA均可病附;如果小于3.0, RDA的結(jié)果要好于CCA问窃。結(jié)果呈現(xiàn),每個因子是一條箭頭完沪,射線越長表示該因子影響越大域庇。因子之間的夾角為銳角時表示呈正相關(guān)關(guān)系,鈍角時呈負(fù)相關(guān)關(guān)系覆积。
目前CCA要比RDA用得更普遍听皿。一是因?yàn)榇蟛糠智闆r下,兩者的分析結(jié)果并差別并不大宽档。其實(shí)尉姨,CCA非線性模型其實(shí)可以容納線性模型,線性關(guān)系可以算是非線性模型的特例吗冤。所有用RDA可以做的啊送,CCA也可以做,只不過在如果梯度比較短的話RDA要精確一點(diǎn)欣孤。但是,如果是非線性關(guān)系昔逗,用線性的RDA來分析降传,那個準(zhǔn)確度就大大打折扣了。因?yàn)楣磁緛睃c(diǎn)就不在同一條直線上婆排,現(xiàn)在非得用直線去擬合,肯定不合適笔链。這也是為什么SD小于3也可以用CCA段只,但是SD大于4,就不能用RDA的原因鉴扫。二是因?yàn)榇蠹叶加肅CA赞枕,用得多了,文獻(xiàn)多了,大家為了方便比較炕婶,所有更多的選擇是CCA姐赡,RDA自然就越來越少了。