非約束排序1—概述 (數(shù)量生態(tài)學(xué):R語言的應(yīng)用第五章)
在這之前我們已經(jīng)學(xué)習(xí)了聚類分析埂奈,聚類分析的目的在于尋找數(shù)據(jù)的間斷性迄损,排序的目的就在于尋找數(shù)據(jù)的連續(xù)性(通過連續(xù)的排序軸展示數(shù)據(jù)的主要趨勢)。
本章主要內(nèi)容是對(duì)PCA账磺、CA芹敌、MCA、PCoA和NMDS等排序方法的學(xué)習(xí)垮抗,如何使用正確的參數(shù)選項(xiàng)運(yùn)行這些排序分析的函數(shù)以及如何正確解讀排序圖氏捞。
1.排序的概念
排序的過程是將樣方或植物種排列在一定的空間,使得排序軸能夠反映一定的生態(tài)梯度冒版,從而液茎,能夠解釋植被或植物種的分布與環(huán)境因子間的關(guān)系,也就是說排序是為了揭示植被-環(huán)境間的生態(tài)關(guān)系。所以捆等,排序也叫梯度分析滞造。
簡單的梯度分析是研究植物種和植物群落在某一環(huán)境梯度或群落線上的變化,也就是一維排序栋烤。
復(fù)雜的梯度分析是揭示植物種和群落在某些環(huán)境梯度(群落面或群落體)上的變化關(guān)系谒养,也就是二維或多維排序。
只使用植物種的組成數(shù)據(jù)的排序稱作間接梯度分析明郭,同時(shí)使用植物種的組成數(shù)據(jù)和環(huán)境因子組成數(shù)據(jù)的排序叫做直接梯度分析买窟。間接梯度分析完成后,需要通過再分析找出排序軸的生態(tài)意義薯定,再用其解釋植物群落或植物種在排序圖上的分布始绍。而直接梯度分析因?yàn)槭褂昧谁h(huán)境因子組成數(shù)據(jù),排序軸的生態(tài)意義往往是一目了然的沉唠,在結(jié)果解釋上比較容易疆虚。
從數(shù)學(xué)上講,排序基本上是一個(gè)幾何問題满葛,把樣方(實(shí)體)作為點(diǎn)在P維種類(屬性)空間排列径簿,使得排列結(jié)果能客觀地反映樣方間的相互關(guān)系,這種用屬性(種或環(huán)境因子)來對(duì)實(shí)體(樣方)進(jìn)行排序的過程叫做正分析或者正排序嘀韧;如果反過來用實(shí)體去排列屬性則叫做逆分析或者逆排序篇亭。
由于排序的結(jié)果能夠客觀地反映群落間的關(guān)系,所以它可以與分類方法結(jié)合使用锄贷,而檢驗(yàn)分類的結(jié)果译蒂,就是先用某一分類方法對(duì)樣方進(jìn)行分類。比如用傳統(tǒng)的定性方法或某一數(shù)量方法進(jìn)行分類谊却,然后再在排序圖上圈定群落的界限柔昼,這樣可以直觀地看出各植被類型間的關(guān)系,以檢驗(yàn)分類的合理性炎辨,并且可以用排序軸所含的生態(tài)意義來幫助解釋分類的結(jié)果捕透。
排序的結(jié)果一般用直觀的排序圖表示,排序圖通常只能表現(xiàn)出三維坐標(biāo)碴萧。因此排序的一個(gè)重要內(nèi)容是要降低維數(shù)乙嘀,減少坐標(biāo)軸的數(shù)目,降低維數(shù)往往會(huì)損失信息破喻。一個(gè)好的排序方法應(yīng)該是由降低維數(shù)引起的信息損失盡量少虎谢,即發(fā)生最小的畸變,也就是說它的低維排序軸包含大量的生態(tài)信息曹质。
1.1多維空間
如果將每個(gè)變量都當(dāng)作一個(gè)維度婴噩,那么多元數(shù)據(jù)可以視為多維空間內(nèi)點(diǎn)的集合擎场。因此,有多少個(gè)變量讳推,就有多少個(gè)維度顶籽。繪制對(duì)象間散點(diǎn)圖是揭示數(shù)據(jù)主要趨勢一個(gè)很好的途徑。排序目的是生成可視化的排序圖,排序過程實(shí)際上是將多維空間內(nèi)的數(shù)據(jù)點(diǎn)盡可能排列在可視化的低維空間,使最前面的幾個(gè)排序軸盡可能包含數(shù)據(jù)結(jié)構(gòu)變化的主要趨勢哨查。同時(shí),也可以結(jié)合聚類或回歸等其他方法解釋排序圖中的數(shù)據(jù)結(jié)構(gòu)和趨勢镊绪。
非約束排序只是描述性方法,不存在統(tǒng)計(jì)檢驗(yàn)評(píng)估排序結(jié)果顯著性的問題洒忧,而第6章約束排序則需要對(duì)排序結(jié)果進(jìn)行顯著性檢驗(yàn)蝴韭。
1.2 降維空間內(nèi)的排序
大部分常用排序方法(NMDS除外)都是基于關(guān)聯(lián)矩陣特征向量的提取。排序方法可以按照樣方之間的距離度量方式以及變量的類型進(jìn)行分類熙侍。
在降維空間排序的基本原理:假設(shè)一個(gè)包含n個(gè)對(duì)象p個(gè)變量的n×p的數(shù)據(jù)矩陣榄鉴。n個(gè)對(duì)象可以視為在p維空間內(nèi)點(diǎn)的集合◎茸ィ可以想象這個(gè)集合通常不是規(guī)則的橢球體庆尘,而是某些方向長一些,某些方向扁平巷送。這些方向并不一定與多維空間的某一維重合(一維相當(dāng)于一個(gè)變量)驶忌。這個(gè)不規(guī)則球體上最長的方向代表數(shù)據(jù)點(diǎn)集合的最大方差的方向。第一軸一般選取在這個(gè)最長的梯度上笑跛,即在這個(gè)方向上能詮釋的方差最多付魔,也是能提供最多信息的方向。為了保證第二軸詮釋第二多的方差飞蹂,必須保證它與第一軸正交(即線性獨(dú)立几苍、標(biāo)量積為0)。接下來各軸的提取與第二軸一樣(均與前一軸正交)陈哑,直至所有軸都被確定為止擦剑。
如果數(shù)據(jù)結(jié)構(gòu)趨勢比較明顯,則排序軸提取的效率會(huì)很高芥颈,因?yàn)榍皫纵S能包含大部分信息,即承載大部分的方差赚抡。在這種情況下爬坑,低維排序空間內(nèi)(通常是兩維)樣方之間的距離能很好地近似多維空間內(nèi)的距離。
2.種類環(huán)境關(guān)系模型
所有排序方法都是基于一定的模型之上涂臣,這種模型反映植物種和環(huán)境之間的關(guān)系以及在某一環(huán)境梯度上的種間關(guān)系盾计。最常用的關(guān)系模型有兩種:一種是線形模型售担,另一種是非線性模型。
線性模型包括直線和曲線線性關(guān)系署辉,其含義是某個(gè)植物種隨著某一環(huán)境因子的變化而呈線性變化或叫線性反應(yīng)族铆。該模型所反映的種間關(guān)系也是線性關(guān)系。植物種和環(huán)境間的關(guān)系多數(shù)情況下不是線性關(guān)系哭尝,而是非線性關(guān)系哥攘。
非線性模型一般是指二次曲線模型,最著名的生態(tài)關(guān)系模型是高斯模型或叫高斯曲線材鹦。
**高斯模型是正態(tài)曲線**逝淹,含義是某個(gè)植物種的個(gè)體數(shù)隨某個(gè)環(huán)境因子值的增加而增加。當(dāng)環(huán)境因子增加到某一值時(shí)桶唐,植物種的個(gè)體數(shù)達(dá)到最大值栅葡,此時(shí)的環(huán)境因子值稱為該種的最適值;隨后當(dāng)環(huán)境因子值繼續(xù)增加時(shí)尤泽,種的個(gè)體數(shù)逐漸下降欣簇,非線性模型所反映的種間關(guān)系復(fù)雜化。如下圖所示坯约。
圖左邊表示兩個(gè)種對(duì)環(huán)境梯度反應(yīng)的不同模型熊咽,右邊表示模型所對(duì)應(yīng)的關(guān)系,a-d為線形模型鬼店,e-f為單峰模型网棍。
在自然植物群落中,植物種和環(huán)境間的關(guān)系十分復(fù)雜妇智,不可能完全符合高斯曲線滥玷。研究表明,即使是種數(shù)-環(huán)境關(guān)系不能與高斯曲線(正態(tài)曲線)完全吻合巍棱,但大多數(shù)種也表現(xiàn)為一個(gè)單峰曲線惑畴,即二次曲線模型,所以也將植物種-環(huán)境關(guān)系模型統(tǒng)稱為單峰模型航徙。
3. 線性排序和非線性排序
基于線性模型上所建立的排序方法叫做線性排序如贷,而基于單峰模型上的排序稱為非線性排序。非線性排序結(jié)果好于線性排序到踏,因?yàn)樗芨玫胤从撤N-環(huán)境間及種-種間的關(guān)系杠袱。
在現(xiàn)代的排序方法中,依其模型可分為兩大類:一類是以主分量分析(PCA)為主的線性排序方法窝稿;另一類是以對(duì)應(yīng)分析(CA)為基礎(chǔ)而發(fā)展起來的非線性排序方法楣富。在CA家族中有的方法如除趨勢對(duì)應(yīng)分析(DCA)是基于高斯模型,生態(tài)學(xué)者和統(tǒng)計(jì)學(xué)者都比較滿意伴榔。
對(duì)于主分量分析(PCA)纹蝴,線形模型是它的一大缺點(diǎn)庄萎。大多數(shù)研究結(jié)果都表明PCA是一非常有效的排序方法。在應(yīng)用PCA時(shí)塘安,大部分都對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換或標(biāo)準(zhǔn)化等處理糠涛,使數(shù)據(jù)結(jié)構(gòu)發(fā)生一定的變化,在一定程度上符合PCA的線形模型兼犯。
4.本章我們所要學(xué)習(xí)的排序方法:
排序的主要目的是生成可視化的排序圖忍捡,這決定了排序過程實(shí)際上是講多維空間的數(shù)據(jù)盡可能的數(shù)據(jù)點(diǎn)排列在可視化的低維空間,使最前面的幾個(gè)排序軸盡可能包含數(shù)據(jù)結(jié)構(gòu)變化的主要趨勢免都。本章講的非約束排序只是描述性方法锉罐,不存在檢驗(yàn)評(píng)估排序結(jié)果是否顯著性的問題,下一章約束排序則需要對(duì)排序結(jié)果進(jìn)行顯著性檢驗(yàn)绕娘。
- 主成分分析(PCA):也叫主分量分析脓规,基于特征向量的主要排序方法。分析對(duì)象是原始的定量數(shù)據(jù)险领。標(biāo)尺為1時(shí)侨舆,排序圖展示樣方之間的歐氏距離,標(biāo)尺為2時(shí)绢陌,排序圖展示樣方之間的Malhal-anobis距離挨下。
- 對(duì)應(yīng)分析(CA):分析對(duì)象必須是頻度或類頻度、同量綱的非負(fù)數(shù)據(jù)脐湾。排序圖展示行(對(duì)象)(標(biāo)尺1)或列(變量)(標(biāo)尺2)之間的卡方距離臭笆。在生態(tài)學(xué)研究中主要用于分析物種數(shù)據(jù)。
- 多重對(duì)應(yīng)分析(MCA):分類變量數(shù)據(jù)表的排序秤掌,即所有變量都是因子的數(shù)據(jù)框愁铺。
- 主坐標(biāo)分析(PCoA):分析對(duì)象為距離矩陣(大部分為Q模式),非原始的樣方-變量矩陣表格闻鉴。所以靈活選擇關(guān)聯(lián)測度(第3章)茵乱。
- 非度量多維尺度分析(NMDS):與前面三種排序方法不同,NMDS不是基于特征向量提取的排序方法孟岛。NMDS嘗試在預(yù)先設(shè)定數(shù)量的排序軸去排序?qū)ο?/strong>瓶竭,目標(biāo)是保持這些對(duì)象排位關(guān)系不變。NMDS也可以從相異矩陣開始分析渠羞。
- PCoA和NMDS可以對(duì)任何一種距離方陣(在R里面為“dist”類的數(shù)據(jù))進(jìn)行排序斤贰。
今天先把排序的概念,以及本章所將要學(xué)習(xí)的內(nèi)容做一個(gè)概述次询,下一節(jié)將開始講解第一部分內(nèi)容腋舌,主成分分析的內(nèi)容,加油I贰块饺!
如有不足或錯(cuò)誤之處,請批評(píng)指正雌芽。
有什么不明白的也歡迎留言討論授艰。