口水心路:意料之中的氧枣,第4章的知識學習起來很吃力沐兵。篇幅也較前幾章的要長許多,心里無數(shù)次的響起過要不這一章的消化時間延長到一個月吧便监?加之其他的學習任務(wù)也挺繁重的扎谎,要不要給自己多一點點時間呢?如題烧董,不能對自己妥協(xié)簿透,試都沒試過怎么知道自己不行呢?這···未免有點雞湯了解藻。到昨天晚上我還在run code老充,電腦幾近崩潰,總感覺它隨時都可能垮掉就和我人一樣螟左,所以得趕緊跑···沖到哪里是哪里啡浊,加油。
在這一章中胶背,主要學習如何選擇合適的聚類方法并進行計算巷嚣,以及使用不同的聚類方法分析Doubs數(shù)據(jù)集,確認樣方組合物種組钳吟。
這里介紹的方法主要解決的是哪些對象有足夠的相似性能夠被歸于一組廷粒,并且確定組與組之間的差異或分離程度。
聚類實際上是對研究對象或者變量集合進行分組红且。硬劃分是指將總體劃分為不同的部分坝茎,每個對象或變量必須且只能歸屬于某一組。對象歸屬身份信息只能是二元數(shù)據(jù)暇番。而模糊劃分的方法嗤放,對象歸屬身份信息可以是連續(xù)的。最后聚類分析結(jié)果輸出可以是無層級分組壁酬,也可以是具有嵌套結(jié)構(gòu)的層次聚類樹次酌。聚類分析言任何的統(tǒng)計假設(shè)恨课,所以不是典型的統(tǒng)計方法。但是分組后的“穩(wěn)健性”是可以檢驗的岳服。聚類分析有助于探索隱藏在數(shù)據(jù)背后的屬性特征剂公。
不同類型的聚類方法:
連續(xù)或同步的算法:大部分聚類的運算規(guī)則是連續(xù)的,包含使用不斷重復的步驟直到所有對象都被歸類吊宋。同步算法比較少用诬留,它只需一步即可解決問題。
聚合或分劃:聚合是從單個對象開始贫母,逐步聚合文兑,最后所有對象聚合成一個類群;分劃是從對象總體開始腺劣,逐步分成低級類群绿贞,知道最后所有的對象被完全分開。
單元和多元:單元是指在對象分類中每一步僅依據(jù)一個描述變量橘原;多元則依據(jù)所有的描述變量進行分類籍铁。
層次法和非層次法:層次法中,低級的聚類簇是高級聚類簇的一部分,聚類結(jié)果可以用樹狀圖表示。非層次法的結(jié)果只給出所分類群及每一類所含的對象羽戒,聚類簇之間沒有層次性。
概率法和非概率法:概率法是指如果組內(nèi)的對象(變量)的關(guān)聯(lián)矩陣同質(zhì)性的概率符合預(yù)先設(shè)定的概率則可以定義為一個分類組增显。
非約束法和約束法:非約束法的聚類依賴于單個數(shù)據(jù)集的信息,而約束法使用兩個矩陣脐帝,第一個是被劃分的數(shù)據(jù)矩陣同云,第二個是用來約束(或?qū)颍┑谝粋€矩陣劃分過程的解釋變量矩陣。
基于連接的層次聚類:分為單連接聚合聚類和完全連接聚合聚類兩種堵腹。單連接聚合聚類聚合對象的依據(jù)是最短的成對距離炸站。即在一個對象(或一個組)選擇另一個對象(或一個組)融合的依據(jù)是看與哪個對象(或組)在所有可能成對距離中最短。兩個分類組的距離即為兩個組中最近的兩個對象間的距離疚顷。所以單連接聚合聚類的過程是一對對象連接第三個對象旱易,形成新組后再連接下一個對象,直到全部對象被連接完畢為止腿堤。而完全連接聚合聚類允許一個對象(或一個組)與另一個組聚合的依據(jù)是最遠距離對阀坏。單連接聚合聚類比較容易識別數(shù)據(jù)梯度;完全連接聚合聚類適合尋找和識別數(shù)據(jù)的間斷分布释液。
平均聚合聚類:是一類基于對象間平均相異性或聚類簇形心的聚類方法全释。
Ward最小方差聚類:基于最小二乘法線性模型準則的聚類方法装处,分組的依據(jù)是使組內(nèi)平方和(即方差分析的方差)最小化误债。聚類簇內(nèi)方差和等于聚類簇內(nèi)成員間距離的平方和除以對象的數(shù)量浸船。
靈活聚類:又叫β-靈活聚類。涵蓋了上面所提到的聚類方法的模型寝蹈,通過設(shè)置參數(shù)β來實現(xiàn)李命。α=(1-β)/2
聚類分析是一種探索性分析,而非統(tǒng)計檢驗箫老。影響聚類結(jié)果的因素包括聚類方法本身和用于聚類分析的關(guān)聯(lián)系數(shù)的選擇封字。
同表型距離:一個聚類樹內(nèi)兩個對象之間的同表型距離是兩個對象在同一組分類水平內(nèi)的距離。具有最高的同表型相關(guān)系數(shù)的聚類方法可視為原始矩陣最好的聚類模型耍鬓。
Gower距離:等于原始距離與同表型距離之間差值的平方和阔籽。具有最小Gower距離的聚類方法也可視為原始矩陣最好的聚類模型。
尋找可解讀的聚類簇
First:評估聚類簇的穩(wěn)健性牲蜀。
聚類樹的融合水平值:是聚類樹中兩個分支融合出的相異性的數(shù)值笆制。其變化圖有助于定義裁剪的水平。
多尺度自助重采樣:原理是從數(shù)據(jù)集中隨機抽取子集數(shù)據(jù)在辆,然后進行這些子集數(shù)據(jù)長度聚類分析。再進行大量多次的循環(huán)運算度苔,計算每個聚類簇發(fā)生的次數(shù)比例(自助概率BP)匆篓。
即利用不同抽樣規(guī)模的重抽樣來估計每個聚類簇的p值,產(chǎn)生AUP值(近似無偏P值)寇窑。
高AU值的聚類簇表示受到數(shù)據(jù)的高度支持鸦概。
紅色框表示聚類簇具有顯著的AUP值(p≥0.95),而藍色框表示聚類簇具有較小的p值(p≥0.91)甩骏。有助于凸顯最“穩(wěn)健”的樣方組完残。
Second:確定合適的聚類簇的數(shù)量。
輪廓寬度值:是指一個對象與所屬聚類簇歸屬程度的測度横漏,是該對象與同一組內(nèi)其他對象的平均距離和該對象與最臨近聚類簇內(nèi)所有對象平均距離的比較谨设。[-1,1]
輪廓寬度值越大,對象聚類越好缎浇,負值意味著該對象有可能被錯分到當前聚類簇內(nèi)扎拣。
距離矩陣和代表分組的二元矩陣的比較:計算原始距離與代表不同分類水平的二元矩陣之間的相關(guān)性。相關(guān)系數(shù)最高則最優(yōu)素跺。
物種保真度分析:其基本思想是保留能夠最大程度被診斷物種表征的聚類簇二蓝,診斷物種即是在一組樣方中多度相對更多且更均勻的物種。采用集成了特異性和保真度的IndVal指數(shù)指厌。
?
非層次聚類:先分組刊愚,再優(yōu)化。分組依據(jù)是盡量使組內(nèi)對象之間比組間對象之間的相似度更高踩验。(不同量綱的變量需要標準化鸥诽。)
K-均值劃分:使用數(shù)據(jù)局部結(jié)構(gòu)構(gòu)建聚類簇:通過確認數(shù)據(jù)高密度區(qū)構(gòu)建分類組商玫。(K-均值劃分是一種線性模型的方法,不適合含有很多零值的原始數(shù)據(jù)牡借。用前需對數(shù)據(jù)進行預(yù)轉(zhuǎn)化拳昌。)
給定K值進行分組,SSE最小時方案最佳钠龙,ssi指標(簡單結(jié)構(gòu)指標)用于確定K值炬藤。
PAM(圍繞中心點劃分):從所有的數(shù)據(jù)觀測點尋找k個代表性的對象或形心點,這些代表性的對象應(yīng)該反映數(shù)據(jù)的主體結(jié)構(gòu)碴里。K個形心點選定后沈矿,將每個觀測點分配給某個形心點構(gòu)建k個聚類簇,不斷尋找最佳的k個代表性對象咬腋,使對象之間的相異性總和最小细睡。
Pam()的優(yōu)勢是可以輸入更多類型的關(guān)聯(lián)測度,并且允許通過輪廓寬度值確定最佳的分組數(shù)量帝火。
用環(huán)境數(shù)據(jù)進行比較
用外部數(shù)據(jù)進行類型比較:以樣方聚類簇為因子對解釋變量進行方差分析:首先檢驗?zāi)骋画h(huán)境變量是否符合方差分析假設(shè)溜徙,然后用傳統(tǒng)的單因素方差分析或非參數(shù)的Kruskal-Wallis檢驗解釋變量在組間是否有顯著差異。
雙類型比較(列聯(lián)表分析):只想直接比較分別基于物種數(shù)據(jù)和環(huán)境數(shù)據(jù)的樣方聚類結(jié)果時使用犀填。用列聯(lián)表Fisher精準檢驗比較兩種樣方聚類結(jié)果是否有顯著差異蠢壹。
物種集合
組內(nèi)數(shù)據(jù)簡單統(tǒng)計:對聚類分析獲得的樣方組進行簡單統(tǒng)計,尋找每組樣方內(nèi)數(shù)量多九巡、頻度高或最有代表性的物種图贸。
Kendall共性系數(shù)(W):適合數(shù)據(jù)量較小時使用。首先K-均值法分組冕广,然后進行全局檢驗(判斷是否所有物種組顯著關(guān)聯(lián)疏日;若不顯著,則可能需要再多劃分幾個組撒汉。)接著進行后驗概率檢驗(同組內(nèi)物種是否具有共性)
物種共生網(wǎng)絡(luò):研究物種之間或群落之間的生態(tài)相互作用等沟优。原理是分析生態(tài)群落內(nèi)或多營養(yǎng)級的物種組合內(nèi)物種之間的關(guān)聯(lián)程度。
指示物種
指示值指數(shù):基于特異性(當該物種只存在目標生境睬辐,而不存在其他生境的時候數(shù)值最高)和保真度(物種在目標生境的所有樣方都出現(xiàn)的時候數(shù)值最高)挠阁。
相關(guān)指數(shù)測量一個物種在樣方內(nèi)是否存在或多度值的向量與樣方在樣方組中歸屬的向量之間的Pearson相關(guān)系數(shù)。
指示值指數(shù)在評估物種能否作為指示物種方面更有用溯饵,而相關(guān)指數(shù)用于決定物種的生境偏好更有用侵俗。
IndVal指數(shù)是一個物種在一個樣方組內(nèi)平均多度和出現(xiàn)頻率的組合。一個物種指示值高表示該樣方組內(nèi)平均多度大于其他樣方組(特異性)丰刊,并且該物種在該組內(nèi)絕大部分樣方都存在(均勻度)隘谣。
找指示物種有兩種方法:①基于物種數(shù)據(jù)的樣方聚類結(jié)果,這時指示種就是聚類組中最顯著最有代表性的成員啄巧。(但是有點自證嫌疑)
②先基于非物種數(shù)據(jù)對樣方進行聚類寻歧,然后再找指示物種掌栅。指示值的后驗可以通過置換檢驗進行評估。
在解釋置信區(qū)間是熄求,需要記住的是任何指示值的置信區(qū)間下限等于0可以被認為是不顯著的渣玲,因為該值可能也是本身大于0的逗概。而如果兩個值的置信區(qū)間重疊則被認為沒有顯著差異弟晚。
相關(guān)類型的指數(shù)可以幫助識別物種在一組樣方中的生態(tài)偏好。但用的時候需要知道缺失值缺失的原因逾苫。
多元回歸樹(MRT):由數(shù)據(jù)約束劃分卿城,和分組結(jié)果交叉驗證兩部分組成。
運算流程:先隨機將數(shù)據(jù)分為K組铅搓,從K組中取出1組作為驗證組瑟押,剩余的重新混合通過約束劃分建立回歸樹,分組原則是最小化組內(nèi)SS星掰。產(chǎn)生回歸樹多望;裁剪回歸樹。
這里使用的是mvpart和MVPARTwrap包氢烘。但是這兩個包在14年的時候被刪除了怀偷,需要從github上獲取,這點我在最開始載入安裝包的地方加入了具體的操作播玖。
在MRT過程中椎工,如果響應(yīng)變量和解釋變量在同一個矩陣,就是單元聚類蜀踏。聚類過程中選擇單個響應(yīng)變量進行作為分組的依據(jù)维蒙。
順序聚類:當數(shù)據(jù)本身具有空間和時間系列屬性時,對數(shù)據(jù)進行分組需要考慮數(shù)據(jù)之間的連續(xù)性果覆。通過比較層次分類的離差和斷棍模型的離差選擇聚類的數(shù)量颅痊。建議分組是選擇,SS大于斷棍模型的的點局待。
模糊聚類:一個對象可以不同程度歸屬于兩個組或多個組八千。
使用c-均值模糊聚類,一個對象可以賦予不同的組燎猛,對象與組之間的歸屬程度可以通過成員值衡量恋捆。一個對象在某一組內(nèi)的成員值越高,表示該成員與該組之間關(guān)系越緊密重绷。每個對象的成員值總和為1沸停。
鏈接:https://pan.baidu.com/s/1U-4JksZ_wQCEcBn01Tt4YA
提取碼:ygli