- 基本概念
聚類分析法(Cluster Analysis)是研物以類聚的一種現(xiàn)代統(tǒng)計分析方法,在眾多的領(lǐng)域中,都需要采用聚類分析作分類研究。 - 分析方法
聚類分析方法分為兩大類议薪,一類是系統(tǒng)聚類法(hclust),第兩類是快速聚類法(kmeans),快速聚類法是在樣本量很大時替代系統(tǒng)聚類法使用的。
按照聚類的對象鳖藕,還可分為Q型聚類和R型聚類。前者是對樣品的聚類只锭,后者是對變量的聚類著恩。 - 聚類統(tǒng)計量
Q型聚類,使用的統(tǒng)計量是距離蜻展,包括如下三種常見的距離:
歐式距離:
馬氏距離:
蘭氏距離:页滚,蘭氏距離是絕對值距離的一個擴(kuò)展。
R型聚類铺呵,也就是針對變量進(jìn)行聚類裹驰,使用的是相關(guān)系數(shù)作為統(tǒng)計量:
相關(guān)系數(shù)
- 距離矩陣 vs 相關(guān)矩陣
距離矩陣長啥樣?
因為樣本自己到自己的距離為0片挂,所以對角線上的值都為0幻林。相關(guān)矩陣和距離矩陣有些類似,但對角線上都是1音念,因為自己與自己的相似性肯定是1沪饺。
這個課程后面是重點講Q型聚類,相關(guān)系數(shù)在之前的章節(jié)就講過了闷愤。 - 矩陣計算函數(shù)
(1)距離矩陣dist()
的用法:
dist(X,method='euclidean',diag=FALSE,upper=FALSE,p=2)
- x為數(shù)據(jù)矩陣整葡,data.frame;
- method包括“euclidean","maximum",“manhattan“讥脐,“canberra”遭居,“binary” or "minkowski"啼器,默認(rèn)為歐式距離;
- diag是是否包含對角元素俱萍,默認(rèn)為無端壳;
- upper為是否需要上三角,默認(rèn)為下三角矩陣枪蘑;
- p為Minkowski距離的冪次损谦,默認(rèn)為p=2(歐式距離)。
(2)相關(guān)系數(shù)矩陣使用cor(X)