聚類分析及R使用Part2-系統(tǒng)聚類法

這篇筆記是MOOC《多元統(tǒng)計分析及R使用》課程的第7章第三節(jié)。

系統(tǒng)劇類法的基本思想

先將個樣品分成類,每個樣品自成一類,然后每次將具有最小距離的兩類合并,合并后重新計算類與類之間的距離,這個過程一直繼續(xù)到所有的樣品歸為一類為止,并把這個過程做成一張系統(tǒng)聚類圖。

類間距離計算方法

那么如何計算類間距離呢茸时?方法有很多種:

  • 最短距離法(single):D_k(r,s)=min\{D_k(p,s),D_k(q,s)\},通俗來講舅巷,就是把兩個類間離的最近的兩個樣本之間的距離當作兩個類之間的距離,能夠避免極大值的影響贪嫂;

    single.png

  • 最長距離法(complete):D_k(r,s)=max\{D_k(p,s),D_k(q,s)\}耐版,把兩個類間離的最遠的兩個樣本之間的距離當作兩個類之間的距離祠够,可能被極大值扭曲,需刪除這些值粪牲;

    complete.png

  • 中間距離法(median):D_{kr}^2=\frac{1}{2}D_{kp}^2+\frac{1}{2}D_{kq}^2-\frac{1}{4}D_{pq}^2古瓤,顧名思義。就是取最長到最短之間的距離

    median.png

  • 類平均法(average):D_{kr}^2=\frac{n_p}{n_r}D_{kp}^2+\frac{n_q}{n_r}D_{kq}^2腺阳,就是所有樣本對間的平均距離

    average.png

  • 重心法(centroid):D_{kp}^2=\frac{n_p}{n_r}D_{kp}^2+\frac{n_q}{n_r}D_{kq}^2-\frac{n_p}{n_r}\frac{n_q}{n_r}D_{pq}^2 落君,重心距離就是兩個重心之間的距離,重心通常用類中樣本的均值代替亭引。對異常值不敏感绎速,結果更穩(wěn)定。

  • 離差平方和法(Ward):D_{kr}^2=\frac{n_K+n_p}{n_r+n_k}D_{kp}^2+\frac{n_k+n_q}{n_r+n_k}D_{kq}^2-\frac{n_k}{n_r+n_k}D_{pq}^2

以上公式可用同一個公式統(tǒng)一焙蚓,需要做的就是把系數(shù)變一變:
D_{pq}^2=\alpha_rD_{rq}^2+\alpha_sD_{rs}^2+\gamma|D_{rq}^2-D_{sq}^2|

類間距離計算公式.png

系統(tǒng)聚類法過程

(1)計算n個樣品兩兩間的距離纹冤;
(2)構造n個類,每類包含1個樣品购公;
(3)合并距離最近兩類為新類萌京;
(4)計算新類與各類距離,若類個數(shù)為1宏浩,轉(zhuǎn)到第5步知残,否則回到第3步;
(5)繪制系統(tǒng)聚類圖比庄;
(6)確定類的個數(shù)和樣品名稱

系統(tǒng)聚類函數(shù)用法

在R語言中求妹,可使用函數(shù)hclust()

hclust(D,method="complete",...)
D 相似矩陣,通常為距離矩陣印蔗;
method 包括“single”扒最,“complete”,“average”华嘹,“mcquitty”吧趣,“median” or “centriod”,“ward”耙厚,默認為"complete"强挫。

畫分類框可使用rect.hclust()函數(shù),確認分類結果可使用cutree()函數(shù)薛躬。

舉例說明

研究全國31個省虫溜、市饲化、自治區(qū)2007年城鎮(zhèn)居民生活消費的分布規(guī)律,根據(jù)調(diào)查資料做區(qū)域消費類型劃分梦湘。

>library(openxlsx)
>msa.X<-function(df){ 
>   X=df[,-1]; 
>   rownames(X)=df[,1]; 
>   X 
>}

>d7.2 <- read.xlsx("mvstats5.xlsx","d3.1")
>X7.2 <- msa.X(d7.2)
>head(X7.2)
      食品   衣著  設備   醫(yī)療 交通   教育   居住  雜項
北京   4934 1512.9 981.1 1294.1 2329 2384.0 1246.2 649.7
天津   4249 1024.2 760.6 1164.0 1310 1639.8 1417.5 463.6
河北   2790  975.9 546.8  833.5 1011  895.1  917.2 266.2
山西   2600 1064.6 477.7  640.2 1028 1054.0  991.8 245.1
內(nèi)蒙古 2825 1396.9 561.7  719.1 1124 1245.1  941.8 468.2
遼寧   3560 1017.6 439.3  879.1 1033 1052.9 1047.0 400.2
>D<- dist(X7.2)
>plot(hclust(D,'ward.D2'))##ward.D2法是ward法的改進版犬绒,效果挺好
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌坑夯,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件抡四,死亡現(xiàn)場離奇詭異柜蜈,居然都是意外死亡,警方通過查閱死者的電腦和手機指巡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門淑履,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人藻雪,你說我怎么就攤上這事秘噪。” “怎么了阔涉?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵缆娃,是天一觀的道長。 經(jīng)常有香客問我瑰排,道長,這世上最難降的妖魔是什么暖侨? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任椭住,我火速辦了婚禮,結果婚禮上字逗,老公的妹妹穿的比我還像新娘京郑。我一直安慰自己,他們只是感情好葫掉,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布些举。 她就那樣靜靜地躺著,像睡著了一般俭厚。 火紅的嫁衣襯著肌膚如雪户魏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天挪挤,我揣著相機與錄音叼丑,去河邊找鬼。 笑死扛门,一個胖子當著我的面吹牛鸠信,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播论寨,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼星立,長吁一口氣:“原來是場噩夢啊……” “哼爽茴!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起绰垂,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤闹啦,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后辕坝,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體窍奋,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年酱畅,在試婚紗的時候發(fā)現(xiàn)自己被綠了琳袄。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡纺酸,死狀恐怖窖逗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情餐蔬,我是刑警寧澤碎紊,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站樊诺,受9級特大地震影響仗考,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜词爬,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一秃嗜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧顿膨,春花似錦锅锨、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至囊咏,卻和暖如春恕洲,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背匆笤。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工研侣, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人炮捧。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓庶诡,卻偏偏與公主長得像,于是被迫代替她去往敵國和親咆课。 傳聞我的和親對象是個殘疾皇子末誓,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345