聚類分析是一類將數(shù)據(jù)所對(duì)應(yīng)的研究對(duì)象進(jìn)行分類的統(tǒng)計(jì)方法。這一類方法的共同特點(diǎn)是,事先不知道類別的個(gè)數(shù)與結(jié)構(gòu)叽奥;進(jìn)行分析的數(shù)據(jù)是表明對(duì)象之間的相似性或相異性的數(shù)據(jù)膛薛,將這些數(shù)據(jù)看成對(duì)對(duì)象“距離”遠(yuǎn)近的一種度量,將距離近的對(duì)象歸入一類,不同類對(duì)象之間的距離較遠(yuǎn)。
[if !supportLineBreakNewLine]
[endif]
聚類分析根據(jù)對(duì)象的不同分為Q型聚類分析和R型聚類分析,其中笆凌,Q型聚類是指對(duì)樣本的聚類,R型聚類是指對(duì)變量的聚類伙窃。本節(jié)主要介紹Q型聚類菩颖。
一、距離和相似系數(shù)
1.1为障、距離在聚類過程中晦闰,相距較近的樣本點(diǎn)傾向于歸為一類放祟,相距較遠(yuǎn)的樣本點(diǎn)應(yīng)歸屬于不同的類。最常用的是Minkowski距離呻右。當(dāng)各變量的單位不同或變異性相差很大時(shí)跪妥,不應(yīng)直接采用Minkowski距離,而應(yīng)先對(duì)各變量的數(shù)據(jù)做標(biāo)準(zhǔn)化處理声滥,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離眉撵。使用SciPy庫(kù)spatial模塊下的distance子模塊可以計(jì)算距離,使用該子模塊下的pdist函數(shù)可以計(jì)算n維空間中觀測(cè)值之間的距離落塑,其語法格式如下:
獲取更多知識(shí)纽疟,前往前往我的wx ————公z號(hào) (程式解說)
原文來自https://https://mp.weixin.qq.com/s/ZB1V8NZHJLfKFgIJgiRxOw