所謂聚類分析,就是按照個體的特征將他們分類,并且在于讓同一個類別內(nèi)的個體之間具有較高的相似度,讓不同類別之間具有較大的差異性餐禁。這樣,研究人員就能根據(jù)不同類別的特征有針對性的進(jìn)行分析突照,并制定出適用于不同類別的解決方案帮非。
聚類分析主要應(yīng)用在市場細(xì)、用戶細(xì)分等領(lǐng)域讹蘑。
如何將個體劃分成不同的類別末盔?
為了合理的進(jìn)行聚類,需要采用適當(dāng)?shù)闹笜?biāo)來衡量研究對象之間的聯(lián)系緊密程度衔肢,常用的指標(biāo)有“距離”和“相似系數(shù)”庄岖。假設(shè)將研究對象采用點(diǎn)表示,聚類分析時角骤,將“距離”小的點(diǎn)或者“相關(guān)系數(shù)”較大的點(diǎn)歸為一類,將“距離”大的點(diǎn)或“相關(guān)系數(shù)”小的點(diǎn)歸為一類心剥。
聚類分析的特點(diǎn)邦尊?
1)聚類結(jié)果是未知的。不同的聚類方法可能得到不同的分類結(jié)果优烧,相同的聚類方法但是所分析的變量不同蝉揍,也會得到不同的聚類結(jié)果。
2)對于聚類結(jié)果的合理性判斷比較主觀畦娄。只要類別內(nèi)的相似性和類別間的差異性都能得到合理的解釋和判斷又沾,就認(rèn)識聚類結(jié)果是可行的。
常見應(yīng)用場景熙卡?
零售研究中杖刷,刻畫不同的用戶或消費(fèi)者生活形態(tài)以及特征;互聯(lián)網(wǎng)中驳癌,通過用戶瀏覽滑燃、消費(fèi)行為來總結(jié)用戶特征;金融研究中颓鲜,根據(jù)用戶金融行為和資產(chǎn)狀況對用戶進(jìn)行分類表窘;城市規(guī)劃中,根據(jù)區(qū)域特征對城市分類......
聚類分析的步驟:
1)確定需要參加聚類分析的變量甜滨。即使用那些變量來進(jìn)行分類乐严。
2)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。單位衣摩、數(shù)量級等
3)選擇聚類方法和類別數(shù)目昂验。即用什么聚類方法,分成幾類。
4)分析聚類結(jié)果凛篙。
為什么要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理黍匾?
因?yàn)橛惺赂鱾€變量之間的變量值的數(shù)量級別差異較大,或者單位也不一樣呛梆。例如一個是元锐涯,一個是萬元,再或者數(shù)量級別差距太大都無法進(jìn)行比較或者計(jì)算“距離”和“相似系數(shù)”等指標(biāo)填物。只有通過標(biāo)準(zhǔn)化處理纹腌,消除變量間的量綱關(guān)系的影響,在統(tǒng)一標(biāo)準(zhǔn)下才能夠進(jìn)行比較或者計(jì)算“距離”和“相似系數(shù)”等指標(biāo)滞磺。
聚類方法的分類
聚類方法主要有三種:
1)快速聚類:也稱K均值聚類升薯,他是按照一定的方法,選取一批聚類中心點(diǎn)击困,讓個案向最近的聚類中心點(diǎn)聚集形成初始分類涎劈,然后按照最近距離原則調(diào)整不合理的分類,直到分類合理為止阅茶。
2)系統(tǒng)聚類:也稱層次聚類蛛枚,首先將參與聚類的個案(或變量)各視為一類,然后根據(jù)兩個類別之間的距離或者相似性逐步合并脸哀,直到所有個案(或變量)合并為一個大類為止蹦浦。
3)二階聚類:也稱兩步聚類,這是隨著人工智能的發(fā)展而發(fā)展起來的一種智能聚類方法撞蜂。分成兩個步驟:第一步驟是預(yù)聚類盲镶,就是根據(jù)定義的最大類別數(shù)對個案進(jìn)行初步歸類;第二步驟是正式聚類蝌诡,就是對第一步驟得到的初步聚類進(jìn)行在聚類并確定最終聚類結(jié)果溉贿,并且在這一步中,會根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)確定聚類的類別數(shù)送漠。