聚類分析就是把一組數(shù)據(jù)分成多個(gè)類号涯,讓同類之間的數(shù)據(jù)具有相似性绕娘,不同類之間的數(shù)據(jù)具有差異性亡驰。
舉個(gè)例子晓猛,比如說你是一個(gè)淘寶店的店主,你的消費(fèi)者里面有一部分人很喜歡在晚上的時(shí)候就買一些打折的商品凡辱。還有一些消費(fèi)者喜歡在周末的時(shí)候去買一些店鋪里的新品戒职。你就可以根據(jù)消費(fèi)者的購物時(shí)間,購買件數(shù)透乾,購買金額等這些變量來對他們進(jìn)行分類洪燥。
為什么要進(jìn)行聚類分析呢?
把消費(fèi)者進(jìn)行細(xì)分之后乳乌,針對不同的消費(fèi)者制定不同的營銷策略捧韵。
比如對消費(fèi)者進(jìn)行聚類之后,你發(fā)現(xiàn)有些消費(fèi)者總喜歡在晚上的時(shí)候買一些打折的商品钦扭,那這時(shí)候你可以針對這部分消費(fèi)者在晚上多做一些打折的活動(dòng)纫版。有些消費(fèi)者他喜歡在周末的時(shí)候去買些新品,那你就在周末的時(shí)候多上一些新品客情,這樣根據(jù)消費(fèi)者的不同特性其弊,來制定不同的營銷策略和店鋪的運(yùn)營方法。
那么怎么樣來進(jìn)行聚類呢膀斋?
我們先看一個(gè)例子梭伐,總共有十六張撲克牌,我們可以把這十六張撲克牌分成幾類呢仰担?可以有多少種分法糊识?
1、分成四組,每組里花色相同赂苗,組與組之間花色相異
2愉耙、分成四組,符號相同的牌為一組
3拌滋、分成兩組朴沿,顏色相同的牌為一組
4、分成兩組败砂,大小程度相近的牌分到一組
這個(gè)例子告訴我們赌渣,聚類的意義在于我們怎么定義并度量“相似性”,因此衍生出一系列度量相似性的算法
度量相似性的算法有兩類:
1昌犹、距離:根據(jù)樣本數(shù)據(jù)的遠(yuǎn)近進(jìn)行分類
2坚芜、相關(guān)性:根據(jù)變量之間的相關(guān)性進(jìn)行分類
具體的分類算法有四種:
1、層次方法:自頂往下或者自底往上分類
2斜姥、劃分方法:常見的是K均值方法鸿竖,先選定幾個(gè)值,把這幾個(gè)值當(dāng)做中心點(diǎn)铸敏,然后根據(jù)其他值到這幾個(gè)值中心點(diǎn)的距離分類千贯,分類之后計(jì)算每一類的均值再作為中心點(diǎn)劃分,反復(fù)執(zhí)行這個(gè)步驟把數(shù)據(jù)進(jìn)行分類
3搞坝、基于密度的劃分:根據(jù)數(shù)據(jù)的密度進(jìn)行分類
4搔谴、基于網(wǎng)格的劃分:根據(jù)數(shù)據(jù)所在的位置進(jìn)行分類