實(shí)例
舉兩個(gè)實(shí)際列子:
- 如何通過對(duì)餐飲客戶消費(fèi)行為的測(cè)量缎脾,進(jìn)一步評(píng)判餐飲客戶的價(jià)值和對(duì)餐飲客戶進(jìn)行細(xì)分,找到有價(jià)值的客戶群和需要關(guān)注的客戶群
- 如何合理對(duì)菜品進(jìn)行分析途凫,以便區(qū)分哪些菜品暢銷毛利又高危纫,哪些菜品滯銷毛利又低。
這呢可以通過聚類分析解決
聚類分析定義
聚類分析是在沒有給定劃分類別的情況下掰派,根據(jù)相似度進(jìn)行樣本分組的一種方法从诲。是一種非監(jiān)督的學(xué)習(xí)算法,劃分的原則是組內(nèi)距離最小化而組間(外部)距離最大化
常用的聚類方法
- 劃分方法:劃分方法就是根據(jù)用戶輸入值K把給定對(duì)象分成K組(滿足2個(gè)條件:1. 每個(gè)組至少包含一個(gè)對(duì)象靡羡。2. 每個(gè)對(duì)象必須且只屬于一個(gè)組)系洛,每組都是一個(gè)聚類,然后利用循環(huán)再定位技術(shù)變換聚類里面的對(duì)象略步,直到客觀劃分標(biāo)準(zhǔn)(常成為相似函數(shù)描扯,如距離)最優(yōu)為止。典型代表:K-MEANS, K-MEDOIDS趟薄。
- 層次的方法:層次的方法對(duì)給定的對(duì)象集合進(jìn)行層次分解绽诚。分為2類:凝聚的和分裂的。凝聚的方法也叫自底向上的方法杭煎,即一開始將每個(gè)對(duì)象作為一個(gè)單獨(dú)的簇恩够,然后根據(jù)一定標(biāo)準(zhǔn)進(jìn)行合并,直到所有對(duì)象合并為一個(gè)簇或達(dá)到終止條件為止羡铲。分裂的方法也叫自頂向下的方法蜂桶,即一開始將所有對(duì)象放到一個(gè)簇中,然后進(jìn)行分裂也切,直到所有對(duì)象都成為單獨(dú)的一個(gè)簇或達(dá)到終止條件為止屎飘。典型代表:CURE,BIRCH。
- 基于密度的方法:基于密度的方法即不斷增長所獲得的聚類直到鄰近(對(duì)象)密度超過一定的閥值(如一個(gè)聚類中的對(duì)象數(shù)或一個(gè)給定半徑內(nèi)必須包含至少的對(duì)象數(shù))為止贾费。典型代表:DBSCAN钦购,OPTICS。
- 基于網(wǎng)格的方法:基于網(wǎng)格的方法即將對(duì)象空間劃分為有限數(shù)目的單元以形成網(wǎng)格結(jié)構(gòu)褂萧。所有聚類操作都在這一網(wǎng)格結(jié)構(gòu)上進(jìn)行押桃。典型代表:STING。
- 基于模型的方法:基于模型的方法即為每個(gè)聚類假設(shè)一個(gè)模型导犹,然后按照模型去發(fā)現(xiàn)符合的對(duì)像唱凯。這樣的方法經(jīng)诚弁基于這樣的假設(shè):數(shù)據(jù)是根據(jù)潛在的概率分布生成的。主要有2類:統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法磕昼。典型代表:COBWEB卷雕,SOMS。
常用的聚類分析算法
- K-Means:K-均值聚類也稱為快速聚類算法票从,在最小誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K,該算法原理簡單并便于處理大量數(shù)據(jù)漫雕。
- K-中心點(diǎn):對(duì)孤立點(diǎn)的敏感性,不采用促中對(duì)象的平均值作為簇中心峰鄙,采用離平均值最近的對(duì)象作為中心浸间。
- 系統(tǒng)聚類:也稱為多層次聚類,分類的單位由高到低呈樹形結(jié)構(gòu)吟榴,所處的位置越低魁蒜,其所包含的對(duì)象越少,對(duì)象間的共同特征越多吩翻,適合小數(shù)據(jù)量的時(shí)候使用兜看。數(shù)據(jù)量大速度比較慢
K-Means聚類算法
1.算法過程
- 從N個(gè)樣本數(shù)據(jù)中隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心
- 分別計(jì)算每個(gè)樣本到聚類中心的距離,將對(duì)象分配到距離最近的聚類中
- 所有對(duì)象分配完成后狭瞎,重新計(jì)算K個(gè)聚類的中心
- 與前一次計(jì)算得到的K個(gè)聚類中心比較铣减,如果聚類中心發(fā)生變化,轉(zhuǎn)過程2脚作,否則5.
- 當(dāng)質(zhì)心不發(fā)生變化時(shí)停止并輸出聚類結(jié)果
小問題:聚類的結(jié)果可能依賴于初始聚類中心的隨機(jī)選擇葫哗,可能使結(jié)果嚴(yán)重偏離全局最優(yōu)分類。
優(yōu)化:實(shí)踐中球涛,為了得到較好結(jié)果劣针,通常選擇不同的初始聚類中心,多次運(yùn)行K-Means算法亿扁。