聚類案例分析全流程匯總!

一再膳、案例說(shuō)明

1.案例背景

研究調(diào)查10名運(yùn)動(dòng)員的3項(xiàng)測(cè)試數(shù)據(jù)挺勿,其中三項(xiàng)分別是:肩寬/髖寬×100、胸厚/胸圍×100喂柒、腿長(zhǎng)/身長(zhǎng)×100不瓶。其中編號(hào)為4、6灾杰、8蚊丐、9的4名運(yùn)動(dòng)員分別是蛙、自由艳吠、仰麦备、蝶泳四種姿勢(shì)的佼佼者。預(yù)計(jì)姿勢(shì)按姿勢(shì)分為蝶泳昭娩、仰泳凛篙、蛙泳、自由泳4類(為簡(jiǎn)化問(wèn)題僅以10名運(yùn)動(dòng)員的3項(xiàng)測(cè)試數(shù)據(jù)為例)题禀。

2.分析目的

本案例對(duì)游泳運(yùn)動(dòng)員調(diào)查的數(shù)據(jù)進(jìn)行聚類鞋诗,以便分項(xiàng),預(yù)計(jì)姿勢(shì)按姿勢(shì)分為蝶泳迈嘹、仰泳、蛙泳全庸、自由泳4類秀仲。 [案例來(lái)源于:SPSS統(tǒng)計(jì)分析(第5版)盧紋岱,朱紅兵主編,案例有一些變動(dòng) 具體請(qǐng)看分析壶笼。]

二神僵、數(shù)據(jù)處理

1.數(shù)據(jù)檢查

在數(shù)據(jù)分析之前,首先需要進(jìn)行數(shù)據(jù)查看覆劈,包括數(shù)據(jù)中是否有異常值保礼,無(wú)效樣本等。如果有異常值則需要進(jìn)行處理责语,然后再進(jìn)行分析炮障。另外如果數(shù)據(jù)中有無(wú)效樣本也需要進(jìn)行處理后再進(jìn)行分析。無(wú)效樣本會(huì)干擾分析研究坤候,扭曲數(shù)據(jù)結(jié)論等胁赢,因而在分析前先對(duì)無(wú)效樣本進(jìn)行標(biāo)識(shí)顯示尤其必要。異常值的鑒別與處理一般分為三個(gè)部分白筹,其中分別是判斷標(biāo)準(zhǔn)智末,鑒別方法以及異常值的處理谅摄,以下從這三個(gè)方面進(jìn)行說(shuō)明。

異常值的判斷標(biāo)準(zhǔn)如下:

檢驗(yàn)數(shù)據(jù)是否有異常值的方法:

異常值處理方法:

此案例對(duì)于異常值參照的標(biāo)準(zhǔn)為大于±3個(gè)標(biāo)準(zhǔn)差

使用箱線圖進(jìn)行查看發(fā)現(xiàn)沒(méi)有異常值系馆。


除了對(duì)異常值的處理送漠,還需要對(duì)于無(wú)效樣本進(jìn)行檢查:如果數(shù)據(jù)來(lái)源為問(wèn)卷,則很可能出現(xiàn)無(wú)效樣本由蘑,因?yàn)樘顚?xiě)問(wèn)卷的樣本是否真實(shí)填寫(xiě)無(wú)從判定闽寡;如果數(shù)據(jù)庫(kù)下載或者使用二手?jǐn)?shù)據(jù)等,也可能出現(xiàn)大量缺失數(shù)據(jù)等無(wú)效樣本纵穿。以下從無(wú)效樣本場(chǎng)景下隧、SPSSAU設(shè)置標(biāo)準(zhǔn)、處理三方面進(jìn)行說(shuō)明谓媒。

1.常見(jiàn)場(chǎng)景

2.設(shè)置標(biāo)準(zhǔn)


3.無(wú)效樣本的處理

設(shè)置好無(wú)效樣本后淆院,默認(rèn)會(huì)新生成一個(gè)標(biāo)題,用來(lái)標(biāo)識(shí)那些樣本是有效句惯,那些是無(wú)效土辩,在分析的時(shí)候直接進(jìn)行篩選下就好。

本次案例分析將以相同數(shù)字大于70%為標(biāo)準(zhǔn)進(jìn)行檢驗(yàn)抢野,結(jié)果顯示沒(méi)有無(wú)效樣本拷淘。

2.標(biāo)題處理

將變量肩寬/髖寬×100設(shè)為x1、變量胸厚/胸圍×100設(shè)為x2指孤、變量腿長(zhǎng)/身長(zhǎng)×100設(shè)為x3启涯。

三、操作

首先對(duì)初始計(jì)劃進(jìn)行分析得到模型如下:

分析結(jié)果來(lái)源于SPSSAU

從上表可以看出:最終聚類得到4類群體恃轩, 4類人群分布較為均勻结洼,整體說(shuō)明聚類效果較好。如果分析人員沒(méi)有預(yù)設(shè)聚類個(gè)數(shù)也可以利用該方法對(duì)數(shù)據(jù)類別進(jìn)行初步判斷叉跛,若該案例數(shù)據(jù)聚類個(gè)數(shù)為3松忍,結(jié)果如下:

從結(jié)果來(lái)看,若分為三類筷厘,數(shù)據(jù)中第三個(gè)類別占比較多鸣峭,不如分為4類的結(jié)果均勻,綜合結(jié)果對(duì)比聚類個(gè)數(shù)選擇4酥艳,但是就此案例說(shuō)明摊溶,若研究者的預(yù)設(shè)聚類個(gè)數(shù)為3,也是可以接受的玖雁。

總結(jié)來(lái)講更扁,不需要對(duì)模型進(jìn)行調(diào)整,重復(fù)進(jìn)行案例模型的構(gòu)建。

聚類分析往往是一個(gè)主觀判斷的過(guò)程浓镜,需要根據(jù)分析結(jié)果及個(gè)人專業(yè)知識(shí)判斷溃列,聚為幾類更合適。這里結(jié)合SPSSAU輸出結(jié)果膛薛,提供幾個(gè)判斷聚類效果的方法:

分析結(jié)果來(lái)源于SPSSAU

接下來(lái)將對(duì)此一一說(shuō)明听隐。

四、結(jié)果輸出及分析

首先要查看數(shù)據(jù)分布是否均勻哄啄,一般來(lái)說(shuō)雅任,每個(gè)類別的樣本比例應(yīng)分布均勻,如果出現(xiàn)某一類占比過(guò)大或過(guò)小咨跌,可以考慮重新設(shè)置聚類類別個(gè)數(shù)沪么。

1.聚類基本情況

分析結(jié)果來(lái)源于SPSSAU

使用聚類分析對(duì)樣本進(jìn)行分類,使用Kmeans聚類分析方法锌半,從上表可以看出:最終聚類得到4類群體禽车,此4類群體的占比分別是20.00%, 20.00%, 30.00%, 30.00%。整體來(lái)看刊殉, 4類人群分布較為均勻殉摔,整體說(shuō)明聚類效果較好。

2.方差分析

分析結(jié)果來(lái)源于SPSSAU

聚類類別與聚類分析項(xiàng)進(jìn)行交叉分析记焊,如果呈現(xiàn)出顯著性(p<0.05)逸月,意味著聚類得到的不同類別樣本,在相同指標(biāo)上有明顯的差異遍膜。這說(shuō)明參與聚類分析的3個(gè)變量能夠很好的區(qū)分類別碗硬,類間差異足夠大,其中p值越小說(shuō)明明類別之間的差異越大瓢颅,表中顯示自變量x2的類別之間差異性最大肛响。

對(duì)不同類別進(jìn)行均值比較除了可以查看方差分析還可以進(jìn)行查看聚類項(xiàng)重要性對(duì)比。

分析結(jié)果來(lái)源于SPSSAU

如果某個(gè)指標(biāo)重要性較低惜索,考慮移出該指標(biāo)。從上述結(jié)果看剃浇,所有研究項(xiàng)均呈現(xiàn)出顯著性巾兆,說(shuō)明不同類別之間的特征有明顯的區(qū)別,聚類的效果較好虎囚。

3.聚類效果的圖示化

可通過(guò)散點(diǎn)圖直觀展示聚類效果角塑,使用任意兩個(gè)聚類指標(biāo)進(jìn)行散點(diǎn)圖繪制(可視化模塊里面的散點(diǎn)圖),并且在‘顏色區(qū)分(定類)[可選]框中放入‘聚類類別’項(xiàng)淘讥,以查看不同類別時(shí)圃伶,兩兩指標(biāo)的散點(diǎn)效果。

分析結(jié)果來(lái)源于SPSSAU

從圖中可以發(fā)現(xiàn)各個(gè)類別之間有明顯的區(qū)別,聚類的效果較好窒朋。其中發(fā)現(xiàn)第一個(gè)類別x1搀罢、x3都比較大,建議研究時(shí)可以更加關(guān)注侥猩。

4.聚類類別實(shí)際意義

根據(jù)編號(hào)為4榔至、6、8欺劳、9的4名運(yùn)動(dòng)員分別是蛙唧取、自由、仰划提、蝶泳四種姿勢(shì)的佼佼者枫弟。

可以將第一類命名為蛙泳,第二類命名為自由泳鹏往,第三類命名為仰泳淡诗,第四類命名為蝶泳。

研究者也可以觀察折線圖趨勢(shì)進(jìn)行命名掸犬。參考如下:

分析結(jié)果來(lái)源于SPSSAU

五袜漩、其它

1.聚類中心

整體說(shuō)明聚類效果較好

分析結(jié)果來(lái)源于SPSSAU

上表為經(jīng)過(guò)迭代后類中心的變化,數(shù)據(jù)是經(jīng)過(guò)標(biāo)準(zhǔn)化后的湾碎,至于數(shù)據(jù)是否需要標(biāo)準(zhǔn)化宙攻,聚類算法是根據(jù)距離進(jìn)行判斷類別,因此一般需要在聚類之前進(jìn)行標(biāo)準(zhǔn)化處理介褥,SPSSAU默認(rèn)是選中進(jìn)行標(biāo)準(zhǔn)化處理座掘。數(shù)據(jù)標(biāo)準(zhǔn)化之后,數(shù)據(jù)的相對(duì)大小意義還在(比如數(shù)字越大GDP越高)柔滔,但是實(shí)際意義消失了溢陪。

2.SSE

對(duì)于聚類中心的SSE指標(biāo)說(shuō)明如下:

在進(jìn)行Kmeans聚類分析時(shí)SPSSAU默認(rèn)輸出誤差平方和SSE值,該值可用于測(cè)量各點(diǎn)與中心點(diǎn)的距離情況睛廊,理論上是希望越小越好形真,而且如果同樣的數(shù)據(jù),聚類類別越多則SSE值會(huì)越谐(但聚類類別過(guò)多則不便于分析)咆霜。SSE指標(biāo)可用于輔助判斷聚類類別個(gè)數(shù),建議在不同聚類類別數(shù)量情況下記錄下SSE值嘶朱,然后分析SSE值的減少幅度情況蛾坯,如果發(fā)現(xiàn)比如從3個(gè)聚類到4個(gè)類別時(shí)SSE值減少幅度明顯很大,那么此時(shí)選擇4個(gè)聚類類別較好疏遏。比如該案例若聚類數(shù)為3脉课,此時(shí)SSE值為7.451救军,但是當(dāng)聚類數(shù)為4時(shí)此時(shí)SSE值為2.844,發(fā)現(xiàn)SSE減少幅度較大倘零。所以可以看出選擇4個(gè)聚類類別較好唱遭。

六、總結(jié)

對(duì)案例數(shù)據(jù)首先進(jìn)行數(shù)據(jù)的檢查视事,沒(méi)有發(fā)現(xiàn)缺失值與異常值胆萧,針對(duì)聚類的基本情況分析,發(fā)現(xiàn)數(shù)據(jù)可以進(jìn)行聚類俐东,以及對(duì)聚類類別的選擇跌穗,最后對(duì)于輸出的結(jié)果進(jìn)行分析,得到結(jié)論虏辫。如果有定類數(shù)據(jù)蚌吸,或使用分層聚類方法分析,分析思路也是如此砌庄。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末羹唠,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子娄昆,更是在濱河造成了極大的恐慌佩微,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件萌焰,死亡現(xiàn)場(chǎng)離奇詭異哺眯,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)扒俯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)奶卓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人撼玄,你說(shuō)我怎么就攤上這事夺姑。” “怎么了掌猛?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵盏浙,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我荔茬,道長(zhǎng)只盹,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任兔院,我火速辦了婚禮,結(jié)果婚禮上站削,老公的妹妹穿的比我還像新娘坊萝。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布十偶。 她就那樣靜靜地躺著菩鲜,像睡著了一般。 火紅的嫁衣襯著肌膚如雪惦积。 梳的紋絲不亂的頭發(fā)上接校,一...
    開(kāi)封第一講書(shū)人閱讀 49,036評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音狮崩,去河邊找鬼蛛勉。 笑死,一個(gè)胖子當(dāng)著我的面吹牛睦柴,可吹牛的內(nèi)容都是我干的诽凌。 我是一名探鬼主播,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼坦敌,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼侣诵!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起狱窘,我...
    開(kāi)封第一講書(shū)人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤杜顺,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后蘸炸,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體躬络,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年幻馁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了洗鸵。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡仗嗦,死狀恐怖膘滨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情稀拐,我是刑警寧澤火邓,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站德撬,受9級(jí)特大地震影響铲咨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蜓洪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一纤勒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧隆檀,春花似錦摇天、人聲如沸粹湃。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)为鳄。三九已至,卻和暖如春腕让,著一層夾襖步出監(jiān)牢的瞬間孤钦,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工纯丸, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留偏形,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓液南,卻偏偏與公主長(zhǎng)得像壳猜,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子滑凉,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 作者: 于餅喵閱讀時(shí)間:10min 有時(shí)我們需要將樣本按照特征分為不同的類统扳,比如,金融機(jī)構(gòu)需要根據(jù)客戶的特征將客戶...
    于餅喵閱讀 1,654評(píng)論 0 6
  • 1項(xiàng)目背景 本次分析數(shù)據(jù)來(lái)源CDNow網(wǎng)站的用戶在1997年1月1日至1998年6月30日期間內(nèi)購(gòu)買CD訂單明細(xì)畅姊,...
    L李卓閱讀 4,086評(píng)論 0 4
  • 原理篇 定義 聚類分析也稱群分析或點(diǎn)群分析咒钟,它是研究多要素事物分類問(wèn)題的數(shù)量方法,是一種新興的多元統(tǒng)計(jì)方法若未,是當(dāng)代...
    ux2017閱讀 12,272評(píng)論 1 25
  • 一朱嘴、案例說(shuō)明 1.案例數(shù)據(jù) 在“工資影響因素”的調(diào)查問(wèn)卷中,調(diào)查了每個(gè)人的起始工資粗合、工作經(jīng)驗(yàn)萍嬉、受教育年限、受雇月數(shù)...
    spssau閱讀 1,056評(píng)論 0 8
  • 聚類分析在客戶細(xì)分中極為重要隙疚。有三類比較常見(jiàn)的聚類模型壤追,K-mean聚類、層次(系統(tǒng))聚類供屉、最大期望EM算法行冰。在聚...
    keeeeeenon閱讀 2,800評(píng)論 0 3