聚類了牛,顧名思義颜屠,就是將原本無規(guī)律的數(shù)據(jù),通過比較數(shù)據(jù)之間的相似性鹰祸,找出它們的聯(lián)系甫窟,將差別小的數(shù)據(jù)分為一類,保證不同類別之間的差別較大蛙婴。聚類研究一般是對研究的樣本人群進(jìn)行分析粗井,把人群劃分為不同類別,再對不同類別人群的差異進(jìn)行分析街图。
聚類分析與因子分析
分析時(shí)很多人容易把聚類和因子分析的概念弄混浇衬,其實(shí)兩者既有聯(lián)系也有區(qū)別。
(1)區(qū)別:
因子分析:分為探索性因子分析和驗(yàn)證性因子分析餐济,多用來分析問卷效度耘擂、濃縮信息、計(jì)算權(quán)重或者分析綜合競爭力絮姆。比如將20個(gè)題濃縮為5個(gè)關(guān)鍵詞醉冤。
聚類分析:分為樣本聚類和變量聚類秩霍,通常比較常用樣本聚類,比如有500個(gè)人蚁阳,這500個(gè)人可以聚成幾個(gè)類別铃绒。
(2)聯(lián)系:
在研究中,可以先做因子分析濃縮題項(xiàng)信息韵吨,也就是把多個(gè)題濃縮成幾個(gè)變量匿垄,得到因子得分。然后將因子得分進(jìn)一步聚類分析归粉,得到幾個(gè)類別群體椿疗,可用于后續(xù)的研究。
思路框架
具體分析步驟:
1.? 樣本背景分析
首先對研究數(shù)據(jù)樣本基本特征情況(比如性別糠悼、年齡届榄、學(xué)歷等)進(jìn)行分析
2.? 樣本特征、行為分析
如果有涉及樣本群體的特征倔喂、行為铝条、或者態(tài)度相關(guān)項(xiàng),則可單獨(dú)一部分進(jìn)行分析
3.? 指標(biāo)歸類分析
如果研究量表數(shù)據(jù)并不知道分成幾個(gè)維度席噩,比如有20個(gè)量表題班缰,應(yīng)該分成幾個(gè)維度并不確定,此時(shí)可使用因子分析方法進(jìn)行悼枢。找出應(yīng)該分成幾個(gè)維度(因子)埠忘,以及題項(xiàng)和維度的對應(yīng)關(guān)系情況。
4.? 信度和效度分析
接著對量表項(xiàng)進(jìn)行信度和效度分析(備注:因子分析已經(jīng)得出維度與題項(xiàng)對應(yīng)關(guān)系馒索,此時(shí)說明已經(jīng)有效度莹妒,有時(shí)也可放棄效度分析,從內(nèi)容完整性上建議放入)
5.? 聚類分析
完成因子分析后绰上,已經(jīng)確認(rèn)得到幾個(gè)維度旨怠,可將此幾個(gè)維度進(jìn)行聚類,得到幾種類別的群體蜈块,然后結(jié)合每類群體的特征鉴腻,給每個(gè)聚類類別進(jìn)行命名。(備注:一個(gè)維度由多個(gè)題項(xiàng)表示疯趟,想將多個(gè)題項(xiàng)概括成一個(gè)整體拘哨,此時(shí)需要使用SPSSAU中“生成變量”的“平均值”功能即可)
6.? 聚類效果驗(yàn)證
嚴(yán)格意義上的聚類分析并非統(tǒng)計(jì)檢驗(yàn)分析方法,而是一種數(shù)據(jù)描述性方法信峻。從應(yīng)用角度看倦青,研究人員可以使用以下幾種方法綜合判斷聚類效果。
? ? 第一盹舞,看聚類后的類別是否可以有效命名产镐,且是否符合現(xiàn)實(shí)意義隘庄。
? ? 第二,判斷分析方法進(jìn)行判斷癣亚,將軟件生成的聚類類別變量作為因變量(Y)丑掺,將聚類變量作為自變量(X),判別分析聚類變量與類別之間投影關(guān)系情況述雾。
? ? 第三街州,文字說明聚類分析方法的詳細(xì)過程及科學(xué)性。
? ? 第四玻孟,要看聚類分析后每個(gè)類別樣本量是否均勻唆缴,如果聚類結(jié)果顯示為三個(gè)類別,其中一個(gè)類別樣本量非常少黍翎,說明聚類效果可能較差面徽。
7.? 得到聚類類別之后,接著需要對比不同類別群體的差異性匣掸;包括比如在“特征”趟紊、“行為”或者“態(tài)度”上的差異性。便于結(jié)合不同群體提供不同的建議措施等碰酝。如果是研究聚類樣本的個(gè)體背景特點(diǎn)差異霎匈,聚類類別和樣本背景題項(xiàng)(性別、年齡送爸、學(xué)歷等)均為分類數(shù)據(jù)唧躲,因而應(yīng)該使用卡方分析進(jìn)行對比差異,進(jìn)一步了解不同細(xì)分類別人群在個(gè)體背景上的差異情況碱璃,便于對類別樣本進(jìn)行深入分析。
研究者還可以對比不同類別樣本與問卷中其余題項(xiàng)的差異情況饭入,如果題項(xiàng)為定量數(shù)據(jù)則需要使用方差分析嵌器,如果題項(xiàng)為分類數(shù)據(jù)則使用卡方分析,如果題項(xiàng)為多選題谐丢,也應(yīng)該使用卡方分析
此類問卷思路的核心特點(diǎn)在于“分類”爽航,即對樣本人群細(xì)分。在此基礎(chǔ)之上乾忱,才會(huì)有后面的關(guān)于不同類別人群的差異分析讥珍。
聚類分析說明
上部分已經(jīng)對整體框架進(jìn)行說明,這部分主要對聚類的分析步驟進(jìn)行進(jìn)一步說明窄瘟。其他分析步驟的說明在之前的文章都有介紹衷佃,這里就不再重復(fù)。
聚類分析常見的方法有:兩部聚類蹄葱、K-均值聚類氏义、系統(tǒng)聚類锄列。
兩步聚類可以同時(shí)處理定類數(shù)據(jù)和定量數(shù)據(jù),并且可以系統(tǒng)自動(dòng)尋找最有聚類類別數(shù)量惯悠。使用與數(shù)量大且結(jié)構(gòu)復(fù)雜的分析邻邮。
K-均值聚類,又叫快速聚類克婶,可以快速處理大量數(shù)據(jù)筒严,速度快并且處理大量數(shù)據(jù)是K-均值聚類的優(yōu)點(diǎn),但其僅針對定量數(shù)據(jù)而不能處理分類數(shù)據(jù)情萤,并且需要主觀設(shè)定聚類類別個(gè)數(shù)鸭蛙,不能自動(dòng)尋找最優(yōu)聚類類別數(shù)量。
系統(tǒng)聚類紫岩,又叫分層聚類规惰,基本思路是將多個(gè)樣本各作為一類,計(jì)算樣本兩兩之間的距離泉蝌,合并距離最近的兩類成新的一類歇万,然后再計(jì)算距離,再合并勋陪,直到只有一類為止贪磺。
聚類分析步驟
第一步:數(shù)據(jù)處理
如果樣本數(shù)據(jù)度量單位不統(tǒng)一,比如有的題項(xiàng)是以七級(jí)量表诅愚,而有的題項(xiàng)為五級(jí)題項(xiàng)寒锚。此時(shí)應(yīng)該進(jìn)行數(shù)據(jù)處理,即數(shù)據(jù)標(biāo)準(zhǔn)化處理违孝。常見是進(jìn)行Z值法標(biāo)準(zhǔn)化刹前。
第二步:進(jìn)行聚類分析
如果是按樣本聚類,則使用SPSSAU的進(jìn)階方法模塊中的“聚類分析”功能雌桑,其會(huì)自動(dòng)識(shí)別出應(yīng)該使用K-means聚類算法還是K-prototype聚類算法喇喉;如果是按變量(標(biāo)題)聚類,則使用分層聚類校坑,并且結(jié)合聚類樹狀圖進(jìn)行綜合判定分析拣技。
第三步:聚類效果驗(yàn)證
聚類效果不同于其它分析方法,其它分析方法可以通過P值進(jìn)行檢驗(yàn)耍目。聚類效果需要通過研究經(jīng)驗(yàn)膏斤,并且結(jié)合專業(yè)知識(shí)進(jìn)行綜合判斷。良好的聚類分析結(jié)果可以有效的識(shí)別樣本特征邪驮,因而聚類出的不同類別樣本莫辨,應(yīng)該有著完全差異性特征。
針對聚類樣本的特征差異對比,通常是使用方差分析進(jìn)行對比衔掸,如果聚類變量為分類數(shù)據(jù)烫幕,應(yīng)該使用卡方分析進(jìn)行對比。如果可以進(jìn)行有效命名敞映,則說明聚類效果較好较曼,反之則說明聚類分析結(jié)果較差,應(yīng)該返回第二步重新選擇聚類類別數(shù)量振愿,找出更優(yōu)聚類結(jié)果捷犹。
第四步:聚類類別命名
完成第三步聚類效果判斷后,已經(jīng)確認(rèn)聚類類別數(shù)量情況冕末,以及每個(gè)類別命名情況萍歉。此步驟更為深入分析各個(gè)類別的特點(diǎn),尤其針對于某類別樣本在某聚類變量上的突出特點(diǎn)档桃,最終對聚類類別進(jìn)行命名枪孩,結(jié)束聚類分析。
更多分析方法的使用說明可到SPSSAU官網(wǎng)查看藻肄。