聚類算法評(píng)估
假設(shè)沒有外部標(biāo)簽數(shù)據(jù),我們怎么評(píng)價(jià)不同聚類算法的優(yōu)劣?
非監(jiān)督學(xué)習(xí)往往沒有標(biāo)注數(shù)據(jù)顺献,這是模型,算法的設(shè)計(jì)直接影響最終的輸出和模型的性能薪伏。為了評(píng)估不同的聚類算法滚澜,我們可以從簇下手粗仓。
- 以中心定義的數(shù)據(jù)簇嫁怀,這類數(shù)據(jù)集體傾向于球形分布,中心往往被定義為質(zhì)心借浊,即此數(shù)據(jù)簇所有點(diǎn)的平均值塘淑。集合中數(shù)據(jù)到中心的距離相比到其他簇中心的距離更近。
- 以密度定義的數(shù)據(jù)簇蚂斤,這類數(shù)據(jù)集合呈現(xiàn)和周圍數(shù)據(jù)簇明顯不同的密度存捺,或稠密,也可能稀疏曙蒸。當(dāng)數(shù)據(jù)簇不規(guī)則或者相互盤繞捌治,由噪聲,離群點(diǎn)纽窟,這是一般使用密度的簇定義肖油。
- 以連通定義的簇,這類數(shù)據(jù)集合中的數(shù)據(jù)點(diǎn)和數(shù)據(jù)點(diǎn)之間有連接關(guān)系臂港,整個(gè)數(shù)據(jù)簇表現(xiàn)為圖結(jié)構(gòu)森枪,該定義對(duì)不規(guī)則的形狀或者纏繞的數(shù)據(jù)簇有效
- 以概念定義的數(shù)據(jù)簇,這類數(shù)據(jù)集合中的所有數(shù)據(jù)點(diǎn)具有某種共同的性質(zhì)审孽。
每種情況都需要不同的評(píng)估方法县袱,比如K均值聚類可以使用平方誤差和來評(píng)估。
聚類評(píng)估的認(rèn)識(shí)是估計(jì)在數(shù)據(jù)集上進(jìn)行聚類的可行性佑力,以及聚類方法產(chǎn)生結(jié)果的質(zhì)量式散,這一過程又分為三個(gè)子任務(wù)。
估計(jì)聚類趨勢
這一步是檢測數(shù)據(jù)分布中是否存在非隨機(jī)的簇結(jié)構(gòu)打颤,如果數(shù)據(jù)根據(jù)就是隨機(jī)的暴拄,那么聚類的結(jié)果毫無意義。我們可以通過增加聚類類別的數(shù)量瘸洛,如果數(shù)據(jù)是基本隨機(jī)的揍移,即不存在合適的簇結(jié)構(gòu),那么聚類誤差隨聚類類別數(shù)量增加而變化的幅度不大反肋,也就找不到一個(gè)合適的K對(duì)應(yīng)數(shù)據(jù)的真實(shí)簇?cái)?shù)那伐。判定數(shù)據(jù)簇?cái)?shù)
確定聚類趨勢之后,我們需要找到與真實(shí)數(shù)據(jù)分布最吻合的簇?cái)?shù),據(jù)此判定聚類結(jié)果的質(zhì)量罕邀。-
測定聚類質(zhì)量
給定預(yù)設(shè)的簇?cái)?shù)畅形,不同的聚類算法將其輸出不同的結(jié)果,我們需要判定聚類結(jié)果的質(zhì)量诉探。一般采用下面的指標(biāo)日熬。- 輪廓系數(shù),給定一個(gè)點(diǎn)p肾胯,該點(diǎn)的輪廓系數(shù)定義為
其中a(p)是點(diǎn)p與同一簇的其他點(diǎn)之間的平均距離竖席,b(p)是點(diǎn)p與另一個(gè)不同簇的點(diǎn)之間的最小平均距離。a(p)反應(yīng)了所屬簇的數(shù)據(jù)緊湊程度敬肚,b(p)反應(yīng)的是該簇與其他臨近簇的分離程度毕荐。b(p)越大,a(p)越小艳馒,對(duì)應(yīng)的聚類質(zhì)量越好憎亚,因此我們將所有點(diǎn)對(duì)應(yīng)的輪廓系數(shù)s(p)求平均值來度量聚類結(jié)果的質(zhì)量。 - 均方差標(biāo)準(zhǔn)偏差弄慰,用來衡量聚類結(jié)果的緊湊程度第美,定義如下
其中代表第i個(gè)簇,
是該簇的中心陆爽,
代表屬于第i簇的一個(gè)樣本點(diǎn)什往,
為第i個(gè)簇的樣本數(shù)量,P為樣本點(diǎn)對(duì)應(yīng)的向量維數(shù)墓陈。RMSSTD可以看成一個(gè)歸一化的標(biāo)準(zhǔn)差恶守。
,通常NC
贡必,因此
是一個(gè)接近點(diǎn)的總數(shù)的數(shù)兔港,可以看成常數(shù)。
- R方仔拟,略
- 改進(jìn)Hubert
統(tǒng)計(jì)衫樊,略
- 輪廓系數(shù),給定一個(gè)點(diǎn)p肾胯,該點(diǎn)的輪廓系數(shù)定義為