一起來讀西瓜書:第九章 聚類 - 簡書
http://www.reibang.com/p/499b2f32a662
概要:在介紹聚類的具體算法之前,我們得要先討論聚類算法涉及的最基本的問題:如何判斷一個聚類算法結(jié)果的好壞--
聚類結(jié)果的“簇內(nèi)相似度”(intra-cluster similarity)高且“簇間相似度”(inter-cluster similarity)低
聚類算法涉及的最基本的問題:如何判斷一個聚類算法結(jié)果的好壞
1)聚類結(jié)果好壞的評估指標(biāo):性能度量
聚類性能度量亦稱聚類“有效性指標(biāo)”(validity index)困肩,與監(jiān)督學(xué)習(xí)一樣糕簿,它的目的是為了用來評估聚類結(jié)果的好壞走哺,當(dāng)我們能通過性能度量來評估聚類的好壞時(shí)箫锤,我們就可以通過將這個性能度量作為優(yōu)化目標(biāo)來生成更好的聚類結(jié)果搁痛。
對于聚類算法來說泞歉,什么樣的結(jié)果是好的呢逼侦?
換言之,聚類結(jié)果的“簇內(nèi)相似度”(intra-cluster similarity)高且“簇間相似度”(inter-cluster similarity)低
我們將聚類的性能度量大致劃分為了以下兩類:
[1]外部指標(biāo)
對于“外部指標(biāo)”腰耙,我們的度量目的就是要使得我們的聚類結(jié)果與參考模型盡可能相近
其度量的中心思想是:聚類結(jié)果中被劃分到同一簇中的樣本在參考模型中也被劃分到同一簇的概率越高代表聚類結(jié)果越好榛丢。常用的性能指標(biāo)有:Jaccard系數(shù)、FM指數(shù)挺庞、Rand指數(shù)
[2]內(nèi)部指標(biāo)
“內(nèi)部指標(biāo)”通過計(jì)算簇內(nèi)的樣本距離晰赞,以及簇間的樣本距離來對聚類結(jié)果進(jìn)行評估。常用的性能指標(biāo)有:DB指數(shù)选侨、Dunn指數(shù)