聚類?
聚類即能作為一個(gè)單獨(dú)的過程味赃,用于尋數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)彬伦,也可以作為分類等其他學(xué)習(xí)任務(wù)的前驅(qū)過程滔悉。
聚類涉及兩個(gè)基本的問題: 性能度量 和 距離計(jì)算
性能度量 == 有效性指標(biāo)? ,對(duì)聚類結(jié)果需要通過某種性能度量來評(píng)估其好壞单绑,另一方面 氧敢,若明確了其最終將要使用的性能度量,則可直接將其作為聚類過程的優(yōu)化目標(biāo)询张,從而更好的得到符合要求的聚類結(jié)果孙乖。
聚類性能度量大致有兩類 : 一類 是將聚類結(jié)果與某個(gè)參考模型進(jìn)行比較 稱為 外部指標(biāo)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 另一類是 直接考察聚類結(jié)果而 不利用任何參考模型 稱為 內(nèi)部指標(biāo)
外部指標(biāo): JC ,FM,Rand?
內(nèi)部指標(biāo): DB , Dunn(DI)
距離計(jì)算
? ?距離度量滿足 性質(zhì): 非負(fù)性,同一性份氧,對(duì)稱性唯袄,直遞性
? ? ? ? ? ? ? ? ? 閔可夫斯基距離
原型聚類: k均值,學(xué)習(xí)向量量化蜗帜,高斯混合聚類
k均值聚類: