K均值算法的優(yōu)缺點是什么抓于?如何對其進行調(diào)優(yōu)?
K均值算法有一些缺點浇借,例如受初值和離群點的影響捉撮,每次的結(jié)果不穩(wěn)定,結(jié)果通常不是全局最優(yōu)而是局部最優(yōu)解妇垢,無法很好的解決數(shù)據(jù)簇分布差別比較大的情況(比如一類是另一類樣本數(shù)量的100倍)巾遭,不太適用于離散分裂等肉康。
但是K均值聚類算法的優(yōu)點主要體現(xiàn)在:對于大數(shù)據(jù)集。K均值聚類算法相對是可伸縮和高效的灼舍,他的計算復雜度是O(NKt)接近與線性吼和,其中N是數(shù)據(jù)對象的數(shù)目,K是聚類的簇數(shù)骑素,t是迭代的輪數(shù)炫乓。盡管算法經(jīng)常以局部最優(yōu)結(jié)束,但一般情況下達到局部最優(yōu)已經(jīng)可以滿足聚類的需求献丑。
希望找到最好的參數(shù)θ末捣,能夠使最大似然目標函數(shù)取最大值。
目標是使損失函數(shù)最小创橄,在E-step時箩做,找到一個最逼近目標的函數(shù)γ;在M-step時筐摘,固定函數(shù)γ卒茬,更新均值μ(找到當前函數(shù)下的最好的值)。所以一定會收斂了.
聚類評估(輪廓系數(shù)Silhouette Coefficient)
這個指標計算的是樣本i到同簇其他樣本的平均距離 , 越小咖熟,說明樣本i越應該被聚類到該簇圃酵。將 稱為樣本i的簇
內(nèi)不相似度。
計算樣本i到其他某簇的所有樣本的平均距離馍管,稱為樣本i與簇 的不相似度郭赐。
接近1,則說明樣本i聚類合理
接近-1确沸,則說明樣本i更應該分類到另外的簇
若 近似為0捌锭,則說明樣本i在兩個簇的邊界上。
我們對標準化前后的數(shù)據(jù)進行輪廓系數(shù)計算:
做標準化的結(jié)果比較低罗捎,不做標準化的結(jié)果比較高观谦。這是因為特征的重要性我們是不知道的,我們將calories的重要度通過標準化降低之后可能會造成不好的影響桨菜。
豁状,我們就有了kmeans的一個標準流程:我們先進行聚類,然后可視化展示倒得,之后再評估泻红,想一想什么參數(shù)
比較合適,再重新聚類