K均值算法
K均值聚類的核心目標(biāo)是將給定的數(shù)據(jù)集劃分成K個(gè)簇罢猪,并給出每個(gè)數(shù)據(jù)對應(yīng)的簇中心點(diǎn)师抄。
- 數(shù)據(jù)預(yù)處理,包括但不限于歸一化湖蜕,離群點(diǎn)處理等
- 隨機(jī)選擇K個(gè)簇中心逻卖,我們記為
- 定義代價(jià)函數(shù),
- 令t=0,1,2,3...昭抒,進(jìn)行迭代评也,重復(fù)直至J收斂
此時(shí),對于每個(gè)樣本灭返,將分配到距離最近的簇
對于每個(gè)簇k盗迟,重新計(jì)算各個(gè)簇的中心
K均值在迭代中,如果J沒有達(dá)到最小值熙含,那么首先重新計(jì)算當(dāng)前簇的中心罚缕,調(diào)整每個(gè)樣例所屬的類別來讓J的值減少,之后計(jì)算怎静,調(diào)整簇中心使J減少邮弹,如此重復(fù)迭代,直到J減少到最小值蚓聘,此時(shí)也收斂腌乡。