1 K-means 與 EM 的聯(lián)系
給定 維空間中一個(gè)包含
個(gè)點(diǎn)的數(shù)據(jù)集
, 以及期望其聚成
簇:
, 我們可以定義每個(gè)簇的中心點(diǎn)為
其中 表示簇
的點(diǎn)的個(gè)數(shù)拷沸。這樣昭抒,K-means 算法的目標(biāo)函數(shù) (平方差和) 為:
1.1 EM 算法的基本原理和步驟
假設(shè)每一個(gè)簇 都由一個(gè)多元正態(tài)分布刻畫锈遥,即
其中箱锐,簇均值 及協(xié)方差矩陣
均是未知參數(shù)褂乍。
是
屬性屬于簇
的概率密度环壤。令
表示對(duì)應(yīng)
的第
維度的隨機(jī)變量思币,記
代表對(duì)應(yīng)于
個(gè)維度的隨機(jī)向量一死。假設(shè)
的概率密度函數(shù)是在所有
個(gè)簇之上的高斯混合模型肛度,定義為
其中先驗(yàn)概率 , 滿足
我們將簇 的參數(shù)簡(jiǎn)記作
則 的似然為
則 MLE (極大似然估計(jì)) 為
由貝葉斯公式可知
由于每個(gè)簇都建模為一個(gè)多元正態(tài)分布,故而
因而投慈, 可以看作是點(diǎn)
在簇
中的權(quán)值或貢獻(xiàn)承耿。
- 初始化:
, 對(duì)于每一個(gè)簇
, 均值
使用均勻分布隨機(jī)地初始化 且
,
.
- E 步:計(jì)算
, 且記
表示簇
在所有
個(gè)點(diǎn)上的權(quán)向量冠骄。
- M 步:重新估計(jì)
, 即
- 不斷地依次重復(fù)操作
步和
步,直到
.