前面介紹的5種機(jī)器學(xué)習(xí)算法都屬于監(jiān)督學(xué)習(xí),即對于一組輸入有與之對應(yīng)的類別(分類)或者相對應(yīng)的值(回歸)溅呢。而接下來要介紹的一種算法,聚類屬于無監(jiān)督學(xué)習(xí),即對于輸入數(shù)據(jù)沒有相對應(yīng)的標(biāo)簽或者值瓮下。
6.1 算法思想
俗話說:“物以類聚、人以群分”钝域,聚類就是把相似的東西分到一起讽坏。
聚類算法簡單的可分為以下幾步:
- 確定要分類的簇?cái)?shù)量K,然后隨機(jī)產(chǎn)生K個(gè)聚類中心例证。
- 計(jì)算所有的點(diǎn)與K個(gè)聚類中心的距離路呜,然后選擇距離最小的那個(gè)作為本次訓(xùn)練該點(diǎn)所處的簇
- 在所有的點(diǎn)分類完成之后,在各個(gè)簇中根據(jù)平均距離最小原則尋找新的聚類中心
-
根據(jù)新的聚類中心织咧,再重新分類胀葱,不斷重復(fù)上訴過程,完成分類
工作過程就如圖上所示
- 圖(a):所有樣本未分類
- 圖(b):隨機(jī)選擇2個(gè)聚類中心
- 圖(c):將所有的樣本點(diǎn)按聚類中心分類
- 圖(d):選擇新的聚類中心
- 圖(e):重新分類
- 圖(f):不斷迭代
6.2 “距離”
以上的算法中比較重要的一點(diǎn)是“距離”笙蒙,即按照什么標(biāo)準(zhǔn)來衡量樣本點(diǎn)與聚類中心之間的距離抵屿。常用的計(jì)算”距離”的公式有歐幾里得距離和夾角余弦相似度。
(1) 歐幾里得距離
(2) 夾角余弦相似度
假設(shè)樣本有2個(gè)特征捅位,則這兩個(gè)樣本的夾角余弦相似度公式如下:
6.3 K-means優(yōu)劣點(diǎn)
優(yōu)勢:
- 簡單轧葛、快速搂抒、適合常規(guī)數(shù)據(jù)集
劣勢:
- K值難確定。對于一個(gè)不知道怎樣分布的樣本數(shù)據(jù)尿扯,不知道將它分為多少類才合適求晶。
- 復(fù)雜度與樣本呈線性關(guān)系衷笋。
- 很難發(fā)現(xiàn)任意形狀的簇芳杏。
以下圖為例,講講為何K-means難以發(fā)現(xiàn)任何形狀的簇辟宗。
對于如上圖所示的樣本數(shù)據(jù)爵赵,在K-means算法中,無論聚類中心如何變化泊脐,都不能按照我們想要的將樣本分為大環(huán)和小環(huán)兩類亚再。