1敌蚜、聚類任務(wù)
聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個簇摆碉。通過這樣的劃分,每個簇可能對應(yīng)于一些潛在的概念(類別)脓豪。需要說明的是兆解,這些概念對聚類算法來說事先是未知的,聚類過程僅能自動形成簇結(jié)構(gòu)跑揉,簇所對應(yīng)的概念語義需要使用者來把握和命名锅睛。
聚類既能作為一個單獨的過程,用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)历谍,也可以用作其他學習任務(wù)的前驅(qū)過程现拒。例如,在一些商業(yè)應(yīng)用中需要對新用戶的類型進行判別望侈,但定義用戶類型對商家來說卻可能不太容易印蔬,此時往往可能先對用戶進行聚類,根據(jù)聚類結(jié)果將每個簇定義為一個類脱衙,然后再基于這些類訓練分類模型侥猬,用于判別新用戶的類型。
聚類算法涉及兩個主要的問題:性能度量和距離計算
2捐韩、性能度量
我們希望聚類結(jié)果能使得同一簇的樣本盡可能彼此相似退唠,而不同簇的樣本盡可能不同。聚類性能度量大致有兩類荤胁,一個是將聚類結(jié)果與某個“參考模型”進行比較瞧预,稱為外部指標,另一個是直接考察聚類結(jié)果而不利用任何參考模型,稱為內(nèi)部指標垢油。
外部指標
內(nèi)部指標
3盆驹、距離計算
所以距離計算要區(qū)分有序?qū)傩?/strong>和無序?qū)傩?/strong>
有序?qū)傩?/strong>
無序?qū)傩?/strong>
4、聚類模型
在介紹了聚類算法涉及兩個主要的問題:性能度量和距離計算之后滩愁,我們再來探討一下主要的聚類模型躯喇,主要原型聚類、密度聚類和層次聚類三種
4.1 原型聚類
原型聚類假設(shè)聚類結(jié)構(gòu)能通過一組原型刻畫硝枉,在現(xiàn)實聚類任務(wù)中極為常用玖瘸。通常情況下,算法先對原型進行初始化檀咙,然后對原型進行迭代更新求解。采用不同的原型表示璃诀、不同的求解方式弧可,有幾種常見的原型聚類方法。
k均值聚類
學習向量量化
學習向量量化方法簡稱LVQ方法劣欢,與一般聚類算法不同的是棕诵,LVQ假設(shè)數(shù)據(jù)樣本帶有標記,學習過程中利用樣本的這些監(jiān)督信息來輔助聚類凿将。
高斯混合聚類
高斯混合聚類采用概率模型來表達聚類原型校套。
4.2 密度聚類
密度聚類算法假設(shè)聚類結(jié)構(gòu)能夠通過樣本分布的緊密程度來確定,通常情形下牧抵,密度聚類算法從樣本密度的角度來考察樣本之間的可連接性笛匙,并基于可連樣本不斷擴展聚類簇以獲得最終的聚類結(jié)果。
4.3 層次聚類
層次聚類試圖在不同層次對數(shù)據(jù)集進行劃分犀变,從而形成樹形的聚類結(jié)果妹孙。數(shù)據(jù)集的劃分可采用自底向上,也可以采用自頂向下的分拆策略获枝。
AGNES是一種采用自底向上聚合策略的層次聚類算法蠢正,它先將數(shù)據(jù)集中的每個樣本看作是一個聚類簇,然后再算法運行的每一步找出距離最近的兩個聚類簇進行合并省店,該過程不斷重復(fù)嚣崭,直到達到預(yù)設(shè)的聚類簇個數(shù)。這里的關(guān)鍵是計算聚類簇之間的距離: