在無監(jiān)督學習(unsupervised learning)中患整,訓練樣本的標記信息是未知的婚被。
無監(jiān)督學習的目標:通過對無標記訓練樣本的學習來揭露數(shù)據(jù)的內(nèi)在性質(zhì)以及規(guī)律。
聚類過程僅僅能自動形成簇結(jié)構(gòu)悯森,簇所對應(yīng)的概念語義需要由使用者來提供盅蝗。
聚類的作用:
- 可以作為一個單獨的過程,用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)呢袱。
- 也可以作為其他學習任務(wù)的前驅(qū)過程官扣。如對數(shù)據(jù)先進行聚類,然后對每個簇單獨訓練模型羞福。
希望同一簇的樣本盡可能彼此相似惕蹄,不同簇的樣本之間盡可能不同。即:簇內(nèi)相似度 intra-cluster similarity 高治专,且簇間相似度 inter-cluster similarity 低.
聚類的性能度量分兩類:
- 聚類結(jié)果與某個參考模型reference model進行比較卖陵,稱作外部指標 external index 。
- 直接考察聚類結(jié)果而不利用任何參考模型张峰,稱作內(nèi)部指標 internal index 泪蔫。