一储藐、了解聚類(lèi)
????聚類(lèi)就是對(duì)大量未知標(biāo)注的數(shù)據(jù)集俱济,按照數(shù)據(jù)內(nèi)部存在的數(shù)據(jù)特征將數(shù)據(jù)集劃分為多個(gè)不同的類(lèi)別,使類(lèi)別內(nèi)的數(shù)據(jù)比較相似钙勃,類(lèi)別之間的數(shù)據(jù)相似度比較小蛛碌;屬于無(wú)監(jiān)督學(xué)習(xí)。
????聚類(lèi)算法的重點(diǎn)是計(jì)算樣本項(xiàng)之間的相似度肺缕,有時(shí)候也稱(chēng)為樣本間的距離左医。
聚類(lèi)和分類(lèi)算法的區(qū)別
????分類(lèi)算法是有監(jiān)督學(xué)習(xí),基于有標(biāo)注的歷史數(shù)據(jù)進(jìn)行算法模型構(gòu)建同木。
????聚類(lèi)算法是無(wú)監(jiān)督學(xué)習(xí)浮梢,數(shù)據(jù)集中的數(shù)據(jù)是沒(méi)有標(biāo)注的。
二彤路、相似度
????聚類(lèi)算法的重點(diǎn)是計(jì)算樣本項(xiàng)之間的相似度秕硝,有時(shí)候也稱(chēng)為樣本間的距離。 ? ?
1洲尊、閔可夫斯基距離(Minkowski)
當(dāng)p為1的時(shí)候是曼哈頓距離(Manhattan)
當(dāng)p為2的時(shí)候是歐式距離(Euclidean)
當(dāng)p為無(wú)窮大的時(shí)候是切比雪夫距離(Chebyshev)
2远豺、夾角余弦相似度(Cosine):
挖掘數(shù)據(jù)內(nèi)在關(guān)聯(lián)的時(shí)候可能會(huì)用到。設(shè)兩個(gè)向量坞嘀,夾角余弦相似度躯护。