1.簡(jiǎn)單地說(shuō),分類(lèi)就是按照某種標(biāo)準(zhǔn)給對(duì)象貼標(biāo)簽,再根據(jù)標(biāo)簽來(lái)區(qū)分歸類(lèi)骡显。聚類(lèi)是指實(shí)現(xiàn)沒(méi)有"標(biāo)簽"而通過(guò)某種成團(tuán)分析找出事物之間存在聚集性原因的過(guò)程。
2.區(qū)別是棘街,分類(lèi)是事先定義好類(lèi)別蟆盐,類(lèi)別數(shù)不變承边。分類(lèi)器需要由人工標(biāo)注的分類(lèi)訓(xùn)練語(yǔ)料訓(xùn)練得到遭殉,屬于有指導(dǎo)學(xué)習(xí)范疇。聚類(lèi)則沒(méi)有事先預(yù)定的類(lèi)別博助,類(lèi)別數(shù)不確定险污。聚類(lèi)不需要人工標(biāo)注和預(yù)先訓(xùn)練分類(lèi)器,類(lèi)別在聚類(lèi)過(guò)程中自動(dòng)生成富岳。
3. 分類(lèi)的目的是學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或分類(lèi)模型(也常常稱(chēng)作為分類(lèi)器)蛔糯,該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定的類(lèi)別中的某一個(gè)類(lèi)中。要構(gòu)造分類(lèi)器窖式,需要一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入蚁飒。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱(chēng)屬性或特征)值組成的特征向量萝喘,此外淮逻,訓(xùn)練樣本還有一個(gè)類(lèi)別標(biāo)記。一個(gè)具體樣本的形式可表示為:?(v1,v2,…,vn; c)阁簸;其中vi表示字段值爬早,c表示類(lèi)別。分類(lèi)器的構(gòu)造方法有統(tǒng)計(jì)方法启妹、機(jī)器學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)方法等等筛严。
? ? 聚類(lèi)是根據(jù)"物以類(lèi)聚"原理,將本身沒(méi)有類(lèi)別的樣本聚集成不同的組饶米,這樣的一組數(shù)據(jù)對(duì)象的集合叫做簇桨啃,并且對(duì)每一個(gè)這樣的簇進(jìn)行描述的過(guò)程。它的目的是使得屬于同一個(gè)簇的樣本之間彼此相似檬输,而不同簇的樣本應(yīng)該足夠不相似优幸。
? ? 與分類(lèi)規(guī)則不同,進(jìn)行聚類(lèi)前并不知道將要?jiǎng)澐殖蓭讉€(gè)組合什么樣的組褪猛,也不知道根據(jù)哪些空間區(qū)分規(guī)則來(lái)定義組网杆。其目的志在發(fā)現(xiàn)空間實(shí)體的屬性間的函數(shù)關(guān)系,挖掘的知識(shí)用以屬性名為變量的數(shù)學(xué)方差來(lái)表示。聚類(lèi)技術(shù)正在蓬勃發(fā)展碳却,涉及范圍包括數(shù)據(jù)挖掘队秩、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)昼浦、空間數(shù)據(jù)庫(kù)技術(shù)馍资、生物學(xué)以及市場(chǎng)營(yíng)銷(xiāo)等領(lǐng)域,聚類(lèi)分析以及稱(chēng)為數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)非彻卦耄活躍的研究課題鸟蟹。
? ? 常見(jiàn)的聚類(lèi)算法包括:K-Means,K-中心點(diǎn)聚類(lèi)算法使兔,CLARANS建钥、 BIRCH、CLIQUE虐沥、DBSCAN等熊经。