常見分類算法:
1決策樹:
一種依托于策略抉擇的樹,擅長處理非數(shù)值型數(shù)據(jù)夯到,免去了很多數(shù)據(jù)預(yù)處理工作
ID3算法:
CART算法:
2貝葉斯:
一類利用概率統(tǒng)計知識進行分類的算法
后驗概率=(似然度*先驗概率)/標(biāo)準(zhǔn)化常量=準(zhǔn)似然度*先驗概率
樸素貝葉斯算法:
TAN算法:
3人工神經(jīng)網(wǎng)絡(luò):
一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進行信息處理的數(shù)學(xué)模型
普遍問題:普遍存在收斂速度慢,計算量大本辐,訓(xùn)練時間長和不可解釋等缺點
BP網(wǎng)絡(luò):
徑向基RBF網(wǎng)絡(luò):
Hopfield網(wǎng)絡(luò):
隨機神經(jīng)網(wǎng)絡(luò)(Boltzmann機):
競爭神經(jīng)網(wǎng)絡(luò)(Hamming網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò)):
4K-鄰近:
一種基于實例的分類方法
5支持向量機:
SVM:核心思想就是找到不同類別之間的分界面潮太,使得兩類樣本近鄰落在面兩邊,而且離分界面盡量遠
最早的SVM是平面的谆构,局限很大裸扶,但是利用核函數(shù)(Kernel function),我們可以把平面投射(mapping)成曲面搬素,今兒大大提高SVM的適用范圍
6基于關(guān)聯(lián)規(guī)則的分類:
關(guān)聯(lián)規(guī)則方法一般由兩步組成:
第一步用關(guān)聯(lián)規(guī)則挖掘算法從訓(xùn)練數(shù)據(jù)集眾挖掘出所有滿足指定支持度和置信度的類關(guān)聯(lián)規(guī)則
第二步使用啟發(fā)式方法從挖掘出的類關(guān)聯(lián)規(guī)則中挑選出一組高質(zhì)量的規(guī)則用于分類
condset->C:
常見聚類算法:
劃分聚類:
給定一個有N個元祖或者記錄的數(shù)據(jù)集呵晨,分裂法將構(gòu)造K個分組魏保,每一個分組就代表一個聚類
常用:
K-means算法:
一種經(jīng)典的劃分聚類算法
K-中心點算法:
CLARANS算法:
融合了PAM和CLARA兩者優(yōu)點,第一個用于空間數(shù)據(jù)庫的聚類算法
還有:
k-modes:
K-means算法的擴展摸屠,采用簡單匹配方法來度量分類型數(shù)據(jù)的相似度
K-prototypes:
結(jié)合了K-means和K-modes兩種算法谓罗,能夠處理混合型數(shù)據(jù)
K-medoids:
在迭代過程中選擇簇中的某點作為聚點
PAM就是典型的K-medoids算法
CLARA:
在PAM基礎(chǔ)上采用了抽樣技術(shù),能夠處理大規(guī)模數(shù)據(jù)
Focused CLARAN:
采用了空間索引技術(shù)提高了CLARANS算法的效率
PCM:
模糊集合理論引入了聚類分析中并提出了PCM模糊聚類算法
層次聚類:
對給定的數(shù)據(jù)集進行層次似的分解季二,知道某種條件滿足為止檩咱,有自底向上和自頂向下兩種方案
常用:
DIANA算法:
BIRCH算法:
Chameleon算法:
還有:
CURE:
采用抽樣技術(shù)先對數(shù)據(jù)集D隨機抽取樣本,在采用分區(qū)技術(shù)對樣本進行分區(qū)胯舷,然后對每個分區(qū)局部聚類刻蚯,最后對局部聚類進行全局聚類
ROCK:
采用了隨機抽樣技術(shù),在計算兩個對象的相似度時桑嘶,同時考慮了周圍對象的影響
CHEMALOEN:
SBAC:
在計算對象間相似度時炊汹,考慮了屬性特征對于體現(xiàn)對象本質(zhì)的重要程度,對于更能體現(xiàn)對象本質(zhì)的屬性賦值較高的權(quán)值
BIRCH:
利用樹結(jié)構(gòu)對數(shù)據(jù)集進行處理不翩,葉節(jié)點存儲一個聚類兵扬,用中心和半徑表示麻裳,順序處理每一個對象口蝠,并把它劃分到局里最近的節(jié)點,也可作為其他聚類方法的預(yù)處理過程
BUBBLE:
把BIRCH算法的中心和半徑概念推廣到普通的距離空間
BUBBLE-FM:
通過減少距離的計算次數(shù)津坑,提高了BUBBLE算法的效率
模糊聚類:
EM算法:
基于密度聚類:
OPTICS算法:
DBSCAN算法:
典型的基于密度聚類算法妙蔗,采用空間索引技術(shù)來搜索對象的鄰域,引入了核心對象和密度可達等概念疆瑰,從核心對象出發(fā)眉反,把所有密度可達的對象組成一個簇
GDBSCAN:
FDC:
DBLASD:
網(wǎng)格算法:
STING:
WaveCluster:
CLIQUE:
OPTIGRID:
模型算法:
通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案
基于統(tǒng)計方案的聚類算法有:
COBWeb:
AutoClass:
CLASSIT:
基于神經(jīng)網(wǎng)絡(luò)方案的聚類方法有:
自組織神經(jīng)網(wǎng)絡(luò)SOM:
均值漂移聚類:
回歸算法:
線性回歸:
邏輯回歸:
正則化:
降維算法:
主成分分析PCA:
多維縮放MDS:
線性判別分析LDA:
等度量映射lsomap:
局部線性嵌入LLE:
t-SNE:
Deep Autoencoder Networks
排序算法:
冒泡排序:
選擇排序:
插入排序:
希爾排序:
歸并排序:
快速排序:
決策樹算法:
C4.5算法:
CLS算法:
ID3算法:
CART算法:
關(guān)聯(lián)規(guī)則算法:
Apriori算法:
FP-growth算法:
矩陣分解算法:
三角分解法:
滿秩分解:
QR分解:
Jordan分解:
SVD(奇異值)分解: