算法常見分類
有監(jiān)督算法 KNN ID3
無監(jiān)督算法 Apriori Kmens
其他算法
算法:計算機解決特定問題的步驟疼燥。
有監(jiān)督學習: 利用一組已知類別的樣本來訓練模型熬拒。訓練數(shù)據(jù)均有一個明確的標識。
無監(jiān)督學習:從無標記的訓練數(shù)據(jù)中推斷結論诡壁。輸入數(shù)據(jù)不存在明確胡標識或結果。常見無監(jiān)督學習為聚類。
有監(jiān)督學習
分類Classification:通過已有數(shù)據(jù)集的學習关划。得到一個目標函數(shù),把每個屬性集x映射到目標屬性y翘瓮,y是離散的贮折。
回歸Regression:y是連續(xù)的。
按照原理分類
基于統(tǒng)計:貝葉斯分類
基于規(guī)則:決策樹算法
基于神經(jīng)網(wǎng)絡:神經(jīng)網(wǎng)絡算法
基于距離:KNN
常用評估指標:
精確率:預測結果與實際結果的比例资盅。
召回率:預測結果中某類結果的正確覆蓋率调榄。
F1-Score:統(tǒng)計量,綜合評估分類模型呵扛,0-1之間每庆。越大越好
KNN
K Nearest Neighbour
步驟:
1.確定K值,確定距離公式
歐式距離今穿,曼哈頓距離缤灵,余弦相似度
2.計算距離
3.圈定符合條件的k值記錄
訓練簡單
缺點:
及時性差
K值影響大
容易誤判
決策樹(ID3,Iterative Dichotomiser 3蓝晒,迭代樹三代)
J Ross Quinlan
1.準備工作
熟悉數(shù)據(jù)凤价,明確目標
明確自變量和因變量
明確信息度量方式(熵、基尼系數(shù))
明確分支終止條件
2.選擇特征
第一級特征選擇
計算整體的熵
計算基于特征1的熵
計算基于特征2的熵
……
計算特征1的信息增益
計算特征2的信息增益
……
3.創(chuàng)建分支
第一層分支
第二層分支
……
4.是否終止
純度為零就可以終止
5.結果生成
缺點:
信息度量不合理
輸入類型單一
不做剪枝拔创,容易過擬合
改進算法:
C4.5
信息增益率替代信息增益
對連續(xù)屬性離散化
進行剪枝
C50
使用boosting
前修剪利诺,后修剪
CART Classification and Regression Tree
Jerome Friedman, Leo Breiman剩燥,Charles Stone
核心是基尼系數(shù)
分類是二叉樹
支持連續(xù)值和離散值
后剪枝進行修剪
支持回歸慢逾,可以預測連續(xù)值
其他有監(jiān)督學習算法
分類算法
KNN(K最近鄰,K Nearest Neighbour)
NB (樸素貝葉斯灭红,Naive Bayes)
DT (決策樹侣滩,Decision Tree)
SVM (支持向量機,Support Vector Machine)
回歸預測
線性回歸 (Linear Regression)
邏輯回歸 (Logistic Regression)
嶺回歸 (Ridge Regression)
拉索回歸 (Lasso Regression)
無監(jiān)督學習算法
聚類算法 Clustering
將相似的事物聚集在一起变擒,將不相似的事物劃分到不同的類別君珠。
層次聚類
劃分聚類
密度聚類
K-Means,K均值聚類
屬于劃分聚類
1.確定聚類個數(shù)
觀察法娇斑、枚舉法策添、交叉驗證
2.計算每個點和聚類中心的距離
3.根據(jù)距離更新中心點位置
4.直到中心點不再變化
優(yōu)點:
原理簡單
結果容易解釋
聚類結果好
缺點:
K值需要先指定
初始K值影響結果
只能識別球狀類
計算量大
對異常值敏感,對離散值需要特殊處理
關聯(lián)規(guī)則 Association Rule
反映事物與事物相互的依存和關聯(lián)性
1.確定最小支持度毫缆,最小置信度
確定1項頻繁項集
確定2項頻繁項集
確定3項頻繁項集
常見無監(jiān)督學習算法
- 聚類算法
K均值(K-Means)
DBScan
最大期望(EM, Expectation Maximization)
降維:PCA(主成分分析), PLS(偏最小二乘回歸), MDS(多維尺度分析)
…… - 關聯(lián)規(guī)則
Apriori
Eclat
……
其他學習算法
- 半監(jiān)督學習
訓練數(shù)據(jù)有部分被標識唯竹,部分沒有被標識。先學習數(shù)據(jù)的內在結構苦丁,再組織數(shù)據(jù)預測浸颓。 - 集成學習
針對同一數(shù)據(jù)集,訓練多種學習器。
Bagging
有放回抽樣構建多個數(shù)據(jù)集
訓練多個分類器
最終結果各分類器結果投票得出
實現(xiàn)簡單
Boosting
重復使用一類學習器來修改訓練集
每次訓練后根據(jù)結果調整樣本權重
每個學習器加權后的線性組合即為最終結果
Stacking
由初級學習器和高級學習器組成
第一級學習器的輸出為第二級學習器的輸入