機(jī)器學(xué)習(xí)算法廣泛,各種衍生算法太多太多,各顯其招流码。這里根據(jù)自己工作學(xué)習(xí)的經(jīng)驗(yàn)只能大概總結(jié)如下(按一般數(shù)據(jù)處理流程區(qū)分)
數(shù)據(jù)預(yù)處理算法
基本處理
- 歸一化 :
0~1之間
- 標(biāo)準(zhǔn)化:
均值為0,方差為1
- 異常點(diǎn)的去除:
一般與均值的差值大于2倍標(biāo)準(zhǔn)差的數(shù)據(jù)點(diǎn)
- 縮放:
也是一種歸一化,對于極大值或者極小值不對稱分布的特征施加轉(zhuǎn)換更鲁,如:對數(shù)log縮放
濾波
- 均值濾波
- 中位值濾波
- 一階滯后濾波
- 卡爾曼濾波:5個(gè)公式
特征提取算法
- 正交信號矯正(OSC)
- 連續(xù)投影算法(SPA)
- 小波變換
- 經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)
- 黃變換(HHT)
監(jiān)督學(xué)習(xí)建模算法
基本上所有分類方法均可以用于回歸
分類算法
- 感知機(jī)(Perceptron):
決策函數(shù):sign(W*X+b);>0為1類,<0為-1類
- 邏輯回歸(LogisticRegression):
- 隨機(jī)梯度下降(Stochastic Gradient Descent)
- K-近鄰(KNN)
- 支持向量機(jī)(SVM)
- 決策樹(DecisionTreeClassifier)
- 樸素貝葉斯(Naive Bayes)
- 集成學(xué)習(xí)(bagging奇钞、boosting):
bagging: 隨機(jī)森林(RandomForest); boosting: Adaboost澡为、GBDT、XGBoost
- 人工神經(jīng)網(wǎng)絡(luò)(ANN):BP網(wǎng)絡(luò)
- 線性判別分析(LDA):
有監(jiān)督降維
回歸算法
- 多元線性回歸(MLR):
y = W*X+b; w,b由最小二乘法求得
- 偏最小二乘法(PLS):
yi = W*X+b景埃;偏最小二乘回歸≈多元線性回歸分析+典型相關(guān)分析+主成分分析媒至;基于因變量為多個(gè)顶别,自變量為多個(gè)。先同時(shí)求二者的主成分塘慕,使兩個(gè)主成分的相關(guān)性達(dá)到最大筋夏,然后求各個(gè)因變量與自變量的主成分之間的回歸方程,再反推回原變量間的回歸方程图呢。
- 嶺回歸(Ridge Regression)
- 逐步回歸(Step Regression)
非監(jiān)督學(xué)習(xí)建模算法
- k-均值(聚類)
- 高斯混合模型GMM(聚類)
- 主成分分析PCA(降維)
- 核主成分分析K-PCA
- 局部保持投影LPP(降維)
- 流形學(xué)習(xí)Manifold Learning
- 獨(dú)立成分分析ICA
模型評價(jià)指標(biāo)
pass
參數(shù)優(yōu)化算法
- 梯度下降(Gradient Descent)
- 牛頓法和擬牛頓法(Newton's method & Quasi-Newton Methods)
- 拉格朗日乘數(shù)法
- 粒子群算法(PSO)
- 遺傳算法(GA)
自然語言處理三大基本算法:
- N-gram
- HMM
- CRF
深度學(xué)習(xí)建模算法
- CNN
- RNN(LSTM)