判別模型與生成模型
- 生成模型
學(xué)習(xí)聯(lián)合概率分布事甜,求出條件概率分布P(Y|X)=P(X,Y)/P(X)兔沃。- 樸素貝葉斯法玛迄、馬爾科夫模型狡逢、高斯混合模型
- 收斂速度更快宁舰,能學(xué)習(xí)隱變量
- 判別模型
由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)f(X)或者條件概率分布P(Y|X)作為預(yù)測(cè)的模型。- 邏輯回歸, KNN, SVM
- 準(zhǔn)確率高
各模型總結(jié)
- 邏輯回歸
- 優(yōu)點(diǎn)
- 實(shí)現(xiàn)簡(jiǎn)單奢浑,應(yīng)用成熟蛮艰,基本所有的機(jī)器學(xué)習(xí)庫(kù)都有
- 支持增量學(xué)習(xí),可以在線更新
- 可以輸出概率雀彼,結(jié)果易于解釋
- 缺點(diǎn)
- 全局最優(yōu)印荔、容易欠擬合
- 當(dāng)特征空間太大時(shí)表現(xiàn)較弱
- 難以捕捉非線性特征
- 特征離散化
- 優(yōu)化方法
- 細(xì)分場(chǎng)景解決,用決策樹決定初始場(chǎng)景
- 特征篩選详羡、降維仍律,加入L1、L2正則項(xiàng)
- 特征離散化实柠,特征相乘
- 普通線性模型無法描述特征間的相關(guān)性水泉,將特征相乘(多項(xiàng)式線性模型)可以引入變量相關(guān)性(e.g 女性與化妝品類,男性與球類裝備)
- 優(yōu)點(diǎn)
- 數(shù)據(jù)稀疏情況下很難求解wij窒盐,使用FM模型(類比推薦)
-
樸素貝葉斯
- 優(yōu)點(diǎn)
- 算法簡(jiǎn)單草则,收斂速度快
- 支持增量學(xué)習(xí)
- 在小數(shù)據(jù)集上表現(xiàn)較好,多用于文本分類
- 缺點(diǎn)
- 條件獨(dú)立假設(shè)蟹漓,分類準(zhǔn)確性較低
- 優(yōu)點(diǎn)
-
KNN
- 優(yōu)點(diǎn)
- 思想簡(jiǎn)單炕横,可用以分類也可回歸
- 可以用以非線性分類
- 缺點(diǎn)
- 計(jì)算、存儲(chǔ)量大
- 優(yōu)點(diǎn)
-
決策樹
- 優(yōu)點(diǎn)
- 計(jì)算簡(jiǎn)單葡粒,易于理解份殿,容易解釋
- 對(duì)數(shù)據(jù)預(yù)處理要求不高
- 可以進(jìn)行變量選擇
- 缺點(diǎn)
- 講究局部最優(yōu),容易過擬合
- 容易忽略數(shù)據(jù)之間的相關(guān)性
- 優(yōu)點(diǎn)
-
SVM
- 優(yōu)點(diǎn)
- 可以解決高緯數(shù)據(jù)集嗽交,適合文本/圖像分類
- 能處理非線性可分?jǐn)?shù)據(jù)
- 高泛化能力
- 缺點(diǎn)
- 計(jì)算量大
- 需要調(diào)參數(shù)卿嘲、尋找核函數(shù)
- 對(duì)缺失數(shù)據(jù)敏感
- 優(yōu)點(diǎn)
隨機(jī)森林
-
Adaboost
- 優(yōu)點(diǎn)
- 精度高,不容易過擬合
- 不用做特征選擇
- 缺點(diǎn)
- 對(duì)異常點(diǎn)敏感
- 優(yōu)點(diǎn)
-
K-means
- 優(yōu)點(diǎn)
- 原理簡(jiǎn)單夫壁,容易實(shí)現(xiàn)
- 當(dāng)簇之間區(qū)分效果明顯時(shí)聚類效果較好
- 缺點(diǎn)
- 對(duì)初始質(zhì)心及K的選擇較敏感
- 對(duì)異常點(diǎn)敏感
- 優(yōu)點(diǎn)