大師兄的數(shù)據(jù)分析學(xué)習(xí)筆記(三十):半監(jiān)督學(xué)習(xí)
大師兄的數(shù)據(jù)分析學(xué)習(xí)筆記(三十二):模型評(píng)估(一)
一晃琳、分類模型
二、回歸模型
三军熏、聚類
四罐寨、關(guān)聯(lián)
五陪每、半監(jiān)督學(xué)習(xí)
六妨猩、模型的選擇
-
在當(dāng)前的環(huán)境下,靠一種模型解決所有問(wèn)題不現(xiàn)實(shí)虹钮,所以面對(duì)不同的情況坛梁,需要選擇不同的算法模型而姐。
- 根據(jù)上圖可以看出SKLEAN官網(wǎng)建議如下:
- 樣本<50:獲得更多數(shù)據(jù)
- 如果有標(biāo)簽化的數(shù)據(jù):
- 樣本<100k:使用線性的支持向量機(jī)
- 如果線性的支持向量機(jī)不工作:
- 如果是文本數(shù)據(jù):使用樸素貝葉斯
- 如果不是文本數(shù)據(jù):使用KNN
- 如果KNN不工作:使用集成支持向量機(jī)
- 樣本>100k:使用梯度下降法
- 如果梯度下降法不工作:使用kernel approximation
- 如果沒有標(biāo)簽化數(shù)據(jù)且類型的數(shù)量已知:
- 樣本<10k:使用K-means
- 如果K-means不工作:使用層次聚類或GMM
- 向本>10k: 使用MiniBatch Kmeans
- 如果沒有標(biāo)簽化數(shù)據(jù)且類型的數(shù)量未知:
- 樣本<10k:使用MeanShift和VBGMM
- 樣本>10k:靠運(yùn)氣
- 如果預(yù)測(cè)的不是類別,而是連續(xù)數(shù)值:
- 樣本<100k:
- 少量重要特征:使用Lasso和ElasticNet
- 非少量重要特征:使用嶺回歸和SVR
- 如果嶺回歸和SVR不工作罚勾,使用和函數(shù)更復(fù)雜的SVR和集成算法
- 如果預(yù)測(cè)的不是類別毅人、也不是連續(xù)值:
- 使用降維方式
- 如果降維方式不工作:
- 樣本<10k:使用Isomap和spectral Embedding
- 如果Isomap和spectral Embedding不工作:使用LLE
- 樣本>10k:使用kernel approximation