開始接觸一個機器學(xué)習(xí)的任務(wù)時渣刷,需要簡單的考慮:
1. 樣本數(shù)據(jù)集多大鱼辙?
如果樣本集不大廉嚼,可以考慮用簡單的LR、NB倒戏、KNN來解決怠噪,因為更復(fù)雜的學(xué)習(xí)算法很可能在樣本集上過擬合,反而不如簡單的分類器取得的效果好杜跷。
2. 有多少帶有標(biāo)注的樣本?
目前的深度學(xué)習(xí)類有監(jiān)督學(xué)習(xí)算法對標(biāo)記樣本的依賴比較嚴(yán)重傍念,往往需要大量的相對clean的標(biāo)記樣本。
無監(jiān)督學(xué)習(xí)可以獲取數(shù)據(jù)的分布情況葛闷,但往往無法精確的量化到可以產(chǎn)品實用的程度憋槐。
對于標(biāo)記樣本很少,而未標(biāo)記樣本很多的情況淑趾,可以考慮使用半監(jiān)督學(xué)習(xí)的方法阳仔。
3. 選取什么樣的特征?
對于分類問題扣泊,特征的維度多少會影響分類器的選擇近范,維度過高可能引起維數(shù)災(zāi)難嘶摊,并且減慢訓(xùn)練測試的速度。維度過低可能會減少特征中的有用分類信息评矩,降低檢測準(zhǔn)確率叶堆。
另一個需要考慮的問題是特征的稀疏性,高維的稀疏特征是可以采用一些特殊的分析分類方法(利用稀疏矩陣特性)進(jìn)行解決的斥杜,也可以進(jìn)行降維(PCA蹂空、SVD)而不至于損失太多有效特征。
4. Last but not the least -- 樣本的本身屬性
樣本是圖像果录、音頻或是文本上枕?樣本的特征是否是可量化成數(shù)值的,或是用類別表示的屬性弱恒?如果問題可以用簡單的判斷邏輯解決辨萍,就沒有必要引入機器學(xué)習(xí)。
附上scikit-learn數(shù)據(jù)庫關(guān)于算法模型選擇的流程圖: