今天過端午節(jié)節(jié)初家,上午做飯,中午孩子不睡评架,脾氣暴躁炕泳,沒看多少東西培遵。潦草應(yīng)付一下登刺。
最近鄰
適用于小型數(shù)據(jù)集嗡呼,是很好的基準(zhǔn)模型,很容易解釋
線性模型
非衬洗埃可靠的首選算法,適用于非常大的數(shù)據(jù)集窒悔,也適用于高維數(shù)據(jù)。
樸素貝葉斯
只適用于分類問題敌买。比線性模型速度還快简珠,適用于非常大的數(shù)據(jù)集和高維數(shù)據(jù)。精度通常要低于線性模型虹钮。
決策樹
速度很快聋庵,不需要數(shù)據(jù)縮放,可以可視化芙粱,很容易解釋祭玉。
隨機森林
幾乎總是比單棵決策樹的表現(xiàn)要好,魯棒性很好春畔,非常強大攘宙。不需要數(shù)據(jù)縮放。不適用于高維稀疏數(shù)據(jù)拐迁。
梯度提升決策樹
精度通常比隨機森林略高。與隨機森林相比疗绣,訓(xùn)練速度更慢线召,但預(yù)測速度更快多矮,需要的內(nèi)存也更少缓淹。比隨機森林需要更多的參數(shù)調(diào)節(jié)。
支持向量機
對于特征含義相似的中等大小的數(shù)據(jù)集很強大塔逃。需要數(shù)據(jù)縮放讯壶,對參數(shù)敏感。
神經(jīng)網(wǎng)絡(luò)
可以構(gòu)建非常復(fù)雜的模型湾盗,特別是對于大型數(shù)據(jù)集而言伏蚊。對數(shù)據(jù)縮放敏感,對參數(shù)選取敏感格粪。大型網(wǎng)絡(luò)需要很長的訓(xùn)練時間躏吊。
面對新數(shù)據(jù)集氛改,通常最好先從簡單模型開始,比如線性模型比伏、樸素貝葉斯或最近鄰分類器胜卤,看能得到什么樣的結(jié)果。對數(shù)據(jù)有了進一步了解之后赁项,你可以考慮用于構(gòu)建更復(fù)雜模型的算法葛躏,比如隨機森林、梯度提升決策樹悠菜、 SVM 或神經(jīng)網(wǎng)絡(luò)舰攒。