我所講授的數(shù)據(jù)科學(xué)課程涵蓋了該領(lǐng)域大部分內(nèi)容览妖,但尤其關(guān)注機(jī)器學(xué)習(xí)(machinelearning)慨丐。除了講授模型的評估過程和度量方法以外诫肠,很明顯菩貌,我們還講算法本身卢佣,主要是監(jiān)督式學(xué)習(xí)(supervisedlearning)算法。
在為期11周的課程接近尾聲的時候箭阶,我們花了幾個小時檢查所用的課程資料虚茶。我們希望學(xué)生能夠逐漸理解他們所學(xué)的東西。要掌握的技能之一就是在解決機(jī)器學(xué)習(xí)的問題時仇参,有能力在不同的監(jiān)督式學(xué)習(xí)算法中做出明智的選擇嘹叫。雖然使用“蠻力”(把每種情況都試一遍,看看哪種最好)的方法有其價(jià)值所在诈乒,但比這價(jià)值大得多的是能夠在不同算法之間做出權(quán)衡利弊的選擇罩扇。
我決定為學(xué)生們組織一場比賽。我給他們一張空白的表格,列出所講的監(jiān)督式學(xué)習(xí)算法喂饥,讓學(xué)生從幾個不同維度對這些算法進(jìn)行比較消约。我在網(wǎng)上找到了這樣的表格,自己先弄一張?jiān)僬f员帮!下面就是或粮,一起看看:
上圖為表格部分截圖,中文版下載請點(diǎn)擊這里捞高。
貢獻(xiàn)出這張表格氯材,有兩個原因:
其一,它可以用來講課或者學(xué)習(xí)(下載下來拿去用吧)硝岗。
其二浓体,這張表格需要完善,人多力量大辈讶!
這張表格是集鄙人經(jīng)驗(yàn)與研究的產(chǎn)物,在任何這些算法的領(lǐng)域娄猫,我都稱不上是專家贱除。如果你有能夠改進(jìn)表格的建議,給我留言喲媳溺!
是否在我的這些評估中存在誤導(dǎo)或錯誤月幌?(當(dāng)然啦,有些比較維度本身就帶有主觀性悬蔽。)
是否存在應(yīng)該添加到表格中的其他“重要的”對比維度扯躺?
是否還有其他你希望加入到這張表格的算法?(目前蝎困,表格中只有我所講授的算法录语。)
我意識到每種算法的特征及相應(yīng)的評價(jià)都可以基于數(shù)據(jù)的具體情況(以及數(shù)據(jù)的調(diào)優(yōu)程度)發(fā)生變化。因此有人會認(rèn)為試圖做“客觀”的比較是欠考慮的禾乘。然而澎埠,我認(rèn)為作為監(jiān)督式學(xué)習(xí)算法入門的一般性參考,這張表仍然有其價(jià)值所在始藕。
Duang~Duang~Duang~蒲稳!
學(xué)習(xí)資源
ChoosingaMachineLearningClassifier:EdwinChen所做的概述,短小易懂伍派,可讀性強(qiáng)江耀。
scikit-learn的“機(jī)器學(xué)習(xí)導(dǎo)圖”:選擇“正確”的估計(jì)器(estimator)。
MachineLearningDoneWrong:深思熟慮的建議诉植,避免在機(jī)器學(xué)習(xí)中掉進(jìn)常見的坑祥国,有些建議涉及算法的選擇。
PracticalmachinelearningtricksfromtheKDD2011bestindustrypaper:較上一項(xiàng)更高級的建議倍踪。
AnEmpiricalComparisonofSupervisedLearningAlgorithms:發(fā)表于2006年的研究論文系宫。