完整機(jī)器學(xué)習(xí)項(xiàng)目的流程
1 抽象成數(shù)學(xué)問題
明確問題是進(jìn)行機(jī)器學(xué)習(xí)的第一步蜡励。機(jī)器學(xué)習(xí)的訓(xùn)練過程通常都是一件非常耗時的事情,胡亂嘗試時間成本是非常高的。
這里的抽象成數(shù)學(xué)問題凉倚,指的我們明確我們可以獲得什么樣的數(shù)據(jù)兼都,目標(biāo)是一個分類還是回歸或者是聚類的問題,如果都不是的話稽寒,如果劃歸為其中的某類問題扮碧。
2 獲取數(shù)據(jù)
數(shù)據(jù)決定了機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能逼近這個上限杏糙。
數(shù)據(jù)要有代表性慎王,否則必然會過擬合。
而且對于分類問題宏侍,數(shù)據(jù)偏斜不能過于嚴(yán)重赖淤,不同類別的數(shù)據(jù)數(shù)量不要有數(shù)個數(shù)量級的差距。
而且還要對數(shù)據(jù)的量級有一個評估负芋,多少個樣本漫蛔,多少個特征,可以估算出其對內(nèi)存的消耗程度旧蛾,判斷訓(xùn)練過程中內(nèi)存是否能夠放得下莽龟。如果放不下就得考慮改進(jìn)算法或者使用一些降維的技巧了。如果數(shù)據(jù)量實(shí)在太大锨天,那就要考慮分布式了毯盈。
3 特征預(yù)處理與特征選擇
良好的數(shù)據(jù)要能夠提取出良好的特征才能真正發(fā)揮效力。
特征預(yù)處理病袄、數(shù)據(jù)清洗是很關(guān)鍵的步驟搂赋,往往能夠使得算法的效果和性能得到顯著提高。歸一化益缠、離散化脑奠、因子化、缺失值處理幅慌、去除共線性等宋欺,數(shù)據(jù)挖掘過程中很多時間就花在它們上面。這些工作簡單可復(fù)制胰伍,收益穩(wěn)定可預(yù)期齿诞,是機(jī)器學(xué)習(xí)的基礎(chǔ)必備步驟。
篩選出顯著特征骂租、摒棄非顯著特征祷杈,需要機(jī)器學(xué)習(xí)工程師反復(fù)理解業(yè)務(wù)。這對很多結(jié)果有決定性的影響渗饮。特征選擇好了但汞,非常簡單的算法也能得出良好宿刮、穩(wěn)定的結(jié)果。這需要運(yùn)用特征有效性分析的相關(guān)技術(shù)特占,如相關(guān)系數(shù)糙置、卡方檢驗(yàn)、平均互信息是目、條件熵谤饭、后驗(yàn)概率、邏輯回歸權(quán)重等方法懊纳。
4 訓(xùn)練模型與調(diào)優(yōu)
直到這一步才用到我們上面說的算法進(jìn)行訓(xùn)練∪嗟郑現(xiàn)在很多算法都能夠封裝成黑盒供人使用。但是真正考驗(yàn)水平的是調(diào)整這些算法的(超)參數(shù)嗤疯,使得結(jié)果變得更加優(yōu)良冤今。這需要我們對算法的原理有深入的理解。理解越深入茂缚,就越能發(fā)現(xiàn)問題的癥結(jié)戏罢,提出良好的調(diào)優(yōu)方案。
5 模型診斷
如何確定模型調(diào)優(yōu)的方向與思路呢脚囊?這就需要對模型進(jìn)行診斷的技術(shù)龟糕。
過擬合、欠擬合 判斷是模型診斷中至關(guān)重要的一步悔耘。常見的方法如交叉驗(yàn)證讲岁,繪制學(xué)習(xí)曲線等。過擬合的基本調(diào)優(yōu)思路是增加數(shù)據(jù)量衬以,降低模型復(fù)雜度缓艳。欠擬合的基本調(diào)優(yōu)思路是提高特征數(shù)量和質(zhì)量,增加模型復(fù)雜度看峻。
誤差分析 也是機(jī)器學(xué)習(xí)至關(guān)重要的步驟阶淘。通過觀察誤差樣本,全面分析誤差產(chǎn)生誤差的原因:是參數(shù)的問題還是算法選擇的問題互妓,是特征的問題還是數(shù)據(jù)本身的問題……
診斷后的模型需要進(jìn)行調(diào)優(yōu)舶治,調(diào)優(yōu)后的新模型需要重新進(jìn)行診斷,這是一個反復(fù)迭代不斷逼近的過程车猬,需要不斷地嘗試, 進(jìn)而達(dá)到最優(yōu)狀態(tài)尺锚。
6 模型融合
一般來說珠闰,模型融合后都能使得效果有一定提升。而且效果很好瘫辩。
工程上伏嗜,主要提升算法準(zhǔn)確度的方法是分別在模型的前端(特征清洗和預(yù)處理坛悉,不同的采樣模式)與后端(模型融合)上下功夫。因?yàn)樗麄儽容^標(biāo)準(zhǔn)可復(fù)制承绸,效果比較穩(wěn)定裸影。而直接調(diào)參的工作不會很多,畢竟大量數(shù)據(jù)訓(xùn)練起來太慢了军熏,而且效果難以保證轩猩。
7 上線運(yùn)行
這一部分內(nèi)容主要跟工程實(shí)現(xiàn)的相關(guān)性比較大。工程上是結(jié)果導(dǎo)向荡澎,模型在線上運(yùn)行的效果直接決定模型的成敗均践。 不單純包括其準(zhǔn)確程度、誤差等情況摩幔,還包括其運(yùn)行的速度(時間復(fù)雜度)彤委、資源消耗程度(空間復(fù)雜度)、穩(wěn)定性是否可接受或衡。
這些工作流程主要是工程實(shí)踐上總結(jié)出的一些經(jīng)驗(yàn)焦影。并不是每個項(xiàng)目都包含完整的一個流程。這里的部分只是一個指導(dǎo)性的說明封断,只有大家自己多實(shí)踐斯辰,多積累項(xiàng)目經(jīng)驗(yàn),才會有自己更深刻的認(rèn)識澄港。
摘自七月在線