1. 目標(biāo)定義
- 任務(wù)理解
- 指標(biāo)確定
2. 數(shù)據(jù)采樣
數(shù)據(jù)是所有模型的基礎(chǔ)霸褒,所以他的質(zhì)量很重要:1. 相關(guān)性 2. 可靠性 3. 有效性
抽樣方式:
- 隨機(jī)抽樣
- 等距抽樣
- 分層抽樣:相同層次的數(shù)據(jù)都具有相同的抽取概率,對(duì)不同層次的數(shù)據(jù)可以設(shè)置不同的抽取概率。
- 分類抽樣:對(duì)數(shù)據(jù)進(jìn)行分類乡括,然后再抽樣
- 從起始順序抽樣
3. 數(shù)據(jù)整理
數(shù)據(jù)在使用之前,我們有必要提高數(shù)據(jù)的質(zhì)量箭阶,它很有可能存在一些outlier 或者default晌端,這些都會(huì)影響數(shù)據(jù)的準(zhǔn)確性。
4. 建模
通過(guò)選擇合適的算法婉陷,對(duì)數(shù)據(jù)進(jìn)行建模分析帚称,從而得到數(shù)據(jù)內(nèi)部的特征和預(yù)測(cè)值。
5. 模型評(píng)價(jià)
在不同的數(shù)據(jù)抽樣得到的數(shù)據(jù)下秽澳,得到的模型可能會(huì)有偏差闯睹,所以有必要對(duì)模型進(jìn)行對(duì)比評(píng)價(jià),從而得到最好的模型担神。同時(shí)楼吃,根據(jù)業(yè)務(wù)進(jìn)行對(duì)模型進(jìn)行運(yùn)用和解釋也是模型評(píng)價(jià)的一個(gè)作用。