一、數(shù)據(jù)檢驗
1 主鍵的唯一性
2 樣本完整性斋陪。樣本能否代表總體翰撑,各變量的分布會不會偏離總體太遠
3 范圍和取值。連續(xù)變量的范圍是否在一定的預(yù)期范圍內(nèi)匠题,分類變量的取值是否在取維表里拯坟。
4 缺失值。了解缺失值的分布韭山,和原因郁季。
5 錯誤值。異常值是指明顯偏離數(shù)據(jù)集的觀測值钱磅,如過大巩踏、 過小、 負值等數(shù)據(jù)续搀。 異常值可能是由二記彔錯誤引起的塞琼,也可能是真實數(shù)據(jù)。 因此要梱驗異常值出現(xiàn)的原因禁舷,幵相應(yīng)的處理異常值彪杉。
二毅往、樣本選擇
1 正負樣本比例懸殊(正樣本遠少于負樣本),直接使用全量數(shù)據(jù)會影響最終的模型規(guī)則派近。一般要通過正樣本過采樣攀唯,負樣本正采樣來解決。
2 海量數(shù)據(jù)建模效率低渴丸,如超過100萬條時侯嘀,每一個建模步驟都耗時較長。一般控制在10-50萬條谱轨,通過分層隨機抽樣戒幔,并控制正負樣本比例。
三土童、數(shù)據(jù)預(yù)處理
1. 離群值/異常值诗茎。A、 將離群值献汗、異常值調(diào)整為距離最近的正常值敢订。例如,如果離群值定義為 3 個標(biāo)準(zhǔn)差以外罢吃,則可用 3 個標(biāo)準(zhǔn)差的最大值戒最小值替換楚午;B、直接剔除離群值或異常值尿招。C矾柜、用空值 NULL 來替代離群值或異常值。
2. 處理缺失值泊业。A把沼、將缺失值調(diào)整為某個固定值啊易。 如均值吁伺、 中間值戒一個指定的常數(shù)。B租谈、將缺失值調(diào)整為一個服從正態(tài)分布的隨機值篮奄。C、若缺失太多且該變量不是很重要割去,且刪除該變量窟却。
3. 構(gòu)建衍生變量。衍生發(fā)量來源二原始數(shù)據(jù)呻逆,有較明確的業(yè)務(wù)涵義夸赫。 比如客戶消費的環(huán)比、累計欠費次數(shù)等咖城。 這些發(fā)量可能表現(xiàn)出比原始發(fā)量更好的預(yù)測力茬腿,更適應(yīng)二建模呼奢。
四、數(shù)據(jù)探索
單個候選變量及變量之間的統(tǒng)計特征(包括均值切平,最值等)及分布握础。統(tǒng)計每個候選預(yù)測變量的分布及其基本描述統(tǒng)計量,對二數(shù)值型變量明確其最大值悴品、最小值禀综、均值、標(biāo)準(zhǔn)差等指標(biāo)苔严,對二分類變量明確各類別的分布定枷。
五、變量選擇
變量選擇的主要目的是尋找對輸出變量預(yù)測有積極貢獻的重要變量邦蜜。 變量的重要性可以從兩個斱面聯(lián)合考察: 第一依鸥,從變量本身考察;第二悼沈,從輸入變量與輸出變量的相關(guān)性考察贱迟。
第一、從變量本身考察:1.數(shù)值型變量:如果數(shù)值型變量的變異系數(shù)或者標(biāo)準(zhǔn)差小二某個標(biāo)準(zhǔn)值絮供,則認為該變量應(yīng)規(guī)為不重要的發(fā)量衣吠;對二分類型變量而言,如果變量中的某個值的占比大二 90%壤靶,則應(yīng)認為該發(fā)量不重要缚俏。
第二、從輸入變量與輸出變量的相關(guān)性角度考察贮乳。
對分類變量來說忧换,有三種方式。
1.卡方統(tǒng)計量向拆。2. 信息值? 3.概率比
假設(shè) x 為分類發(fā)量亚茬,包含 c 種叏值,x1浓恳,……刹缝,xc,y 為 2 分發(fā)量颈将,叏值為 1梢夯,x 不 y 的列聯(lián)表如下:
1. 卡方統(tǒng)計量?
2. 信息值?
信息值參考如下:
卡方和信息值的示例如下:
3. 概率值。如果兩個變量都是二元變量晴圾,即列聯(lián)表的一個特殊情況颂砸,可以通過概率比來梱測其相關(guān)性。
當(dāng)概率值取值為 1,或從上下兩個斱向趨近于1 時,可以判斷分類變量 x 相對于響應(yīng)變量 y 的概率不存在差異人乓,即兩個變量之間不存在相關(guān)性梗醇。
對數(shù)值型變量來說,一方面可以考察輸入變量之間的相關(guān)性撒蟀,相關(guān)性強的變量只保留一個叙谨。一方面可以考察輸入變量和輸出變量的相關(guān)性,保留相關(guān)性強的輸入變量保屯。相關(guān)性指標(biāo)是皮爾遜相關(guān)系數(shù)手负。
六、變量分組
1. 定義:變量分組是指把分類變量中的某些類別合并為一組姑尺,或者把數(shù)值型變量離散化分為多組竟终。
2.原則:組內(nèi)差異最小,組間差異最大切蟋;每個分段有實際意義统捶,如30-50分的分組,比28-54的分組有意義柄粹;分組數(shù)量不宜過少喘鸟,也不宜過多,過少信息丟失驻右,過多信息冗余什黑,建議將數(shù)值型變量分為 4-8 個組。
3.意義:A 堪夭、 提高模型運行效率愕把;提升模型精度(尤其是數(shù)值型,例如敏感度跟費用的關(guān)系是森爽,敏感度先隨著費用的增加和加強恨豁,到某個值后隨著費用的增加而減弱,如果直接用數(shù)值型變量放入模型爬迟,可能會得出敏感度和費用負相關(guān)的結(jié)論橘蜜,而分組后的變量可以精確的描述這種關(guān)系); B雕旨、 變量分組后扮匠,可以以更簡單的斱法來處理數(shù)值型發(fā)量的異常值和異常類別捧请。C凡涩、分組的目的在二使數(shù)據(jù)規(guī)格化,從而可以實現(xiàn)不同量級之間數(shù)據(jù)的比較疹蛉。
4.分類變量的分組方法活箕。當(dāng)分類變量的類別大于 12 個,或者變量內(nèi)各取值的分布差異較大時可款,減低基數(shù)就變得非常重要育韩。
1)變量合并:將相同含義的變量合幵克蚂,這種斱法的優(yōu)點是,基于各類別變量的含義易于解釋和判斷筋讨,但是由于沒有考慮默認的目標(biāo)變量和被合并的類別之間的關(guān)聯(lián)性埃叭,可能導(dǎo)致預(yù)測力降低。
2) 冗余合并:將出現(xiàn)頻率較小的類別合幵為一個新的類別悉罕,并給予一個合適的標(biāo)識赤屋,如“ other”。
3)最優(yōu)分群:另一種分類方法是基于決策樹模型的分裂找到最優(yōu)的分組方案壁袄,通過合并變量的類別使預(yù)測力指標(biāo)(皮爾森卡方統(tǒng)計量类早、 基尼方差、 熵方差嗜逻、 信息值等)最大化涩僻。以含有 12 個取值的分類發(fā)量為例,介紹降低基數(shù)的主要思想栈顷。首先假設(shè)所有類別都屬于一個組逆日;然后,基于使某預(yù)測力指標(biāo)最大的原則找出最優(yōu)的二分割點萄凤,這樣被選中的分組方案中所有備選分組中的預(yù)測力指標(biāo)都能達到最大值屏富;然后在每個子類別中重復(fù)上一步驟,當(dāng)達到最大分組個數(shù)時停止繼續(xù)分割蛙卤。
5. 數(shù)值型變量的分組方法:
1)等距分組:數(shù)值型變量的取值范圍被分為預(yù)先確定數(shù)量的等寬度區(qū)間狠半。
2)最優(yōu)分段:數(shù)值型變量的最優(yōu)分段相當(dāng)于分類發(fā)量的最優(yōu)分群。實際上颤难,最優(yōu)分段和最優(yōu)分群的算法都是基于相同的原理和方法神年。在數(shù)值型發(fā)量的最優(yōu)分段中,先被分為大量的初始寬度相等的段行嗤,比如 100 個已日。 然后將這些段看成是名義變量的類,然后再基于分類變量最優(yōu)分群的算法計算數(shù)值型變量的最優(yōu)分段栅屏。然而飘千,在這種情況下,需要在分組中考慮到分段范圍的取值順序栈雳,以保持分段變量保持在一個連續(xù)刻度上护奈。