當(dāng)做完特征轉(zhuǎn)換后居暖,實(shí)際上可能會(huì)存在很多的特征屬性米诉,比如:多項(xiàng)式擴(kuò)展轉(zhuǎn)換、文本數(shù)據(jù)轉(zhuǎn)換等等游两,但是太多的特征屬性的存在可能會(huì)導(dǎo)致模型構(gòu)建效率降低砾层,同時(shí)模型的效果有可能會(huì)變的不好,那么這個(gè)時(shí)候就需要從這些特征屬性中選擇出影響最大的特征屬性作為最后構(gòu)建模型的特征屬性列表贱案。
在選擇模型的過程中肛炮,通常從兩方面來選擇特征:
1、特征是否發(fā)散:如果一個(gè)特征不發(fā)散宝踪,比如方差接近于0侨糟,也就是說這樣的特征對于樣本的區(qū)分沒有什么作用。
2瘩燥、特征與目標(biāo)的相關(guān)性:如果與目標(biāo)相關(guān)性比較高秕重,應(yīng)當(dāng)優(yōu)先選擇。
特征選擇的方法主要有以下三種:
1厉膀、Filter:過濾法溶耘,按照發(fā)散性或者相關(guān)性對各個(gè)特征進(jìn)行評分,設(shè)定閾值或者待選擇閾值的個(gè)數(shù)服鹅,從而選擇特征凳兵;常用方法包括方差選擇法、相關(guān)系數(shù)法企软、卡方檢驗(yàn)庐扫、互信息法等。
2仗哨、Wrapper:包裝法形庭,根據(jù)目標(biāo)函數(shù)(通常是預(yù)測效果評分),每次選擇若干特征或者排除若干特征藻治;常用方法主要是遞歸特征消除法碘勉。
舉例: 根據(jù)x1、x2桩卵、x3特征分別訓(xùn)練一個(gè)模型S11~S13验靡,測評分倍宾。對比評分,找到模型評分高的特征胜嗓。若x3效果最好高职,下一輪用x3、x1 和 x3辞州、x2訓(xùn)練模型S21~S22怔锌,測評分,若S22評分高变过,對比S22和S13埃元,若S13比S22評分好,則停止迭代媚狰,最佳特征組合是x3岛杀。若S22評分大于S13,再比較 x2,x3 和 x1,x2,x3的評分崭孤。
3类嗤、Embedded:嵌入法,先使用某些機(jī)器學(xué)習(xí)的算法和模型辨宠。
方差選擇法
方差選擇法:先計(jì)算各個(gè)特征屬性的方差值遗锣,然后根據(jù)閾值,獲取方差大于閾值的特征嗤形。
threshold = 0 表示設(shè)置方差的閾值為0精偿;
方差為0,幾乎等于是選擇了所有特征派殷。因?yàn)橐唤M特征还最,若干方差等于0表示數(shù)據(jù)完全相等,一般不太會(huì)有這種數(shù)據(jù)毡惜。
相關(guān)系數(shù)法
相關(guān)系數(shù)法:先計(jì)算各個(gè)特征屬性對于目標(biāo)值的相關(guān)系數(shù)以及閾值K拓轻,然后獲取K個(gè)相關(guān)系數(shù)最大的特征屬性。(備注:根據(jù)目標(biāo)屬性y的類別選擇不同的方式)
卡方檢驗(yàn)
卡方檢驗(yàn):檢查定性自變量對定性因變量的相關(guān)性经伙。
K方值越大扶叉,說明兩個(gè)特征之間的關(guān)聯(lián)性越大。
遞歸特征消除法
遞歸特征消除法:使用一個(gè)基模型來進(jìn)行多輪訓(xùn)練帕膜,每輪訓(xùn)練后枣氧,消除若干權(quán)值系數(shù)的特征,再基于新的特征集進(jìn)行下一輪訓(xùn)練垮刹。
舉例: 根據(jù)x1达吞、x2、x3特征分別訓(xùn)練一個(gè)模型S11~S13荒典,測評分酪劫。對比評分吞鸭,找到模型評分高的特征。若x3效果最好覆糟,下一輪用x3刻剥、x1 和 x3、x2訓(xùn)練模型S21~S22滩字,測評分造虏,若S22評分高,對比S22和S13麦箍,若S13比S22評分好漓藕,則停止迭代,最佳特征組合是x3内列。若S22評分大于S13撵术,再比較 x2,x3 和 x1,x2,x3的評分背率。
基于懲罰項(xiàng)的特征選擇法
在使用懲罰項(xiàng)的基模型话瞧,除了可以篩選出特征外,同時(shí)還可以進(jìn)行降維操作寝姿。
基于樹模型的特征選擇法
樹模型中GBDT在構(gòu)建的過程會(huì)對特征屬性進(jìn)行權(quán)重的給定交排,所以GBDT也可以應(yīng)用在基模型中進(jìn)行特征選擇。