-
什么是特征選擇
特征工程(Feature Selection),也叫做特征子集選擇(Feature Subset Selection, FSS)喧伞, 或者叫做屬性選擇(Attribute Selection)痹筛。是指從全部的數(shù)據(jù)特征中選取合適的特征晕城,從而確保模型變得更好。
-
為什么要做特征選擇
特征數(shù)量越多模型就越好嗎患整?
不是眯停,特征越多,意味這模型的計(jì)算維度越大卿泽,模型也會(huì)更復(fù)雜莺债,從而訓(xùn)練模型的時(shí)間就會(huì)越長(zhǎng)。這叫做“維度災(zāi)難”签夭。
特征選擇的意義便是齐邦,剔除掉一些不相關(guān)的特征,剔除掉一些重復(fù)的特征第租,在保證特征有效性的同時(shí)減少特征數(shù)量措拇,從而提高模型精確度,減少模型復(fù)雜度慎宾,減少模型訓(xùn)練時(shí)間丐吓。另外,對(duì)模型做篩選會(huì)幫助模型變得更有可解釋性和邏輯性趟据。這一點(diǎn)上篇也有講到券犁。
-
特征選擇的基本原則
特征與我們的目標(biāo)是否具備發(fā)散性、相關(guān)性汹碱,我們要對(duì)相關(guān)性強(qiáng)的特征進(jìn)行優(yōu)先選擇粘衬。
-
特征選擇常用的四種方法
- 方差選擇法
先計(jì)算各個(gè)特征的方差,根據(jù)閾值咳促,選擇方差大于閾值的特征稚新。這個(gè)我想了很久,方差大的發(fā)散性就好跪腹,就適合做特征變量褂删,方差低于閾值的,發(fā)散性就差尺迂,就不適合做特征變量笤妙。大白話就是計(jì)算每個(gè)特征的方差。
from sklearn.feature_selection import VarianceThreshold
varianceThreshold = VarianceThreshold(threshold =1)
varianceThreshold.fit_transform([['累計(jì)票房','豆瓣評(píng)分']])
varianceThreshold.get_support()
輸出哪些變量可以作為可用的特征噪裕,哪些不可以蹲盘。
當(dāng)閾值為1時(shí),我們發(fā)現(xiàn)兩個(gè)特征都可以作為特征的膳音。
當(dāng)閾值為3時(shí)召衔,我們發(fā)現(xiàn)兩個(gè)特征只有一個(gè)可以作為有效特征。
不過這個(gè)方法可能在互聯(lián)網(wǎng)行業(yè)適用祭陷,在有些精密領(lǐng)域苍凛,也許方差的大小很難確認(rèn)趣席,還是需要行業(yè)經(jīng)驗(yàn)輔助。
- 相關(guān)系數(shù)法
計(jì)算各個(gè)特征值和目標(biāo)值的相關(guān)系數(shù)醇蝴,選取相關(guān)性強(qiáng)的特征宣肚。
from sklearn.feature_selection import SelectKBest
from skleasrn.feature_selection import f_regression
selectKBest = SelectKBest(f_regression, k=2)
feature=data[['月份','季度','廣告費(fèi)用','客流量']]
bestFeature = selectKBest.fit_transform(feature, data[['銷售額']])
selectKBest.get_support()
- 遞歸特征消除法
使用一個(gè)基模型來進(jìn)行多輪訓(xùn)練,訓(xùn)練多輪訓(xùn)練后悠栓,保留指定的特征數(shù)霉涨。
遞歸特征前提時(shí)選擇一種模型,例如SVM或者邏輯回歸惭适,然后選擇一定數(shù)目的特征笙瑟,進(jìn)行模型評(píng)估,接下來對(duì)審改的特征重復(fù)上述動(dòng)作癞志,知道所有特征都遍歷往枷。最后,選擇出模型效果最好的特征凄杯。
遞歸特征消除法屬于一種貪心算法错洁。
優(yōu)點(diǎn)在于想法很好,缺點(diǎn)是當(dāng)數(shù)據(jù)量很大時(shí)盾舌,這種貪心算法會(huì)導(dǎo)致計(jì)算很慢墓臭。
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression
feature=data[['月份','季度','廣告費(fèi)用','客流量']]
rfe = RFE(estimator = LinearRegression(), n_features_to_select=2)
sFeature=rfe.fit_transform(feature, data[['銷售額']])
rfe.get_support()
- 模型選擇法
把我們建好的模型對(duì)象傳入選擇器,然后會(huì)根據(jù)建好的模型妖谴,自動(dòng)幫我們選擇最好的特征值窿锉。該方法自動(dòng)選擇最佳的特征,特征數(shù)不需要我們定膝舅。
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LinearRegression
IrModel = LinearRegression()
selectFromModel = SelectFromModel(IrModel)
selectFromModel.fit_transform(feature, data[['銷售額']])
feature.columns[selectFromModel.get_support()]