特征選擇就是剔除與標(biāo)注不相關(guān)或者冗余的特征饲握,它是數(shù)據(jù)歸約的思路之一(另一個(gè)思路為抽樣)
特征選擇主要包括三種思想:過濾思想、包裹思想和嵌入思想象泵。
編程實(shí)現(xiàn):
第一步抡诞,導(dǎo)入必要的包:
import pandas as pd
import numpy as np
import scipy.stats as ss
from sklearn.svm import SVR? #線性回歸器
from sklearn.tree import DecisionTreeRegressor? #決策樹回歸
from sklearn.feature_selection import SelectKBest,RFE,SelectFromModel
第二步,導(dǎo)入一組DataFrame數(shù)據(jù):
第三步秤朗,特征選擇:
1.過濾思想:去掉相關(guān)性差的特征
2.包裹思想:構(gòu)造簡(jiǎn)單模型煤蹭,用線性回歸器,每次迭代去掉一個(gè)弱特征
3.嵌入思想:利用回歸方法取视,去掉系數(shù)比較小的特征硝皂,這種方法存在一定風(fēng)險(xiǎn),因?yàn)榭赡軐?dǎo)致重要特征被丟棄作谭。
(SelectFromModel()必須要有feature_importances和coef_這兩個(gè)參數(shù)才能用,但當(dāng)數(shù)據(jù)量比較龐大又需要快速的找出特征的時(shí)候稽物,可以用threshold來對(duì)樣本數(shù)據(jù)進(jìn)行簡(jiǎn)單的評(píng)估(threshold表示低于多少會(huì)去掉一個(gè)特征))