特征工程(二)特征選擇及python實(shí)現(xiàn)

  • 什么是特征選擇

特征工程(Feature Selection),也叫做特征子集選擇(Feature Subset Selection, FSS)喧伞, 或者叫做屬性選擇(Attribute Selection)痹筛。是指從全部的數(shù)據(jù)特征中選取合適的特征晕城,從而確保模型變得更好。

  • 為什么要做特征選擇

特征數(shù)量越多模型就越好嗎患整?
不是眯停,特征越多,意味這模型的計(jì)算維度越大卿泽,模型也會(huì)更復(fù)雜莺债,從而訓(xùn)練模型的時(shí)間就會(huì)越長(zhǎng)。這叫做“維度災(zāi)難”签夭。


特征選擇的意義便是齐邦,剔除掉一些不相關(guān)的特征,剔除掉一些重復(fù)的特征第租,在保證特征有效性的同時(shí)減少特征數(shù)量措拇,從而提高模型精確度,減少模型復(fù)雜度慎宾,減少模型訓(xùn)練時(shí)間丐吓。另外,對(duì)模型做篩選會(huì)幫助模型變得更有可解釋性和邏輯性趟据。這一點(diǎn)上篇也有講到券犁。

  • 特征選擇的基本原則

特征與我們的目標(biāo)是否具備發(fā)散性、相關(guān)性汹碱,我們要對(duì)相關(guān)性強(qiáng)的特征進(jìn)行優(yōu)先選擇粘衬。

  • 特征選擇常用的四種方法

  1. 方差選擇法
    先計(jì)算各個(gè)特征的方差,根據(jù)閾值咳促,選擇方差大于閾值的特征稚新。這個(gè)我想了很久,方差大的發(fā)散性就好跪腹,就適合做特征變量褂删,方差低于閾值的,發(fā)散性就差尺迂,就不適合做特征變量笤妙。大白話就是計(jì)算每個(gè)特征的方差。
from sklearn.feature_selection import VarianceThreshold
varianceThreshold = VarianceThreshold(threshold =1)
varianceThreshold.fit_transform([['累計(jì)票房','豆瓣評(píng)分']])
varianceThreshold.get_support()

輸出哪些變量可以作為可用的特征噪裕,哪些不可以蹲盘。
當(dāng)閾值為1時(shí),我們發(fā)現(xiàn)兩個(gè)特征都可以作為特征的膳音。



當(dāng)閾值為3時(shí)召衔,我們發(fā)現(xiàn)兩個(gè)特征只有一個(gè)可以作為有效特征。


不過這個(gè)方法可能在互聯(lián)網(wǎng)行業(yè)適用祭陷,在有些精密領(lǐng)域苍凛,也許方差的大小很難確認(rèn)趣席,還是需要行業(yè)經(jīng)驗(yàn)輔助。

  1. 相關(guān)系數(shù)法
    計(jì)算各個(gè)特征值和目標(biāo)值的相關(guān)系數(shù)醇蝴,選取相關(guān)性強(qiáng)的特征宣肚。
from sklearn.feature_selection import SelectKBest
from skleasrn.feature_selection import f_regression
selectKBest = SelectKBest(f_regression, k=2)
feature=data[['月份','季度','廣告費(fèi)用','客流量']]
bestFeature = selectKBest.fit_transform(feature, data[['銷售額']])
selectKBest.get_support()
  1. 遞歸特征消除法
    使用一個(gè)基模型來進(jìn)行多輪訓(xùn)練,訓(xùn)練多輪訓(xùn)練后悠栓,保留指定的特征數(shù)霉涨。
    遞歸特征前提時(shí)選擇一種模型,例如SVM或者邏輯回歸惭适,然后選擇一定數(shù)目的特征笙瑟,進(jìn)行模型評(píng)估,接下來對(duì)審改的特征重復(fù)上述動(dòng)作癞志,知道所有特征都遍歷往枷。最后,選擇出模型效果最好的特征凄杯。
    遞歸特征消除法屬于一種貪心算法错洁。
    優(yōu)點(diǎn)在于想法很好,缺點(diǎn)是當(dāng)數(shù)據(jù)量很大時(shí)盾舌,這種貪心算法會(huì)導(dǎo)致計(jì)算很慢墓臭。
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression
feature=data[['月份','季度','廣告費(fèi)用','客流量']]
rfe = RFE(estimator = LinearRegression(), n_features_to_select=2)
sFeature=rfe.fit_transform(feature, data[['銷售額']])
rfe.get_support()
  1. 模型選擇法
    把我們建好的模型對(duì)象傳入選擇器,然后會(huì)根據(jù)建好的模型妖谴,自動(dòng)幫我們選擇最好的特征值窿锉。該方法自動(dòng)選擇最佳的特征,特征數(shù)不需要我們定膝舅。
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LinearRegression
IrModel = LinearRegression()
selectFromModel = SelectFromModel(IrModel)
selectFromModel.fit_transform(feature, data[['銷售額']])
feature.columns[selectFromModel.get_support()]
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末嗡载,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子仍稀,更是在濱河造成了極大的恐慌洼滚,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,406評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件技潘,死亡現(xiàn)場(chǎng)離奇詭異遥巴,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)享幽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,395評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門铲掐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人值桩,你說我怎么就攤上這事摆霉。” “怎么了?”我有些...
    開封第一講書人閱讀 167,815評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵携栋,是天一觀的道長(zhǎng)搭盾。 經(jīng)常有香客問我,道長(zhǎng)婉支,這世上最難降的妖魔是什么鸯隅? 我笑而不...
    開封第一講書人閱讀 59,537評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮向挖,結(jié)果婚禮上滋迈,老公的妹妹穿的比我還像新娘。我一直安慰自己户誓,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,536評(píng)論 6 397
  • 文/花漫 我一把揭開白布幕侠。 她就那樣靜靜地躺著帝美,像睡著了一般。 火紅的嫁衣襯著肌膚如雪晤硕。 梳的紋絲不亂的頭發(fā)上悼潭,一...
    開封第一講書人閱讀 52,184評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音舞箍,去河邊找鬼舰褪。 笑死,一個(gè)胖子當(dāng)著我的面吹牛疏橄,可吹牛的內(nèi)容都是我干的占拍。 我是一名探鬼主播,決...
    沈念sama閱讀 40,776評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼捎迫,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼晃酒!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起窄绒,我...
    開封第一講書人閱讀 39,668評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤贝次,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后彰导,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蛔翅,經(jīng)...
    沈念sama閱讀 46,212評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,299評(píng)論 3 340
  • 正文 我和宋清朗相戀三年位谋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了山析。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,438評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡倔幼,死狀恐怖盖腿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤翩腐,帶...
    沈念sama閱讀 36,128評(píng)論 5 349
  • 正文 年R本政府宣布鸟款,位于F島的核電站,受9級(jí)特大地震影響茂卦,放射性物質(zhì)發(fā)生泄漏何什。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,807評(píng)論 3 333
  • 文/蒙蒙 一等龙、第九天 我趴在偏房一處隱蔽的房頂上張望处渣。 院中可真熱鬧,春花似錦蛛砰、人聲如沸罐栈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,279評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)荠诬。三九已至,卻和暖如春位仁,著一層夾襖步出監(jiān)牢的瞬間柑贞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,395評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工聂抢, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钧嘶,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,827評(píng)論 3 376
  • 正文 我出身青樓琳疏,卻偏偏與公主長(zhǎng)得像有决,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子轿亮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,446評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 0 關(guān)于本文 ? 主要內(nèi)容和結(jié)構(gòu)框架由@jasonfreak--使用sklearn做單機(jī)特征工程提供疮薇,其中夾雜...
    mrlevo520閱讀 21,413評(píng)論 4 61
  • #本文參加“青春”大賽按咒,本人保證本文為本人原創(chuàng),如有問題則與主辦方無關(guān)但骨,自愿放棄評(píng)優(yōu)評(píng)獎(jiǎng)資格励七。# 耳,沒有喧鬧...
    別_78ca閱讀 292評(píng)論 0 3
  • 對(duì)于假期來說奔缠,似乎沒有嫌棄過太長(zhǎng)的掠抬。兩個(gè)月的暑假過的也是呵呵的。以前通常會(huì)因?yàn)榧倨谟囝~不足的時(shí)候開始焦慮校哎,開始反省...
    小哨子的基地閱讀 405評(píng)論 0 0
  • 回到家两波,小外甥的一句話瞳步,整的這倆小哥又是臉紅脖子粗云茸,你倆的脾氣真得改改了现柠,都是一年級(jí)的學(xué)生了,還這么沖動(dòng)蛀柴,...
    風(fēng)中的玫瑰花閱讀 225評(píng)論 0 3