特征工程（二）特征選擇及python實(shí)現(xiàn)

什么是特征選擇

特征工程(Feature Selection)，也叫做特征子集選擇(Feature Subset Selection, FSS)喧伞，或者叫做屬性選擇(Attribute Selection)痹筛。是指從全部的數(shù)據(jù)特征中選取合適的特征晕城，從而確保模型變得更好。

為什么要做特征選擇

特征數(shù)量越多模型就越好嗎患整？
不是眯停，特征越多，意味這模型的計(jì)算維度越大卿泽，模型也會(huì)更復(fù)雜莺债，從而訓(xùn)練模型的時(shí)間就會(huì)越長(zhǎng)。這叫做“維度災(zāi)難”签夭。

特征選擇的意義便是齐邦，剔除掉一些不相關(guān)的特征，剔除掉一些重復(fù)的特征第租，在保證特征有效性的同時(shí)減少特征數(shù)量措拇，從而提高模型精確度，減少模型復(fù)雜度慎宾，減少模型訓(xùn)練時(shí)間丐吓。另外，對(duì)模型做篩選會(huì)幫助模型變得更有可解釋性和邏輯性趟据。這一點(diǎn)上篇也有講到券犁。

特征選擇的基本原則

特征與我們的目標(biāo)是否具備發(fā)散性、相關(guān)性汹碱，我們要對(duì)相關(guān)性強(qiáng)的特征進(jìn)行優(yōu)先選擇粘衬。

特征選擇常用的四種方法

方差選擇法
先計(jì)算各個(gè)特征的方差，根據(jù)閾值咳促，選擇方差大于閾值的特征稚新。這個(gè)我想了很久，方差大的發(fā)散性就好跪腹，就適合做特征變量褂删，方差低于閾值的，發(fā)散性就差尺迂，就不適合做特征變量笤妙。大白話就是計(jì)算每個(gè)特征的方差。

from sklearn.feature_selection import VarianceThreshold
varianceThreshold = VarianceThreshold(threshold =1)
varianceThreshold.fit_transform([['累計(jì)票房','豆瓣評(píng)分']])
varianceThreshold.get_support()

輸出哪些變量可以作為可用的特征噪裕，哪些不可以蹲盘。
當(dāng)閾值為1時(shí)，我們發(fā)現(xiàn)兩個(gè)特征都可以作為特征的膳音。

當(dāng)閾值為3時(shí)召衔，我們發(fā)現(xiàn)兩個(gè)特征只有一個(gè)可以作為有效特征。

不過這個(gè)方法可能在互聯(lián)網(wǎng)行業(yè)適用祭陷，在有些精密領(lǐng)域苍凛，也許方差的大小很難確認(rèn)趣席，還是需要行業(yè)經(jīng)驗(yàn)輔助。

相關(guān)系數(shù)法
計(jì)算各個(gè)特征值和目標(biāo)值的相關(guān)系數(shù)醇蝴，選取相關(guān)性強(qiáng)的特征宣肚。

from sklearn.feature_selection import SelectKBest
from skleasrn.feature_selection import f_regression
selectKBest = SelectKBest(f_regression, k=2)
feature=data[['月份','季度','廣告費(fèi)用','客流量']]
bestFeature = selectKBest.fit_transform(feature, data[['銷售額']])
selectKBest.get_support()

遞歸特征消除法
使用一個(gè)基模型來進(jìn)行多輪訓(xùn)練，訓(xùn)練多輪訓(xùn)練后悠栓，保留指定的特征數(shù)霉涨。
遞歸特征前提時(shí)選擇一種模型，例如SVM或者邏輯回歸惭适，然后選擇一定數(shù)目的特征笙瑟，進(jìn)行模型評(píng)估，接下來對(duì)審改的特征重復(fù)上述動(dòng)作癞志，知道所有特征都遍歷往枷。最后，選擇出模型效果最好的特征凄杯。
遞歸特征消除法屬于一種貪心算法错洁。
優(yōu)點(diǎn)在于想法很好，缺點(diǎn)是當(dāng)數(shù)據(jù)量很大時(shí)盾舌，這種貪心算法會(huì)導(dǎo)致計(jì)算很慢墓臭。

from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression
feature=data[['月份','季度','廣告費(fèi)用','客流量']]
rfe = RFE(estimator = LinearRegression(), n_features_to_select=2)
sFeature=rfe.fit_transform(feature, data[['銷售額']])
rfe.get_support()

模型選擇法
把我們建好的模型對(duì)象傳入選擇器，然后會(huì)根據(jù)建好的模型妖谴，自動(dòng)幫我們選擇最好的特征值窿锉。該方法自動(dòng)選擇最佳的特征，特征數(shù)不需要我們定膝舅。

from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LinearRegression
IrModel = LinearRegression()
selectFromModel = SelectFromModel(IrModel)
selectFromModel.fit_transform(feature, data[['銷售額']])
feature.columns[selectFromModel.get_support()]

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末嗡载，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子仍稀，更是在濱河造成了極大的恐慌洼滚，老刑警劉巖，帶你破解...
沈念sama閱讀 221,406評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件技潘，死亡現(xiàn)場(chǎng)離奇詭異遥巴，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)享幽，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,395評(píng)論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門铲掐，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人值桩，你說我怎么就攤上這事摆霉。” “怎么了？”我有些...
開封第一講書人閱讀 167,815評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵携栋，是天一觀的道長(zhǎng)搭盾。經(jīng)常有香客問我，道長(zhǎng)婉支，這世上最難降的妖魔是什么鸯隅？我笑而不...
開封第一講書人閱讀 59,537評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮向挖，結(jié)果婚禮上滋迈，老公的妹妹穿的比我還像新娘。我一直安慰自己户誓，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,536評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布幕侠。她就那樣靜靜地躺著帝美，像睡著了一般。火紅的嫁衣襯著肌膚如雪晤硕。梳的紋絲不亂的頭發(fā)上悼潭，一...
開封第一講書人閱讀 52,184評(píng)論 1贊 308
城市分裂傳說
那天，我揣著相機(jī)與錄音舞箍，去河邊找鬼舰褪。笑死，一個(gè)胖子當(dāng)著我的面吹牛疏橄，可吹牛的內(nèi)容都是我干的占拍。我是一名探鬼主播，決...
沈念sama閱讀 40,776評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼捎迫，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼晃酒！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起窄绒，我...
開封第一講書人閱讀 39,668評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤贝次，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后彰导，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蛔翅，經(jīng)...
沈念sama閱讀 46,212評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,299評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年位谋，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了山析。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,438評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡倔幼，死狀恐怖盖腿，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤翩腐，帶...
沈念sama閱讀 36,128評(píng)論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布鸟款，位于F島的核電站，受9級(jí)特大地震影響茂卦，放射性物質(zhì)發(fā)生泄漏何什。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,807評(píng)論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一等龙、第九天我趴在偏房一處隱蔽的房頂上張望处渣。院中可真熱鬧，春花似錦蛛砰、人聲如沸罐栈。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,279評(píng)論 0贊 24
一樁弒父案泥畅，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)荠诬。三九已至，卻和暖如春位仁，著一層夾襖步出監(jiān)牢的瞬間柑贞，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,395評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工聂抢，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钧嘶，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,827評(píng)論 3贊 376
代替公主和親
正文我出身青樓琳疏，卻偏偏與公主長(zhǎng)得像有决，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子轿亮，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,446評(píng)論 2贊 359

特征工程（二）特征選擇及python實(shí)現(xiàn)

什么是特征選擇

為什么要做特征選擇

特征選擇的基本原則

特征選擇常用的四種方法

推薦閱讀更多精彩內(nèi)容