scikit-learn系列之特征選擇

特征選擇

在建立一個(gè)機(jī)器學(xué)習(xí)模型時(shí)绩衷,并不是所有所有的數(shù)據(jù)屬性都對(duì)模型有同等的貢獻(xiàn)畜份,因此也不是數(shù)據(jù)屬性越多越好隅很。在建立模型之前寄症,要從眾多的數(shù)據(jù)屬性中選擇對(duì)模型的輸出和結(jié)果預(yù)測(cè)貢獻(xiàn)最大的那些變量序愚,這種對(duì)特征進(jìn)行篩選的過(guò)程叫做“特征選擇”憔披。“特征選擇”具有以下三方面的重要作用:

  1. 減少過(guò)度預(yù)測(cè)(overfit)爸吮,減少噪音變量對(duì)模型的貢獻(xiàn)芬膝。
  2. 增加準(zhǔn)確性,依靠減少無(wú)關(guān)的變量提高模型的預(yù)測(cè)準(zhǔn)確性形娇。
  3. 減少模型訓(xùn)練時(shí)間锰霜,越少的訓(xùn)練數(shù)據(jù),意味著越少的訓(xùn)練時(shí)間桐早。

在scikit-learn中有兩種特征選擇的方法癣缅,一種叫做循環(huán)特征消減(Recursive Feature Elimination)和特征重要性評(píng)級(jí) (feature importance ranking)。

1. 循環(huán)特征消減(Recursive Feature Elimination)

作為一種特征選擇方法哄酝,其工作原理是:循環(huán)地移除變量和建立模型友存,通過(guò)模型的準(zhǔn)確率來(lái)評(píng)估變量對(duì)模型的貢獻(xiàn)。以下代碼使用UCI的Iris數(shù)據(jù)集陶衅,使用sklearn.feature_selection的RFE方法來(lái)實(shí)現(xiàn)該方法屡立。

from sklearn import datasets
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
dataset =datasets.load_iris() # laod iris dataset
model = LogisticRegression() # build logistic regression model
rfe = RFE(model,3) # limit number of variables to three
rfe = rfe.fit(dataset.data,dataset.target)
print(rfe.support_) 
print(rfe.ranking_)

2. 特征重要性評(píng)級(jí) (feature importance ranking)
“組合決策樹算法”(例如Random Forest or Extra Trees)可以計(jì)算每一個(gè)屬性的重要性。重要性的值可以幫助我們選擇出重要的特征搀军。以下代碼使用UCI的Iris數(shù)據(jù)集膨俐,使用sklearn.metrics和sklearn.ensemble 的ExtraTreesClassifier來(lái)實(shí)現(xiàn)該算法。

from sklearn import datasets
from sklearn import metrics
from sklearn.ensemble import ExtraTreesClassifier
dataset =datasets.load_iris() # laod iris dataset
model = ExtraTreesClassifier() # build extra tree model
model.fit(dataset.data,dataset.target)
print(model.feature_importances_) #display importance of each variables

特征選擇方法可以為你提供屬性重要性的信息罩句,利用這些信息焚刺,你可以利用更少而有效的變量來(lái)提高自己模型的準(zhǔn)確性。

知識(shí)點(diǎn):

  1. recursive feature elimination,feature_selection.RFE, ref.fit,ref.support_,ref.ranking_
  2. ExtraTreeClassifier, model.feature_importances_

原文鏈接:Feature Selection in Python with Scikit-Learn

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末门烂,一起剝皮案震驚了整個(gè)濱河市乳愉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌诅福,老刑警劉巖匾委,帶你破解...
    沈念sama閱讀 211,348評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異氓润,居然都是意外死亡赂乐,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門咖气,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)挨措,“玉大人挖滤,你說(shuō)我怎么就攤上這事∏骋郏” “怎么了斩松?”我有些...
    開封第一講書人閱讀 156,936評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)觉既。 經(jīng)常有香客問(wèn)我惧盹,道長(zhǎng),這世上最難降的妖魔是什么瞪讼? 我笑而不...
    開封第一講書人閱讀 56,427評(píng)論 1 283
  • 正文 為了忘掉前任钧椰,我火速辦了婚禮,結(jié)果婚禮上符欠,老公的妹妹穿的比我還像新娘嫡霞。我一直安慰自己,他們只是感情好希柿,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,467評(píng)論 6 385
  • 文/花漫 我一把揭開白布诊沪。 她就那樣靜靜地躺著,像睡著了一般曾撤。 火紅的嫁衣襯著肌膚如雪端姚。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,785評(píng)論 1 290
  • 那天盾戴,我揣著相機(jī)與錄音寄锐,去河邊找鬼。 笑死尖啡,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的剩膘。 我是一名探鬼主播衅斩,決...
    沈念sama閱讀 38,931評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼怠褐!你這毒婦竟也來(lái)了畏梆?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,696評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤奈懒,失蹤者是張志新(化名)和其女友劉穎奠涌,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體磷杏,經(jīng)...
    沈念sama閱讀 44,141評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡溜畅,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,483評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了极祸。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片慈格。...
    茶點(diǎn)故事閱讀 38,625評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡怠晴,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出浴捆,到底是詐尸還是另有隱情蒜田,我是刑警寧澤,帶...
    沈念sama閱讀 34,291評(píng)論 4 329
  • 正文 年R本政府宣布选泻,位于F島的核電站冲粤,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏页眯。R本人自食惡果不足惜色解,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,892評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望餐茵。 院中可真熱鬧科阎,春花似錦、人聲如沸忿族。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)道批。三九已至错英,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間隆豹,已是汗流浹背椭岩。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留璃赡,地道東北人判哥。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像碉考,于是被迫代替她去往敵國(guó)和親塌计。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,492評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 特征選擇 特征選擇(排序)對(duì)于數(shù)據(jù)科學(xué)家侯谁、機(jī)器學(xué)習(xí)從業(yè)者來(lái)說(shuō)非常重要锌仅。好的特征選擇能夠提升模型的性能,更能幫助我們...
    hzyido閱讀 6,575評(píng)論 1 16
  • 結(jié)合Scikit-learn介紹幾種常用的特征選擇方法 作者:Edwin Jarvis 特征選擇(排序)對(duì)于數(shù)據(jù)科...
    阿甘run閱讀 3,257評(píng)論 1 14
  • 0 關(guān)于本文 ? 主要內(nèi)容和結(jié)構(gòu)框架由@jasonfreak--使用sklearn做單機(jī)特征工程提供墙贱,其中夾雜...
    mrlevo520閱讀 21,352評(píng)論 4 61
  • 昨天和今天热芹,兩天的時(shí)間讀完了這本不算厚的法國(guó)現(xiàn)代作家妙莉葉巴·巴貝里的書。 剛開始讀前半部分的時(shí)候覺得寫的平平...
    爬行者木子兮閱讀 358評(píng)論 4 2
  • 今天突然意識(shí)到會(huì)開車的重要性的惨撇,特別是一個(gè)不會(huì)喝酒的人需要開車的重要性伊脓。 現(xiàn)在學(xué)車——如果找到一個(gè)好的...
    忽爾今至閱讀 192評(píng)論 0 0