特征選擇

學(xué)習(xí)自 Feat_select(corr,rfe,rfecv,PCA)Seaborn,RandForest

概述

特征選擇之前要先觀察特征和label之間、特征與特征之間的相關(guān)性汇跨,sklearn中也封裝有特征選擇的包供使用己单,但是使用時(shí)仍然有一些需要注意的事項(xiàng)长踊。

步驟

觀察數(shù)據(jù)

  1. 確定label棚潦,找到不太適合做特征的列儡率,如ID類和缺失值較多(15%)的列
  2. 大致觀察數(shù)據(jù)的分布,可直接在dataframe上調(diào)用describe()
  3. 對(duì)數(shù)據(jù)歸一化胖喳,為了特征選擇時(shí)方便觀察和對(duì)比
  4. 做出每一列的值與label的關(guān)系圖泡躯,可以用sns.violinplot(),可以觀察得到相關(guān)性較高的特征(變化趨勢(shì)相同)和label區(qū)分度較高的特征(不同label分布不同)



    或者用sns.swarmplot()丽焊,可以更加直觀的觀察


  5. 可以用sns.jointplot()比較兩兩特征的相關(guān)性较剃,相關(guān)性高的(如高于80%)只留一個(gè),構(gòu)建多個(gè)特征的相關(guān)性矩陣會(huì)更直觀技健。


特征選擇

有多種選擇方法

  1. 利用相關(guān)性
    特征間相關(guān)性較高的只保留其一

  2. 單一特征選擇
    比較特征與label之間的相關(guān)性重付,選擇最高的topk個(gè),可調(diào)用sklearn中的SelectKBest方法

  3. 遞歸縮減特征
    利用分類方法凫乖,會(huì)給每個(gè)特征指定一個(gè)權(quán)值,誰的權(quán)值絕對(duì)值最小弓颈,就將那個(gè)特征剔除帽芽,這樣遞歸直到縮減到設(shè)定的特征數(shù)∠杓剑可調(diào)用sklearn中的RFE

  4. 帶交叉驗(yàn)證的遞歸縮減特征
    可以在遞歸縮減特征的過程中得到最優(yōu)的特征個(gè)數(shù)导街。可調(diào)用sklearn中的FRECV

  5. 利用樹模型
    gbdt纤子、xgb搬瑰、randomforeset都自帶有特征評(píng)價(jià)功能,但是用之前必須保證特征間相關(guān)性較低

特征提取

文章使用PCA做特征提取控硼,需要注意的是泽论,做之前必須歸一化,可繪圖得到最優(yōu)的維度卡乾,如下圖找到變化突然變慢的拐點(diǎn)


總結(jié)

  1. 觀察數(shù)據(jù)前對(duì)數(shù)據(jù)進(jìn)行歸一化翼悴,便于觀察和對(duì)比
  2. seaborn,可以用作數(shù)據(jù)可視化幔妨,非常直觀
  3. 特征選擇時(shí)鹦赎,特征間如果相關(guān)性較高,則只能保留一個(gè)误堡,尤其是利用樹模型找重要性的時(shí)候
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末古话,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子锁施,更是在濱河造成了極大的恐慌陪踩,老刑警劉巖杖们,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異膊毁,居然都是意外死亡胀莹,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門婚温,熙熙樓的掌柜王于貴愁眉苦臉地迎上來描焰,“玉大人,你說我怎么就攤上這事栅螟【G兀” “怎么了?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵力图,是天一觀的道長(zhǎng)步绸。 經(jīng)常有香客問我,道長(zhǎng)吃媒,這世上最難降的妖魔是什么瓤介? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮赘那,結(jié)果婚禮上刑桑,老公的妹妹穿的比我還像新娘。我一直安慰自己募舟,他們只是感情好祠斧,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著拱礁,像睡著了一般琢锋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上呢灶,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天吴超,我揣著相機(jī)與錄音,去河邊找鬼鸯乃。 笑死烛芬,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的飒责。 我是一名探鬼主播赘娄,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼宏蛉!你這毒婦竟也來了遣臼?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤拾并,失蹤者是張志新(化名)和其女友劉穎揍堰,沒想到半個(gè)月后鹏浅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡屏歹,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年隐砸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蝙眶。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡季希,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出幽纷,到底是詐尸還是另有隱情式塌,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布友浸,位于F島的核電站峰尝,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏收恢。R本人自食惡果不足惜武学,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望伦意。 院中可真熱鬧火窒,春花似錦、人聲如沸默赂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缆八。三九已至,卻和暖如春疾捍,著一層夾襖步出監(jiān)牢的瞬間奈辰,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國(guó)打工乱豆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留奖恰,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓宛裕,卻偏偏與公主長(zhǎng)得像瑟啃,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子揩尸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 特征選擇 特征選擇(排序)對(duì)于數(shù)據(jù)科學(xué)家蛹屿、機(jī)器學(xué)習(xí)從業(yè)者來說非常重要。好的特征選擇能夠提升模型的性能岩榆,更能幫助我們...
    hzyido閱讀 6,587評(píng)論 1 16
  • 結(jié)合Scikit-learn介紹幾種常用的特征選擇方法 作者:Edwin Jarvis 特征選擇(排序)對(duì)于數(shù)據(jù)科...
    阿甘run閱讀 3,259評(píng)論 1 14
  • 特征選擇與特征學(xué)習(xí) 在機(jī)器學(xué)習(xí)的具體實(shí)踐任務(wù)中错负,選擇一組具有代表性的特征用于構(gòu)建模型是非常重要的問題坟瓢。特征選擇通常...
    JasonDing閱讀 28,121評(píng)論 3 60
  • 掛衣服如何斗地主有意見最大回顧聽哈入戲你嘎4!分開好想大哭i過得犹撒,就折联,會(huì)放大大粑粑地圖多大hi自己發(fā)嘰嘰嘰嘰驚喜有...
    dengziyan閱讀 558評(píng)論 0 1
  • 一個(gè)人,小時(shí)候只是安靜的成長(zhǎng)识颊,頭腦里可以說沒裝下什么诚镰,沒有對(duì)吃食的向往,沒有對(duì)衣服的挑剔谊囚,沒有對(duì)生活環(huán)境的焦慮怕享,沒...
    花花草草的字閱讀 6,196評(píng)論 0 1