06 特征工程 - 特征選擇

05 特征工程 - 缺省值填充

當(dāng)做完特征轉(zhuǎn)換后居暖,實(shí)際上可能會(huì)存在很多的特征屬性米诉,比如:多項(xiàng)式擴(kuò)展轉(zhuǎn)換、文本數(shù)據(jù)轉(zhuǎn)換等等游两,但是太多的特征屬性的存在可能會(huì)導(dǎo)致模型構(gòu)建效率降低砾层,同時(shí)模型的效果有可能會(huì)變的不好,那么這個(gè)時(shí)候就需要從這些特征屬性中選擇出影響最大的特征屬性作為最后構(gòu)建模型的特征屬性列表贱案。

在選擇模型的過程中肛炮,通常從兩方面來選擇特征:
1、特征是否發(fā)散:如果一個(gè)特征不發(fā)散宝踪,比如方差接近于0侨糟,也就是說這樣的特征對于樣本的區(qū)分沒有什么作用。
2瘩燥、特征與目標(biāo)的相關(guān)性:如果與目標(biāo)相關(guān)性比較高秕重,應(yīng)當(dāng)優(yōu)先選擇。

特征選擇的方法主要有以下三種:

1厉膀、Filter:過濾法溶耘,按照發(fā)散性或者相關(guān)性對各個(gè)特征進(jìn)行評分,設(shè)定閾值或者待選擇閾值的個(gè)數(shù)服鹅,從而選擇特征凳兵;常用方法包括方差選擇法相關(guān)系數(shù)法企软、卡方檢驗(yàn)庐扫、互信息法等。

2仗哨、Wrapper:包裝法形庭,根據(jù)目標(biāo)函數(shù)(通常是預(yù)測效果評分),每次選擇若干特征或者排除若干特征藻治;常用方法主要是遞歸特征消除法碘勉。
舉例: 根據(jù)x1、x2桩卵、x3特征分別訓(xùn)練一個(gè)模型S11~S13验靡,測評分倍宾。對比評分,找到模型評分高的特征胜嗓。若x3效果最好高职,下一輪用x3、x1 和 x3辞州、x2訓(xùn)練模型S21~S22怔锌,測評分,若S22評分高变过,對比S22和S13埃元,若S13比S22評分好,則停止迭代媚狰,最佳特征組合是x3岛杀。若S22評分大于S13,再比較 x2,x3 和 x1,x2,x3的評分崭孤。

3类嗤、Embedded:嵌入法,先使用某些機(jī)器學(xué)習(xí)的算法和模型辨宠。


方差選擇法

方差選擇法:先計(jì)算各個(gè)特征屬性的方差值遗锣,然后根據(jù)閾值,獲取方差大于閾值的特征嗤形。

threshold = 0 表示設(shè)置方差的閾值為0精偿;
方差為0,幾乎等于是選擇了所有特征派殷。因?yàn)橐唤M特征还最,若干方差等于0表示數(shù)據(jù)完全相等,一般不太會(huì)有這種數(shù)據(jù)毡惜。


相關(guān)系數(shù)法

相關(guān)系數(shù)法:先計(jì)算各個(gè)特征屬性對于目標(biāo)值的相關(guān)系數(shù)以及閾值K拓轻,然后獲取K個(gè)相關(guān)系數(shù)最大的特征屬性。(備注:根據(jù)目標(biāo)屬性y的類別選擇不同的方式)


卡方檢驗(yàn)

卡方檢驗(yàn):檢查定性自變量對定性因變量的相關(guān)性经伙。
K方值越大扶叉,說明兩個(gè)特征之間的關(guān)聯(lián)性越大。


遞歸特征消除法

遞歸特征消除法:使用一個(gè)基模型來進(jìn)行多輪訓(xùn)練帕膜,每輪訓(xùn)練后枣氧,消除若干權(quán)值系數(shù)的特征,再基于新的特征集進(jìn)行下一輪訓(xùn)練垮刹。

舉例: 根據(jù)x1达吞、x2、x3特征分別訓(xùn)練一個(gè)模型S11~S13荒典,測評分酪劫。對比評分吞鸭,找到模型評分高的特征。若x3效果最好覆糟,下一輪用x3刻剥、x1 和 x3、x2訓(xùn)練模型S21~S22滩字,測評分造虏,若S22評分高,對比S22和S13麦箍,若S13比S22評分好漓藕,則停止迭代,最佳特征組合是x3内列。若S22評分大于S13撵术,再比較 x2,x3 和 x1,x2,x3的評分背率。


基于懲罰項(xiàng)的特征選擇法

在使用懲罰項(xiàng)的基模型话瞧,除了可以篩選出特征外,同時(shí)還可以進(jìn)行降維操作寝姿。


基于樹模型的特征選擇法

樹模型中GBDT在構(gòu)建的過程會(huì)對特征屬性進(jìn)行權(quán)重的給定交排,所以GBDT也可以應(yīng)用在基模型中進(jìn)行特征選擇。


07 特征工程 - 特征降維 - PCA

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末饵筑,一起剝皮案震驚了整個(gè)濱河市埃篓,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌根资,老刑警劉巖架专,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異玄帕,居然都是意外死亡部脚,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門裤纹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來委刘,“玉大人,你說我怎么就攤上這事鹰椒∥疲” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵漆际,是天一觀的道長淆珊。 經(jīng)常有香客問我,道長奸汇,這世上最難降的妖魔是什么施符? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任钞支,我火速辦了婚禮,結(jié)果婚禮上操刀,老公的妹妹穿的比我還像新娘烁挟。我一直安慰自己,他們只是感情好骨坑,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布撼嗓。 她就那樣靜靜地躺著,像睡著了一般欢唾。 火紅的嫁衣襯著肌膚如雪且警。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天礁遣,我揣著相機(jī)與錄音斑芜,去河邊找鬼。 笑死祟霍,一個(gè)胖子當(dāng)著我的面吹牛杏头,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播沸呐,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼醇王,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了崭添?” 一聲冷哼從身側(cè)響起寓娩,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎呼渣,沒想到半個(gè)月后棘伴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡屁置,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年焊夸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片缰犁。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡淳地,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出帅容,到底是詐尸還是另有隱情颇象,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布并徘,位于F島的核電站遣钳,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏麦乞。R本人自食惡果不足惜蕴茴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一劝评、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧倦淀,春花似錦蒋畜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至愿棋,卻和暖如春科展,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背糠雨。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工才睹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人甘邀。 一個(gè)月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓琅攘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親鹃答。 傳聞我的和親對象是個(gè)殘疾皇子乎澄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容