特征工程(一)——特征歸一化及類型特征處理

“巧婦難為無米之炊”截驮,放到數(shù)據(jù)行業(yè)笑陈,“巧婦”是模型,“米”就是數(shù)據(jù)與特征葵袭。正如業(yè)界經(jīng)典的一句話"Garbage in, garbage out"涵妥,如果沒有充足數(shù)據(jù)、合理的特征坡锡,再強大的模型結(jié)構(gòu)也難以得到令人滿意的結(jié)果蓬网。

實際工作中窒所,特征工程是去除數(shù)據(jù)中的雜質(zhì),提煉為更合理的特征帆锋,供算法和模型使用吵取。特征工程主要包括特征歸一化、類型特征的表示窟坐、特征選擇及非結(jié)構(gòu)化數(shù)據(jù)的表示海渊。本文主要介紹特征歸一化及類型特征的表示。

特征歸一化

為了消除特征之間量綱的影響哲鸳,使數(shù)據(jù)處于同一數(shù)量級具有可比性臣疑,需要進行特征歸一化。例如徙菠,分析一個顧客消費粘性與近三個月消費次數(shù)讯沈、消費金額的關(guān)系。消費次數(shù)一般最多幾十次婿奔,但消費金額可能幾千上萬缺狠,那消費粘性就會更受消費金額的影響。想要更準(zhǔn)確的結(jié)果萍摊,需要將特征進行歸一化挤茄,使特征在同一個數(shù)量級下。最常用的歸一化方法是最大最小歸一化冰木、零均值歸一化穷劈。

1. 最大最小歸一化是對數(shù)據(jù)進行線性變換,使結(jié)果映射到[0,1]踊沸。歸一化公式為
圖片

其中歇终,x為原始數(shù)據(jù),為數(shù)據(jù)最小值逼龟,為數(shù)據(jù)最大值评凝。
python實現(xiàn)方法:

import pandas as pd
import numpy as np
df= pd.DataFrame({'num':np.random.randint(0,50,size=10),                
  'money':np.random.randint(0,3000,size=10)})
print(df)
圖片
df1= (df-df.min())/(df.max()-df.min())
print(df1)
  1. 零均值歸一化

    零均值z-score 歸一化將數(shù)據(jù)映射到均值為0,標(biāo)準(zhǔn)差為1的分布上腺律。歸一化公式定義為:

圖片

python實現(xiàn)方法:

df2= (df-df.mean())/df.std()
print(df2)
圖片
  1. 特征歸一化適用情況
    歸一化的數(shù)據(jù)奕短,梯度下降可以更快找到最優(yōu)解。因此匀钧,梯度下降求解的模型需要歸一化篡诽,如線性回歸、邏輯回歸榴捡、支持向量機、神經(jīng)網(wǎng)絡(luò)等模型朱浴。但是決策樹模型并不適用吊圾,信息增益跟是否經(jīng)過歸一化無關(guān)达椰。

類別特征處理

類別特征原始數(shù)據(jù)是字符串的,如性別(男项乒、女)等啰劲。因為很多模型對各數(shù)據(jù)進行衡量時,需要依賴數(shù)值關(guān)系檀何,因此要將類別型特征處理成數(shù)值特征蝇裤。類別型編碼常用處理方式有序號編碼、獨熱編碼频鉴、二進制編碼栓辜。

1. 序號編碼
序號編碼適用于數(shù)據(jù)類別間有大小關(guān)系的,如銷售金額分為高垛孔、中藕甩、低三檔,可以分別用3周荐,2狭莱,1表示。

2. 獨熱編碼 OneHot-Encoding
如果數(shù)據(jù)類別沒有大小關(guān)系概作,如訂單來源取值為3個(淘寶腋妙、京東、拼多多)讯榕,獨熱編碼將訂單來源表示為3維稀疏變量骤素。淘寶為[1,0,0],京東為[0,1,0]瘩扼,拼多多為[0,0,1]谆甜。
如果類別取值過多,獨熱編碼要注意以下問題:
(1) 用稀疏向量表示節(jié)省空間
(2) 配合特征選擇降低維度

獨熱編碼python實現(xiàn):

df = pd.DataFrame({'source':['淘寶','京東','拼多多'],
'amount':[20,5,30]})
pd.get_dummies(df,prefix='source',prefix_sep='_')
image.png
  1. 二進制編碼以訂單來源淘寶集绰、京東规辱、拼多多為例,淘寶栽燕、京東罕袋、拼多多的ID分別為1、2碍岔、3浴讯,則二進制表示分別為001、010蔼啦、011榆纽。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子奈籽,更是在濱河造成了極大的恐慌饥侵,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件衣屏,死亡現(xiàn)場離奇詭異躏升,居然都是意外死亡,警方通過查閱死者的電腦和手機狼忱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門膨疏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人钻弄,你說我怎么就攤上這事佃却。” “怎么了斧蜕?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵双霍,是天一觀的道長。 經(jīng)常有香客問我批销,道長洒闸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任均芽,我火速辦了婚禮丘逸,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘掀宋。我一直安慰自己深纲,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布劲妙。 她就那樣靜靜地躺著湃鹊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪镣奋。 梳的紋絲不亂的頭發(fā)上币呵,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天,我揣著相機與錄音侨颈,去河邊找鬼余赢。 笑死,一個胖子當(dāng)著我的面吹牛哈垢,可吹牛的內(nèi)容都是我干的妻柒。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼耘分,長吁一口氣:“原來是場噩夢啊……” “哼举塔!你這毒婦竟也來了绑警?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤啤贩,失蹤者是張志新(化名)和其女友劉穎待秃,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體痹屹,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年枉氮,在試婚紗的時候發(fā)現(xiàn)自己被綠了志衍。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡聊替,死狀恐怖楼肪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情惹悄,我是刑警寧澤春叫,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站泣港,受9級特大地震影響暂殖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜当纱,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一呛每、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧坡氯,春花似錦晨横、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至悯恍,卻和暖如春库糠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背坪稽。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工曼玩, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人窒百。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓黍判,卻偏偏與公主長得像,于是被迫代替她去往敵國和親篙梢。 傳聞我的和親對象是個殘疾皇子顷帖,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容