特征工程

1、特征工程是什么

有這么一句話在業(yè)界廣泛流傳：數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法只是逼近這個上限而已牙捉。那特征工程到底是什么呢？顧名思義敬飒，其本質(zhì)是一項工程活動邪铲，目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。通過總結(jié)和歸納无拗，目前認(rèn)為特征工程包括以下方面：

特征工程

特征處理是特征工程的核心部分带到，sklearn提供了較為完整的特征處理方法，包括數(shù)據(jù)預(yù)處理英染、特征選擇揽惹、降維等晌纫。
本文中使用sklearn中的IRIS(鳶尾花)數(shù)據(jù)集來對特征處理功能進(jìn)行說明。IRIS數(shù)據(jù)集由Fisher在1936年整理永丝，包含4個特征（Sepal.Length（花萼長度）锹漱、Sepal.Width（花萼寬度）、Petal.Length（花瓣長度）慕嚷、Petal.Width（花瓣寬度））哥牍，特征值都為正浮點(diǎn)數(shù)，單位為厘米喝检。目標(biāo)值為鳶尾花的分類（Iris Setosa（山鳶尾）嗅辣、Iris Versicolour（雜色鳶尾），Iris Virginica（維吉尼亞鳶尾））挠说。導(dǎo)入IRIS數(shù)據(jù)集的代碼如下：

from sklearn.datasets import load_iris

# 導(dǎo)入IRIS數(shù)據(jù)集
iris = load_iris()
# 特征矩陣
iris.data
# 目標(biāo)向量
iris.target

2澡谭、數(shù)據(jù)預(yù)處理

通過特征提取，我們能得到未經(jīng)處理的特征损俭，這時的特征有可能有以下問題：

不屬于同一量綱：即特征的規(guī)格不一樣蛙奖，不能夠放在一起比較；
定性特征不能直接使用：某些機(jī)器學(xué)習(xí)算法和模型只能接受定量特征的輸入杆兵，那么需要將定性特征轉(zhuǎn)換為定量特征雁仲。最簡單的方式是為每一種定性值指定一個定量值，但是這種方式過于靈活琐脏，增加了調(diào)參的工作攒砖。通常使用啞編碼的方式將定性特征轉(zhuǎn)換為定量特征：假設(shè)有N種特征，當(dāng)原始特征值為第i種定性值時日裙，第i個擴(kuò)展特征為1吹艇，其他擴(kuò)展特征賦值為0。啞編碼的方式相比直接指定的方式昂拂，不用增加調(diào)參的工作受神，對于線性模型來說，使用啞編碼的特征可達(dá)到非線性的效果政钟；
存在缺失值：缺失值需要補(bǔ)充路克；
信息利用率低：不同的機(jī)器學(xué)習(xí)算法和模型對數(shù)據(jù)中信息的利用是不同的，之前提到在線性模型中养交，使用對定性特征啞編碼可以達(dá)到非線性的效果。類似地瓢宦，對定量變量多項式化碎连，或者進(jìn)行其他的轉(zhuǎn)換，都能達(dá)到非線性的效果驮履。
使用sklearn中是的preprocessing庫來進(jìn)行數(shù)據(jù)預(yù)處理鱼辙，可以覆蓋以上問題的解決方案廉嚼。

2.1 無量綱化

無量綱化使不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格。常用的無量綱化方法有標(biāo)準(zhǔn)化和區(qū)間縮放法倒戏。標(biāo)準(zhǔn)化的前提是特征值服從正態(tài)分布怠噪，標(biāo)準(zhǔn)化后，其轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布杜跷；區(qū)間縮放法利用了邊界值信息傍念，將特征的取值區(qū)間縮放到某個特點(diǎn)的范圍，例如[0,1]等葛闷。

2.1.1 標(biāo)準(zhǔn)化

標(biāo)準(zhǔn)化需要計算特征的均值和標(biāo)準(zhǔn)差憋槐，公式表達(dá)為：

標(biāo)準(zhǔn)化

使用preprocessing的StandardScaler類對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的代碼如下：

from sklearn.preprocessing import StandardScaler

# 標(biāo)準(zhǔn)化，返回值為標(biāo)準(zhǔn)化后的數(shù)據(jù)
StandardScaler().fit_transform(iris.data)

2.1.2 區(qū)間縮放法

區(qū)間縮放法的思路有多種淑趾，常見的一種為利用兩個最值進(jìn)行縮放阳仔，公式表達(dá)為：

min-max縮放

使用preprocessing庫的MinMaxScaler類對數(shù)據(jù)進(jìn)行區(qū)間縮放的代碼如下：

from sklearn.preprocessing import MinMaxScaler

# 區(qū)間縮放，返回值縮放到[0,1]區(qū)間的數(shù)據(jù)
MinMaxScaler().fit_transform(iris.data)

2.1.3 標(biāo)準(zhǔn)化與歸一化的區(qū)別

簡單來說扣泊，標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù)近范，其通過z-score的方法，將樣本的特征值轉(zhuǎn)換到同一量綱下延蟹；歸一化是依照特征矩陣的行處理數(shù)據(jù)顺又，其目的在于樣本向量在點(diǎn)乘運(yùn)算或其他核函數(shù)計算相似性時，擁有統(tǒng)一的標(biāo)準(zhǔn)等孵，也就是說都轉(zhuǎn)化為“單位向量”稚照。規(guī)則為l2的歸一化公式如下：

歸一化

使用preprocessing庫的Normalizer類對數(shù)據(jù)進(jìn)行歸一化的代碼如下：

from sklearn.preprocessing import Normalizer

# 歸一化，返回值為歸一化后的數(shù)據(jù)
Normalizer().fit_transform(iris.data)

2.2 對定量特征二值化

定量特征的二值化的核心在于設(shè)定一個閾值俯萌，小于等于閾值的賦值為0果录，大于閾值的賦值為1，公式表達(dá)如下：

定量特征二值化

使用preprocessing庫的Binarizer類對數(shù)據(jù)進(jìn)行二值化的代碼如下：

from sklearn.preprocessing import Binarizer

# 二值化咐熙，閾值為3弱恒，返回值為二值化后的數(shù)據(jù)
Binarizer(threshold=3).fit_transform(iris.data)

2.3 對定性特征啞編碼

由于IRIS數(shù)據(jù)集的特征皆為定量特征，故使用其目標(biāo)值進(jìn)行啞編碼（實際上是不需要的）棋恼。
使用preprocessing庫的OneHotEncoder類對數(shù)據(jù)進(jìn)行啞編碼的代碼如下：

from sklearn.preprocessing import OneHotEncoder

# 啞編碼返弹，對IRIS數(shù)據(jù)集的目標(biāo)值，返回啞編碼后的數(shù)據(jù)
OneHotEncoder().fit_transform(iris.target.reshape((-1,1)))

2.4 缺失值計算

由于IRIS數(shù)據(jù)集沒有缺失值爪飘，故對數(shù)據(jù)集新增一個樣本义起，4個特征均賦值為NaN，表示數(shù)據(jù)缺失师崎。
使用preprocessing庫的Imputer類對數(shù)據(jù)進(jìn)行缺失值計算的代碼如下：

from numpy import vstack,array,nan
from sklearn.preprocessing import Imputer

# 缺失值計算默终，返回值為結(jié)算缺失值后的數(shù)據(jù)
# 參數(shù)missing_value為缺失值的表示形式，默認(rèn)為NaN
# 參數(shù)strategy為默認(rèn)填充方式，默認(rèn)為mean（均值）
Imputer().fit_transform(vstack((array([nan,nan,nan,nan]),iris.data)))

2.5 數(shù)據(jù)變換

常見的數(shù)據(jù)變換有基于多項式的齐蔽、基于指數(shù)函數(shù)的两疚、基于對數(shù)函數(shù)的。4個特征含滴，度為2的多項式轉(zhuǎn)換公式如下：

多項式變換

使用preprocessing庫的PolynomialFeatures類對數(shù)據(jù)多項式轉(zhuǎn)化的代碼如下：

from sklearn.preprocessing import PolynomialFeatures

# 多項式轉(zhuǎn)換
# 參數(shù)degree為度
PolynomialFeatures().fit_transform(iris.data)

基于單變元函數(shù)的數(shù)據(jù)變換可以使用一個同一的方式完成诱渤，使用preprocessing庫的FunctionTransformer對數(shù)據(jù)進(jìn)行對數(shù)函數(shù)轉(zhuǎn)換的代碼如下：

from numpy import log1p
from sklearn.preprocessing import FunctionTransformer

# 自定義轉(zhuǎn)換函數(shù)為對數(shù)函數(shù)的數(shù)據(jù)變換
# 第一個參數(shù)是單變元函數(shù)
FunctionTransformer(log1p).fit_transform(iris.data)

3、特征選擇

當(dāng)數(shù)據(jù)預(yù)處理完成后谈况，我們需要選擇有意義的特征輸入機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練勺美。通常來說，從兩個方面考慮來選擇特征：

特征是否發(fā)散：如果一個特征不發(fā)散鸦做，例如方差接近于0励烦，也就是說樣本在這個特征上基本上沒有差異，這個特征對于樣本的區(qū)分并沒有什么用泼诱；
特征與目標(biāo)的相關(guān)性：這點(diǎn)比較顯見坛掠，與目標(biāo)相關(guān)性高的特征應(yīng)當(dāng)優(yōu)先選擇。
根據(jù)特征選擇的形式又可以將特征選擇方法分為3種：
Filter：過濾法治筒，按照發(fā)散性或者相關(guān)性對各個特征進(jìn)行評分屉栓，設(shè)定閾值或者選擇閾值的個數(shù)，選擇特征耸袜；
Wrapper：包裝法友多，根據(jù)目標(biāo)函數(shù)（通常是預(yù)測效果評分），每次選擇若干特征堤框，或者排除若干特征域滥；
Embedded：嵌入法，先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練蜈抓，得到各個特征的權(quán)值系數(shù)启绰，根據(jù)系數(shù)從大到小選擇特征。類似于Filter方法沟使，但是通過訓(xùn)練來確定特征的優(yōu)劣委可。
我們使用sklearn中的feature_selection庫來進(jìn)行特征選擇。

3.1 Filter

3.1.1 方差選擇法

使用方差選擇法腊嗡，先要計算各個特征的方差着倾，選擇方差大于閾值的特征。
使用feature_selection庫的VarianceThreshold類來選擇特征的代碼如下：

from sklearn.feature_selection import VarianceThreshold

# 方差選擇法燕少，返回值為特征選擇后的數(shù)據(jù)
# 參數(shù)threshold為方差的閾值
VarianceThreshold(threshold=3).fit_transform(iris.data)

3.1.2 相關(guān)系數(shù)法

使用相關(guān)系數(shù)法卡者，先要計算各個特征對目標(biāo)值的相關(guān)系數(shù)的P值。用feature_selection庫的SelectKBest類結(jié)合相關(guān)系數(shù)來選擇特征的代碼如下：

from sklearn.feature_selection import SelectKBest
from scipy.stats import pearsonr

#選擇K個最好的特征棺亭，返回選擇特征后的數(shù)據(jù)
#第一個參數(shù)為計算評估特征是否好的函數(shù)虎眨，該函數(shù)輸入特征矩陣和目標(biāo)向量蟋软，輸出二元組（評分镶摘，P值）的數(shù)組嗽桩，數(shù)組第i項為第i個特征的評分和P值。在此定義為計算相關(guān)系數(shù)
#參數(shù)k為選擇的特征個數(shù)
SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)
# 此處代碼有問題凄敢，得改

3.1.3 卡方檢驗

經(jīng)典的卡方檢驗是檢驗定性自變量對定性因變量的相關(guān)性碌冶。假設(shè)自變量有N種取值，因變量有M種取值涝缝，考慮自變量等于i且因變量等于j的樣本頻數(shù)的觀察值與期望的差距扑庞，構(gòu)建統(tǒng)計量：

卡方檢驗

使用feature_selection庫的SelectionKBest類結(jié)合卡方檢驗來選擇特征的代碼如下：

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# 選擇K個最好的特征，返回選擇特征后的數(shù)據(jù)
SelectKBest(chi2,k=2).fit_transform(iris.data,iris.target)

3.1.4 互信息法

經(jīng)典的互信息也是評價定性自變量對定性因變量的相關(guān)性的拒逮，互信息計算公式如下：

互信息法

為了處理定量數(shù)據(jù)罐氨，最大信息系數(shù)法被提出，使用feature_selection庫的SelectKBest類結(jié)合最大信息系數(shù)法來選擇特征的代碼如下：

from sklearn.feature_selection import SelectKBest
from minepy import MINE

# 由于MINE的設(shè)計不是函數(shù)式滩援，定義mic方法將其改為函數(shù)式的栅隐，返回一個二元組，二元組的第2項設(shè)置成固定的P值0.5
def mic(x,y):
    m = MINE()
    m.compute_score(x,y)
    return (m.mic(),0.5)

# 選擇K個最好的特征玩徊，返回特征選擇后的數(shù)據(jù)
SelectKBest(lambda X, Y: array(map(lambda x:mic(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)
# 此處代碼有問題租悄，得改

3.2 Wrapper

3.2.1 遞歸特征消除法

遞歸消除特征法使用一個基模型來進(jìn)行多輪訓(xùn)練，每輪訓(xùn)練后恩袱，消除若干權(quán)值系數(shù)的特征泣棋，再基于新的特征集進(jìn)行下一輪訓(xùn)練。
使用feature_selection庫的RFE類來選擇特征的代碼如下：

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# 遞歸特征消除法畔塔，返回特征選擇后的數(shù)據(jù)
# 參數(shù)estimator為基模型
# 參數(shù)n_features_to_select為選擇的特征個數(shù)
RFE(estimator=LogisticRegression(),n_features_to_select=2).fit_transform(iris.data,iris.target)

Embedded

3.3.1 基于懲罰項的特征選擇法

使用帶懲罰項的基模型潭辈，除了篩選出特征外，同時也進(jìn)行了降維澈吨。
使用feature_selection庫的SelectFromModel類結(jié)合帶L1懲罰項的邏輯回歸模型把敢，來選擇特征的代碼如下：

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# 遞歸特征消除法，返回特征選擇后的數(shù)據(jù)
# 參數(shù)estimator為基模型
# 參數(shù)n_features_to_select為選擇的特征個數(shù)
RFE(estimator=LogisticRegression(),n_features_to_select=2).fit_transform(iris.data,iris.target)
# 此處代碼有問題

3.3.2 基于樹模型的特征選擇法

樹模型中GBDT也可以用來作為基模型進(jìn)行特征選擇棚辽，用feature_selection庫的SelectFromModel類結(jié)合GBDT模型技竟，來選擇特征的代碼如下：

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import GradientBoostingClassifier

# GBDT作為基模型的特征選擇
SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data,iris.target)

4、降維

當(dāng)特征選擇完成后屈藐，可以直接訓(xùn)練模型了榔组，但是可能由于特征矩陣過大，導(dǎo)致計算量大联逻、訓(xùn)練時間長的問題搓扯，因此降低特征矩陣維度也是必不可少的。常見的降維方法除了以上提到的基于L1懲罰項的模型以外包归，另外還有主成分分析法（PCA）和線性判別分析（LDA）锨推，線性判別分析本身也是一個分類模型。PCA和LDA有很多的相似點(diǎn)，其本質(zhì)是要將原始的樣本映射到維度更低的樣本空間中换可，但是PCA和LDA的映射目標(biāo)不一樣：PCA是為了讓映射后的樣本具有最大的發(fā)散性椎椰；而LDA是為了讓映射后的樣本有最好的分類性能。所以說PCA是一種無監(jiān)督的降維方法沾鳄，而LDA是一種有監(jiān)督的降維方法慨飘。

4.1 主成分分析法（PCA）

使用decomposition庫的PCA類特征的代碼如下：

from sklearn.decomposition import PCA

# 主成分分析法，返回降維后的數(shù)據(jù)
# 參數(shù)n_components為主成分?jǐn)?shù)目
PCA(n_components=2).fit_transform(iris.data)

4.2 線性判別分析法（LDA）

使用lda庫的LDA類選擇特征的代碼如下：

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

# 線性判別分析法译荞，返回降維后的數(shù)據(jù)
# 參數(shù)n_components為降維后的維數(shù)
LDA(n_components=2).fit_transform(iris.data,iris.target)

本文摘自jasonfreak的博客

最后編輯于：2019.06.06 15:50:55

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末瓤的，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子吞歼，更是在濱河造成了極大的恐慌圈膏，老刑警劉巖，帶你破解...
沈念sama閱讀 217,185評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件篙骡，死亡現(xiàn)場離奇詭異稽坤，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)医增，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門慎皱，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人叶骨，你說我怎么就攤上這事茫多。” “怎么了忽刽？”我有些...
開封第一講書人閱讀 163,524評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵天揖，是天一觀的道長。經(jīng)常有香客問我跪帝，道長今膊，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,339評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任伞剑，我火速辦了婚禮斑唬，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘黎泣。我一直安慰自己恕刘，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般脾歧。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上含蓉，一...
開封第一講書人閱讀 51,287評論 1贊 301
城市分裂傳說
那天频敛，我揣著相機(jī)與錄音，去河邊找鬼馅扣。笑死斟赚，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的岂嗓。我是一名探鬼主播汁展，決...
沈念sama閱讀 40,130評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼鹊碍，長吁一口氣：“原來是場噩夢啊……” “哼厌殉！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起侈咕，我...
開封第一講書人閱讀 38,985評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤公罕，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后耀销，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體楼眷，經(jīng)...
沈念sama閱讀 45,420評論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年熊尉，在試婚紗的時候發(fā)現(xiàn)自己被綠了罐柳。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,779評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡狰住，死狀恐怖张吉，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情催植，我是刑警寧澤肮蛹，帶...
沈念sama閱讀 35,477評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站创南，受9級特大地震影響伦忠，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜稿辙，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一昆码、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧邻储，春花似錦赋咽、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,716評論 0贊 22
一樁弒父案冬耿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至萌壳，卻和暖如春亦镶，著一層夾襖步出監(jiān)牢的瞬間日月，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,857評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工缤骨，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留爱咬，地道東北人。一個月前我還...
沈念sama閱讀 47,876評論 2贊 370
代替公主和親
正文我出身青樓绊起，卻偏偏與公主長得像精拟，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子虱歪，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評論 2贊 354

特征工程

1、特征工程是什么

2澡谭、數(shù)據(jù)預(yù)處理

2.1 無量綱化

2.1.1 標(biāo)準(zhǔn)化

2.1.2 區(qū)間縮放法

2.1.3 標(biāo)準(zhǔn)化與歸一化的區(qū)別

2.2 對定量特征二值化

2.3 對定性特征啞編碼

2.4 缺失值計算

2.5 數(shù)據(jù)變換

3、特征選擇

3.1 Filter

3.1.1 方差選擇法

3.1.2 相關(guān)系數(shù)法

3.1.3 卡方檢驗

3.1.4 互信息法

3.2 Wrapper

3.2.1 遞歸特征消除法

Embedded

3.3.1 基于懲罰項的特征選擇法

3.3.2 基于樹模型的特征選擇法

4、降維

4.1 主成分分析法（PCA）

4.2 線性判別分析法（LDA）

推薦閱讀更多精彩內(nèi)容