特征工程中的常用方法

數(shù)據(jù)和特征工程決定了模型的上限，改進(jìn)算法只不過是逼近這個(gè)上限棉胀。
數(shù)據(jù)矩陣： $X$
標(biāo)簽： $y$

探索性數(shù)據(jù)分析
博客上寫了三個(gè) plot 唁奢，我想大概是用畫圖來看看數(shù)據(jù)的分布情況麻掸。
預(yù)處理
需要將訓(xùn)練集變成矩陣 $X$ 脊奋，大小為[n_samples,n_features]和矢量 $y$ 诚隙，長(zhǎng)度：[n_samples]最楷。矢量 $y$ 可以表示成矩陣 $Y$ 籽孙，大小為[n_samples,n_classes]犯建。
常用函數(shù)：

sklearn.preprocessing.LabelBinarizer

preprocessing.LabelBinarizer(neg_label=0,pos_label=1,sparse_output=False)

輸入?yún)?shù)：
neg_label = 0:讓負(fù)標(biāo)簽為0;
pos_label = 1:讓正標(biāo)簽為1;
sparse_output = False:如果希望從transform返回的是CSR格式适瓦，就寫成True玻熙。
輸出參數(shù)：
classes_:有多少個(gè)類嗦随，類分別是什么枚尼；
y_type_:計(jì)算的目標(biāo)的數(shù)據(jù)類型署恍，有'continuos(連續(xù))',‘continuous-multioutput(連續(xù)多輸出)’盯质，'multiclass(多目標(biāo))'唤殴，'binary’朵逝，'multiclass'配名， 'multiclass-multioutput', 'multilabel-indicator(多標(biāo)簽指示符)渠脉？鳞青？臂拓？胶惰？'

lb = preprocessing.LabelBinarizer()
lb.fit([1,2,6,4,2])
print(lb.classes_)
print(lb.transform([1,2,6,4,3,5]))
print(lb.y_type_)

結(jié)果：

array([1, 2, 4, 6])
array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 0, 1],
       [0, 0, 1, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

感覺類似于one-hot編碼
-sklearn.preprocessing.MultiLabelBinarizer(多標(biāo)簽二值化）

sklearn.preprocessing.MultiLabelBinarizer(classes=None, sparse_output=False)

輸入?yún)?shù)：
classes:設(shè)置classes時(shí)候孵滞，label從classes里面出坊饶，如果沒有設(shè)置幼东，則從訓(xùn)練集里面統(tǒng)計(jì)
sparse_out：同上
返回參數(shù)：
classes_:同上

mlb = preprocessing.MultiLabelBinarizer()
print(mlb.fit_transform([(1,2),(3,4),(5,)]))
print(mlb.classes_)
mlb1 = preprocessing.MultiLabelBinarizer(classes=[2,3,4,5,6,1])
print(mlb1.fit_transform([(1,2),(3,4),(5,)]))
print(mlb1.classes_)

結(jié)果：

array([[1, 1, 0, 0, 0],
       [0, 0, 1, 1, 0],
       [0, 0, 0, 0, 1]])
array([1, 2, 3, 4, 5])
array([[1, 0, 0, 0, 0, 1],
       [0, 1, 1, 0, 0, 0],
       [0, 0, 0, 1, 0, 0]])
array([2, 3, 4, 5, 6, 1])

-sklearn.preprocessing.LabelEncoder
之前看過這個(gè)，可以把male,female這些變成0简逮，1的二值散庶，但是存在值的大小關(guān)系悲龟，可能會(huì)造成機(jī)器學(xué)習(xí)的算法過程中一些偏好须教。

處理也有的特征

類別特征
類別特征轻腺，表示某個(gè)數(shù)據(jù)點(diǎn)屬于某一個(gè)類別贬养，或具有某一種類的特性误算。一列類別特征儿礼，默認(rèn)用自然數(shù)表示（可以用LabelEncoder將字符串轉(zhuǎn)化為自然數(shù)）翰苫。如果一列類別特征里有 $K$ 種不同類別奏窑，其取值范圍是 ${0,1,2...,K-1}$ 埃唯。
自然數(shù)編碼
默認(rèn)的編碼方式墨叛，消耗內(nèi)存小漠趁，訓(xùn)練時(shí)間快闯传，但是特征的質(zhì)量不高。
這個(gè)特征質(zhì)量不高我感覺是因?yàn)長(zhǎng)abelEncoder的出來的東西是無序的共缕，經(jīng)常需要再用one-hot編碼
獨(dú)熱編碼
如果類別特征的數(shù)據(jù)本身是無序的图谷，例如male,female里面不存在male的值大于female蜓萄，以及female大于male的情況嫉沽，則需要用one-hot編碼堂竟。
它會(huì)使一組數(shù)據(jù)變得只保留一個(gè)位置上為1出嘹，其余都為0的情況税稼，會(huì)特別稀疏郎仆。
聚類編碼
（百度也沒查到扰肌，這玩意兒沒看懂太，待補(bǔ)）
平均數(shù)編碼
博客上說這是針對(duì)高基數(shù)類別特征的有監(jiān)督編碼桂躏。
如果一個(gè)特征是定性的并且這個(gè)特征的可能值非常多（高基數(shù)）沼头，那么平均數(shù)編碼是一種高效的編碼方式土至。（比如：家庭住址？骡苞，email地址）
LabelEncoder編碼高基數(shù)定性特征，雖然只會(huì)產(chǎn)生一列躲株，但每個(gè)自然數(shù)都會(huì)產(chǎn)生不同的重要意義霜定，對(duì)于 $y$ 而言線性不可分（?????僅僅是因?yàn)榫S度高了所以不可分辖所，還是因?yàn)槭裁丛祷兀浚?br> OneHotEncoder編碼高基數(shù)定義特征典挑，必然會(huì)產(chǎn)生上萬列的稀疏矩陣酥宴，易消耗大量?jī)?nèi)存和訓(xùn)練時(shí)間。
這時(shí)候平均數(shù)編碼是一種好的選擇搔弄。在經(jīng)驗(yàn)貝葉斯的架構(gòu)下幅虑，利用所要預(yù)測(cè)的因變量，有監(jiān)督地確定最適合這個(gè)定性特征的編碼方式顾犹。

基本思路與原理：
平均數(shù)編碼是一種有監(jiān)督的編碼方式倒庵，適用于分類和回歸問題炫刷。
平均數(shù)編碼的基本的基本思想是:把特征工程中的每一個(gè)變量變成它所估算的label的概率擎宝。具體可見。
先驗(yàn)概率浑玛，后驗(yàn)概率的計(jì)算感覺上是通過頻率來估計(jì)概率绍申！
先驗(yàn)概率的計(jì)算：

先驗(yàn)概率計(jì)算

后驗(yàn)概率的計(jì)算：

后驗(yàn)概率計(jì)算

后驗(yàn)概率的理解：用條件概率展開，然后使用頻數(shù)估計(jì)概率顾彰。（我是這么感覺的）

權(quán)重：
平均編碼使用的是先驗(yàn)概率和后驗(yàn)概率的一個(gè)凸組合极阅，引入先驗(yàn)概率權(quán)重 $\lambda$ 來計(jì)算編碼時(shí)候所使用的概率 $\hat P$ 。

權(quán)重

感覺上這個(gè)是手動(dòng)調(diào)節(jié)的涨享，不知道可不可以弄成自動(dòng)調(diào)節(jié)（根據(jù)先驗(yàn)概率和后驗(yàn)概率的比值筋搏，那一部分值越大，使得它的比值越大）厕隧。

權(quán)重函數(shù)：
定義一個(gè)權(quán)重函數(shù)奔脐，輸入是特征類別在訓(xùn)練集中出現(xiàn)的次數(shù) $n$ ，輸出是對(duì)于這個(gè)特征類別的先驗(yàn)概率的權(quán)重 $\lambda$ 吁讨。

image.png

只出現(xiàn)一次的類別
在類別特征里髓迎，有時(shí)候有一些類別，在訓(xùn)練集和測(cè)試集中總共只出現(xiàn)一次建丧，這時(shí)候排龄，繼續(xù)保留這個(gè)編碼的意義不大，不然將所有只出現(xiàn)一次的編碼融合成一個(gè)新的類別里面茶鹃。

數(shù)值特征

數(shù)值特征可以是連續(xù)的涣雕，也可以是離散的艰亮，一般表示為一個(gè)實(shí)數(shù)值。
不同算法對(duì)于數(shù)值的要求不一樣挣郭，有些算法是可以不用標(biāo)準(zhǔn)化/歸一化的迄埃，例如：樹模型；但是神經(jīng)網(wǎng)絡(luò)這樣的模型是需要標(biāo)準(zhǔn)化的兑障。

標(biāo)準(zhǔn)化

Z-score標(biāo)準(zhǔn)化

preprocessing.StandardScaler(copy = True, with_mean = True, with_stand = True)

計(jì)算公式是：
$\begin{equation} z = \frac{x-\mu}{s} \end{equation}$
$\mu$ 是訓(xùn)練樣本的均值侄非， $s$ 是訓(xùn)練樣本的標(biāo)準(zhǔn)差。
輸入?yún)?shù)：
copy:默認(rèn)是True流译，不會(huì)覆蓋原數(shù)據(jù)逞怨，（特別是處理一些DataFrame文件時(shí)候）；
with_mean:默認(rèn)是True福澡，如果是False叠赦，會(huì)使得 $\mu$ 為0；
with_std:默認(rèn)是True革砸，如果是False除秀，會(huì)使得 $s$ 為0。
返回參數(shù)：
scale_：每個(gè)功能相對(duì)縮放數(shù)據(jù)算利；
mean_：訓(xùn)練集的每個(gè)特征的平均值册踩；
var_：訓(xùn)練集的每個(gè)特征的方差；
n_samples_seen：對(duì)每個(gè)特征通過估算器處理的樣本數(shù)效拭。（試了下暂吉，這個(gè)應(yīng)該是返回的是處理的多少樣本數(shù)目）

scaler = preprocessing.StandardScaler()
data = [[0,0],[0,0],[1,1],[1,1]]
scaler.fit(data)
print(scaler.mean_)
print(scaler.var_)
print(scaler.n_samples_seen_)
print(scaler.transformer(data))

結(jié)果是：

array([0.5, 0.5])
array([0.25, 0.25])
4
array([[-1., -1.],
       [-1., -1.],
       [ 1.,  1.],
       [ 1.,  1.]])

RobustScaler（穩(wěn)健的放縮？缎患？）
如果數(shù)值特征列中存在數(shù)值極大或者極小的異常點(diǎn)outlier（通過EDA發(fā)現(xiàn)慕的，e.g. 箱形圖，ps.我好像也只能想到箱形圖）挤渔，應(yīng)該使用更穩(wěn)健的統(tǒng)計(jì)數(shù)據(jù)：用中位數(shù)取代均值（因?yàn)榫狄资茈x群點(diǎn)的影響）业稼，用分位數(shù)而不是方差。

prepocessing.RobustScaler(with_center=True, with_scaling=True, quantile_range=(25.0, 75.0), copy=True)

感覺和Z-score的區(qū)別就是使用對(duì)離群點(diǎn)更魯棒的統(tǒng)計(jì)學(xué)參數(shù)蚂蕴。
輸入?yún)?shù)：
with_center：默認(rèn)是True，縮放之前讓數(shù)據(jù)居中俯邓。這將導(dǎo)致變換在稀疏矩陣上嘗試時(shí)引發(fā)異常骡楼，因?yàn)閷?duì)它們進(jìn)行居中需要構(gòu)建一個(gè)密集矩陣，在常見的情況下稽鞭，該矩陣可能太大而無法放入內(nèi)存中鸟整。（意思就是說，對(duì)稀疏矩陣要選擇False?）朦蕴；
with_scaling：默認(rèn)是True篮条，將數(shù)據(jù)放縮到4分位數(shù)弟头。
quantile_range：默認(rèn)是（25.0,75.0），1分位數(shù)和3分位數(shù)涉茧，計(jì)算范圍赴恨；
copy：同之前寫的一樣。
輸出參數(shù)：
center_：訓(xùn)練集每個(gè)屬性的中值伴栓；
scale_：訓(xùn)練集中每個(gè)特征的（縮放）四分位數(shù)范圍伦连。

from sklearn.preprocessing import RobustScaler
X =  np.array([[1,2],[2,3]])
scaler = RobustScaler()
scaler.fit(X)
print(scaler.transform(X))

結(jié)果為：

array([[-1., -1.],
       [ 1.,  1.]])

歸一化
至少存在一個(gè)非0成分的每一行（每一個(gè)樣本）被分別縮放使得它的L2范數(shù)等于1。
這個(gè)transformer對(duì)稀疏矩陣钳垮，密集矩陣都適用

preprocessing.Normalizer(norm='l2', copy = True)

輸入?yún)?shù)：
norm：用于標(biāo)準(zhǔn)化每個(gè)非0樣本的標(biāo)準(zhǔn)惑淳；
copy：同上。

from sklearn.preprocessing import Normalizer
X2 = [[4,1,2,2],[1,3,9,3],[5,7,5,1]]
scaler2 = Normalizer(norm='l2')
scaler2.fit(X2)
print(scaler2.transform(X2))

結(jié)果是：

array([[0.8, 0.2, 0.4, 0.4],
       [0.1, 0.3, 0.9, 0.3],
       [0.5, 0.7, 0.5, 0.1]])

區(qū)間縮放

MaxAbsScaler
根據(jù)最大絕對(duì)值放縮每個(gè)特征饺窿。
單獨(dú)的縮放和轉(zhuǎn)換每個(gè)特征歧焦，使得訓(xùn)練集上的最大絕對(duì)值的值變?yōu)?，它不會(huì)移動(dòng)/居中數(shù)據(jù)肚医，因此不會(huì)破壞稀疏性绢馍。

prepocessing.MaxAbsScarer(copy = True)

輸入?yún)?shù)：
copy：同上。
輸出參數(shù)：
scale_：數(shù)據(jù)的每個(gè)特征的縮放忍宋；
max_abs：每個(gè)特征的絕對(duì)值最大值痕貌；
n_samples_seen_：同上。

from sklearn.preprocessing import MaxAbsScaler
X = np.array([[1,-1,2],[2,0,0],[0,1,-1]])
print(X)
scaler = MaxAbsScaler()
scaler.fit(X)
print(scaler.max_abs_)
print(scaler.scale_)
print(scaler.n_samples_seen_)
print(scaler.transform(X))

結(jié)果：

[[ 1 -1  2]
 [ 2  0  0]
 [ 0  1 -1]]
[2. 1. 2.]
[2. 1. 2.]
3
[[ 0.5 -1.   1. ]
 [ 1.   0.   0. ]
 [ 0.   1.  -0.5]]

MinMaxScaler
把每一個(gè)特征放縮到一個(gè)區(qū)域內(nèi)糠排。
$\begin{equation} \begin{split} X_{std} &= (X-X_{min})/(X_{max}-X_{min})\\ X_{scaled} &= X_{std}*(max-min)+min \end{split} \end{equation}$
其中舵稠，min，max 是特征區(qū)域入宦，e.g. [0,1]哺徊。

preprocessing.MinMaxScaler(featur_range(0,1), copy = True)

輸入?yún)?shù)：
feature_range：期望的轉(zhuǎn)換數(shù)據(jù)范圍；
copy：同上乾闰。
輸出參數(shù)：

min_：為了最小值落追，每個(gè)特征調(diào)整，

image.png

scale_：數(shù)據(jù)的每個(gè)特征的縮放涯肩；
data_min_：每個(gè)特征的最小值轿钠；
data_max_：每個(gè)特征的最大值；
data_range_：每個(gè)特征的范圍病苗。

image.png

from sklearn.preprocessing import MinMaxScaler
X1 = np.array([[-1,2],[-0.5,6],[0,10],[1,18]])
print(X1)
scaler1 = MinMaxScaler()
scaler1.fit(X1)
print(scaler1.min_)
print(scaler1.scale_)
print(scaler1.data_min_)
print(scaler1.data_max_)
print(scaler1.data_range_)
print(scaler1.transform(X1))

結(jié)果：

[ 0.5   -0.125]
[0.5    0.0625]
[-1.  2.]
[ 1. 18.]
[ 2. 16.]
[[0.   0.  ]
 [0.25 0.25]
 [0.5  0.5 ]
 [1.   1.  ]]

缺失值處理
LightGBM/XGBoost都能將NaN作為數(shù)據(jù)的一部分進(jìn)行學(xué)習(xí)疗垛，所以不需要處理缺失值，但是別的方法一般都不行硫朦，需要進(jìn)行填充贷腕。

用平均值，中值，分位數(shù)泽裳，眾數(shù)瞒斩，隨機(jī)值等替代，效果一般涮总，因?yàn)檎J(rèn)為增加了噪聲胸囱；
先根據(jù)歐氏距離或者Pearson相似度，來確定和缺失數(shù)據(jù)樣本最近的K個(gè)樣本妹卿，將這K個(gè)樣本的屬性加權(quán)平均來估計(jì)該樣本的缺失值旺矾；
（感覺上前面部分是推薦系統(tǒng)里面的東西，找出近鄰的樣本）夺克；
將變量映射到高維空間
3.a. 對(duì)于離散型變量：男箕宙，女，缺失三種情況铺纽，采用one-hot編碼映射成三個(gè)變量柬帕；
3.b. 對(duì)于連續(xù)型變量：首先對(duì)連續(xù)型變量進(jìn)行變量分箱，采用一定數(shù)據(jù)的數(shù)據(jù)平滑方式(平均值/中值/箱邊界)進(jìn)行離散化狡门，然后增加是否缺失這種維度陷寝。

創(chuàng)造新的特征

數(shù)值特征的簡(jiǎn)單變換
1.a. 單獨(dú)特征列乘以一個(gè)常數(shù)或者加減一個(gè)常數(shù)：對(duì)于創(chuàng)造新的有用特征毫無用處，只能作為對(duì)已有特征的處理其馏；
1.b. 任何針對(duì)單獨(dú)特征列的單調(diào)變換凤跑，e.g. 把 $x$ 變成 $x^{2}$ ；不適合于決策樹之類的算法
1.c. 線性組合叛复；僅適用于決策樹以及基于決策樹的ensemble算法仔引；
1.d. 多項(xiàng)式特征；
生成多項(xiàng)式和相互特征褐奥。
生成一個(gè)新的特征矩陣咖耘，該特征矩陣由特征的所有多項(xiàng)式組合組成，其度數(shù)小于或等于指定的度數(shù)撬码。也就是說給定 $[a,b]$ 儿倒，度數(shù)是2，那么新的特征矩陣是 $[a,b,a^{2},b^{2},ab,1]$ 呜笑。（給我一種集合里的生成元的感覺）

prepocessing.PolynomialFeatures(degree=2, interaction_only=False, include_bias=True夫否，Order='C')

輸入?yún)?shù)：
degree：默認(rèn)是2，多項(xiàng)式特征的度叫胁；
interaction_only：（沒看懂這個(gè)）慷吊；
include_bias：默認(rèn)是True，會(huì)包含一個(gè)偏置列曹抬，度數(shù)是0，也就是會(huì)有0這一項(xiàng)；
Order：密集情況下的輸出數(shù)組的順序谤民，'F'順序計(jì)算速度更快堰酿，但可能會(huì)降低后續(xù)估算器的速度。
輸出參數(shù)：
powers_：powers_[i,j] 是第i個(gè)輸出中第j個(gè)輸入的指數(shù)张足；
n_input_features_：輸入特征的總數(shù)触创；
n_output_features：輸出特征的總數(shù)。

from sklearn.preprocessing import PolynomialFeatures
import numpy as np
X = np.arange(6).reshape(3,2)
print(X)
poly = PolynomialFeatures()
poly.fit(X)
print(poly.powers_)
print(poly.n_input_features_)
print(poly.n_output_features_)
print(poly.transform(X))

結(jié)果是：

[[0 1]
 [2 3]
 [4 5]]
[[0 0]
 [1 0]
 [0 1]
 [2 0]
 [1 1]
 [0 2]]
2
6
[[ 1.  0.  1.  0.  0.  1.]
 [ 1.  2.  3.  4.  6.  9.]
 [ 1.  4.  5. 16. 20. 25.]]

1.e 比例特征： $X_{1}/X_{2}$ 为牍；
1.f 絕對(duì)值哼绑；
1.g $max(X_{1}，X_{2})$ 碉咆， $min(X_{1}抖韩，X_{2})$ 。

類別特征與數(shù)值特征的組合
用 $N_{1}疫铜，N_{2}$ 表示數(shù)值特征茂浮，用 $C_{1}，C_{2}$ 表示類別特征壳咕，利用Pandas的groupby操作席揽，可以創(chuàng)造出以下幾種有意思的特征：（知乎上說 $C_{2}$ 可以是離散化的 $N_{1}$ ，這是不是可以說谓厘，我們對(duì)一個(gè)數(shù)值特征分成幾個(gè)類別幌羞，然后對(duì)它進(jìn)行操作，重復(fù)使用會(huì)不會(huì)對(duì)數(shù)據(jù)利用的效果更好竟稳。）

image.png

僅僅將已有的數(shù)值特征和類別特征進(jìn)行以上有效組合属桦，就能夠得到更多的有效特征。

pandas.DataFrame.groubpy(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **Kwargs)

使用映射器或者一系列的列對(duì)DataFrame或者Series進(jìn)行分組住练。groupby操作涉及拆分對(duì)象地啰，應(yīng)用函數(shù)和組合結(jié)果的某種組合。這可用于對(duì)這些組上的大量數(shù)據(jù)和計(jì)算操作進(jìn)行分組讲逛。
輸入?yún)?shù)：
by：用于確定作為groupby操作的group亏吝；
axis：對(duì)行操作還是對(duì)列操作，axis=0/1盏混；
level：如果軸是MultiIndex（分層）蔚鸥，則按特定級(jí)別或級(jí)別分組；
ax_index：對(duì)于聚合輸出许赃，返回以組標(biāo)簽作為索引的對(duì)象止喷。僅與DataFrame輸入相關(guān)。 as_index = False實(shí)際上是“SQL風(fēng)格”的分組輸出混聊；
sort：對(duì)組鍵進(jìn)行排序弹谁，關(guān)閉它可以獲得更好的性能，請(qǐng)注意，這不會(huì)影響每組內(nèi)觀察的順序预愤，groupby保留每個(gè)組中的行順序沟于；
group_keys：調(diào)用apply時(shí)，將組鍵添加到索引以標(biāo)識(shí)片段植康；
squeeze：如果可能旷太，減少返回類型的維度，否則返回一致類型销睁；
observed：這僅適用于任何group是分類的情況供璧。如果為True：僅顯示分l類group的觀察值。如果為False：顯示分類group的所有值冻记；
**Kwargs：可選睡毒，只接受關(guān)鍵字參數(shù)'mutated'并傳遞給groupby。
輸出參數(shù)：取決于調(diào)用對(duì)象并返回包含有關(guān)組的信息的groupby對(duì)象檩赢。

import pandas as pd
data = pd.DataFrame({'Animal':['Falcon','Falcon','Parrot','Parrot'],
                    'Max Speed':[380,370,24,26]})
data.groupby(['Animal']).mean()

data：

image.png

結(jié)果：

image.png

將這種方法與線性組合等基礎(chǔ)特征工程方法結(jié)合（僅適用于決策樹）吕嘀，可以得到更多有意義的特征。
e.g.

N1 - median(N1)_by(C1)
N1 - mean(N1)_by(C1)

用基因編程創(chuàng)造新的特征
目前贞瞒，Python環(huán)境下最好用的基因編程庫(kù)是gplearn偶房。
基因編程的兩大用法：
3.a 轉(zhuǎn)換：將已有特征進(jìn)行組合轉(zhuǎn)換，組合的方式（一元军浆，二元棕洋，多元算子）可以由用戶自行定義，也可以使用庫(kù)中自帶的函數(shù)（e.g. 加減乘除乒融，min掰盘，max，三角函數(shù)赞季，對(duì)數(shù)等）愧捕。組合的目的是為了創(chuàng)造出與目標(biāo) $y$ 值最相關(guān)的新特征。這種相關(guān)程度可以用spearman或者pearson的相關(guān)系數(shù)進(jìn)行測(cè)量申钩。spearman多用于決策樹（免疫單特征單調(diào)變換）次绘，pearson多用于線性回歸等其他算法。
3.b 回歸：原理同上撒遣，只不過直接用于回歸而已邮偎。
關(guān)于gplearn的中文介紹：https://zhuanlan.zhihu.com/p/31185882
官方文檔說明：https://gplearn.readthedocs.io/en/stable/intro.html#initialization
用決策樹創(chuàng)造新的特征
在決策樹系列算法中（單顆決策樹，GBDT义黎，隨機(jī)森林中）禾进，每一個(gè)樣本都會(huì)被映射到?jīng)Q策樹的一片葉子上。因此廉涕，我們可以把樣本經(jīng)過每一棵決策樹映射后的index（自然數(shù)）或one-hot-vector（啞編碼得到的稀疏矢量）作為一項(xiàng)新的特征泻云，加入到模型中艇拍。
具體實(shí)現(xiàn)：apply()以及decision_path()方法，在scikit-learn和xgboost里都可以用宠纯。
決策樹淑倾，基于決策樹的ensemble
5.a spearman correlation coefficient

特征選擇
當(dāng)數(shù)據(jù)預(yù)處理完后，我們需要選擇有意義的特征輸入機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練征椒。通常來說，從兩個(gè)方面考慮來選擇特征：

特征是否發(fā)散：如果一個(gè)特征不發(fā)散湃累，例如方差接近于0勃救，也就是說樣本在這個(gè)特征上基本上沒有差異，這個(gè)特征對(duì)于樣本的區(qū)分并沒有什么用治力。
特征與目標(biāo)的相關(guān)性：這點(diǎn)比較顯而易見蒙秒，與目標(biāo)相關(guān)性高的特征，應(yīng)當(dāng)優(yōu)選選擇宵统。
根據(jù)特征選擇的形式又可以將特征選擇方法分為三種晕讲。
2.a Filter：過濾法，按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分马澈，設(shè)定閾值或者待選擇閾值的個(gè)數(shù)瓢省，選擇特征。
aa. 方差選擇法痊班。使用方差選擇法勤婚，先要計(jì)算各個(gè)特征的方差，然后根據(jù)閾值涤伐，選擇方差大于閾值的特征馒胆；
bb. 相關(guān)系數(shù)法。使用相關(guān)系數(shù)法凝果，先要計(jì)算各個(gè)特征對(duì)目標(biāo)值的相關(guān)系數(shù)以及相關(guān)系數(shù)的P值祝迂。 e.g. 使用pearson相關(guān)系數(shù)法
cc. 卡方檢驗(yàn)。（這一部分不太能理解器净，待補(bǔ)）
dd. 互信息法型雳。（這個(gè)也是，不太能理解為啥這個(gè)能選擇出來）掌动。
補(bǔ)充下個(gè)人的其它看法四啰，這個(gè)過濾法，感覺只要能算出屬性的什么什么值粗恢，然后用閾值去截?cái)嗑秃昧烁躺梗究飘呍O(shè)里面對(duì)BP神經(jīng)網(wǎng)絡(luò)加了個(gè)灰色關(guān)聯(lián)度去截?cái)鄬傩阅軌颢@得比BP神經(jīng)網(wǎng)絡(luò)更好的效果，現(xiàn)在理解就是這么個(gè)意思
2.b Wrapper：包裝法眷射，根據(jù)目標(biāo)函數(shù)（通常是預(yù)測(cè)效果評(píng)分）匙赞，每次選擇若干特征佛掖，或者排除若干特征。
aa. 遞歸消除法：遞歸消除特征法使用一個(gè)基模型來進(jìn)行多輪訓(xùn)練涌庭，每輪訓(xùn)練后芥被，消除若干權(quán)值系數(shù)的特征，再基于新的特征集進(jìn)行下一輪訓(xùn)練坐榆。
2.c Embedded：嵌入法拴魄，先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練，得到各個(gè)特征的權(quán)值系數(shù)席镀，根據(jù)系數(shù)從大到小選擇特征匹中。類似于Filter方法，但是是通過訓(xùn)練來確定特征的優(yōu)劣豪诲。
aa. 基于懲罰項(xiàng)的特征選擇法顶捷。

參考資料：
https://zhuanlan.zhihu.com/p/26444240
https://blog.csdn.net/fisherming/article/details/80105891
https://zhuanlan.zhihu.com/p/26308272
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html
https://zhuanlan.zhihu.com/p/31185882
https://www.cnblogs.com/peizhe123/p/7412364.html

最后編輯于：2019.07.04 16:01:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市屎篱，隨后出現(xiàn)的幾起案子服赎，更是在濱河造成了極大的恐慌，老刑警劉巖交播，帶你破解...
沈念sama閱讀 217,406評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件重虑，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡堪侯，警方通過查閱死者的電腦和手機(jī)嚎尤，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來伍宦，“玉大人芽死，你說我怎么就攤上這事〈瓮荩” “怎么了关贵？”我有些...
開封第一講書人閱讀 163,711評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)卖毁。經(jīng)常有香客問我揖曾，道長(zhǎng)，這世上最難降的妖魔是什么亥啦？我笑而不...
開封第一講書人閱讀 58,380評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任炭剪，我火速辦了婚禮，結(jié)果婚禮上翔脱，老公的妹妹穿的比我還像新娘奴拦。我一直安慰自己，他們只是感情好届吁，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布错妖。她就那樣靜靜地躺著绿鸣，像睡著了一般。火紅的嫁衣襯著肌膚如雪暂氯。梳的紋絲不亂的頭發(fā)上潮模，一...
開封第一講書人閱讀 51,301評(píng)論 1贊 301
城市分裂傳說
那天，我揣著相機(jī)與錄音痴施，去河邊找鬼擎厢。笑死，一個(gè)胖子當(dāng)著我的面吹牛辣吃，可吹牛的內(nèi)容都是我干的锉矢。我是一名探鬼主播，決...
沈念sama閱讀 40,145評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼齿尽，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了灯节？” 一聲冷哼從身側(cè)響起循头，我...
開封第一講書人閱讀 39,008評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎炎疆，沒想到半個(gè)月后卡骂，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,443評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡形入，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年全跨，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亿遂。...
茶點(diǎn)故事閱讀 39,795評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡浓若，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出蛇数，到底是詐尸還是另有隱情挪钓，我是刑警寧澤，帶...
沈念sama閱讀 35,501評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布耳舅，位于F島的核電站碌上，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏浦徊。R本人自食惡果不足惜馏予，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望盔性。院中可真熱鬧霞丧，春花似錦、人聲如沸纯出。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評(píng)論 0贊 22
一樁弒父案敷燎，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至箩言，卻和暖如春硬贯，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背陨收。一陣腳步聲響...
開封第一講書人閱讀 32,865評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工饭豹，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人务漩。一個(gè)月前我還...
沈念sama閱讀 47,899評(píng)論 2贊 370
代替公主和親
正文我出身青樓拄衰，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親饵骨。傳聞我的和親對(duì)象是個(gè)殘疾皇子翘悉，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評(píng)論 2贊 354

特征工程中的常用方法

數(shù)值特征

推薦閱讀更多精彩內(nèi)容