outline
- 概念
- 預(yù)處理
- 特征選擇
- 降維
概念
數(shù)據(jù)集由數(shù)據(jù)對象組成瘪松,一個數(shù)據(jù)對象代表一個實體
屬性(attribute)是一個數(shù)據(jù)字段咸作,表示數(shù)據(jù)對象的一個特征。屬性向量(或特征向量)是用來描述一個給定對象的一組屬性宵睦。
屬性的分類:
- 標(biāo)稱屬性(nominal attribute)
- 二元屬性(binary attribute)
- 序數(shù)屬性(ordinal attribute)--- 常量表中的某個值
- 數(shù)值屬性(numerical attribute)= 離散屬性 + 連續(xù)屬性
數(shù)據(jù)清洗
清洗標(biāo)注數(shù)據(jù)记罚,主要是數(shù)據(jù)采樣和樣本過濾
數(shù)據(jù)增強( Data Augmentation)
數(shù)據(jù)增強是指從給定數(shù)據(jù)導(dǎo)出的新數(shù)據(jù)的添加
如CV領(lǐng)域中的圖像增廣技術(shù)
預(yù)處理
缺失值的處理
(1)丟棄
(2)均值
(3)上下數(shù)據(jù)填充
(4)插值法 線性插值
(5)隨機森林擬合
標(biāo)準(zhǔn)化和歸一化
標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),使每個特征中的數(shù)值平均變?yōu)?(將每個特征的值都減掉原始資料中該特征的平均)壳嚎、標(biāo)準(zhǔn)差變?yōu)?
基于正態(tài)分布假設(shè)
標(biāo)準(zhǔn)化后可能為負
(X-X_mean)/std歸一化
對每個樣本計算其p-范數(shù)桐智,再對每個元素除以該范數(shù),這使得每個處理后樣本的p-范數(shù)(l1-norm,l2-norm)等于1烟馅。-
區(qū)間縮放法
常見的一種為利用兩個最值進行縮放
具有加速收斂的作用,原因如下圖:
可以使用sklearn中的preproccessing庫來進行數(shù)據(jù)預(yù)處理
特征選擇
定義: 從給定的特征集合中選擇出相關(guān)特征子集的過程
兩個關(guān)鍵問題:
- 子集搜索
forward搜索: 逐漸增加相關(guān)特征的策略
backward搜索:逐漸減少特征的策略
bidirectional搜索 - 子集評價
特征選擇方法 = 子集搜索機制 + 子集評價機制
特征選擇的作用
- 減少(冗余)特征數(shù)量说庭、降維,使模型泛化能力更強郑趁,減少過擬合
- 增強對特征和特征值之間的理解
-
去噪
過濾式(filter)
特點:特征選擇過程和學(xué)習(xí)器無關(guān)
通過特征的某個統(tǒng)計量值來進行排序刊驴,選擇Top K特征
from sklearn.feature_selection import SelectKBest
- 基于方差
- 基于信息增益
去除方差較小的特征,譬如某些特征只有一個值
ID3算法在選擇節(jié)點對應(yīng)的特征時也是使用信息增益
對于決策樹來說穿撮,樹節(jié)點的劃分屬性所組成的集合就是選擇出的特征子集
Pearson相關(guān)系數(shù)
皮爾森相關(guān)系數(shù)是一種最簡單的缺脉,能幫助理解特征和響應(yīng)變量之間關(guān)系的方法痪欲,該方法衡量的是變量之間的線性相關(guān)性,結(jié)果的取值區(qū)間為[-1攻礼,1]业踢,-1表示完全的負相關(guān)(這個變量下降,那個就會上升)礁扮,+1表示完全的正相關(guān)知举,0表示沒有線性相關(guān)。互信息量
互信息(Mutual Information)是度量兩個事件集合之間的相關(guān)性(mutual dependence)太伊」臀互信息最常用的單位是bit。
根據(jù)互信息計算公式可得: 當(dāng)互信息MI=0時僚焦,兩個變量(兩個事件集合)之間相互獨立χ2統(tǒng)計量(卡方檢驗)
χ2檢驗用來檢驗兩個事件的獨立性锰提。
χ2 值越大,則表明實際觀察值與期望值偏離越大芳悲,也說明兩個事件的相互獨立性越弱立肘。
wrapper
特點:將后續(xù)學(xué)習(xí)器的性能作為特征子集的評價準(zhǔn)則
將子集的選擇看作是一個搜索尋優(yōu)問題,生成不同的組合名扛,對組合進行評價谅年,再與其他的組合進行比較
啟發(fā)式算法
from sklearn.feature_selection import RFE
- Las Vegas Wrapper(LVW)
在LVW中,特征子集搜索采用了隨機策略肮韧,然后訓(xùn)練學(xué)習(xí)器進行交叉校驗融蹂。
- 基于學(xué)習(xí)模型的特征排序
這種方法的思路是直接使用你要用的機器學(xué)習(xí)算法,針對每個單獨的特征和響應(yīng)變量建立預(yù)測模型弄企。交叉驗證后超燃,根據(jù)分數(shù)值對特征進行排序。
特征和響應(yīng)變量之間的關(guān)系是線性:線性回歸
假如某個特征和響應(yīng)變量之間的關(guān)系是非線性的桩蓉,可以用基于樹的方法(決策樹淋纲、隨機森林)、或者擴展的線性模型等
embedding
特點:特征選擇過程與學(xué)習(xí)訓(xùn)練過程融為一體院究,兩者在同一個優(yōu)化過程中完成洽瞬,即在學(xué)習(xí)器訓(xùn)練過程中自動地進行了特征選擇
from sklearn.feature_selection import SelectFromModel
L1和L2范數(shù)都有助于降低過擬合風(fēng)險
L1正則化/Lasso
L1正則化將系數(shù)w的l1范數(shù)作為懲罰項加到損失函數(shù)上,由于正則項非零业汰,這就迫使那些弱的特征所對應(yīng)的系數(shù)變成0
防止過擬合
更容易獲得系數(shù)解
L2正則化/Ridge regression嶺回歸
L2正則化對于特征理解來說更加有用:表示能力強的特征對應(yīng)的系數(shù)是非零
降維
定義:通過某種數(shù)學(xué)變化將原始高維屬性空間轉(zhuǎn)變?yōu)榈途S子空間(subspace)
低維嵌入(三維-->二維):
降維方法分類
PCA
from sklearn.decomposition import PCA
參考資料
<機器學(xué)習(xí)>第10章降維與度量學(xué)習(xí)-周志華
<機器學(xué)習(xí)>第11章特征選擇和稀疏學(xué)習(xí)-周志華
結(jié)合Scikit-learn介紹幾種常用的特征選擇方法
機器學(xué)習(xí)之特征選擇
Sklearn數(shù)據(jù)預(yù)處理:scale, StandardScaler, MinMaxScaler, Normalizer
機器學(xué)習(xí)中伙窃,有哪些特征選擇的工程方法?
知乎特征工程總結(jié)