機器學(xué)習(xí)-特征工程

outline

  • 概念
  • 預(yù)處理
  • 特征選擇
  • 降維

概念

數(shù)據(jù)集由數(shù)據(jù)對象組成瘪松,一個數(shù)據(jù)對象代表一個實體
屬性(attribute)是一個數(shù)據(jù)字段咸作,表示數(shù)據(jù)對象的一個特征。屬性向量(或特征向量)是用來描述一個給定對象的一組屬性宵睦。
屬性的分類:

  • 標(biāo)稱屬性(nominal attribute)
  • 二元屬性(binary attribute)
  • 序數(shù)屬性(ordinal attribute)--- 常量表中的某個值
  • 數(shù)值屬性(numerical attribute)= 離散屬性 + 連續(xù)屬性
數(shù)據(jù)清洗

清洗標(biāo)注數(shù)據(jù)记罚,主要是數(shù)據(jù)采樣和樣本過濾

數(shù)據(jù)增強( Data Augmentation)

數(shù)據(jù)增強是指從給定數(shù)據(jù)導(dǎo)出的新數(shù)據(jù)的添加
如CV領(lǐng)域中的圖像增廣技術(shù)

預(yù)處理

缺失值的處理

(1)丟棄
(2)均值
(3)上下數(shù)據(jù)填充
(4)插值法 線性插值
(5)隨機森林擬合

標(biāo)準(zhǔn)化和歸一化
  • 標(biāo)準(zhǔn)化
    標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),使每個特征中的數(shù)值平均變?yōu)?(將每個特征的值都減掉原始資料中該特征的平均)壳嚎、標(biāo)準(zhǔn)差變?yōu)?
    基于正態(tài)分布假設(shè)
    標(biāo)準(zhǔn)化后可能為負
    (X-X_mean)/std

  • 歸一化
    對每個樣本計算其p-范數(shù)桐智,再對每個元素除以該范數(shù),這使得每個處理后樣本的p-范數(shù)(l1-norm,l2-norm)等于1烟馅。

  • 區(qū)間縮放法
    常見的一種為利用兩個最值進行縮放


    image.png

    具有加速收斂的作用,原因如下圖:


    clipboard.png

可以使用sklearn中的preproccessing庫來進行數(shù)據(jù)預(yù)處理

特征選擇

定義: 從給定的特征集合中選擇出相關(guān)特征子集的過程
兩個關(guān)鍵問題:

  • 子集搜索
    forward搜索: 逐漸增加相關(guān)特征的策略
    backward搜索:逐漸減少特征的策略
    bidirectional搜索
  • 子集評價

特征選擇方法 = 子集搜索機制 + 子集評價機制

特征選擇的作用
  • 減少(冗余)特征數(shù)量说庭、降維,使模型泛化能力更強郑趁,減少過擬合
  • 增強對特征和特征值之間的理解
  • 去噪


    image.png

過濾式(filter)

特點:特征選擇過程和學(xué)習(xí)器無關(guān)
通過特征的某個統(tǒng)計量值來進行排序刊驴,選擇Top K特征
from sklearn.feature_selection import SelectKBest

  • 基于方差
  • 基于信息增益
    去除方差較小的特征,譬如某些特征只有一個值

ID3算法在選擇節(jié)點對應(yīng)的特征時也是使用信息增益
對于決策樹來說穿撮,樹節(jié)點的劃分屬性所組成的集合就是選擇出的特征子集

  • Pearson相關(guān)系數(shù)
    皮爾森相關(guān)系數(shù)是一種最簡單的缺脉,能幫助理解特征和響應(yīng)變量之間關(guān)系的方法痪欲,該方法衡量的是變量之間的線性相關(guān)性,結(jié)果的取值區(qū)間為[-1攻礼,1]业踢,-1表示完全的負相關(guān)(這個變量下降,那個就會上升)礁扮,+1表示完全的正相關(guān)知举,0表示沒有線性相關(guān)。

  • 互信息量
    互信息(Mutual Information)是度量兩個事件集合之間的相關(guān)性(mutual dependence)太伊」臀互信息最常用的單位是bit。
    根據(jù)互信息計算公式可得: 當(dāng)互信息MI=0時僚焦,兩個變量(兩個事件集合)之間相互獨立

  • χ2統(tǒng)計量(卡方檢驗)
    χ2檢驗用來檢驗兩個事件的獨立性锰提。
    χ2 值越大,則表明實際觀察值與期望值偏離越大芳悲,也說明兩個事件的相互獨立性越弱立肘。

wrapper

特點:將后續(xù)學(xué)習(xí)器的性能作為特征子集的評價準(zhǔn)則
將子集的選擇看作是一個搜索尋優(yōu)問題,生成不同的組合名扛,對組合進行評價谅年,再與其他的組合進行比較
啟發(fā)式算法

from sklearn.feature_selection import RFE

  • Las Vegas Wrapper(LVW)
    在LVW中,特征子集搜索采用了隨機策略肮韧,然后訓(xùn)練學(xué)習(xí)器進行交叉校驗融蹂。
  • 基于學(xué)習(xí)模型的特征排序
    這種方法的思路是直接使用你要用的機器學(xué)習(xí)算法,針對每個單獨的特征和響應(yīng)變量建立預(yù)測模型弄企。交叉驗證后超燃,根據(jù)分數(shù)值對特征進行排序。
    特征和響應(yīng)變量之間的關(guān)系是線性:線性回歸
    假如某個特征和響應(yīng)變量之間的關(guān)系是非線性的桩蓉,可以用基于樹的方法(決策樹淋纲、隨機森林)、或者擴展的線性模型等

embedding

特點:特征選擇過程與學(xué)習(xí)訓(xùn)練過程融為一體院究,兩者在同一個優(yōu)化過程中完成洽瞬,即在學(xué)習(xí)器訓(xùn)練過程中自動地進行了特征選擇
from sklearn.feature_selection import SelectFromModel

L1和L2范數(shù)都有助于降低過擬合風(fēng)險

L1正則化/Lasso

L1正則化將系數(shù)w的l1范數(shù)作為懲罰項加到損失函數(shù)上,由于正則項非零业汰,這就迫使那些弱的特征所對應(yīng)的系數(shù)變成0
防止過擬合
更容易獲得系數(shù)解


image.png
L2正則化/Ridge regression嶺回歸

L2正則化對于特征理解來說更加有用:表示能力強的特征對應(yīng)的系數(shù)是非零

降維

定義:通過某種數(shù)學(xué)變化將原始高維屬性空間轉(zhuǎn)變?yōu)榈途S子空間(subspace)
低維嵌入(三維-->二維):


image.png

降維方法分類


image.png
PCA

from sklearn.decomposition import PCA

參考資料

<機器學(xué)習(xí)>第10章降維與度量學(xué)習(xí)-周志華
<機器學(xué)習(xí)>第11章特征選擇和稀疏學(xué)習(xí)-周志華
結(jié)合Scikit-learn介紹幾種常用的特征選擇方法
機器學(xué)習(xí)之特征選擇
Sklearn數(shù)據(jù)預(yù)處理:scale, StandardScaler, MinMaxScaler, Normalizer
機器學(xué)習(xí)中伙窃,有哪些特征選擇的工程方法?
知乎特征工程總結(jié)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末样漆,一起剝皮案震驚了整個濱河市为障,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖鳍怨,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件呻右,死亡現(xiàn)場離奇詭異,居然都是意外死亡鞋喇,警方通過查閱死者的電腦和手機声滥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來侦香,“玉大人落塑,你說我怎么就攤上這事」藓” “怎么了憾赁?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長散吵。 經(jīng)常有香客問我龙考,道長,這世上最難降的妖魔是什么错蝴? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任洲愤,我火速辦了婚禮颓芭,結(jié)果婚禮上顷锰,老公的妹妹穿的比我還像新娘。我一直安慰自己亡问,他們只是感情好官紫,可當(dāng)我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著州藕,像睡著了一般束世。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上床玻,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天毁涉,我揣著相機與錄音,去河邊找鬼锈死。 笑死贫堰,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的待牵。 我是一名探鬼主播其屏,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼缨该!你這毒婦竟也來了偎行?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蛤袒,沒想到半個月后熄云,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡妙真,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年皱碘,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隐孽。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡癌椿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出菱阵,到底是詐尸還是另有隱情踢俄,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布晴及,位于F島的核電站都办,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏虑稼。R本人自食惡果不足惜琳钉,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蛛倦。 院中可真熱鬧歌懒,春花似錦、人聲如沸溯壶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽且改。三九已至验烧,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間又跛,已是汗流浹背碍拆。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留慨蓝,地道東北人感混。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像菌仁,于是被迫代替她去往敵國和親浩习。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容