特征工程是所有機器學習的最重要的一步。如果要對特征工程梳理最基本的操作鄙信,考慮以下四步:
1.編碼
2.分箱
3.自動化特征選擇(單變量選項蹈丸,模型選擇,迭代選擇)
4.經(jīng)驗特征選擇
先說數(shù)據(jù)集:美國成年人收入的數(shù)據(jù)集玻墅,該數(shù)據(jù)集是從 1994 年的普查數(shù)據(jù)庫中導出的介牙。adult 數(shù)據(jù)集的任務是預測一名工人的收入是高于 50 000 美元還是低于 50 000 美元。這個數(shù)據(jù)集的特征包括工人的年齡澳厢、雇用方式(獨立經(jīng)營耻瑟、私營企業(yè)員工、政府職員等)赏酥、教育水平喳整、性別、每周工作時長裸扶、職業(yè)框都,等等。
4.1 編碼(獨熱)
使用編碼的主要原因:工作時間呵晨,工作年齡是連續(xù)的值魏保,但是性別,職業(yè)等是離散值摸屠。連續(xù)值方便看出數(shù)據(jù)規(guī)律谓罗,但是離散值很難參與計算,所以需要進行編碼季二。編碼的方式有很多檩咱,著名的是one-hot獨熱編碼揭措,獨熱編碼的意思是如果一個人的 workclass 特征(表1)取某個值(取值包括 "Government Employee"、"Private Employee"刻蚯、"Self Employed" 和 "Self Employed Incorporated")绊含,那么對應“有”的特征取值為 1,其他特征“無”均取值為 0炊汹。因此躬充,對每個數(shù)據(jù)點來說,4 個新特征中只有一個的取值為 1讨便。這就是它叫作 one-hot 編碼的原因充甚。
關于獨熱編碼有幾點需要注意:
- 獨熱編碼可以提高準度(下圖中最后邏輯模型顯示準度)。
-
將數(shù)據(jù)轉換為分類變量的 one-hot 編碼有兩種方法:一種是使用 pandas(簡單一些霸褒,下圖dummies)津坑,一種是使用 scikit-learn。
邏輯模型判斷
4.2 分箱
分箱起到的作用是讓原本的線性回歸(一條直線)傲霸,分為不同的箱子(下圖中x軸)變?yōu)榉侄尾僮鹘澹谂浜喜煌男甭剩瑪M合數(shù)據(jù)變化的規(guī)律昙啄,提升原有線性回歸的準度穆役。
不過通過試驗證明,分箱的操作比默認SVM性能還是略低梳凛。
所以耿币,分箱、多項式交互對線性模型的提升較高韧拒,其他算法還好淹接。
4.3 自動化處理
處理一般的高維數(shù)據(jù)集時,最好將特征的數(shù)量減少到只包含最有用的那些特征叛溢,并刪除其余特征塑悼。這樣會得到泛化能力更好、更簡單的模型楷掉。
如何判斷每個特征的作用有多大呢厢蒜?有三種基本的策略:單變量統(tǒng)計(univariate statistics)、基于模型的選擇(model-based selection)和迭代選擇(iterative selection)烹植。
所有這些方法都是監(jiān)督方法斑鸦,即它們需要目標值來擬合模型。這也就是說草雕,我們需要將數(shù)據(jù)劃分為訓練集和測試集巷屿,并只在訓練集上擬合特征選擇。
4.3.1 單變量統(tǒng)計
在單變量統(tǒng)計中墩虹,核心計算每個特征和目標值之間的關系是否存在統(tǒng)計顯著性嘱巾,然后選擇具有最高置信度的特征憨琳。對于分類問題,這也被稱為方差分析浓冒。這些測試的一個關鍵性質就是它們是單變量的(univariate)栽渴,即它們只單獨考慮每個特征尖坤。
因此稳懒,如果一個特征只有在與另一個特征合并時才具有信息量,那么這個特征將被舍棄(缺陷)慢味。
單變量測試的計算速度通常很快场梆,并且不需要構建模型。另一方面纯路,它們完全獨立于想要在特征選擇之后應用的模型或油。
對分類問題通常是 f_classif(默認值),對回歸問題通常是 f_regression(下圖紅色框)驰唬。計算閾值的方法各有不同顶岸,最簡單的是 SelectKBest 和 SelectPercentile,前者選擇固定數(shù)量的 k 個特征叫编,后者選擇固定百分比的特征辖佣。我們將分類的特征選擇應用于 cancer 數(shù)據(jù)集。為了使任務更難一點搓逾,我們將向數(shù)據(jù)中添加一些沒有信息量的噪聲特征(下圖第一個框卷谈,加了50個噪聲)。我們期望特征選擇能能夠識別沒有信息量的特征并刪除它們:
單變量特征選擇霞篡,刪除的噪點后的feature大概準度有9.3 成世蔗。
4.3.2 基于模型的特征選擇
基于模型的特征選擇使用一個監(jiān)督機器學習模型來判斷每個特征的重要性,并且僅保留最重要的特征朗兵。用于特征選擇的監(jiān)督模型不需要與用于最終監(jiān)督建模的模型相同污淋。特征選擇模型需要為每個特征提供某種重要性度量,以便用這個度量對特征進行排序余掖。決策樹和基于決策樹的模型提供了 feature_importances_ 屬性芙沥,可以直接編碼每個特征的重要性。線性模型系數(shù)的絕對值也可以用于表示特征重要性浊吏。
單變量特征選擇而昨,刪除的噪點后的feature大概準度有9.5 成。
4.3.3 迭代特征選擇
在單變量測試中找田,沒有使用模型歌憨,而在基于模型的選擇中,使用了單個模型來選擇特征墩衙。(有可能單個不起作用务嫡,但是組合會起作用甲抖,導致誤刪)
在迭代特征選擇中,將會構建一系列模型心铃,每個模型都使用不同數(shù)量的特征准谚。有兩種基本方法:開始時沒有特征,然后逐個添加特征去扣,直到滿足某個終止條件柱衔;或者從所有特征開始,然后逐個刪除特征愉棱,直到滿足某個終止條件唆铐。由于構建了一系列模型,所以這些方法的計算成本要比前面討論過的方法更高奔滑。其中一種特殊方法是遞歸特征消除(recursive feature elimination艾岂,RFE),它從所有特征開始構建模型朋其,并根據(jù)模型舍棄最不重要的特征王浴,然后使用除被舍棄特征之外的所有特征來構建一個新模型,如此繼續(xù)梅猿,直到僅剩下預設數(shù)量的特征(迭代次數(shù)如圖所示)氓辣。
迭代特征選擇,刪除的噪點后的feature大概準度有9.5 成粒没。最后兩種準度差不多筛婉。
如果你不確定何時選擇使用哪些特征作為機器學習算法的輸入,那么自動化特征選擇可能特別有用癞松。它還有助于減少所需要的特征數(shù)量爽撒,加快預測速度,或允許可解釋性更強的模型响蓉。在大多數(shù)現(xiàn)實情況下硕勿,使用特征選擇不太可能大幅提升性能,但它仍是特征工程工具箱中一個非常有價值的工具枫甲。
4.專家模式
專家模式其實核心是就借助經(jīng)驗處理來提高準度源武。人工智能有句話“有多少人工就有多少智能”。機器學習的目的是避免創(chuàng)建一組專家設計的規(guī)則想幻,但這并不意味著應該舍棄該應用或該領域的先驗知識粱栖。通常來說,領域專家可以幫助找出有用的特征脏毯,其信息量比數(shù)據(jù)原始表示要大得多闹究。
我們以自行車出租數(shù)據(jù)為例(https://www.citibikenyc.com/system-data),想要解決的任務是食店,對于給定的日期和時間渣淤,預測有多少人將會在 Andreas 的家門口租一輛自行車——這樣他就知道是否還有自行車留給他赏寇。
可以看到在默認隨機森林學習的情況下,訓練數(shù)據(jù)集不錯价认,但是在測試數(shù)據(jù)集幾乎是一個直線(什么也沒有學習到)嗅定,原因是:測試集中數(shù)據(jù)點的時間戳要晚于訓練集中的所有數(shù)據(jù)點。樹以及隨機森林無法外推(extrapolate)到訓練集之外的特征范圍用踩。結果就是模型只能預測訓練集中最近數(shù)據(jù)點的目標值渠退,即最后一次觀測到數(shù)據(jù)的時間。
我們作為人捶箱,覺得:租借自行車應該和星期和時間點有關(這就是專家智什,機器是不告訴动漾,是學習不了)丁屎,加入2個因素,效果就好了很多旱眯〕看ǎ基本測試集就擬合了。
下一章節(jié)重點介紹評估機器學習模型的性能與選擇正確的參數(shù)設置删豺。