04 特征工程

特征工程是所有機器學習的最重要的一步。如果要對特征工程梳理最基本的操作鄙信,考慮以下四步:
1.編碼
2.分箱
3.自動化特征選擇(單變量選項蹈丸,模型選擇,迭代選擇)
4.經(jīng)驗特征選擇

先說數(shù)據(jù)集:美國成年人收入的數(shù)據(jù)集玻墅,該數(shù)據(jù)集是從 1994 年的普查數(shù)據(jù)庫中導出的介牙。adult 數(shù)據(jù)集的任務是預測一名工人的收入是高于 50 000 美元還是低于 50 000 美元。這個數(shù)據(jù)集的特征包括工人的年齡澳厢、雇用方式(獨立經(jīng)營耻瑟、私營企業(yè)員工、政府職員等)赏酥、教育水平喳整、性別、每周工作時長裸扶、職業(yè)框都,等等。


表1:dataset

4.1 編碼(獨熱)

使用編碼的主要原因:工作時間呵晨,工作年齡是連續(xù)的值魏保,但是性別,職業(yè)等是離散值摸屠。連續(xù)值方便看出數(shù)據(jù)規(guī)律谓罗,但是離散值很難參與計算,所以需要進行編碼季二。編碼的方式有很多檩咱,著名的是one-hot獨熱編碼揭措,獨熱編碼的意思是如果一個人的 workclass 特征(表1)取某個值(取值包括 "Government Employee"、"Private Employee"刻蚯、"Self Employed" 和 "Self Employed Incorporated")绊含,那么對應“有”的特征取值為 1,其他特征“無”均取值為 0炊汹。因此躬充,對每個數(shù)據(jù)點來說,4 個新特征中只有一個的取值為 1讨便。這就是它叫作 one-hot 編碼的原因充甚。
關于獨熱編碼有幾點需要注意:

  • 獨熱編碼可以提高準度(下圖中最后邏輯模型顯示準度)。
  • 將數(shù)據(jù)轉換為分類變量的 one-hot 編碼有兩種方法:一種是使用 pandas(簡單一些霸褒,下圖dummies)津坑,一種是使用 scikit-learn。


    邏輯模型判斷

4.2 分箱

分箱起到的作用是讓原本的線性回歸(一條直線)傲霸,分為不同的箱子(下圖中x軸)變?yōu)榉侄尾僮鹘澹谂浜喜煌男甭剩瑪M合數(shù)據(jù)變化的規(guī)律昙啄,提升原有線性回歸的準度穆役。


分箱

不過通過試驗證明,分箱的操作比默認SVM性能還是略低梳凛。
所以耿币,分箱、多項式交互對線性模型的提升較高韧拒,其他算法還好淹接。

4.3 自動化處理

處理一般的高維數(shù)據(jù)集時,最好將特征的數(shù)量減少到只包含最有用的那些特征叛溢,并刪除其余特征塑悼。這樣會得到泛化能力更好、更簡單的模型楷掉。
如何判斷每個特征的作用有多大呢厢蒜?有三種基本的策略:單變量統(tǒng)計(univariate statistics)、基于模型的選擇(model-based selection)和迭代選擇(iterative selection)烹植。
所有這些方法都是監(jiān)督方法斑鸦,即它們需要目標值來擬合模型。這也就是說草雕,我們需要將數(shù)據(jù)劃分為訓練集和測試集巷屿,并只在訓練集上擬合特征選擇。

4.3.1 單變量統(tǒng)計

在單變量統(tǒng)計中墩虹,核心計算每個特征和目標值之間的關系是否存在統(tǒng)計顯著性嘱巾,然后選擇具有最高置信度的特征憨琳。對于分類問題,這也被稱為方差分析浓冒。這些測試的一個關鍵性質就是它們是單變量的(univariate)栽渴,即它們只單獨考慮每個特征尖坤。
因此稳懒,如果一個特征只有在與另一個特征合并時才具有信息量,那么這個特征將被舍棄(缺陷)慢味。
單變量測試的計算速度通常很快场梆,并且不需要構建模型。另一方面纯路,它們完全獨立于想要在特征選擇之后應用的模型或油。
對分類問題通常是 f_classif(默認值),對回歸問題通常是 f_regression(下圖紅色框)驰唬。計算閾值的方法各有不同顶岸,最簡單的是 SelectKBest 和 SelectPercentile,前者選擇固定數(shù)量的 k 個特征叫编,后者選擇固定百分比的特征辖佣。我們將分類的特征選擇應用于 cancer 數(shù)據(jù)集。為了使任務更難一點搓逾,我們將向數(shù)據(jù)中添加一些沒有信息量的噪聲特征(下圖第一個框卷谈,加了50個噪聲)。我們期望特征選擇能能夠識別沒有信息量的特征并刪除它們:

SelectPercentile

單變量特征選擇霞篡,刪除的噪點后的feature大概準度有9.3 成世蔗。

4.3.2 基于模型的特征選擇

基于模型的特征選擇使用一個監(jiān)督機器學習模型來判斷每個特征的重要性,并且僅保留最重要的特征朗兵。用于特征選擇的監(jiān)督模型不需要與用于最終監(jiān)督建模的模型相同污淋。特征選擇模型需要為每個特征提供某種重要性度量,以便用這個度量對特征進行排序余掖。決策樹和基于決策樹的模型提供了 feature_importances_ 屬性芙沥,可以直接編碼每個特征的重要性。線性模型系數(shù)的絕對值也可以用于表示特征重要性浊吏。

feature_importances

單變量特征選擇而昨,刪除的噪點后的feature大概準度有9.5 成。

4.3.3 迭代特征選擇

在單變量測試中找田,沒有使用模型歌憨,而在基于模型的選擇中,使用了單個模型來選擇特征墩衙。(有可能單個不起作用务嫡,但是組合會起作用甲抖,導致誤刪)
在迭代特征選擇中,將會構建一系列模型心铃,每個模型都使用不同數(shù)量的特征准谚。有兩種基本方法:開始時沒有特征,然后逐個添加特征去扣,直到滿足某個終止條件柱衔;或者從所有特征開始,然后逐個刪除特征愉棱,直到滿足某個終止條件唆铐。由于構建了一系列模型,所以這些方法的計算成本要比前面討論過的方法更高奔滑。其中一種特殊方法是遞歸特征消除(recursive feature elimination艾岂,RFE),它從所有特征開始構建模型朋其,并根據(jù)模型舍棄最不重要的特征王浴,然后使用除被舍棄特征之外的所有特征來構建一個新模型,如此繼續(xù)梅猿,直到僅剩下預設數(shù)量的特征(迭代次數(shù)如圖所示)氓辣。
迭代特征選擇,刪除的噪點后的feature大概準度有9.5 成粒没。最后兩種準度差不多筛婉。


estimator

如果你不確定何時選擇使用哪些特征作為機器學習算法的輸入,那么自動化特征選擇可能特別有用癞松。它還有助于減少所需要的特征數(shù)量爽撒,加快預測速度,或允許可解釋性更強的模型响蓉。在大多數(shù)現(xiàn)實情況下硕勿,使用特征選擇不太可能大幅提升性能,但它仍是特征工程工具箱中一個非常有價值的工具枫甲。

4.專家模式

專家模式其實核心是就借助經(jīng)驗處理來提高準度源武。人工智能有句話“有多少人工就有多少智能”。機器學習的目的是避免創(chuàng)建一組專家設計的規(guī)則想幻,但這并不意味著應該舍棄該應用或該領域的先驗知識粱栖。通常來說,領域專家可以幫助找出有用的特征脏毯,其信息量比數(shù)據(jù)原始表示要大得多闹究。
我們以自行車出租數(shù)據(jù)為例(https://www.citibikenyc.com/system-data),想要解決的任務是食店,對于給定的日期和時間渣淤,預測有多少人將會在 Andreas 的家門口租一輛自行車——這樣他就知道是否還有自行車留給他赏寇。

原始數(shù)據(jù)

可以看到在默認隨機森林學習的情況下,訓練數(shù)據(jù)集不錯价认,但是在測試數(shù)據(jù)集幾乎是一個直線(什么也沒有學習到)嗅定,原因是:測試集中數(shù)據(jù)點的時間戳要晚于訓練集中的所有數(shù)據(jù)點。樹以及隨機森林無法外推(extrapolate)到訓練集之外的特征范圍用踩。結果就是模型只能預測訓練集中最近數(shù)據(jù)點的目標值渠退,即最后一次觀測到數(shù)據(jù)的時間。


默認隨機森林

我們作為人捶箱,覺得:租借自行車應該和星期和時間點有關(這就是專家智什,機器是不告訴动漾,是學習不了)丁屎,加入2個因素,效果就好了很多旱眯〕看ǎ基本測試集就擬合了。


星期幾+時間

下一章節(jié)重點介紹評估機器學習模型的性能與選擇正確的參數(shù)設置删豺。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末共虑,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子呀页,更是在濱河造成了極大的恐慌妈拌,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蓬蝶,死亡現(xiàn)場離奇詭異尘分,居然都是意外死亡,警方通過查閱死者的電腦和手機丸氛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門培愁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人缓窜,你說我怎么就攤上這事定续。” “怎么了禾锤?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵私股,是天一觀的道長。 經(jīng)常有香客問我恩掷,道長倡鲸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任螃成,我火速辦了婚禮旦签,結果婚禮上查坪,老公的妹妹穿的比我還像新娘。我一直安慰自己宁炫,他們只是感情好偿曙,可當我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著羔巢,像睡著了一般望忆。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上竿秆,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天启摄,我揣著相機與錄音,去河邊找鬼幽钢。 笑死歉备,一個胖子當著我的面吹牛,可吹牛的內容都是我干的匪燕。 我是一名探鬼主播蕾羊,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼帽驯!你這毒婦竟也來了龟再?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤尼变,失蹤者是張志新(化名)和其女友劉穎利凑,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嫌术,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡哀澈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蛉威。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片日丹。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蚯嫌,靈堂內的尸體忽然破棺而出哲虾,到底是詐尸還是另有隱情,我是刑警寧澤择示,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布束凑,位于F島的核電站,受9級特大地震影響栅盲,放射性物質發(fā)生泄漏汪诉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望扒寄。 院中可真熱鬧鱼鼓,春花似錦、人聲如沸该编。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽课竣。三九已至嘉赎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間于樟,已是汗流浹背公条。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留迂曲,地道東北人靶橱。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像奢米,于是被迫代替她去往敵國和親抓韩。 傳聞我的和親對象是個殘疾皇子纠永,可洞房花燭夜當晚...
    茶點故事閱讀 44,781評論 2 354