一、定義
在機(jī)器學(xué)習(xí)原理中講過(guò)機(jī)器學(xué)習(xí)的基本流程总放,其中很重要的一個(gè)環(huán)節(jié)就是特征工程。
1.1 基本概念
特征工程(Feature Engineering):從原始數(shù)據(jù)中提取特征的過(guò)程好爬,這些特征可以很好地描述數(shù)據(jù)局雄,并且利用特征建立的模型在未知數(shù)據(jù)上的性能表現(xiàn)可以達(dá)到最優(yōu)(或者性能最佳)。
- 是將原始數(shù)據(jù)轉(zhuǎn)化成更好的表達(dá)問(wèn)題本質(zhì)的特征的過(guò)程存炮,使得將這些特征運(yùn)用到預(yù)測(cè)模型中能提高對(duì)不可見(jiàn)數(shù)據(jù)的模型預(yù)測(cè)精度炬搭。
- 可以理解為就是發(fā)現(xiàn)對(duì)因變量y有明顯影響作用的特征,通常稱(chēng)自變量x為特征穆桂,特征工程的目的是發(fā)現(xiàn)重要特征宫盔。
- 目的:如何能夠分解和聚合原始數(shù)據(jù),以更好的表達(dá)問(wèn)題的本質(zhì)享完。
1.2 意義
- 靈活性越強(qiáng)
好特征的靈活性在于允許你選擇不復(fù)雜的模型灼芭,同時(shí)運(yùn)行速度也更快,更容易理解和維護(hù)
- 構(gòu)建的模型越簡(jiǎn)單
好的特征不需要花太多的時(shí)間去尋找最有效的參數(shù)般又,這大大降低了模型的復(fù)雜度
- 模型的性能越出色
特征工程的最終目的是提升模型的性能
二彼绷、特征處理
特征提取之前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理
2.1 數(shù)據(jù)采集
數(shù)據(jù)采集(DAQ): 又稱(chēng)數(shù)據(jù)獲取,是指從傳感器和其它待測(cè)設(shè)備等模擬和數(shù)字被測(cè)單元中自動(dòng)采集信息的過(guò)程
數(shù)據(jù)采集一般是有線上行為數(shù)據(jù)和內(nèi)容數(shù)據(jù)兩種
- 線上行為數(shù)據(jù):頁(yè)面數(shù)據(jù)茴迁、交互數(shù)據(jù)寄悯、表單數(shù)據(jù)、會(huì)話數(shù)據(jù)等堕义。
- 內(nèi)容數(shù)據(jù):應(yīng)用日志猜旬、電子文檔、機(jī)器數(shù)據(jù)、語(yǔ)音數(shù)據(jù)洒擦、社交媒體數(shù)據(jù)等椿争。
2.2 數(shù)據(jù)清洗
數(shù)據(jù)清洗(Data cleaning): 對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,目的在于刪除重復(fù)信息秘遏、糾正存在的錯(cuò)誤丘薛,并提供數(shù)據(jù)一致性。
數(shù)據(jù)清洗一般包括邦危,邏輯錯(cuò)誤清洗洋侨、缺失值、異常值倦蚪、格式內(nèi)容等的處理
邏輯錯(cuò)誤清洗:重復(fù)值希坚、不合理數(shù)據(jù)(2歲的孩子學(xué)歷為大學(xué))
缺失值:刪除或者填充【特殊值填充、模型預(yù)測(cè)填充陵且、插值填充等】
異常值:檢測(cè)【統(tǒng)計(jì)分析等】裁僧、光滑處理【數(shù)據(jù)分箱、回歸】慕购、刪除聊疲、不處理【有些模型可以自動(dòng)處理異常值】
格式內(nèi)容:時(shí)間日期數(shù)據(jù)、全角半角沪悲、特殊字符等等
2.3 數(shù)據(jù)采樣
樣本類(lèi)別分布不均衡:不同類(lèi)別的樣本量差異非常大
樣本不均衡指的是給定數(shù)據(jù)集中有的類(lèi)別數(shù)據(jù)多获洲,有的數(shù)據(jù)類(lèi)別少,且數(shù)據(jù)占比較多的數(shù)據(jù)類(lèi)別樣本與占比較小的數(shù)據(jù)類(lèi)別樣本兩者之間達(dá)到較大的比例殿如。
贡珊。即使得到分類(lèi)模型,也容易產(chǎn)生過(guò)度依賴于有限的數(shù)據(jù)樣本而導(dǎo)致過(guò)擬合的問(wèn)題涉馁。當(dāng)模型應(yīng)用到新的數(shù)據(jù)上時(shí)门岔,模型的準(zhǔn)確性和健壯性將很差。
影響
:樣本分布不均衡將導(dǎo)致樣本量少的分類(lèi)所包含的特征過(guò)少烤送,并很難從中提取規(guī)律寒随。
采樣方法:
上采樣(over-sampling)
,通過(guò)增加分類(lèi)樣本量較少的樣本來(lái)實(shí)現(xiàn)均衡帮坚,如直接復(fù)制少數(shù)樣本增加記錄牢裳,缺點(diǎn)是可能會(huì)導(dǎo)致過(guò)擬合
SMOTE(Synthetic Minority Oversampling Technique),插值的方式加入近鄰的數(shù)據(jù)點(diǎn)叶沛,合成少數(shù)類(lèi)過(guò)采樣技術(shù)蒲讯。
基本思想:對(duì)少數(shù)類(lèi)樣本進(jìn)行分析并根據(jù)少數(shù)類(lèi)樣本人工合成新樣本添加到數(shù)據(jù)集中。
它是基于隨機(jī)過(guò)采樣算法的一種改進(jìn)方案灰署,由于隨機(jī)過(guò)采樣采取簡(jiǎn)單復(fù)制樣本的策略來(lái)增加少數(shù)類(lèi)樣本判帮,這樣容易產(chǎn)生模型過(guò)擬合的問(wèn)題局嘁,即使得模型學(xué)習(xí)到的信息過(guò)于特別(Specific)而不夠泛化(General)
步驟:
- 對(duì)于少數(shù)類(lèi)中每一個(gè)樣本x,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類(lèi)樣本集中所有樣本的距離晦墙,得到其k近鄰悦昵。
- 根據(jù)樣本不平衡比例設(shè)置一個(gè)采樣比例以確定采樣倍率N,對(duì)于每一個(gè)少數(shù)類(lèi)樣本x晌畅,從其k近鄰中隨機(jī)選擇若干個(gè)樣本但指,假設(shè)選擇的近鄰為
。
- 對(duì)于每一個(gè)隨機(jī)選出的近鄰
抗楔,分別與原樣本按照如下的公式構(gòu)建新的樣本
在這里插入圖片描述
下采樣(under-sampling)
棋凳,通過(guò)減少分類(lèi)樣本量較多的樣本來(lái)實(shí)現(xiàn)均衡,如直接刪除樣本连躏,缺點(diǎn)是會(huì)丟失信息
三剩岳、特征轉(zhuǎn)換
3.1 標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),及通過(guò)求標(biāo)準(zhǔn)分?jǐn)?shù)的方法將特征轉(zhuǎn)換為標(biāo)準(zhǔn)正太分布入热,并和整體樣本分布相關(guān)拍棕;
3.2 歸一化
將樣本的特征值轉(zhuǎn)換到同一量綱下,把數(shù)據(jù)映射到【0,1】之間勺良,適用于分布有明顯邊界的情況绰播,受 outliner影響較大。
3.3 二值化
針對(duì)定量特征
3.4 亞編碼
針對(duì)定性特征尚困,是不能直接帶入模型進(jìn)行訓(xùn)練的蠢箩,要轉(zhuǎn)換成數(shù)值型才可以進(jìn)行運(yùn)算。
3.5 數(shù)據(jù)轉(zhuǎn)化
數(shù)據(jù)轉(zhuǎn)化主要是改變數(shù)據(jù)的分布尾组,當(dāng)數(shù)據(jù)不符合正態(tài)分布時(shí)需要將數(shù)據(jù)轉(zhuǎn)換成正態(tài)分布寿酌,轉(zhuǎn)換的方式比如:Log坟乾、指數(shù)、多項(xiàng)式等方法
原始數(shù)據(jù)
轉(zhuǎn)換后
為什么需要轉(zhuǎn)換為正態(tài)分布溺蕉?
根據(jù)中心極限定理奏属,將大量具有不同分布的隨機(jī)變量加起來(lái)跨跨,所得到的新變量將最終具有正態(tài)分布。也就是說(shuō)正態(tài)分布時(shí)隨機(jī)分布囱皿,也就是去除了人工及其他的干擾后的分布勇婴,這樣的分布在建立模型后就更容易預(yù)測(cè);因?yàn)槟P蛿M合的是數(shù)據(jù)本身的分布嘱腥,沒(méi)有其他因素的干擾耕渴,準(zhǔn)確率會(huì)更高。