特征工程原理(一)

一、定義

機(jī)器學(xué)習(xí)原理中講過(guò)機(jī)器學(xué)習(xí)的基本流程总放,其中很重要的一個(gè)環(huán)節(jié)就是特征工程。

在這里插入圖片描述

1.1 基本概念

特征工程(Feature Engineering):從原始數(shù)據(jù)中提取特征的過(guò)程好爬,這些特征可以很好地描述數(shù)據(jù)局雄,并且利用特征建立的模型在未知數(shù)據(jù)上的性能表現(xiàn)可以達(dá)到最優(yōu)(或者性能最佳)。

  • 是將原始數(shù)據(jù)轉(zhuǎn)化成更好的表達(dá)問(wèn)題本質(zhì)的特征的過(guò)程存炮,使得將這些特征運(yùn)用到預(yù)測(cè)模型中能提高對(duì)不可見(jiàn)數(shù)據(jù)的模型預(yù)測(cè)精度炬搭。
  • 可以理解為就是發(fā)現(xiàn)對(duì)因變量y有明顯影響作用的特征,通常稱(chēng)自變量x為特征穆桂,特征工程的目的是發(fā)現(xiàn)重要特征宫盔。
  • 目的:如何能夠分解和聚合原始數(shù)據(jù),以更好的表達(dá)問(wèn)題的本質(zhì)享完。

1.2 意義

  1. 靈活性越強(qiáng)

    好特征的靈活性在于允許你選擇不復(fù)雜的模型灼芭,同時(shí)運(yùn)行速度也更快,更容易理解和維護(hù)

  2. 構(gòu)建的模型越簡(jiǎn)單

    好的特征不需要花太多的時(shí)間去尋找最有效的參數(shù)般又,這大大降低了模型的復(fù)雜度

  3. 模型的性能越出色

    特征工程的最終目的是提升模型的性能

二彼绷、特征處理

特征提取之前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理

2.1 數(shù)據(jù)采集

數(shù)據(jù)采集(DAQ): 又稱(chēng)數(shù)據(jù)獲取,是指從傳感器和其它待測(cè)設(shè)備等模擬和數(shù)字被測(cè)單元中自動(dòng)采集信息的過(guò)程

數(shù)據(jù)采集一般是有線上行為數(shù)據(jù)和內(nèi)容數(shù)據(jù)兩種

  • 線上行為數(shù)據(jù):頁(yè)面數(shù)據(jù)茴迁、交互數(shù)據(jù)寄悯、表單數(shù)據(jù)、會(huì)話數(shù)據(jù)等堕义。
  • 內(nèi)容數(shù)據(jù):應(yīng)用日志猜旬、電子文檔、機(jī)器數(shù)據(jù)、語(yǔ)音數(shù)據(jù)洒擦、社交媒體數(shù)據(jù)等椿争。

2.2 數(shù)據(jù)清洗

數(shù)據(jù)清洗(Data cleaning): 對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,目的在于刪除重復(fù)信息秘遏、糾正存在的錯(cuò)誤丘薛,并提供數(shù)據(jù)一致性。
數(shù)據(jù)清洗一般包括邦危,邏輯錯(cuò)誤清洗洋侨、缺失值、異常值倦蚪、格式內(nèi)容等的處理

邏輯錯(cuò)誤清洗:重復(fù)值希坚、不合理數(shù)據(jù)(2歲的孩子學(xué)歷為大學(xué))
缺失值:刪除或者填充【特殊值填充、模型預(yù)測(cè)填充陵且、插值填充等】
異常值:檢測(cè)【統(tǒng)計(jì)分析等】裁僧、光滑處理【數(shù)據(jù)分箱、回歸】慕购、刪除聊疲、不處理【有些模型可以自動(dòng)處理異常值】
格式內(nèi)容:時(shí)間日期數(shù)據(jù)、全角半角沪悲、特殊字符等等

2.3 數(shù)據(jù)采樣

樣本類(lèi)別分布不均衡:不同類(lèi)別的樣本量差異非常大


在這里插入圖片描述

樣本不均衡指的是給定數(shù)據(jù)集中有的類(lèi)別數(shù)據(jù)多获洲,有的數(shù)據(jù)類(lèi)別少,且數(shù)據(jù)占比較多的數(shù)據(jù)類(lèi)別樣本與占比較小的數(shù)據(jù)類(lèi)別樣本兩者之間達(dá)到較大的比例殿如。
贡珊。即使得到分類(lèi)模型,也容易產(chǎn)生過(guò)度依賴于有限的數(shù)據(jù)樣本而導(dǎo)致過(guò)擬合的問(wèn)題涉馁。當(dāng)模型應(yīng)用到新的數(shù)據(jù)上時(shí)门岔,模型的準(zhǔn)確性和健壯性將很差。

影響:樣本分布不均衡將導(dǎo)致樣本量少的分類(lèi)所包含的特征過(guò)少烤送,并很難從中提取規(guī)律寒随。

采樣方法

上采樣(over-sampling),通過(guò)增加分類(lèi)樣本量較少的樣本來(lái)實(shí)現(xiàn)均衡帮坚,如直接復(fù)制少數(shù)樣本增加記錄牢裳,缺點(diǎn)是可能會(huì)導(dǎo)致過(guò)擬合

SMOTE(Synthetic Minority Oversampling Technique),插值的方式加入近鄰的數(shù)據(jù)點(diǎn)叶沛,合成少數(shù)類(lèi)過(guò)采樣技術(shù)蒲讯。
基本思想:對(duì)少數(shù)類(lèi)樣本進(jìn)行分析并根據(jù)少數(shù)類(lèi)樣本人工合成新樣本添加到數(shù)據(jù)集中。
它是基于隨機(jī)過(guò)采樣算法的一種改進(jìn)方案灰署,由于隨機(jī)過(guò)采樣采取簡(jiǎn)單復(fù)制樣本的策略來(lái)增加少數(shù)類(lèi)樣本判帮,這樣容易產(chǎn)生模型過(guò)擬合的問(wèn)題局嘁,即使得模型學(xué)習(xí)到的信息過(guò)于特別(Specific)而不夠泛化(General)
步驟:

  1. 對(duì)于少數(shù)類(lèi)中每一個(gè)樣本x,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類(lèi)樣本集中所有樣本的距離晦墙,得到其k近鄰悦昵。
  2. 根據(jù)樣本不平衡比例設(shè)置一個(gè)采樣比例以確定采樣倍率N,對(duì)于每一個(gè)少數(shù)類(lèi)樣本x晌畅,從其k近鄰中隨機(jī)選擇若干個(gè)樣本但指,假設(shè)選擇的近鄰為x_n
  3. 對(duì)于每一個(gè)隨機(jī)選出的近鄰x_n抗楔,分別與原樣本按照如下的公式構(gòu)建新的樣本 x_{new}=x+rand(0,1)?(x_n ?x)
    在這里插入圖片描述

下采樣(under-sampling)棋凳,通過(guò)減少分類(lèi)樣本量較多的樣本來(lái)實(shí)現(xiàn)均衡,如直接刪除樣本连躏,缺點(diǎn)是會(huì)丟失信息

三剩岳、特征轉(zhuǎn)換

3.1 標(biāo)準(zhǔn)化

標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),及通過(guò)求標(biāo)準(zhǔn)分?jǐn)?shù)的方法將特征轉(zhuǎn)換為標(biāo)準(zhǔn)正太分布入热,并和整體樣本分布相關(guān)拍棕;

x^, = \frac{x - \overline x}{S}

3.2 歸一化

將樣本的特征值轉(zhuǎn)換到同一量綱下,把數(shù)據(jù)映射到【0,1】之間勺良,適用于分布有明顯邊界的情況绰播,受 outliner影響較大。
x^, = \frac{x - Min}{Max - Min}

3.3 二值化

針對(duì)定量特征
x^, = \begin{cases} 1, & \text{x > t?res?old} \\ 0, & \text{x <= t?res?old} \\ \end{cases}

3.4 亞編碼

針對(duì)定性特征尚困,是不能直接帶入模型進(jìn)行訓(xùn)練的蠢箩,要轉(zhuǎn)換成數(shù)值型才可以進(jìn)行運(yùn)算。

\begin{vmatrix} 工人 & (0,0,0,1) \\ 農(nóng)民 & (0,0,1,0) \\ 學(xué)生 & (0,1,0,0) \\ 職員 & (1,0,0,0) \\ \end{vmatrix}

3.5 數(shù)據(jù)轉(zhuǎn)化

數(shù)據(jù)轉(zhuǎn)化主要是改變數(shù)據(jù)的分布尾组,當(dāng)數(shù)據(jù)不符合正態(tài)分布時(shí)需要將數(shù)據(jù)轉(zhuǎn)換成正態(tài)分布寿酌,轉(zhuǎn)換的方式比如:Log坟乾、指數(shù)、多項(xiàng)式等方法

原始數(shù)據(jù)


在這里插入圖片描述

轉(zhuǎn)換后


在這里插入圖片描述

為什么需要轉(zhuǎn)換為正態(tài)分布溺蕉?
根據(jù)中心極限定理奏属,將大量具有不同分布的隨機(jī)變量加起來(lái)跨跨,所得到的新變量將最終具有正態(tài)分布。也就是說(shuō)正態(tài)分布時(shí)隨機(jī)分布囱皿,也就是去除了人工及其他的干擾后的分布勇婴,這樣的分布在建立模型后就更容易預(yù)測(cè);因?yàn)槟P蛿M合的是數(shù)據(jù)本身的分布嘱腥,沒(méi)有其他因素的干擾耕渴,準(zhǔn)確率會(huì)更高。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末齿兔,一起剝皮案震驚了整個(gè)濱河市橱脸,隨后出現(xiàn)的幾起案子础米,更是在濱河造成了極大的恐慌,老刑警劉巖添诉,帶你破解...
    沈念sama閱讀 221,198評(píng)論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件屁桑,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡栏赴,警方通過(guò)查閱死者的電腦和手機(jī)蘑斧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)须眷,“玉大人竖瘾,你說(shuō)我怎么就攤上這事∑獍郑” “怎么了准浴?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,643評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)捎稚。 經(jīng)常有香客問(wèn)我乐横,道長(zhǎng),這世上最難降的妖魔是什么今野? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,495評(píng)論 1 296
  • 正文 為了忘掉前任葡公,我火速辦了婚禮,結(jié)果婚禮上条霜,老公的妹妹穿的比我還像新娘催什。我一直安慰自己,他們只是感情好宰睡,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布蒲凶。 她就那樣靜靜地躺著,像睡著了一般拆内。 火紅的嫁衣襯著肌膚如雪旋圆。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,156評(píng)論 1 308
  • 那天麸恍,我揣著相機(jī)與錄音灵巧,去河邊找鬼。 笑死抹沪,一個(gè)胖子當(dāng)著我的面吹牛刻肄,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播融欧,決...
    沈念sama閱讀 40,743評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼敏弃,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了噪馏?” 一聲冷哼從身側(cè)響起麦到,我...
    開(kāi)封第一講書(shū)人閱讀 39,659評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤虹茶,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后隅要,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蝴罪,經(jīng)...
    沈念sama閱讀 46,200評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評(píng)論 3 340
  • 正文 我和宋清朗相戀三年步清,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了要门。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,424評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡廓啊,死狀恐怖欢搜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情谴轮,我是刑警寧澤炒瘟,帶...
    沈念sama閱讀 36,107評(píng)論 5 349
  • 正文 年R本政府宣布,位于F島的核電站第步,受9級(jí)特大地震影響疮装,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜粘都,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評(píng)論 3 333
  • 文/蒙蒙 一廓推、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧翩隧,春花似錦樊展、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,264評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至淑仆,卻和暖如春涝婉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背糯景。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,390評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工嘁圈, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留省骂,地道東北人蟀淮。 一個(gè)月前我還...
    沈念sama閱讀 48,798評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像钞澳,于是被迫代替她去往敵國(guó)和親怠惶。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容