- 《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)-數(shù)據(jù)探索(1渴庆、變量識別铃芦;2、單變量分析襟雷;3刃滓、雙變量分析)》
- 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)-數(shù)據(jù)探索(缺失值處理)
-
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)-數(shù)據(jù)探索(異常值處理)
上面三篇文章介紹了數(shù)據(jù)探索的前五步,機(jī)器學(xué)習(xí)更多內(nèi)容可以關(guān)注github項(xiàng)目:machine learning
1 變量變換
1.1 什么是變量變換耸弄?
在數(shù)據(jù)建模中注盈,變換是指通過函數(shù)替換變量。 例如叙赚,通過平方/立方根或?qū)?shù)x替換變量x是一個(gè)變換。 換句話說僚饭,變換是一個(gè)改變變量與其他變量的分布或關(guān)系的過程震叮。
1.2 什么時(shí)候需要變量變換?
當(dāng)我們想要改變一個(gè)變量的比例(
change the scale
)或標(biāo)準(zhǔn)化(standardize
)變量的值以便更好地理解鳍鸵。 如果數(shù)據(jù)具有不同的尺度苇瓣,則此變換是必須的,但此變換不會更改變量分布的形狀偿乖。對應(yīng)處理方法:機(jī)器學(xué)習(xí)之特征工程-數(shù)據(jù)預(yù)處理(無量綱化)击罪。-
當(dāng)我們將復(fù)雜的非線性關(guān)系轉(zhuǎn)化為線性關(guān)系時(shí)。 與非線性關(guān)系相比贪薪,變量之間存在線性關(guān)系更容易理解媳禁。 轉(zhuǎn)換有助于將非線性關(guān)系轉(zhuǎn)換為線性關(guān)系。 散點(diǎn)圖可用于查找兩個(gè)連續(xù)變量之間的關(guān)系画切,這些變化也改善了預(yù)測竣稽,log是常用的轉(zhuǎn)換技術(shù)之一。
對稱分布優(yōu)于傾斜分布,因?yàn)樗菀捉忉尯彤a(chǎn)生推論毫别。 一些模型需要正態(tài)分布變量娃弓, 所以,每當(dāng)遇到傾斜分布岛宦,使用變量變換台丛。 對于右傾斜分布,取變量的平方/立方根或?qū)?shù)砾肺,對于左傾斜分布挽霉,取變量的平方/立方或指數(shù)。
- 從程序?qū)崿F(xiàn)角度考慮變量轉(zhuǎn)換债沮。 例如在員工績效項(xiàng)目中炼吴,發(fā)現(xiàn)年齡與員工績效直接相關(guān),即年齡越高疫衩,績效越好硅蹦。 從實(shí)現(xiàn)的角度來看,基于年齡的程序可能會面臨實(shí)現(xiàn)挑戰(zhàn)。 然而,將員工分為三個(gè)年齡階段30歲供常,30-45歲和45歲以上粟矿,制定三種不同的策略是一種明智的做法。 這種分類技術(shù)被稱為變量分組(Binning)涩金。
1.3 變量變換的常用方法是什么?
變換變量有許多方法,如平方根生音,立方根,對數(shù)窒升,合并缀遍,倒數(shù)等等。來看看這些方法的細(xì)節(jié)和利弊饱须。
- 對數(shù)(log):變量求對數(shù)是用于在分布圖上更改變量分布形狀的常用變換方法域醇。通常用于減少變量的右偏差,雖然蓉媳,它也不能應(yīng)用于零值或負(fù)值譬挚。
- 平方/立方根:變量的平方和立方根對改變變量的分布有效果。然而酪呻,它不如對數(shù)變換那么有效减宣。立方根有自己的優(yōu)勢,可以應(yīng)用于包括零和負(fù)值玩荠,平方根可以應(yīng)用于包括零的正值蚪腋。
- 分箱(Binning):用于對變量進(jìn)行分類丰歌。以原始值,百分位數(shù)或頻率進(jìn)行分類屉凯,分類技術(shù)的決策是基于對于業(yè)務(wù)的理解立帖。例如,可以將收入分為三類:高悠砚,中晓勇,低,也可以對多個(gè)變量執(zhí)行分箱灌旧。
2 生成特征
生成特征是基于現(xiàn)有特征生成新特征的過程绑咱。 例如,將日期(dd-mm-yy)作為數(shù)據(jù)集中的輸入特征枢泰,可以生成新特征描融,如日,月衡蚂,年窿克,周,工作日毛甲,可能與target有更好的關(guān)系年叮。 此步驟用于突出顯示變量中的隱藏關(guān)系。
2.1 生成特征的類別
- 生成派生變量(derived variables)
使用一組函數(shù)或不同方法從現(xiàn)有變量創(chuàng)建新變量玻募。在“Titanic – Kaggle competition”中只损,年齡存在缺少值,為了預(yù)測缺失值七咧,用姓名中稱呼(Master跃惫,Mr,Miss艾栋,Mrs)作為新變量爆存。如何決定要生成哪個(gè)變量?這取決于分析師對業(yè)務(wù)理解裹粤,以及他對這個(gè)問題的假設(shè)。諸如采用變量求對數(shù)蜂林,變量分組或其他變量變換方法也可用于生成新變量遥诉。 - 生成虛擬變量(dummy variables)
虛擬變量最常用的應(yīng)用之一是將分類變量轉(zhuǎn)換成數(shù)字變量,虛擬變量也稱為指標(biāo)變量(Indicator Variables)噪叙。將分類變量作為統(tǒng)計(jì)模型中的預(yù)測因子是有用的矮锈,如:性別可以產(chǎn)生兩個(gè)變量,即為1(Male)和0(No male)的“Var_Male”和值為1(Female)和0(No Female)的“Var_Female”睁蕾。還可以為兩類以上分類變量生成n或n-1個(gè)虛擬變量苞笨。
2.2 生成特征的常用方法
- 生成日期债朵,時(shí)間和地址差異的變量
可以通過考慮日期和時(shí)間的差異來創(chuàng)建新變量, 例如:與在30分鐘內(nèi)填寫相同申請的人相比瀑凝,需要幾天填寫申請表的申請人可能對產(chǎn)品的興趣較少序芦。 同樣,對于銀行來說粤咪,在線門戶登錄詳細(xì)信息和客戶登錄之間的時(shí)間可能會顯示客戶使用在線門戶網(wǎng)站的意愿谚中。同樣,靠近銀行分行的客戶比遠(yuǎn)離客戶的參與度更高寥枝。 - 生成比例變量
生成變量之間的比例可能會增加很多價(jià)值宪塔。 經(jīng)常使用的一些比例是:輸入/輸出(過去的表現(xiàn)),生產(chǎn)率囊拜,效率和百分比某筐。 例如,為了預(yù)測分行的信用卡銷售的未來表現(xiàn)冠跷,像信用卡銷售/銷售人員或信用卡銷售/營銷支出之類的比率將比銷售的絕對數(shù)量更強(qiáng)大南誊。 - 應(yīng)用標(biāo)準(zhǔn)變換
通過查看變量和輸出的變化和繪圖,是否變量的基本變換創(chuàng)建了更好的關(guān)系蔽莱。 最常用的變換包括Log弟疆,指數(shù),二次和三次變化盗冷。 例如怠苔,與絕對營銷支出相比,營銷支出的對數(shù)可能與Sales有更具代表性的關(guān)系仪糖。 - 考慮影響因素的影響
影響因素可以是組織的雇員柑司,組織的代理人或組織的客戶。 引起這些相關(guān)實(shí)體的影響可以顯著改善模型锅劝。 例如攒驰,由經(jīng)紀(jì)人(而不是所有經(jīng)紀(jì)人)發(fā)起的貸款在鎖定期后,更有可能轉(zhuǎn)移到不同的實(shí)體故爵。 同樣玻粪,一組涉及到銷售人員的子公司,可能對其客戶進(jìn)行交叉銷售诬垂。 - 考慮變量的季節(jié)性
很多企業(yè)面臨著季節(jié)性的問題劲室,可能是由稅收優(yōu)惠,節(jié)日季節(jié)或天氣驅(qū)動的结窘。 如果是這種情況很洋,需要考慮季節(jié)性。 如何在建模時(shí)應(yīng)對季節(jié)性影響的更多細(xì)節(jié)可以參考:Festive season special: Building models on seasonal data隧枫。
參考
5 Simple manipulations to extract maximum information out of your data