機(jī)器學(xué)習(xí)實(shí)戰(zhàn)-數(shù)據(jù)探索(變量變換、生成)

1 變量變換

1.1 什么是變量變換耸弄?

在數(shù)據(jù)建模中注盈,變換是指通過函數(shù)替換變量。 例如叙赚,通過平方/立方根或?qū)?shù)x替換變量x是一個(gè)變換。 換句話說僚饭,變換是一個(gè)改變變量與其他變量的分布或關(guān)系的過程震叮。

1.2 什么時(shí)候需要變量變換?

  • 當(dāng)我們想要改變一個(gè)變量的比例(change the scale)或標(biāo)準(zhǔn)化(standardize)變量的值以便更好地理解鳍鸵。 如果數(shù)據(jù)具有不同的尺度苇瓣,則此變換是必須的,但此變換不會更改變量分布的形狀偿乖。對應(yīng)處理方法:機(jī)器學(xué)習(xí)之特征工程-數(shù)據(jù)預(yù)處理(無量綱化)击罪。

  • 當(dāng)我們將復(fù)雜的非線性關(guān)系轉(zhuǎn)化為線性關(guān)系時(shí)。 與非線性關(guān)系相比贪薪,變量之間存在線性關(guān)系更容易理解媳禁。 轉(zhuǎn)換有助于將非線性關(guān)系轉(zhuǎn)換為線性關(guān)系。 散點(diǎn)圖可用于查找兩個(gè)連續(xù)變量之間的關(guān)系画切,這些變化也改善了預(yù)測竣稽,log是常用的轉(zhuǎn)換技術(shù)之一。

    Relation.png

  • 對稱分布優(yōu)于傾斜分布,因?yàn)樗菀捉忉尯彤a(chǎn)生推論毫别。 一些模型需要正態(tài)分布變量娃弓, 所以,每當(dāng)遇到傾斜分布岛宦,使用變量變換台丛。 對于右傾斜分布,取變量的平方/立方根或?qū)?shù)砾肺,對于左傾斜分布挽霉,取變量的平方/立方或指數(shù)。

Transformation_1.png
  • 從程序?qū)崿F(xiàn)角度考慮變量轉(zhuǎn)換债沮。 例如在員工績效項(xiàng)目中炼吴,發(fā)現(xiàn)年齡與員工績效直接相關(guān),即年齡越高疫衩,績效越好硅蹦。 從實(shí)現(xiàn)的角度來看,基于年齡的程序可能會面臨實(shí)現(xiàn)挑戰(zhàn)。 然而,將員工分為三個(gè)年齡階段30歲供常,30-45歲和45歲以上粟矿,制定三種不同的策略是一種明智的做法。 這種分類技術(shù)被稱為變量分組(Binning)涩金。

1.3 變量變換的常用方法是什么?

變換變量有許多方法,如平方根生音,立方根,對數(shù)窒升,合并缀遍,倒數(shù)等等。來看看這些方法的細(xì)節(jié)和利弊饱须。

  • 對數(shù)(log):變量求對數(shù)是用于在分布圖上更改變量分布形狀的常用變換方法域醇。通常用于減少變量的右偏差,雖然蓉媳,它也不能應(yīng)用于零值或負(fù)值譬挚。
  • 平方/立方根:變量的平方和立方根對改變變量的分布有效果。然而酪呻,它不如對數(shù)變換那么有效减宣。立方根有自己的優(yōu)勢,可以應(yīng)用于包括零和負(fù)值玩荠,平方根可以應(yīng)用于包括零的正值蚪腋。
  • 分箱(Binning):用于對變量進(jìn)行分類丰歌。以原始值,百分位數(shù)或頻率進(jìn)行分類屉凯,分類技術(shù)的決策是基于對于業(yè)務(wù)的理解立帖。例如,可以將收入分為三類:高悠砚,中晓勇,低,也可以對多個(gè)變量執(zhí)行分箱灌旧。

2 生成特征

生成特征是基于現(xiàn)有特征生成新特征的過程绑咱。 例如,將日期(dd-mm-yy)作為數(shù)據(jù)集中的輸入特征枢泰,可以生成新特征描融,如日,月衡蚂,年窿克,周,工作日毛甲,可能與target有更好的關(guān)系年叮。 此步驟用于突出顯示變量中的隱藏關(guān)系。

Derived.png

2.1 生成特征的類別

  • 生成派生變量(derived variables)
    使用一組函數(shù)或不同方法從現(xiàn)有變量創(chuàng)建新變量玻募。在“Titanic – Kaggle competition”中只损,年齡存在缺少值,為了預(yù)測缺失值七咧,用姓名中稱呼(Master跃惫,Mr,Miss艾栋,Mrs)作為新變量爆存。如何決定要生成哪個(gè)變量?這取決于分析師對業(yè)務(wù)理解裹粤,以及他對這個(gè)問題的假設(shè)。諸如采用變量求對數(shù)蜂林,變量分組或其他變量變換方法也可用于生成新變量遥诉。
  • 生成虛擬變量(dummy variables)
    虛擬變量最常用的應(yīng)用之一是將分類變量轉(zhuǎn)換成數(shù)字變量,虛擬變量也稱為指標(biāo)變量(Indicator Variables)噪叙。將分類變量作為統(tǒng)計(jì)模型中的預(yù)測因子是有用的矮锈,如:性別可以產(chǎn)生兩個(gè)變量,即為1(Male)和0(No male)的“Var_Male”和值為1(Female)和0(No Female)的“Var_Female”睁蕾。還可以為兩類以上分類變量生成n或n-1個(gè)虛擬變量苞笨。
Dummy.png

2.2 生成特征的常用方法

  • 生成日期债朵,時(shí)間和地址差異的變量
    可以通過考慮日期和時(shí)間的差異來創(chuàng)建新變量, 例如:與在30分鐘內(nèi)填寫相同申請的人相比瀑凝,需要幾天填寫申請表的申請人可能對產(chǎn)品的興趣較少序芦。 同樣,對于銀行來說粤咪,在線門戶登錄詳細(xì)信息和客戶登錄之間的時(shí)間可能會顯示客戶使用在線門戶網(wǎng)站的意愿谚中。同樣,靠近銀行分行的客戶比遠(yuǎn)離客戶的參與度更高寥枝。
  • 生成比例變量
    生成變量之間的比例可能會增加很多價(jià)值宪塔。 經(jīng)常使用的一些比例是:輸入/輸出(過去的表現(xiàn)),生產(chǎn)率囊拜,效率和百分比某筐。 例如,為了預(yù)測分行的信用卡銷售的未來表現(xiàn)冠跷,像信用卡銷售/銷售人員或信用卡銷售/營銷支出之類的比率將比銷售的絕對數(shù)量更強(qiáng)大南誊。
  • 應(yīng)用標(biāo)準(zhǔn)變換
    通過查看變量和輸出的變化和繪圖,是否變量的基本變換創(chuàng)建了更好的關(guān)系蔽莱。 最常用的變換包括Log弟疆,指數(shù),二次和三次變化盗冷。 例如怠苔,與絕對營銷支出相比,營銷支出的對數(shù)可能與Sales有更具代表性的關(guān)系仪糖。
  • 考慮影響因素的影響
    影響因素可以是組織的雇員柑司,組織的代理人或組織的客戶。 引起這些相關(guān)實(shí)體的影響可以顯著改善模型锅劝。 例如攒驰,由經(jīng)紀(jì)人(而不是所有經(jīng)紀(jì)人)發(fā)起的貸款在鎖定期后,更有可能轉(zhuǎn)移到不同的實(shí)體故爵。 同樣玻粪,一組涉及到銷售人員的子公司,可能對其客戶進(jìn)行交叉銷售诬垂。
  • 考慮變量的季節(jié)性
    很多企業(yè)面臨著季節(jié)性的問題劲室,可能是由稅收優(yōu)惠,節(jié)日季節(jié)或天氣驅(qū)動的结窘。 如果是這種情況很洋,需要考慮季節(jié)性。 如何在建模時(shí)應(yīng)對季節(jié)性影響的更多細(xì)節(jié)可以參考:Festive season special: Building models on seasonal data隧枫。

參考

5 Simple manipulations to extract maximum information out of your data

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末喉磁,一起剝皮案震驚了整個(gè)濱河市谓苟,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌协怒,老刑警劉巖涝焙,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異斤讥,居然都是意外死亡纱皆,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進(jìn)店門芭商,熙熙樓的掌柜王于貴愁眉苦臉地迎上來派草,“玉大人,你說我怎么就攤上這事铛楣〗ǎ” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵簸州,是天一觀的道長鉴竭。 經(jīng)常有香客問我,道長岸浑,這世上最難降的妖魔是什么搏存? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮矢洲,結(jié)果婚禮上璧眠,老公的妹妹穿的比我還像新娘。我一直安慰自己读虏,他們只是感情好责静,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著盖桥,像睡著了一般灾螃。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上揩徊,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天腰鬼,我揣著相機(jī)與錄音,去河邊找鬼塑荒。 笑死熄赡,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的袜炕。 我是一名探鬼主播本谜,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼初家,長吁一口氣:“原來是場噩夢啊……” “哼偎窘!你這毒婦竟也來了乌助?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤陌知,失蹤者是張志新(化名)和其女友劉穎他托,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仆葡,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡赏参,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了沿盅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片把篓。...
    茶點(diǎn)故事閱讀 38,064評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖腰涧,靈堂內(nèi)的尸體忽然破棺而出韧掩,到底是詐尸還是另有隱情,我是刑警寧澤窖铡,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布疗锐,位于F島的核電站,受9級特大地震影響费彼,放射性物質(zhì)發(fā)生泄漏滑臊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一箍铲、第九天 我趴在偏房一處隱蔽的房頂上張望雇卷。 院中可真熱鬧,春花似錦虹钮、人聲如沸聋庵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽祭玉。三九已至,卻和暖如春春畔,著一層夾襖步出監(jiān)牢的瞬間脱货,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工律姨, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留振峻,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓择份,卻偏偏與公主長得像扣孟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子荣赶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容