不同的分類變量編碼方式

大綱

    1. One-hot encoding
    1. Target encoding
    1. Leave-one-out
    1. Bayesian Target Encoding
    1. Weight of Evidence没龙,簡稱 WoE
    1. Nonlinear PCA

One-hot 編碼 (One-hot encoding)

  • 圖解:


    One-hot 編碼圖解
  • 說明:

    • 向量的長度類別的個數(shù) 相關(guān)
    • 向量中值為 1 的部分代表屬于的類別
  • 優(yōu)點:

    • 方便理解
  • 缺點:

    • 維度太大 導(dǎo)致計算量大
    • 表示中真正有用的信息 零散 分布在大量數(shù)據(jù)中
    • 高維度中會出現(xiàn) 并行性多重共線性 的問題 【即一個變量可以由其余的變量線性表示】

目標編碼 (Target encoding)

  • 圖解:


    目標編碼圖解
  • 說明:

    • States 值的由來:

      • 計算 California 的平均值:Avg.California = \frac {0.4 + 0.5}{2} = 0.45
      • 計算 New York 的平均值:Avg.New York = \frac {0.1 + 0.2}{2} = 0.15
      • 計算 Texas 的平均值:Avg.Texas = \frac {0.9 + 0.8}2=0.85
    • 得到上述的值之后硬纤,可以使用得到的值代表該 State

  • 優(yōu)點:

    • 使用一個值就可以代替一個類別解滓,因此能夠更加直接地表示分類變量和目標變量之間的關(guān)系
  • 缺點:

    • 模型難以學(xué)習(xí)到編碼變量與另一個變量之間的關(guān)系
    • 該編碼方式對 y 變量及其敏感,會影響到模型提取編碼信息的能力
  • 監(jiān)督 y 的方法:

from category_encoders import TargetEncoder  
    enc = TargetEncoder(cols=['Name_of_col','Another_name'])   
    training_set = enc.fit_transform(X_train, y_train)

留一法編碼 (Leave-one-out encoding)

  • 圖解:


    留一法圖解
  • 說明:

    • 各個值的來源【同類別其余值的平均值】:
        1. 第一行的值 = 第五行:Avg.Exc* = \frac {0.5}1 = 0.5
        1. 第二行的值 = 第四行:Avg.Exc* = \frac {0.2}1 = 0.2
        1. 第三行的值 = 第六行:Avg.Exc* = \frac {0.8}1 = 0.8
        1. 第四行的值 = 第二行:Avg.Exc* = \frac {0.1}1 = 0.1
        1. 第五行的值 = 第一行:Avg.Exc* = \frac {0.4}1 = 0.4
        1. 第六行的值 = 第三行:Avg.Exc* = \frac {0.9}1 = 0.9
  • 優(yōu)點:

    • 降低了對 y 的依賴
    • 異常值的影響趨于平穩(wěn)筝家,從而得到更多的編碼值
  • 實現(xiàn)方式:

from category_encoders import LeaveOneOutEncoder  
    enc = LeaveOneOutEncoder(cols=['Name_of_col','Another_name'])  
    training_set = enc.fit_transform(X_train, y_train)

貝葉斯目標編碼 (Bayesian Target Encoding)

  • 說明:

    • 使用目標作為編碼方法
    • 貝葉斯目標編碼試圖結(jié)合目標變量分布的其他統(tǒng)計度量洼裤,比如方差或偏度(稱為高階矩「higher moments」)
  • 優(yōu)點:

    • 編碼更清楚類別目標分布的各個方面
  • 缺點:

    • 結(jié)果的可解釋性比較差

證據(jù)權(quán)重 (Weight of Evidence,簡稱 WoE)

  • 說明:

    • 關(guān)于分類自變量和因變量之間關(guān)系的方案
    • 證據(jù)權(quán)重的數(shù)學(xué)定義是優(yōu)勢比的自然對數(shù)

    表達式:ln (% of non events / % of events)
    WoE 越高溪王,事件發(fā)生的可能性就越大腮鞍。「Non-events」是不屬于某個類的百分比

  • 優(yōu)點:

    • 在預(yù)測任務(wù)中通常是更有效的編碼器
  • 缺點:

    • 執(zhí)行無監(jiān)督分析時莹菱,這些方法并不一定適用
  • 代碼實現(xiàn)

from category_encoders import WOEEncoder   
    enc = WOEEncoder(cols=['Name_of_col','Another_name'])   
    training_set = enc.fit_transform(X_train, y_train)

非線性 PCA (Nonlinear PCA)

  • 說明:

    • 使用分類量化來處理分類變量的主成分分析(PCA)方法
  • 優(yōu)點:

    • 它會找到對類別來說的最佳數(shù)值移国,從而使常規(guī) PCA 的性能(可解釋方差)最大化
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市道伟,隨后出現(xiàn)的幾起案子迹缀,更是在濱河造成了極大的恐慌,老刑警劉巖蜜徽,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件祝懂,死亡現(xiàn)場離奇詭異,居然都是意外死亡拘鞋,警方通過查閱死者的電腦和手機砚蓬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來盆色,“玉大人灰蛙,你說我怎么就攤上這事「舳悖” “怎么了摩梧?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蹭越。 經(jīng)常有香客問我障本,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任驾霜,我火速辦了婚禮案训,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘粪糙。我一直安慰自己强霎,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布蓉冈。 她就那樣靜靜地躺著城舞,像睡著了一般。 火紅的嫁衣襯著肌膚如雪寞酿。 梳的紋絲不亂的頭發(fā)上家夺,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機與錄音伐弹,去河邊找鬼拉馋。 笑死,一個胖子當(dāng)著我的面吹牛惨好,可吹牛的內(nèi)容都是我干的煌茴。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼日川,長吁一口氣:“原來是場噩夢啊……” “哼蔓腐!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起龄句,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤回论,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后撒璧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體透葛,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡笨使,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年卿樱,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片硫椰。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡繁调,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出靶草,到底是詐尸還是另有隱情蹄胰,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布奕翔,位于F島的核電站裕寨,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宾袜,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一捻艳、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧庆猫,春花似錦、人聲如沸月培。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽杉畜。三九已至纪蜒,卻和暖如春拌蜘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工铜涉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人芙代。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓裹驰,卻偏偏與公主長得像片挂,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子沪饺,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,490評論 2 348