One-Hot編碼

原文地址:?https://www.cnblogs.com/zongfa/p/9305657.html

1. 為什么要獨(dú)熱編碼沃疮?

正如上文所言钦扭,獨(dú)熱編碼(啞變量 dummy variable)是因?yàn)榇蟛糠炙惴ㄊ?b>基于向量空間中的度量來進(jìn)行計(jì)算的,為了使非偏序關(guān)系的變量取值不具有偏序性斑粱,并且到圓點(diǎn)是等距的氧吐。使用one-hot編碼褪秀,將離散特征的取值擴(kuò)展到了歐式空間空猜,離散特征的某個(gè)取值就對應(yīng)歐式空間的某個(gè)點(diǎn)绽慈。將離散型特征使用one-hot編碼,會讓特征之間的距離計(jì)算更加合理辈毯。離散特征進(jìn)行one-hot編碼后,編碼后的特征钝凶,其實(shí)每一維度的特征都可以看做是連續(xù)的特征唁影。就可以跟對連續(xù)型特征的歸一化方法一樣,對每一維特征進(jìn)行歸一化啃炸。比如歸一化到[-1,1]或歸一化到均值為0,方差為1卓舵。

? ? ? ? 為什么特征向量要映射到歐式空間掏湾?

? ? ? ? 將離散特征通過one-hot編碼映射到歐式空間肿嘲,是因?yàn)轹撸诨貧w匣屡,分類拇涤,聚類等機(jī)器學(xué)習(xí)算法中鹅士,特征之間距離的計(jì)算或相似度的計(jì)算是非常重要的,而我們常用的距離或相似度的計(jì)算都是在歐式空間的相似度計(jì)算掉盅,計(jì)算余弦相似性,基于的就是歐式空間慢哈。


2 .獨(dú)熱編碼優(yōu)缺點(diǎn)

優(yōu)點(diǎn):獨(dú)熱編碼解決了分類器不好處理屬性數(shù)據(jù)的問題永票,在一定程度上也起到了擴(kuò)充特征的作用。它的值只有0和1瓦侮,不同的類型存儲在垂直的空間。

缺點(diǎn):當(dāng)類別的數(shù)量很多時(shí)方妖,特征空間會變得非常大罚攀。在這種情況下,一般可以用PCA來減少維度杯瞻。而且one hot encoding+PCA這種組合在實(shí)際中也非常有用炫掐。


3. 什么情況下(不)用獨(dú)熱編碼募胃?

用:獨(dú)熱編碼用來解決類別型數(shù)據(jù)的離散值問題痹束,

不用:將離散型特征進(jìn)行one-hot編碼的作用,是為了讓距離計(jì)算更合理屎媳,但如果特征是離散的烛谊,并且不用one-hot編碼就可以很合理的計(jì)算出距離,那么就沒必要進(jìn)行one-hot編碼钞诡。 有些基于樹的算法在處理變量時(shí)湃崩,并不是基于向量空間度量,數(shù)值只是個(gè)類別符號攒读,即沒有偏序關(guān)系朵诫,所以不用進(jìn)行獨(dú)熱編碼薄扁。??Tree Model不太需要one-hot編碼: 對于決策樹來說剪返,one-hot的本質(zhì)是增加樹的深度邓梅。

  總的來說脱盲,要是one hot encoding的類別數(shù)目不太多,建議優(yōu)先考慮钱反。?


4.? 什么情況下(不)需要?dú)w一化?

需要:?基于參數(shù)的模型或基于距離的模型匣距,都是要進(jìn)行特征的歸一化面哥。

不需要:基于樹的方法是不需要進(jìn)行特征的歸一化,例如隨機(jī)森林毅待,bagging 和 boosting等尚卫。

5尸红、one-hot編碼為什么可以解決類別型數(shù)據(jù)的離散值問題?

  首先,one-hot編碼是N位狀態(tài)寄存器為N個(gè)狀態(tài)進(jìn)行編碼的方式?

  eg:高邑飒、中级乐、低不可分撒轮,→ 用0 0 0 三位編碼之后變得可分了,并且成為互相獨(dú)立的事件?

? ? ? ?類似 SVM中贼穆,原本線性不可分的特征故痊,經(jīng)過project之后到高維之后變得可分了?

  GBDT處理高維稀疏矩陣的時(shí)候效果并不好,即使是低維的稀疏矩陣也未必比SVM好

6愕秫、Tree Model不太需要one-hot編碼

  對于決策樹來說慨菱,one-hot的本質(zhì)是增加樹的深度?

  tree-model是在動態(tài)的過程中生成類似 One-Hot + Feature Crossing 的機(jī)制?

    1. 一個(gè)特征或者多個(gè)特征最終轉(zhuǎn)換成一個(gè)葉子節(jié)點(diǎn)作為編碼 ,one-hot可以理解成三個(gè)獨(dú)立事件?

    2. 決策樹是沒有特征大小的概念的戴甩,只有特征處于他分布的哪一部分的概念?

  one-hot可以解決線性可分問題 但是比不上label econding?

  one-hot降維后的缺點(diǎn):?

降維前可以交叉的降維后可能變得不能交叉

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末符喝,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子甜孤,更是在濱河造成了極大的恐慌协饲,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缴川,死亡現(xiàn)場離奇詭異茉稠,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)把夸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進(jìn)店門战惊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人扎即,你說我怎么就攤上這事吞获。” “怎么了谚鄙?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵各拷,是天一觀的道長。 經(jīng)常有香客問我闷营,道長烤黍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任傻盟,我火速辦了婚禮速蕊,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘娘赴。我一直安慰自己规哲,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布诽表。 她就那樣靜靜地躺著唉锌,像睡著了一般隅肥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上袄简,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天腥放,我揣著相機(jī)與錄音,去河邊找鬼绿语。 笑死秃症,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的吕粹。 我是一名探鬼主播种柑,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼昂芜!你這毒婦竟也來了莹规?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤泌神,失蹤者是張志新(化名)和其女友劉穎良漱,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體欢际,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡母市,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了损趋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片患久。...
    茶點(diǎn)故事閱讀 40,015評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖浑槽,靈堂內(nèi)的尸體忽然破棺而出蒋失,到底是詐尸還是另有隱情,我是刑警寧澤桐玻,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布篙挽,位于F島的核電站,受9級特大地震影響镊靴,放射性物質(zhì)發(fā)生泄漏铣卡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一偏竟、第九天 我趴在偏房一處隱蔽的房頂上張望煮落。 院中可真熱鬧,春花似錦踊谋、人聲如沸蝉仇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽量淌。三九已至骗村,卻和暖如春嫌褪,著一層夾襖步出監(jiān)牢的瞬間呀枢,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工笼痛, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留裙秋,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓缨伊,卻偏偏與公主長得像摘刑,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子刻坊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評論 2 355