機器學習入門_編碼

preprocessing.LabelEncoder()

標簽編碼的限制標簽編碼將數(shù)據(jù)轉(zhuǎn)換為機器可讀的形式,但它會為每類數(shù)據(jù)分配一個唯一的編號(從0開始)腐巢。這可能導致在數(shù)據(jù)集的訓練中產(chǎn)生優(yōu)先問題玄括。具有較高值的標簽可以被認為具有比具有較低值的標簽更高的優(yōu)先級。

為了解決這個問題遭京,我們將使用一種熱編碼技術。

一種熱門編碼是一種用于在機器學習模型中將類別變量表示為數(shù)值的技術船殉。使用一種熱編碼的優(yōu)勢包括:

? ? ? ?它允許在需要數(shù)字輸入的模型中使用分類變量斯嚎。

? ? ? ?它可以為模型提供更多關于分類變量的信息挨厚,從而提高模型的性能糠惫。

? ? ? ?它可以幫助避免當分類變量具有自然順序(例如,“小”硼讽、“中”、“大”)時可能發(fā)生的順序性問題壤躲。

使用一種熱編碼的缺點包括:

? ? ? ?這可能會增加維度备燃,因為會為變量中的每個類別創(chuàng)建單獨的列。這可能會使模型變得更復雜赚爵,訓練起來也更慢法瑟。

? ? ? ?這可能會導致數(shù)據(jù)稀疏,因為在大多數(shù)單熱點編碼列中窝剖,大多數(shù)觀測值都將為0酥夭。

? ? ? ?這可能會導致過度擬合,特別是當變量中有許多類別且樣本量相對較小時疙描。

? ? ? ?一次熱編碼是一種處理分類數(shù)據(jù)的強大技術讶隐,但它會導致維度增加、稀疏性和過度擬合巫延。謹慎使用它很重要,并考慮其他方法畏妖,如序號編碼或二進制編碼疼阔。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末半夷,一起剝皮案震驚了整個濱河市谱仪,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌嗦随,老刑警劉巖敬尺,帶你破解...
    沈念sama閱讀 219,589評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異砂吞,居然都是意外死亡,警方通過查閱死者的電腦和手機盯质,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評論 3 396
  • 文/潘曉璐 我一進店門呼巷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赎瑰,“玉大人,你說我怎么就攤上這事餐曼。” “怎么了源譬?”我有些...
    開封第一講書人閱讀 165,933評論 0 356
  • 文/不壞的土叔 我叫張陵踩娘,是天一觀的道長。 經(jīng)常有香客問我霸饲,道長,這世上最難降的妖魔是什么习寸? 我笑而不...
    開封第一講書人閱讀 58,976評論 1 295
  • 正文 為了忘掉前任傻工,我火速辦了婚禮孵滞,結(jié)果婚禮上鸯匹,老公的妹妹穿的比我還像新娘。我一直安慰自己匿级,他們只是感情好染厅,可當我...
    茶點故事閱讀 67,999評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著孤页,像睡著了一般涩馆。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上魂那,一...
    開封第一講書人閱讀 51,775評論 1 307
  • 那天冰寻,我揣著相機與錄音皿渗,去河邊找鬼。 笑死乐疆,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的挤土。 我是一名探鬼主播,決...
    沈念sama閱讀 40,474評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼迷殿,長吁一口氣:“原來是場噩夢啊……” “哼咖杂!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起懦尝,我...
    開封第一講書人閱讀 39,359評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎琅轧,沒想到半個月后踊挠,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,854評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡模蜡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,007評論 3 338
  • 正文 我和宋清朗相戀三年扁凛,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卤妒。...
    茶點故事閱讀 40,146評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡字币,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出士复,到底是詐尸還是另有隱情,我是刑警寧澤阱洪,帶...
    沈念sama閱讀 35,826評論 5 346
  • 正文 年R本政府宣布菠镇,位于F島的核電站,受9級特大地震影響蚌本,放射性物質(zhì)發(fā)生泄漏隘梨。R本人自食惡果不足惜程癌,卻給世界環(huán)境...
    茶點故事閱讀 41,484評論 3 331
  • 文/蒙蒙 一席楚、第九天 我趴在偏房一處隱蔽的房頂上張望税稼。 院中可真熱鬧垮斯,春花似錦只祠、人聲如沸兜蠕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至钻趋,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蛮位,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評論 1 272
  • 我被黑心中介騙來泰國打工尸曼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留萄焦,地道東北人。 一個月前我還...
    沈念sama閱讀 48,420評論 3 373
  • 正文 我出身青樓茬射,卻偏偏與公主長得像烘苹,于是被迫代替她去往敵國和親片部。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,107評論 2 356

推薦閱讀更多精彩內(nèi)容