Python 基本操作- 類別變量轉(zhuǎn)化

一、類別變量中“有序”和“無序”的區(qū)分

類別變量轉(zhuǎn)化為數(shù)字喘沿,需要區(qū)分是否是有序類別闸度,如 male和female,就是無序的蚜印,應(yīng)該轉(zhuǎn)化成(1,0)和(0,1)筋岛,但衣服大小,M晒哄,L,XL肪获,則應(yīng)轉(zhuǎn)化為1,2,3
若將無序?qū)傩赃B續(xù)化寝凌,則會(huì)不恰當(dāng)?shù)囊胄蜿P(guān)系,對后續(xù)處理如距離計(jì)算等造成誤導(dǎo)孝赫,具體參加9.3较木。(待補(bǔ)充)

二、類別變量轉(zhuǎn)化的Python實(shí)現(xiàn)

1青柄、有序的類別變量

有序的類別變量轉(zhuǎn)化伐债,一般直接采用賦值预侯、映射的方法即可,可以采用Python帶的map函數(shù)峰锁。
比如size:[X,XL,XXL]萎馅,使用數(shù)值的映射{X:1,XL:2,XXL:3}。

2虹蒋、無序的類別變量

無序的類別變量轉(zhuǎn)化糜芳,一般對應(yīng)的轉(zhuǎn)碼方式為 one-hot編碼,采用pd.get_dummies(df) 就可以魄衅。

具體代碼如下
(1)有序:

import pandas as pd  
df = pd.DataFrame([  
            ['green', 'M', 10.1, 'class1'],   
            ['red', 'L', 13.5, 'class2'],   
            ['blue', 'XL', 15.3, 'class1']],
            )  
df.columns = ['color', 'size', 'prize', 'class label']  
# DataFrame相當(dāng)于一個(gè)數(shù)據(jù)表峭竣,DataFrame(data,columns=['a','b','c'],index=['one','two','three']) ,有這些參數(shù)
#上面的代碼可以寫成,data = [  
            ['green', 'M', 10.1, 'class1'],   
            ['red', 'L', 13.5, 'class2'],   
            ['blue', 'XL', 15.3, 'class1']]
# df = pd.DataFrame (data,columns = ['color', 'size', 'prize', 'class label'])


size_mapping = { 'XL': 3, 'L': 2,'M': 1}  #建立一個(gè)字典晃虫,構(gòu)建鍵值對皆撩,即數(shù)據(jù)映射。
df['size'] = df['size'].map(size_mapping)  # map函數(shù)的使用

將 M,L,XL轉(zhuǎn)化成了1,2,3

(2)無序

pd.get_dummies(df)  

將color和class兩列哲银,轉(zhuǎn)化成了one_hot編碼扛吞。

參考資料

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市盘榨,隨后出現(xiàn)的幾起案子喻粹,更是在濱河造成了極大的恐慌,老刑警劉巖草巡,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件守呜,死亡現(xiàn)場離奇詭異,居然都是意外死亡山憨,警方通過查閱死者的電腦和手機(jī)查乒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來郁竟,“玉大人玛迄,你說我怎么就攤上這事∨锬叮” “怎么了蓖议?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長讥蟆。 經(jīng)常有香客問我勒虾,道長,這世上最難降的妖魔是什么瘸彤? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任修然,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘愕宋。我一直安慰自己玻靡,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布中贝。 她就那樣靜靜地躺著囤捻,像睡著了一般。 火紅的嫁衣襯著肌膚如雪雄妥。 梳的紋絲不亂的頭發(fā)上最蕾,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天,我揣著相機(jī)與錄音老厌,去河邊找鬼瘟则。 笑死,一個(gè)胖子當(dāng)著我的面吹牛枝秤,可吹牛的內(nèi)容都是我干的醋拧。 我是一名探鬼主播,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼淀弹,長吁一口氣:“原來是場噩夢啊……” “哼丹壕!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起薇溃,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤菌赖,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后沐序,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體琉用,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年策幼,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了邑时。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,013評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡特姐,死狀恐怖晶丘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情唐含,我是刑警寧澤浅浮,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站捷枯,受9級特大地震影響滚秩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜铜靶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧争剿,春花似錦已艰、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至涩笤,卻和暖如春嚼吞,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蹬碧。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工舱禽, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人恩沽。 一個(gè)月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓誊稚,卻偏偏與公主長得像,于是被迫代替她去往敵國和親罗心。 傳聞我的和親對象是個(gè)殘疾皇子里伯,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 原文地址:http://www.kdnuggets.com/2015/12/beyond-one-hot-expl...
    劉開心_8a6c閱讀 1,475評論 0 1
  • 個(gè)人筆記,方便自己查閱使用 Py.LangSpec.Contents Refs Built-in Closure ...
    freenik閱讀 67,710評論 0 5
  • 〇渤闷、前言 本文共108張圖疾瓮,流量黨請慎重! 歷時(shí)1個(gè)半月飒箭,我把自己學(xué)習(xí)Python基礎(chǔ)知識(shí)的框架詳細(xì)梳理了一遍狼电。 ...
    Raxxie閱讀 18,957評論 17 410
  • 最近在處理的一個(gè)數(shù)據(jù) 讀取數(shù)據(jù):分塊讀取處理 方式1 方式2 方式3: 方式1加入try except 處理非數(shù)字...
    開子的私家地閱讀 2,374評論 0 1
  • 世界上的東西都會(huì)留下痕跡, 這是誰留下的痕跡补憾? 小草沾著小雨滴漫萄, 是誰留下的痕跡?...
    鄔文敬閱讀 605評論 0 2