關(guān)于sklearn獨(dú)熱編碼

一.數(shù)值型類別變量

#簡(jiǎn)單來說 LabelEncoder 是對(duì)不連續(xù)的數(shù)字或者文本進(jìn)行編號(hào)

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

le.fit([1,5,67,100])

le.transform([1,1,100,67,5])

輸出: array([0,0,3,2,1])

#OneHotEncoder 用于將表示分類的數(shù)據(jù)擴(kuò)維:

note:OneHotEncoder的輸入必須是 2-D array

from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder()

ohe.fit([[1],[2],[3],[4]]) ? ? ?#注意是兩個(gè)方括號(hào)[ [ ] ].

ohe.transform([2],[3],[1],[4]).toarray()

輸出:[ [0,1,0,0] , [0,0,1,0] , [1,0,0,0] ,[0,0,0,1] ]

二.字符串型類別變量

OneHotEncoder無法直接對(duì)字符串型的類別變量編碼,也就是說OneHotEncoder().fit_transform(testdata[['pet']])這句話會(huì)報(bào)錯(cuò)(不信你試試)。已經(jīng)有很多人在 stackoverflow 和 sklearn 的 github issue 上討論過這個(gè)問題鲁捏,但目前為止的 sklearn 版本仍沒有增加OneHotEncoder對(duì)字符串型類別變量的支持道川,所以一般都采用曲線救國的方式:

? ? ? ? ? ? ? ? 方法一 先用 LabelEncoder() 轉(zhuǎn)換成連續(xù)的數(shù)值型變量,再用 OneHotEncoder() 二值化

????????????????方法二 直接用 LabelBinarizer() 進(jìn)行二值化

eg.

testdata = pd.DataFrame({'pet': ['cat','dog','dog','fish']

然而要注意的是董虱,無論 LabelEncoder() 還是 LabelBinarizer()眶明,他們?cè)?sklearn 中的設(shè)計(jì)初衷惩坑,都是為了解決標(biāo)簽 y 的離散化,而非輸入 X朝扼, 所以他們的輸入被限定為 1-D array赃阀,這恰恰跟 OneHotEncoder() 要求輸入 2-D array 相左。

# 方法一: LabelEncoder() + OneHotEncoder()

a = LabelEncoder().fit_transform(testdata['pet'])

OneHotEncoder( sparse=False).fit_transform(a.reshape(-1,1))# 注意: 這里把 a 用 reshape 轉(zhuǎn)換成 2-D array

# 方法二: 直接用 LabelBinarizer()

LabelBinarizer().fit_transform(testdata['pet'])

array([[1.,0.,0.],

[0.,1.,0.],

[0.,1.,0.],

[0.,0.,1.]])

正因?yàn)長(zhǎng)abelEncoder和LabelBinarizer設(shè)計(jì)為只支持 1-D array擎颖,也使得它無法像上面 OneHotEncoder 那樣批量接受多列輸入榛斯,也就是說LabelEncoder().fit_transform(testdata[['pet', 'age']])會(huì)報(bào)錯(cuò)。



另一種解決方案

其實(shí)如果我們跳出 scikit-learn搂捧, 在 pandas 中可以很好地解決這個(gè)問題驮俗,用 pandas 自帶的get_dummies函數(shù)即可

get_dummies的優(yōu)勢(shì)在于:

本身就是 pandas 的模塊,所以對(duì) DataFrame 類型兼容很好

不管你列是數(shù)值型還是字符串型允跑,都可以進(jìn)行二值化編碼

能夠根據(jù)指令王凑,自動(dòng)生成二值化編碼后的變量名

這么看來,我們找到最完美的解決方案了聋丝? No索烹!get_dummies千般好,萬般好弱睦,但畢竟不是 sklearn 里的transformer類型百姓,所以得到的結(jié)果得手動(dòng)輸入到 sklearn 里的相應(yīng)模塊,也無法像 sklearn 的transformer一樣可以輸入到pipeline中 進(jìn)行流程化地機(jī)器學(xué)習(xí)過程每篷。更重要的一點(diǎn)

get_dummies不像 sklearn 的transformer一樣瓣戚,有transform方法,所以一旦測(cè)試集中出現(xiàn)了訓(xùn)練集未曾出現(xiàn)過的特征取值焦读,簡(jiǎn)單地對(duì)測(cè)試集子库、訓(xùn)練集都用get_dummies方法將導(dǎo)致數(shù)據(jù)錯(cuò)誤

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市矗晃,隨后出現(xiàn)的幾起案子仑嗅,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件仓技,死亡現(xiàn)場(chǎng)離奇詭異鸵贬,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)脖捻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門阔逼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人地沮,你說我怎么就攤上這事嗜浮。” “怎么了摩疑?”我有些...
    開封第一講書人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵危融,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我雷袋,道長(zhǎng)吉殃,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任楷怒,我火速辦了婚禮蛋勺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘率寡。我一直安慰自己迫卢,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開白布冶共。 她就那樣靜靜地躺著乾蛤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪捅僵。 梳的紋絲不亂的頭發(fā)上家卖,一...
    開封第一講書人閱讀 49,772評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音庙楚,去河邊找鬼上荡。 笑死,一個(gè)胖子當(dāng)著我的面吹牛馒闷,可吹牛的內(nèi)容都是我干的酪捡。 我是一名探鬼主播,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼纳账,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼逛薇!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起疏虫,我...
    開封第一講書人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤永罚,失蹤者是張志新(化名)和其女友劉穎啤呼,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體呢袱,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡官扣,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了羞福。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片惕蹄。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖治专,靈堂內(nèi)的尸體忽然破棺而出焊唬,到底是詐尸還是另有隱情,我是刑警寧澤看靠,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站液肌,受9級(jí)特大地震影響挟炬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜嗦哆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一谤祖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧老速,春花似錦粥喜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至旁舰,卻和暖如春锋华,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背箭窜。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來泰國打工毯焕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人磺樱。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓纳猫,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親竹捉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子芜辕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容