一.數(shù)值型類別變量
#簡(jiǎn)單來說 LabelEncoder 是對(duì)不連續(xù)的數(shù)字或者文本進(jìn)行編號(hào)
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit([1,5,67,100])
le.transform([1,1,100,67,5])
輸出: array([0,0,3,2,1])
#OneHotEncoder 用于將表示分類的數(shù)據(jù)擴(kuò)維:
note:OneHotEncoder的輸入必須是 2-D array
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
ohe.fit([[1],[2],[3],[4]]) ? ? ?#注意是兩個(gè)方括號(hào)[ [ ] ].
ohe.transform([2],[3],[1],[4]).toarray()
輸出:[ [0,1,0,0] , [0,0,1,0] , [1,0,0,0] ,[0,0,0,1] ]
二.字符串型類別變量
OneHotEncoder無法直接對(duì)字符串型的類別變量編碼,也就是說OneHotEncoder().fit_transform(testdata[['pet']])這句話會(huì)報(bào)錯(cuò)(不信你試試)。已經(jīng)有很多人在 stackoverflow 和 sklearn 的 github issue 上討論過這個(gè)問題鲁捏,但目前為止的 sklearn 版本仍沒有增加OneHotEncoder對(duì)字符串型類別變量的支持道川,所以一般都采用曲線救國的方式:
? ? ? ? ? ? ? ? 方法一 先用 LabelEncoder() 轉(zhuǎn)換成連續(xù)的數(shù)值型變量,再用 OneHotEncoder() 二值化
????????????????方法二 直接用 LabelBinarizer() 進(jìn)行二值化
eg.
testdata = pd.DataFrame({'pet': ['cat','dog','dog','fish']
然而要注意的是董虱,無論 LabelEncoder() 還是 LabelBinarizer()眶明,他們?cè)?sklearn 中的設(shè)計(jì)初衷惩坑,都是為了解決標(biāo)簽 y 的離散化,而非輸入 X朝扼, 所以他們的輸入被限定為 1-D array赃阀,這恰恰跟 OneHotEncoder() 要求輸入 2-D array 相左。
# 方法一: LabelEncoder() + OneHotEncoder()
a = LabelEncoder().fit_transform(testdata['pet'])
OneHotEncoder( sparse=False).fit_transform(a.reshape(-1,1))# 注意: 這里把 a 用 reshape 轉(zhuǎn)換成 2-D array
# 方法二: 直接用 LabelBinarizer()
LabelBinarizer().fit_transform(testdata['pet'])
array([[1.,0.,0.],
[0.,1.,0.],
[0.,1.,0.],
[0.,0.,1.]])
正因?yàn)長(zhǎng)abelEncoder和LabelBinarizer設(shè)計(jì)為只支持 1-D array擎颖,也使得它無法像上面 OneHotEncoder 那樣批量接受多列輸入榛斯,也就是說LabelEncoder().fit_transform(testdata[['pet', 'age']])會(huì)報(bào)錯(cuò)。
另一種解決方案
其實(shí)如果我們跳出 scikit-learn搂捧, 在 pandas 中可以很好地解決這個(gè)問題驮俗,用 pandas 自帶的get_dummies函數(shù)即可
get_dummies的優(yōu)勢(shì)在于:
本身就是 pandas 的模塊,所以對(duì) DataFrame 類型兼容很好
不管你列是數(shù)值型還是字符串型允跑,都可以進(jìn)行二值化編碼
能夠根據(jù)指令王凑,自動(dòng)生成二值化編碼后的變量名
這么看來,我們找到最完美的解決方案了聋丝? No索烹!get_dummies千般好,萬般好弱睦,但畢竟不是 sklearn 里的transformer類型百姓,所以得到的結(jié)果得手動(dòng)輸入到 sklearn 里的相應(yīng)模塊,也無法像 sklearn 的transformer一樣可以輸入到pipeline中 進(jìn)行流程化地機(jī)器學(xué)習(xí)過程每篷。更重要的一點(diǎn)
get_dummies不像 sklearn 的transformer一樣瓣戚,有transform方法,所以一旦測(cè)試集中出現(xiàn)了訓(xùn)練集未曾出現(xiàn)過的特征取值焦读,簡(jiǎn)單地對(duì)測(cè)試集子库、訓(xùn)練集都用get_dummies方法將導(dǎo)致數(shù)據(jù)錯(cuò)誤