機(jī)器學(xué)習(xí) 數(shù)據(jù)預(yù)處理之獨(dú)熱編碼(One-Hot Encoding)
問題由來
在很多機(jī)器學(xué)習(xí)任務(wù)中母剥,特征并不總是連續(xù)值误续,而有可能是分類值飘哨。
例如感局,考慮一下的三個(gè)特征:
["male",?"female"]
["from Europe",?"from US",?"from Asia"]
["uses Firefox",?"uses Chrome",?"uses Safari",?"uses Internet Explorer"]
如果將上述特征用數(shù)字表示尼啡,效率會(huì)高很多。例如:
["male",?"from US",?"uses Internet Explorer"]?表示為[0, 1, 3]
["female",?"from Asia",?"uses Chrome"]表示為[1, 2, 1]
但是询微,即使轉(zhuǎn)化為數(shù)字表示后崖瞭,上述數(shù)據(jù)也不能直接用在我們的分類器中。因?yàn)槌琶诸惼魍J(rèn)數(shù)據(jù)數(shù)據(jù)是連續(xù)的书聚,并且是有序的。但是藻雌,按照我們上述的表示雌续,數(shù)字并不是有序的,而是隨機(jī)分配的蹦疑。
獨(dú)熱編碼
為了解決上述問題西雀,其中一種可能的解決方法是采用獨(dú)熱編碼(One-Hot Encoding)。
獨(dú)熱編碼即 One-Hot 編碼歉摧,又稱一位有效編碼艇肴,其方法是使用N位狀態(tài)寄存器來對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都由他獨(dú)立的寄存器位叁温,并且在任意時(shí)候再悼,其中只有一位有效。
例如:
自然狀態(tài)碼為:000,001,010,011,100,101
獨(dú)熱編碼為:000001,000010,000100,001000,010000,100000
可以這樣理解膝但,對(duì)于每一個(gè)特征冲九,如果它有m個(gè)可能值,那么經(jīng)過獨(dú)熱編碼后,就變成了m個(gè)二元特征莺奸。并且丑孩,這些特征互斥,每次只有一個(gè)激活灭贷。因此温学,數(shù)據(jù)會(huì)變成稀疏的。
這樣做的好處主要有:
解決了分類器不好處理屬性數(shù)據(jù)的問題
在一定程度上也起到了擴(kuò)充特征的作用
舉例
我們基于Python和Scikit-learn寫一個(gè)簡單的例子:
from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3],?[1, 1, 0],?[0, 2, 1],?[1, 0, 2]])
enc.transform([[0, 1, 3]]).toarray()
輸出結(jié)果:
array([[ 1.,? 0.,? 0.,? 1.,? 0.,? 0.,? 0.,? 0.,? 1.]])