機(jī)器學(xué)習(xí)（十六）特征變換-標(biāo)簽和索引的轉(zhuǎn)化

卡方選擇器

【版權(quán)聲明】本文為原創(chuàng)涌哲，轉(zhuǎn)載請(qǐng)注明原地址 http://www.reibang.com/p/387ece851af7
同步更新在個(gè)人網(wǎng)站：http://www.wangpengcufe.com/machinelearning/ml-ml16/

一蹋辅、原理

在機(jī)器學(xué)習(xí)處理過程中,為了方便相關(guān)算法的實(shí)現(xiàn),經(jīng)常需要把標(biāo)簽數(shù)據(jù)(一般是字符串)轉(zhuǎn)化成整數(shù)索引,或是在計(jì)算結(jié)束后將整數(shù)索引還原為相應(yīng)的標(biāo)簽.
Spark ML 包中提供了幾個(gè)相關(guān)的轉(zhuǎn)換器:
StringIndexer,IndexToString,OneHotEncoder,VectorIndexer,他們提供了十分方便的特征轉(zhuǎn)換功能,這些轉(zhuǎn)換器都位于org.apache.spark.ml.feature包下。

值得注意的是,用于特征轉(zhuǎn)換的轉(zhuǎn)換器和其他的機(jī)器學(xué)習(xí)算法一樣,也屬于Ml Pipeline模型的一部分,可以用來構(gòu)成機(jī)器學(xué)習(xí)流水線,以StringIndexer為例卢未。

StringIndexer（字符串-索引變換）將字符串的標(biāo)簽編碼成標(biāo)簽索引反镇。標(biāo)簽索引序列的取值范圍是[0毁涉，numLabels（字符串中所有出現(xiàn)的單詞去掉重復(fù)的詞后的總和）]饼齿，按照標(biāo)簽出現(xiàn)頻率排序，出現(xiàn)最多的標(biāo)簽索引為0姻氨。如果輸入是數(shù)值型钓辆，我們先將數(shù)值映射到字符串，再對(duì)字符串進(jìn)行索引化。如果下游的pipeline（例如：Estimator或者Transformer）需要用到索引化后的標(biāo)簽序列前联，則需要將這個(gè)pipeline的輸入列名字指定為索引化序列的名字功戚。大部分情況下，通過setInputCol設(shè)置輸入的列名似嗤。

下面來具體介紹StringIndexer啸臀、IndexToString、OneHotEncoder烁落、VectorIndexer乘粒。

二、StringIndexer（字符串-索引變換）

2.1顽馋、原理

StringIndexer將標(biāo)簽的字符串列編碼為標(biāo)簽索引的列。索引位于[0幌羞，numLabels）中寸谜，并支持四個(gè)排序選項(xiàng)：“frequencyDesc”：按標(biāo)簽頻率的降序（最頻繁的標(biāo)簽分配為0），“frequencyAsc”：按標(biāo)簽頻率的升序（最不頻繁的標(biāo)簽分配為0）属桦，“alphabetDesc”：降序字母順序和“alphabetAsc”：升序字母順序（默認(rèn)=“frequencyDesc”）熊痴。如果用戶選擇保留，則看不見的標(biāo)簽將放置在索引numLabels處聂宾。如果輸入列為數(shù)字果善，則將其強(qiáng)制轉(zhuǎn)換為字符串并為字符串值編制索引。當(dāng)下游管道組件（例如Estimator或Transformer）使用此字符串索引標(biāo)簽時(shí)系谐，必須將組件的輸入列設(shè)置為此字符串索引列名稱巾陕。在許多情況下，可以使用setInputCol設(shè)置輸入列纪他。

2.2鄙煤、代碼實(shí)現(xiàn)

首先引入需要用的包：

import java.util.Arrays;
import java.util.List;
import org.apache.spark.ml.feature.IndexToString;
import org.apache.spark.ml.feature.OneHotEncoderEstimator;
import org.apache.spark.ml.feature.StringIndexer;
import org.apache.spark.ml.feature.StringIndexerModel;
import org.apache.spark.ml.feature.VectorIndexer;
import org.apache.spark.ml.feature.VectorIndexerModel;
import org.apache.spark.ml.linalg.VectorUDT;
import org.apache.spark.ml.linalg.Vectors;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.Metadata;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import scala.collection.immutable.Set;

獲取spark:

SparkSession spark = SparkSession.builder().appName("StringIndexerTest").master("local").getOrCreate();

構(gòu)造一些簡(jiǎn)單數(shù)據(jù)：

List<Row> rowRDD = Arrays.asList(RowFactory.create(0,"a"),
                        RowFactory.create(1,"b"),
                        RowFactory.create(2,"c"),
                        RowFactory.create(3,"a"),
                        RowFactory.create(4,"a"),
                        RowFactory.create(5,"c"));

StructType schema = new StructType(new StructField[] {
        new StructField("id",DataTypes.IntegerType,false,Metadata.empty()),
        new StructField("category",DataTypes.StringType,false,Metadata.empty())
});

Dataset<Row> df = spark.createDataFrame(rowRDD, schema);
df.show(false);

輸出結(jié)果：

+---+--------+
|id |category|
+---+--------+
|0  |a       |
|1  |b       |
|2  |c       |
|3  |a       |
|4  |a       |
|5  |c       |
+---+--------+

然后構(gòu)建StringIndexer模型，我們創(chuàng)建一個(gè)StringIndexer對(duì)象茶袒，設(shè)定輸入輸出列名梯刚，其余參數(shù)采用默認(rèn)值，并對(duì)這個(gè)DataFrame進(jìn)行訓(xùn)練薪寓，產(chǎn)生StringIndexerModel對(duì)象：

StringIndexer indexer = new StringIndexer().setInputCol("category").setOutputCol("categoryIndex");
StringIndexerModel model = indexer.fit(df);

之后我們即可利用StringIndexerModel對(duì)象對(duì)DataFrame數(shù)據(jù)進(jìn)行轉(zhuǎn)換操作亡资，可以看到，默認(rèn)情況下向叉，StringIndexerModel依次按照出現(xiàn)頻率的高低锥腻，把字符標(biāo)簽進(jìn)行了排序，即出現(xiàn)最多的“a”被編號(hào)成0母谎，“c”為1旷太，出現(xiàn)最少的“b”為0。

Dataset<Row> indexed1 = model.transform(df);
indexed1.show(false);

輸出結(jié)果：

+---+--------+-------------+
|id |category|categoryIndex|
+---+--------+-------------+
|0  |a       |0.0          |
|1  |b       |2.0          |
|2  |c       |1.0          |
|3  |a       |0.0          |
|4  |a       |0.0          |
|5  |c       |1.0          |
+---+--------+-------------+

如果我們使用已有的數(shù)據(jù)構(gòu)建了一個(gè)StringIndexerModel，然后再構(gòu)建一個(gè)新的DataFrame供璧，這個(gè)DataFrame中有著模型內(nèi)未曾出現(xiàn)的標(biāo)簽“d”存崖，用已有的模型去轉(zhuǎn)換這一DataFrame會(huì)有什么效果？
實(shí)際上睡毒，如果直接轉(zhuǎn)換的話来惧，Spark會(huì)拋出異常，報(bào)出“Unseen label: d”的錯(cuò)誤演顾。
為了處理這種情況供搀，在模型訓(xùn)練后，可以通過設(shè)置setHandleInvalid("skip")來忽略掉那些未出現(xiàn)的標(biāo)簽钠至，這樣葛虐，帶有未出現(xiàn)標(biāo)簽的行將直接被過濾掉，所下所示：

List<Row> rowRDD2 = Arrays.asList(RowFactory.create(0,"a"),
        RowFactory.create(1,"b"),
        RowFactory.create(2,"c"),
        RowFactory.create(3,"a"),
        RowFactory.create(4,"a"),
        RowFactory.create(5,"d"));
Dataset<Row> df2 = spark.createDataFrame(rowRDD2, schema);
Dataset<Row> indexed2 = model.transform(df2);
indexed2.show(false);

輸出結(jié)果：

Unseen label: d.

Dataset<Row> indexed2 = model.setHandleInvalid("skip").transform(df2);
indexed2.show(false);

輸出結(jié)果：

+---+--------+-------------+
|id |category|categoryIndex|
+---+--------+-------------+
|0  |a       |0.0          |
|1  |b       |2.0          |
|2  |c       |1.0          |
|3  |a       |0.0          |
|4  |a       |0.0          |
+---+--------+-------------+

三棉钧、IndexToString（索引-字符串變換）

3.1屿脐、原理

與StringIndexer對(duì)應(yīng)，IndexToString將索引化標(biāo)簽還原成原始字符串宪卿。一個(gè)常用的場(chǎng)景是先通過StringIndexer產(chǎn)生索引化標(biāo)簽的诵，然后使用索引化標(biāo)簽進(jìn)行訓(xùn)練，最后再對(duì)預(yù)測(cè)結(jié)果使用IndexToString來獲取其原始的標(biāo)簽字符串佑钾。

3.2西疤、代碼實(shí)現(xiàn)

首先我們用StringIndexer讀取數(shù)據(jù)集中的“category”列，把字符型標(biāo)簽轉(zhuǎn)化成標(biāo)簽索引休溶，然后輸出到“categoryIndex”列上代赁，構(gòu)建出一個(gè)新的DataFrame數(shù)據(jù)集

List<Row> rawData =  Arrays.asList(RowFactory.create(0, "a"),
                        RowFactory.create(1, "b"),
                        RowFactory.create(2, "c"),
                        RowFactory.create(3, "a"),
                        RowFactory.create(4, "a"),
                        RowFactory.create(5, "c"));

Dataset<Row> df3 = spark.createDataFrame(rawData, schema);
Dataset<Row> indexed3 = indexer.fit(df3).transform(df3);

然后我們創(chuàng)建IndexToString對(duì)象，讀取“categoryIndex”上的標(biāo)簽索引兽掰，獲得原有數(shù)據(jù)集的字符型標(biāo)簽管跺，然后再輸出到“originalCategory”列上。最后禾进，通過輸出“originalCategory”列豁跑，就可以看到數(shù)據(jù)集中原有的字符標(biāo)簽了。

IndexToString converter = new IndexToString().setInputCol("categoryIndex").setOutputCol("originalCategory");
Dataset<Row> converted3 = converter.transform(indexed3);
converted3.show(false);

輸出結(jié)果：

+---+--------+-------------+----------------+
|id |category|categoryIndex|originalCategory|
+---+--------+-------------+----------------+
|0  |a       |0.0          |a               |
|1  |b       |2.0          |b               |
|2  |c       |1.0          |c               |
|3  |a       |0.0          |a               |
|4  |a       |0.0          |a               |
|5  |c       |1.0          |c               |
+---+--------+-------------+----------------+

四泻云、OneHotEncoder（獨(dú)熱編碼）

4.1艇拍、原理

獨(dú)熱編碼（One-hot encoding）將類別特征映射為二進(jìn)制向量，其中只有一個(gè)有效值（為1宠纯，其余為0）卸夕。這樣在諸如Logistic回歸這樣需要連續(xù)數(shù)值值作為特征輸入的分類器中也可以使用類別（離散）特征。

One-Hot編碼適合一些期望類別特征為連續(xù)特征的算法婆瓜，比如說邏輯斯蒂回歸等快集。

4.2贡羔、代碼實(shí)現(xiàn)

首先創(chuàng)建一個(gè)DataFrame，其包含一列類別性特征个初，需要注意的是乖寒，在使用OneHotEncoder進(jìn)行轉(zhuǎn)換前，DataFrame需要先使用StringIndexer將原始標(biāo)簽數(shù)值化

List<Row> rawData4 = Arrays.asList(RowFactory.create(0.0, 1.0),
          RowFactory.create(1.0, 0.0),
          RowFactory.create(2.0, 1.0),
          RowFactory.create(0.0, 2.0),
          RowFactory.create(0.0, 1.0),
          RowFactory.create(2.0, 0.0));

StructType schema4 = new StructType(new StructField[] {
        new StructField("id",DataTypes.DoubleType,false,Metadata.empty()),
        new StructField("category",DataTypes.DoubleType,false,Metadata.empty())
});

Dataset<Row> df4 = spark.createDataFrame(rawData4, schema4);

我們創(chuàng)建OneHotEncoder對(duì)象對(duì)處理后的DataFrame進(jìn)行編碼院溺，可以看見楣嘁，編碼后的二進(jìn)制特征呈稀疏向量形式，與StringIndexer編碼的順序相同珍逸，需注意的是最后一個(gè)Category（”b”）被編碼為全0向量逐虚，若希望”b”也占有一個(gè)二進(jìn)制特征，則可在創(chuàng)建OneHotEncoder時(shí)指定setDropLast(false)谆膳。

OneHotEncoderEstimator encoder = new OneHotEncoderEstimator()
                               .setInputCols(new String[] {"id","category"})
                               .setOutputCols(new String[] {"categoryVec1","categoryVec2"});
Dataset<Row> encoded4 = encoder.fit(df4).transform(df4);
encoded4.show(false);

輸出結(jié)果：

+---+--------+-------------+-------------+
|id |category|categoryVec1 |categoryVec2 |
+---+--------+-------------+-------------+
|0.0|1.0     |(2,[0],[1.0])|(2,[1],[1.0])|
|1.0|0.0     |(2,[1],[1.0])|(2,[0],[1.0])|
|2.0|1.0     |(2,[],[])    |(2,[1],[1.0])|
|0.0|2.0     |(2,[0],[1.0])|(2,[],[])    |
|0.0|1.0     |(2,[0],[1.0])|(2,[1],[1.0])|
|2.0|0.0     |(2,[],[])    |(2,[0],[1.0])|
+---+--------+-------------+-------------+

五叭爱、VectorIndexer(向量類型索引化)

5.1、原理

VectorIndexer幫助索引Vector數(shù)據(jù)集中的分類特征漱病。它既可以自動(dòng)確定哪些特征是分類的买雾，又可以將原始值轉(zhuǎn)換為分類索引。具體來說缨称，它執(zhí)行以下操作：

1凝果、設(shè)置類型為Vector的輸入列和參數(shù)maxCategories祝迂。
2睦尽、根據(jù)不同值的數(shù)量確定應(yīng)分類的要素，其中最多具有maxCategories的要素被聲明為分類型雳。
3当凡、為每個(gè)分類特征計(jì)算從0開始的分類索引。
4纠俭、為分類特征建立索引沿量，并將原始特征值轉(zhuǎn)換為索引。

索引分類特征允許諸如決策樹和樹組合之類的算法適當(dāng)?shù)靥幚矸诸愄卣髟┚＃瑥亩岣咝阅堋?/p>

5.2朴则、代碼實(shí)現(xiàn)

首先，我們讀入一個(gè)數(shù)據(jù)集DataFrame钓简，然后使用VectorIndexer訓(xùn)練出模型乌妒，來決定哪些特征需要被作為類別特征，將類別特征轉(zhuǎn)換為索引外邓，這里設(shè)置maxCategories為2撤蚊，即只有種類小于2的特征才被認(rèn)為是類別型特征，否則被認(rèn)為是連續(xù)型特征：

List<Row> rawData5 = Arrays.asList(RowFactory.create(Vectors.dense(-1.0, 1.0, 1.0)),
                RowFactory.create(Vectors.dense(-1.0, 3.0, 1.0)),
                RowFactory.create(Vectors.dense(0.0, 5.0, 1.0)));

StructType schema5 = new StructType(new StructField[] {
        new StructField("features",new VectorUDT(),false,Metadata.empty())
});

Dataset<Row> df5 = spark.createDataFrame(rawData5, schema5);
df5.show(false);
VectorIndexerModel indexModel = new VectorIndexer()
                                .setInputCol("features")
                                .setOutputCol("indexed")
                                .setMaxCategories(2).fit(df5);
Set<Object> categoricalFeatures = indexModel.categoryMaps().keySet();
System.out.println(categoricalFeatures.mkString(","));

輸出結(jié)果：

0,2

Dataset<Row> indexed5 = indexModel.transform(df5);
indexed5.show(false);

輸出結(jié)果：

+--------------+-------------+
|features      |indexed      |
+--------------+-------------+
|[-1.0,1.0,1.0]|[1.0,1.0,0.0]|
|[-1.0,3.0,1.0]|[1.0,3.0,0.0]|
|[0.0,5.0,1.0] |[0.0,5.0,0.0]|
+--------------+-------------+

最后編輯于：2019.11.25 14:01:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末损话，一起剝皮案震驚了整個(gè)濱河市侦啸，隨后出現(xiàn)的幾起案子槽唾，更是在濱河造成了極大的恐慌，老刑警劉巖光涂，帶你破解...
沈念sama閱讀 219,427評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件庞萍，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡顶捷，警方通過查閱死者的電腦和手機(jī)挂绰，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來服赎，“玉大人拨齐，你說我怎么就攤上這事〈腔保” “怎么了廷支？”我有些...
開封第一講書人閱讀 165,747評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)缺厉。經(jīng)常有香客問我永高，道長(zhǎng)，這世上最難降的妖魔是什么提针？我笑而不...
開封第一講書人閱讀 58,939評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任命爬，我火速辦了婚禮，結(jié)果婚禮上辐脖，老公的妹妹穿的比我還像新娘饲宛。我一直安慰自己，他們只是感情好嗜价，可當(dāng)我...
茶點(diǎn)故事閱讀 67,955評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布艇抠。她就那樣靜靜地躺著，像睡著了一般久锥。火紅的嫁衣襯著肌膚如雪家淤。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,737評(píng)論 1贊 305
城市分裂傳說
那天瑟由，我揣著相機(jī)與錄音絮重，去河邊找鬼。笑死歹苦，一個(gè)胖子當(dāng)著我的面吹牛青伤，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播暂氯，決...
沈念sama閱讀 40,448評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼潮模，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了痴施？” 一聲冷哼從身側(cè)響起擎厢，我...
開封第一講書人閱讀 39,352評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤究流，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后动遭，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體芬探，經(jīng)...
沈念sama閱讀 45,834評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,992評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年厘惦，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了偷仿。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,133評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡宵蕉，死狀恐怖酝静，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情羡玛，我是刑警寧澤别智，帶...
沈念sama閱讀 35,815評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站稼稿，受9級(jí)特大地震影響薄榛，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜让歼，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,477評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一敞恋、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧谋右，春花似錦硬猫、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評(píng)論 0贊 22
一樁弒父案浦徊，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)馏予。三九已至天梧，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間霞丧，已是汗流浹背呢岗。一陣腳步聲響...
開封第一講書人閱讀 33,147評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蛹尝，地道東北人后豫。一個(gè)月前我還...
沈念sama閱讀 48,398評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像突那，于是被迫代替她去往敵國(guó)和親挫酿。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,077評(píng)論 2贊 355

機(jī)器學(xué)習(xí)（十六） 特征變換-標(biāo)簽和索引的轉(zhuǎn)化

一蹋辅、原理

二、StringIndexer（字符串-索引變換）

2.1顽馋、原理

2.2鄙煤、代碼實(shí)現(xiàn)

三棉钧、IndexToString（索引-字符串變換）

3.1屿脐、原理

3.2西疤、代碼實(shí)現(xiàn)

四泻云、OneHotEncoder（獨(dú)熱編碼）

4.1艇拍、原理

4.2贡羔、代碼實(shí)現(xiàn)

五叭爱、VectorIndexer(向量類型索引化)

5.1、原理

5.2朴则、代碼實(shí)現(xiàn)

機(jī)器學(xué)習(xí)（十六）特征變換-標(biāo)簽和索引的轉(zhuǎn)化