基本分類
1不跟、One-Hot Encoding——轉(zhuǎn)化n分類變量為n個(gè)二元特征稀疏結(jié)構(gòu)
2、Hash Encoding——轉(zhuǎn)化分類變量為固定長(zhǎng)度的哈希向量
3俊庇、計(jì)數(shù)型Encoding——跟全局統(tǒng)計(jì)有線性關(guān)系
4版扩、Embedding——高維向量投影到低維
5、缺失數(shù)據(jù)處理——平均值撇寞、中位值、模值泄朴、模型生成值
6重抖、對(duì)數(shù)組做標(biāo)準(zhǔn)化——例如向量歸一化
自然語(yǔ)言處理的特征工程
1、Bag of words——One-Hot encoding的一種表達(dá)
2祖灰、TF-IDF——過(guò)濾常見(jiàn)詞,保留重要詞