特征工程:特征預(yù)處理

特征工程是:利用數(shù)據(jù)領(lǐng)域的相關(guān)知識來創(chuàng)建能夠使機器學(xué)習(xí)算法達到最佳性能的特征的過程姨伤。

雖然現(xiàn)在深度學(xué)習(xí)非常盛行上真,它可以自動進行特征工程劳秋,但是實際工作中往往沒有那么多數(shù)據(jù)量支撐你使用深度學(xué)習(xí)模型悦穿,因此對數(shù)據(jù)進行特征工程就顯得尤為重要了攻礼。特征工程包含了Data PreProcessing(數(shù)據(jù)預(yù)處理)、Feature Extraction(特征提壤跗狻)礁扮、Feature Selection(特征選擇)和Feature construction(特征構(gòu)造)等子問題,而數(shù)據(jù)預(yù)處理又包括了數(shù)據(jù)清洗和特征預(yù)處理等子問題,本章內(nèi)容主要討論數(shù)據(jù)預(yù)處理的方法及實現(xiàn)太伊。

特征預(yù)處理包括無量綱化雇锡、特征分桶、統(tǒng)計變換和特征編碼等步驟僚焦。
1.數(shù)值型特征無量綱化

無量綱化使不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格锰提。常見的無量綱化方法有標準化和歸一化。

1.1數(shù)據(jù)標準化(Standardization)

標準化的前提是特征值服從正態(tài)分布叠赐,標準化后欲账,其轉(zhuǎn)換成標準正態(tài)分布“鸥牛基于原始數(shù)據(jù)的均值(mean)和標準差(standarddeviation)進行數(shù)據(jù)的標準化赛不。將A的原始值x使用z-score標準化到x’。z-score標準化方法適用于屬性A的最大值和最小值未知的情況罢洲,或有超出取值范圍的離群數(shù)據(jù)的情況踢故。

1.2數(shù)據(jù)歸一化

數(shù)據(jù)歸一化方法包括MinMax歸一化、MaxAbs歸一化,都是利用了邊界進行區(qū)間縮放惹苗。

1.3正態(tài)分布化(Normalization)

正則化的過程是將每個樣本縮放到單位范數(shù)(每個樣本的范數(shù)為1)殿较,如果要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。該方法是文本分類和聚類分析中經(jīng)常使用的向量空間模型(Vector Space Model)的基礎(chǔ)桩蓉。Normalization主要思想是對每個樣本計算其p-范數(shù)淋纲,然后對該樣本中每個元素除以該范數(shù),這樣處理的結(jié)果是使得每個處理后樣本的p-范數(shù)(l1-norm,l2-norm)等于1院究。

2 數(shù)值型特征特征分箱(數(shù)據(jù)離散化)

離散化是數(shù)值型特征非常重要的一個處理洽瞬,其實就是要將數(shù)值型數(shù)據(jù)轉(zhuǎn)化成類別型數(shù)據(jù)。連續(xù)值的取值空間可能是無窮的业汰,為了便于表示和在模型中處理伙窃,需要對連續(xù)值特征進行離散化處理。

2.1無監(jiān)督分箱法

無監(jiān)督分箱法包括:自定義分箱样漆、等距分箱为障,等頻分箱、聚類分箱放祟、二值分箱等鳍怨。

2.2有監(jiān)督分箱法

有監(jiān)督分箱法包括:卡方分箱、最小熵法分箱等

參考:

https://mp.weixin.qq.com/s/qWO9zgKyntvyWfftpGqrHQ

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末跪妥,一起剝皮案震驚了整個濱河市鞋喇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌骗奖,老刑警劉巖确徙,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件醒串,死亡現(xiàn)場離奇詭異,居然都是意外死亡鄙皇,警方通過查閱死者的電腦和手機芜赌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來伴逸,“玉大人缠沈,你說我怎么就攤上這事〈砗” “怎么了洲愤?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長顷锰。 經(jīng)常有香客問我柬赐,道長,這世上最難降的妖魔是什么官紫? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任肛宋,我火速辦了婚禮,結(jié)果婚禮上束世,老公的妹妹穿的比我還像新娘酝陈。我一直安慰自己,他們只是感情好毁涉,可當我...
    茶點故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布沉帮。 她就那樣靜靜地躺著,像睡著了一般贫堰。 火紅的嫁衣襯著肌膚如雪穆壕。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天严嗜,我揣著相機與錄音粱檀,去河邊找鬼洲敢。 笑死漫玄,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的压彭。 我是一名探鬼主播睦优,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼壮不!你這毒婦竟也來了汗盘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤询一,失蹤者是張志新(化名)和其女友劉穎隐孽,沒想到半個月后癌椿,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡菱阵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年踢俄,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晴及。...
    茶點故事閱讀 39,722評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡都办,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出虑稼,到底是詐尸還是另有隱情琳钉,我是刑警寧澤,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布蛛倦,位于F島的核電站歌懒,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏溯壶。R本人自食惡果不足惜歼培,卻給世界環(huán)境...
    茶點故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望茸塞。 院中可真熱鬧躲庄,春花似錦、人聲如沸钾虐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽效扫。三九已至倔监,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間菌仁,已是汗流浹背浩习。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留济丘,地道東北人谱秽。 一個月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像摹迷,于是被迫代替她去往敵國和親疟赊。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,614評論 2 353