1,? 數(shù)據(jù)預(yù)處理的過(guò)程主要包括:數(shù)據(jù)清洗焰情,數(shù)據(jù)集成期升,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約。
2殉了,牛頓插值法: https://www.zhihu.com/question/22320408/answer/141973314
3 ,? 數(shù)據(jù)規(guī)范化:
3.1 最小最大規(guī)范化
3.2 零-均值規(guī)范化
σ 為標(biāo)準(zhǔn)差
3.3 小數(shù)定標(biāo)規(guī)范化
K為數(shù)據(jù)絕對(duì)值最大的以10為底的次冪的向上取整开仰。
4,常用的離散化方法:
4.1 等寬法
4.2 等頻法
4.3 基于聚類分析的方法Kmeans
5,? 數(shù)據(jù)規(guī)約:
意義:
1, 降低無(wú)效薪铜,錯(cuò)誤數(shù)據(jù)對(duì)建模的影響众弓,提高建模的準(zhǔn)確性
2, 少量且具有代表性的數(shù)據(jù)架將大幅度縮減數(shù)據(jù)挖掘所需的時(shí)間
3, 降低存儲(chǔ)數(shù)據(jù)的成本
6,屬性規(guī)約常見(jiàn)方法:
注:主成分分析是一種用于連續(xù)屬性的數(shù)據(jù)降維方法隔箍,它構(gòu)造了原始數(shù)據(jù)的一個(gè)正交變換谓娃,新空間的基底去除了原始空間基底下數(shù)據(jù)的相關(guān)性,只需使用少數(shù)新變量就能夠解釋原始數(shù)據(jù)中的大部分變異蜒滩。
主成分分析步驟:
7滨达,數(shù)值規(guī)約
數(shù)值規(guī)約指通過(guò)選擇代替的奶稠,較小的數(shù)據(jù)來(lái)減少數(shù)據(jù)量,包含有參數(shù)和無(wú)參數(shù)方法兩類捡遍。有參數(shù)方法是使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù)锌订,只需存放參數(shù),而不需要存放數(shù)據(jù)画株,例如回歸(線性回歸和多元回歸)和對(duì)數(shù)線性模型(近似離散屬性集中的多維概率分布)辆飘。無(wú)參數(shù)方法就需要存放實(shí)際的數(shù)據(jù),例如直方圖谓传,聚類蜈项,抽樣。
7.1 直方圖
7.2 聚類
7.3 抽樣
? ? 7.3.1 s個(gè)樣本無(wú)放回簡(jiǎn)單隨機(jī)抽樣
? ? 7.3.2 s個(gè)樣本有放回簡(jiǎn)單隨機(jī)抽樣
? ? 7.3.3聚類抽樣
? ? 7.3.4 分層抽樣
? 7.4參數(shù)回歸
8续挟,python主要數(shù)據(jù)預(yù)處理函數(shù)