《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》展箱,第四章數(shù)據(jù)預(yù)處理
缺失值處理
上一篇說(shuō)到腹殿,處理缺失值的方法有3種:刪除記錄独悴、數(shù)據(jù)插補(bǔ)、不處理锣尉,這個(gè)數(shù)據(jù)插補(bǔ)刻炒,該怎么插補(bǔ)呢?
數(shù)據(jù)插補(bǔ)的方法
后面自沧,書中介紹了一種拉格朗日插值法
這個(gè)我就迷糊了落蝙,并沒(méi)有看懂,書中講了一堆公式暂幼,也沒(méi)有個(gè)實(shí)例筏勒,真是不人性化
還有一種牛頓插值法
還是一堆公式,卒
哦哦旺嬉,還好管行,有個(gè)拉格朗日插值法的實(shí)例,看看吧
參考這一篇吧:
異常值處理
對(duì)于異常值也有一種常用的處理方法:
- 刪除含有異常值的記錄
- 視為缺失值邪媳,使用缺失值的處理方式處理
- 平均值修正捐顷,可以用前后兩個(gè)觀測(cè)值的平均值修正該異常值
- 不處理
簡(jiǎn)單函數(shù)變換
這個(gè)挺好的荡陷,雖然我還沒(méi)有應(yīng)用過(guò),但是迅涮,感覺(jué)很厲害废赞,記錄下
簡(jiǎn)單函數(shù)變換,是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換叮姑,常用的變換唉地,包括平方、開發(fā)传透、去對(duì)數(shù)耘沼、差分運(yùn)算等
簡(jiǎn)單函數(shù)變換常用來(lái)將不具有正態(tài)分布的數(shù)據(jù),變換為具有正太分布的數(shù)據(jù)
簡(jiǎn)單的對(duì)數(shù)變換或者差分運(yùn)算就可以將非平穩(wěn)序列轉(zhuǎn)換成平穩(wěn)序列
規(guī)范化
不同的評(píng)價(jià)指標(biāo)往往具有不同的量綱朱盐,數(shù)值間的差別可能很大群嗤,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果。
為了消除指標(biāo)之間量綱和取值范圍差異的影響兵琳,需要進(jìn)行標(biāo)準(zhǔn)化處理狂秘,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域躯肌,便于進(jìn)行綜合分析
關(guān)于這一塊兒赃绊,之前有寫過(guò):
1.最小最大規(guī)范化
2.零-均值規(guī)范化
我們需要思考的是,在不同的場(chǎng)景下羡榴,如何選擇適合的規(guī)范化方法
小栗子碧查,參考:數(shù)據(jù)規(guī)范化實(shí)例
連續(xù)屬性離散化
將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化
連續(xù)屬性的離散化就是在數(shù)據(jù)的取值范圍內(nèi)設(shè)定若干個(gè)離散的劃分點(diǎn)校仑,將取值范圍劃分為一些離散化的區(qū)間忠售,最后使用不同的符號(hào)或整數(shù)值代表落在每個(gè)子區(qū)間中的數(shù)據(jù)值
常用的離散化方法:
等寬法
將屬性的值,分成具有相同寬度的區(qū)間迄沫,比如將年齡按照5歲稻扬,分割成不同的年齡段等頻法
就是每個(gè)區(qū)間的個(gè)數(shù)相同,比如每10個(gè)人一組羊瘩,按照每個(gè)區(qū)間內(nèi)這10個(gè)人的年齡進(jìn)行分割泰佳,去其中的最小值和最大值作為區(qū)間段
以上兩種方法,要基于數(shù)據(jù)特點(diǎn)或者是人為的劃分尘吗,依賴人比較多
- 基于聚類分析的方法
也就是通過(guò)聚類算法逝她,來(lái)看數(shù)據(jù)的分布如何,然后生成區(qū)間
小栗子參考:連續(xù)屬性離散化實(shí)例