《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》讀書筆記-數(shù)據(jù)預(yù)處理(一)

《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》展箱,第四章數(shù)據(jù)預(yù)處理

缺失值處理

上一篇說(shuō)到腹殿,處理缺失值的方法有3種:刪除記錄独悴、數(shù)據(jù)插補(bǔ)、不處理锣尉,這個(gè)數(shù)據(jù)插補(bǔ)刻炒,該怎么插補(bǔ)呢?

數(shù)據(jù)插補(bǔ)的方法

后面自沧,書中介紹了一種拉格朗日插值法
這個(gè)我就迷糊了落蝙,并沒(méi)有看懂,書中講了一堆公式暂幼,也沒(méi)有個(gè)實(shí)例筏勒,真是不人性化

還有一種牛頓插值法
還是一堆公式,卒

哦哦旺嬉,還好管行,有個(gè)拉格朗日插值法的實(shí)例,看看吧
參考這一篇吧:

異常值處理

對(duì)于異常值也有一種常用的處理方法:

  • 刪除含有異常值的記錄
  • 視為缺失值邪媳,使用缺失值的處理方式處理
  • 平均值修正捐顷,可以用前后兩個(gè)觀測(cè)值的平均值修正該異常值
  • 不處理

簡(jiǎn)單函數(shù)變換

這個(gè)挺好的荡陷,雖然我還沒(méi)有應(yīng)用過(guò),但是迅涮,感覺(jué)很厲害废赞,記錄下

簡(jiǎn)單函數(shù)變換,是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換叮姑,常用的變換唉地,包括平方、開發(fā)传透、去對(duì)數(shù)耘沼、差分運(yùn)算等

簡(jiǎn)單函數(shù)變換常用來(lái)將不具有正態(tài)分布的數(shù)據(jù),變換為具有正太分布的數(shù)據(jù)
簡(jiǎn)單的對(duì)數(shù)變換或者差分運(yùn)算就可以將非平穩(wěn)序列轉(zhuǎn)換成平穩(wěn)序列

規(guī)范化

不同的評(píng)價(jià)指標(biāo)往往具有不同的量綱朱盐,數(shù)值間的差別可能很大群嗤,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果。
為了消除指標(biāo)之間量綱和取值范圍差異的影響兵琳,需要進(jìn)行標(biāo)準(zhǔn)化處理狂秘,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域躯肌,便于進(jìn)行綜合分析

關(guān)于這一塊兒赃绊,之前有寫過(guò):

1.最小最大規(guī)范化


2.零-均值規(guī)范化


我們需要思考的是,在不同的場(chǎng)景下羡榴,如何選擇適合的規(guī)范化方法

小栗子碧查,參考:數(shù)據(jù)規(guī)范化實(shí)例

連續(xù)屬性離散化

將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化

連續(xù)屬性的離散化就是在數(shù)據(jù)的取值范圍內(nèi)設(shè)定若干個(gè)離散的劃分點(diǎn)校仑,將取值范圍劃分為一些離散化的區(qū)間忠售,最后使用不同的符號(hào)或整數(shù)值代表落在每個(gè)子區(qū)間中的數(shù)據(jù)值

常用的離散化方法:

  • 等寬法
    將屬性的值,分成具有相同寬度的區(qū)間迄沫,比如將年齡按照5歲稻扬,分割成不同的年齡段

  • 等頻法
    就是每個(gè)區(qū)間的個(gè)數(shù)相同,比如每10個(gè)人一組羊瘩,按照每個(gè)區(qū)間內(nèi)這10個(gè)人的年齡進(jìn)行分割泰佳,去其中的最小值和最大值作為區(qū)間段

以上兩種方法,要基于數(shù)據(jù)特點(diǎn)或者是人為的劃分尘吗,依賴人比較多

  • 基于聚類分析的方法
    也就是通過(guò)聚類算法逝她,來(lái)看數(shù)據(jù)的分布如何,然后生成區(qū)間

小栗子參考:連續(xù)屬性離散化實(shí)例

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末睬捶,一起剝皮案震驚了整個(gè)濱河市黔宛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌擒贸,老刑警劉巖臀晃,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件觉渴,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡徽惋,警方通過(guò)查閱死者的電腦和手機(jī)案淋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)险绘,“玉大人踢京,你說(shuō)我怎么就攤上這事÷≡玻” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵翔烁,是天一觀的道長(zhǎng)渺氧。 經(jīng)常有香客問(wèn)我,道長(zhǎng)蹬屹,這世上最難降的妖魔是什么侣背? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮慨默,結(jié)果婚禮上贩耐,老公的妹妹穿的比我還像新娘。我一直安慰自己厦取,他們只是感情好潮太,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著虾攻,像睡著了一般铡买。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上霎箍,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天奇钞,我揣著相機(jī)與錄音,去河邊找鬼漂坏。 笑死景埃,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的顶别。 我是一名探鬼主播谷徙,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼驯绎!你這毒婦竟也來(lái)了蒂胞?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤条篷,失蹤者是張志新(化名)和其女友劉穎骗随,沒(méi)想到半個(gè)月后蛤织,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鸿染,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年指蚜,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涨椒。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡摊鸡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蚕冬,到底是詐尸還是另有隱情免猾,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布囤热,位于F島的核電站猎提,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏旁蔼。R本人自食惡果不足惜锨苏,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望棺聊。 院中可真熱鬧伞租,春花似錦、人聲如沸限佩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)祟同。三九已至驯击,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間耐亏,已是汗流浹背徊都。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留广辰,地道東北人暇矫。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像择吊,于是被迫代替她去往敵國(guó)和親李根。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345