【2018-10-01】數(shù)據(jù)預(yù)處理

數(shù)據(jù)質(zhì)量涉及到很多因素昧绣,包括準(zhǔn)確性规肴、完整性、一致性夜畴、時效性拖刃、可信性和可解釋性。

數(shù)據(jù)預(yù)處理主要任務(wù):

(1)數(shù)據(jù)清洗

? ? ? ? 填寫缺失的值贪绘、光滑噪聲數(shù)據(jù)兑牡、識別或刪除離群點并解決不一致性。

(i)值缺失

忽略元組

人工填寫確實值

使用一個全局常量填充缺失值

使用屬性的中心度量(如均值或中位數(shù))填充缺失值

使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù)

使用最優(yōu)可能的值填充缺失值

(ii)噪聲數(shù)據(jù)

分箱:通過考察數(shù)據(jù)的近鄰(即周圍的值)來光滑有序數(shù)據(jù)值税灌。

回歸:用函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)

離群點分析:通過聚類來檢測離群點均函。

(2)數(shù)據(jù)集成

? ? ? ?使用多個數(shù)據(jù)源的數(shù)據(jù)時,涉及集成多個數(shù)據(jù)庫垄琐、數(shù)據(jù)立方體或文件边酒。合并來自多個數(shù)據(jù)存儲的數(shù)據(jù)。

(i)實體識別問題

數(shù)據(jù)匹配

(ii)冗余和相關(guān)性分析

標(biāo)稱數(shù)據(jù)(一般只在有限的數(shù)據(jù)中取值狸窘,只存在是與否兩種結(jié)果)==卡方檢驗

相依表

數(shù)據(jù)表中括號里的數(shù)據(jù)表示期望頻度e

????????對于自由度1墩朦,在0.001的置信水平下拒絕假設(shè)的值是10.828,大于我們的計算值翻擒,結(jié)論:性別和閱讀偏好強相關(guān)氓涣。

數(shù)值屬性(在無限的數(shù)據(jù)中取值牛哺,數(shù)值比較具體化)===相關(guān)系數(shù)、協(xié)方差

? ? 計算屬性A和B的相關(guān)系數(shù)(皮爾森積矩系數(shù))估計屬性的相關(guān)度:


數(shù)值數(shù)據(jù)的協(xié)方差


期望


協(xié)方差

(iii)元組重復(fù)

(iv)數(shù)據(jù)值沖突的檢測和處理

(3)數(shù)據(jù)歸約

得到數(shù)據(jù)集的簡化表示劳吠,包括:

維歸約(使用數(shù)據(jù)編碼方案引润,得到原始數(shù)據(jù)的簡化或壓縮表示。ex.小波變換痒玩、主成分分析淳附、屬性集選擇(從原來的屬性集中導(dǎo)出更有用的小屬性集,(逐步向前選擇蠢古、逐步向后刪除奴曙、逐步向前選擇和逐步向后刪除組合、決策樹歸納)))

數(shù)量歸約(使用參數(shù)模型ex.回歸模型 或非參數(shù)模型 草讶。ex.直方圖)

數(shù)據(jù)壓縮

(4)數(shù)據(jù)變換

策略:

光滑(去掉數(shù)據(jù)中的噪聲)

屬性構(gòu)造(或特征構(gòu)造)

聚集(對數(shù)據(jù)進(jìn)行匯總或聚集)

規(guī)范化(把屬性按比例縮放洽糟,使之落入一個特定的小區(qū)域,ex.最大最小規(guī)范化堕战、z分?jǐn)?shù)規(guī)范化)

數(shù)據(jù)離散化(數(shù)值屬性的原始值用區(qū)間標(biāo)簽或概念標(biāo)簽替換坤溃,ex.直方圖、聚類嘱丢、決策樹和相關(guān)分析)

由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層(屬性泛化到較高的概念層薪介。ex.由用戶或?qū)<以谀J郊夛@示的說明屬性的部分序、通過顯示數(shù)據(jù)分組說明分組結(jié)構(gòu)的一部分屿讽、說明數(shù)據(jù)集單不說明它們的偏序昭灵、只說明部分屬性集)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市伐谈,隨后出現(xiàn)的幾起案子烂完,更是在濱河造成了極大的恐慌,老刑警劉巖诵棵,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件抠蚣,死亡現(xiàn)場離奇詭異,居然都是意外死亡履澳,警方通過查閱死者的電腦和手機(jī)嘶窄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來距贷,“玉大人柄冲,你說我怎么就攤上這事≈一龋” “怎么了现横?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我戒祠,道長骇两,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任姜盈,我火速辦了婚禮低千,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘馏颂。我一直安慰自己示血,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布救拉。 她就那樣靜靜地躺著矾芙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪近上。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天拂铡,我揣著相機(jī)與錄音壹无,去河邊找鬼。 笑死感帅,一個胖子當(dāng)著我的面吹牛斗锭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播失球,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼岖是,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了实苞?” 一聲冷哼從身側(cè)響起豺撑,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎黔牵,沒想到半個月后聪轿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡猾浦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年陆错,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片金赦。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡音瓷,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出夹抗,到底是詐尸還是另有隱情绳慎,我是刑警寧澤,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站偷线,受9級特大地震影響磨确,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜声邦,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一乏奥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧亥曹,春花似錦邓了、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蛇受,卻和暖如春句葵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背兢仰。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工乍丈, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人把将。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓轻专,卻偏偏與公主長得像,于是被迫代替她去往敵國和親察蹲。 傳聞我的和親對象是個殘疾皇子请垛,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容

  • 機(jī)器學(xué)習(xí)里有一句名言:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法的應(yīng)用只是讓我們逼近這個上限洽议。這個說法形象且深刻...
    3b899188980c閱讀 3,272評論 0 3
  • 想寫這個系列很久了宗收,最近剛好項目結(jié)束了閑下來有點時間,于是決定把之前學(xué)過的東西做個總結(jié)亚兄。之前看過一些機(jī)器學(xué)習(xí)方面的...
    huihui7987閱讀 1,169評論 0 0
  • 什么是快樂镜雨?相信每個人都有自己的定義《酰可是為什么現(xiàn)在的我不知道快樂是什么呢荚坞?回想我最近感受到快樂還是在初中年代,那...
    逃離克隆島閱讀 195評論 1 2
  • 吃餛飩 連著第三頓吃餛飩了菲盾,孩子看著眼前的飯颓影,已經(jīng)沒有第一次吃時的興奮, 有氣無力地問:“媽媽懒鉴,怎么又吃餛飩诡挂?” ...
    活著不易閱讀 188評論 1 4
  • 3組20次 100lbs 50lbs
    tickssss閱讀 184評論 0 0