數(shù)據(jù)質(zhì)量涉及到很多因素昧绣,包括準(zhǔn)確性规肴、完整性、一致性夜畴、時效性拖刃、可信性和可解釋性。
數(shù)據(jù)預(yù)處理主要任務(wù):
(1)數(shù)據(jù)清洗
? ? ? ? 填寫缺失的值贪绘、光滑噪聲數(shù)據(jù)兑牡、識別或刪除離群點并解決不一致性。
(i)值缺失
忽略元組
人工填寫確實值
使用一個全局常量填充缺失值
使用屬性的中心度量(如均值或中位數(shù))填充缺失值
使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù)
使用最優(yōu)可能的值填充缺失值
(ii)噪聲數(shù)據(jù)
分箱:通過考察數(shù)據(jù)的近鄰(即周圍的值)來光滑有序數(shù)據(jù)值税灌。
回歸:用函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)
離群點分析:通過聚類來檢測離群點均函。
(2)數(shù)據(jù)集成
? ? ? ?使用多個數(shù)據(jù)源的數(shù)據(jù)時,涉及集成多個數(shù)據(jù)庫垄琐、數(shù)據(jù)立方體或文件边酒。合并來自多個數(shù)據(jù)存儲的數(shù)據(jù)。
(i)實體識別問題
數(shù)據(jù)匹配
(ii)冗余和相關(guān)性分析
標(biāo)稱數(shù)據(jù)(一般只在有限的數(shù)據(jù)中取值狸窘,只存在是與否兩種結(jié)果)==卡方檢驗
相依表
????????對于自由度1墩朦,在0.001的置信水平下拒絕假設(shè)的值是10.828,大于我們的計算值翻擒,結(jié)論:性別和閱讀偏好強相關(guān)氓涣。
數(shù)值屬性(在無限的數(shù)據(jù)中取值牛哺,數(shù)值比較具體化)===相關(guān)系數(shù)、協(xié)方差
? ? 計算屬性A和B的相關(guān)系數(shù)(皮爾森積矩系數(shù))估計屬性的相關(guān)度:
數(shù)值數(shù)據(jù)的協(xié)方差
(iii)元組重復(fù)
(iv)數(shù)據(jù)值沖突的檢測和處理
(3)數(shù)據(jù)歸約
得到數(shù)據(jù)集的簡化表示劳吠,包括:
維歸約(使用數(shù)據(jù)編碼方案引润,得到原始數(shù)據(jù)的簡化或壓縮表示。ex.小波變換痒玩、主成分分析淳附、屬性集選擇(從原來的屬性集中導(dǎo)出更有用的小屬性集,(逐步向前選擇蠢古、逐步向后刪除奴曙、逐步向前選擇和逐步向后刪除組合、決策樹歸納)))
數(shù)量歸約(使用參數(shù)模型ex.回歸模型 或非參數(shù)模型 草讶。ex.直方圖)
數(shù)據(jù)壓縮
(4)數(shù)據(jù)變換
策略:
光滑(去掉數(shù)據(jù)中的噪聲)
屬性構(gòu)造(或特征構(gòu)造)
聚集(對數(shù)據(jù)進(jìn)行匯總或聚集)
規(guī)范化(把屬性按比例縮放洽糟,使之落入一個特定的小區(qū)域,ex.最大最小規(guī)范化堕战、z分?jǐn)?shù)規(guī)范化)
數(shù)據(jù)離散化(數(shù)值屬性的原始值用區(qū)間標(biāo)簽或概念標(biāo)簽替換坤溃,ex.直方圖、聚類嘱丢、決策樹和相關(guān)分析)
由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層(屬性泛化到較高的概念層薪介。ex.由用戶或?qū)<以谀J郊夛@示的說明屬性的部分序、通過顯示數(shù)據(jù)分組說明分組結(jié)構(gòu)的一部分屿讽、說明數(shù)據(jù)集單不說明它們的偏序昭灵、只說明部分屬性集)