數據預處理目的
保證數據的質量笼才,包括確保數據的準確性尾膊、完整性和一致性
主要任務
數據清理
填寫缺失的值媳危、光滑噪聲數據、識別或者刪除離群的點冈敛,先解決這些臟數據待笑,否者會影響挖掘結果的可信度
噪聲數據:所測量數據的隨機誤差或者方差
數據集成
比如,將多個數據源上的數據合并抓谴,同一個概念的數據字段可能名字不同暮蹂,導致不一致和冗余,這里需要處理
數據規(guī)約
將巨大的數據規(guī)模變小癌压,又不損害數據的挖掘結果仰泻,比如在數學建模里通過SPSS來降維,包括維規(guī)約(主成分分析法)和數值規(guī)約(數據聚集或者是回歸)
回歸:用一個函數擬合數據來光滑數據
離群點分析:通過聚類來檢測離群點滩届,聚類將類似的值組織成一個群或者簇我纪,落在群或者簇的值視為離群點
數據清理是一個過程
數據清理第一步就是偏差檢測
元數據:使用任何你可能具有的相關數據性質的知識,這種知識或“關于數據的數據”就是元數據
可以使用數據清洗工具(比如簡單的拼寫錯誤)和數據審計工具(分析數據發(fā)現規(guī)則和聯(lián)系)進行偏差檢測丐吓,使用數據遷移工具進行數據變換
合并來自多個數據存儲的數據
冗余和相關分析
一個屬性(例如,年收入)如果能由另一個或另一組屬性“導出”趟据,則這個屬性可能是冗余的券犁。屬性或維命名的不一致也可能導致結果數據集中的冗余
有些冗余可以被相關分析檢測到。給定兩個屬性汹碱,這種分析可以根據可用的數據粘衬,度量一個屬性能在多大程度上蘊涵另一個。對于標稱數據,我們使用χ2(卡方)檢驗稚新。對于數值屬性勘伺,我們使用相關系數(correlation coefficient)和協(xié)方差(covariance),它們都評估一個屬性的值如何隨另一個變化褂删。
1.標稱數據的χ2相關檢驗
概率論數理統(tǒng)計那一塊的知識
舉個例子
(點擊圖片鏈接查看)
![XSS_6_0KNF6ETY92HR5TTG.png
四格表資料的卡方檢驗用于進行兩個率或兩個構成比的比較飞醉。
- 專用公式:
若四格表資料四個格子的頻數分別為a,b屯阀,c缅帘,d,則四格表資料卡方檢驗的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)难衰,(或者使用擬合度公式)
自由度v=(行數-1)(列數-1)=1 - 應用條件:
要求樣本含量應大于40且每個格子中的理論頻數不應小于5钦无。當樣本含量大于40但有1=<理論頻數<5時,卡方值需要校正盖袭,當樣本含量小于40或理論頻數小于1時只能用確切概率法計算概率失暂。
2.數值數據的相關系數
對于數值數據,我們可以通過計算屬性A和B的相關系數(又稱Pearson積矩系數鳄虱,Pearson’s product moment coefficient)弟塞,用發(fā)明者Karl Pearson的名字命名),估計這兩個屬性的相關度rA,B
其中醇蝴,n是元組的個數宣肚,ai和bi分別是元組i在A和B上的值,A和B分別是A和B的均值悠栓,σA和σB分別是A和B的標準差霉涨,而是AB叉積和(即對于每個元組,A的值乘以該元組B的值)惭适。注意笙瑟,-1≤rA,B≤+1。如果rA,B大于0癞志,則A和B是正相關的往枷,這意味著A值隨B值的增加而增加。該值越大凄杯,相關性越強(即每個屬性蘊涵另一個的可能性越大)错洁。因此,一個較高的rA,B值表明A(或B)可以作為冗余而被刪除戒突。
如果該結果值等于0屯碴,則A和B是獨立的,并且它們之間不存在相關性膊存。如果該結果值小于0导而,則A和B是負相關的忱叭,一個值隨另一個減少而增加。這意味著每一個屬性都阻止另一個出現今艺。
3.數值數據的協(xié)方差
協(xié)方差分析是建立在方差分析和回歸分析基礎之上的一種統(tǒng)計分析方法韵丑,它衡量兩個屬性如何一起變化
除了檢測屬性間的冗余外,還得檢測元組級的重復
去規(guī)范化表(denormalized table)的使用(這樣做通常是通過避免連接來改善性能)是數據冗余的另一個來源虚缎。不一致通常出現在各種不同的副本之間撵彻,由于不正確的數據輸入,或者由于更新了數據的某些出現遥巴,但未更新所有的出現千康。98例如,如果訂單數據庫包含訂貨人的姓名和地址屬性铲掐,而不是這些信息在訂貨人數據庫中的碼拾弃,則差異就可能出現,如同一訂貨人的名字可能以不同的地址出現在訂單數據庫中摆霉。
維規(guī)約(減少屬性)豪椿、數量規(guī)約(減少數量)和數據壓縮
1、小波變換
離散小波變換(DWT)是一種線性信號處理技術携栋,用于數據向量X時搭盾,將它變換成不同的數值小波系數向量X′。兩個向量具有相同的長度婉支。當這種技術用于數據歸約時鸯隅,每個元組看做一個n維數據向量,即X=(x1向挖,x2蝌以,…,xn)何之,描述n個數據庫屬性在元組上的n個測量值1跟畅。
相關連接:小波變換
2、主成分分析
主成分分析(principal components analysis)或PCA(又稱Karhunen-Loeve或K-L方法)搜索k個最能代表數據的n維正交向量溶推,其中k≤n徊件。這樣,原數據投影到一個小得多的空間上蒜危,導致維歸約虱痕。
相關連接:主成分分析詳解
3、屬性子集選擇
屬性子集選擇1通過刪除不相關或冗余的屬性(或維)減少數據量辐赞。屬性子集選擇的目標是找出最小屬性集皆疹,使得數據類的概率分布盡可能地接近使用所有屬性得到的原分布。
使用決策樹模型是不錯的辦法
4占拍、回歸和對數線性模型
使用線性回歸或者多元回歸略就,光滑數據,也可以使用SPSS回歸擬合
5晃酒、直方圖
不解釋
6表牢、聚類
聚類技術把數據元組看做對象。它將對象劃分為群或簇贝次,使得在一個簇中的對象相互“相似”崔兴,而與其他簇中的對象“相異”。
同樣可以使用SPSS聚類進行分析
相關連接:聚類分析解析
相關連接:四種聚類算法
7蛔翅、抽樣
簇抽樣敲茄、分層抽樣不解釋
8、數據立體聚集
數據立方體存儲多維聚集信息山析。例如堰燎,圖顯示了一個數據立方體,用于AllElectronics的所有分店每類商品年銷售的多維數據分析笋轨。每個單元存放一個聚集值秆剪,對應于多維空間的一個數據點。(為清晰起見爵政,只顯示了某些單元的值仅讽。)每個屬性都可能存在概念分層,允許在多個抽象層進行數據分析钾挟。例如洁灵,branch的分層使得分店可以按它們的地址聚集成地區(qū)。數據立方體提供對預計算的匯總數據進行快速訪問掺出,因此適合聯(lián)機數據分析和數據挖掘徽千。
后文詳細介紹...