一唐础、引述
低質(zhì)量的數(shù)據(jù)導(dǎo)致低質(zhì)量的數(shù)據(jù)挖掘結(jié)果萝招,因此需要對數(shù)據(jù)進(jìn)行預(yù)處理岭皂,提高數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)挖掘結(jié)果钉汗。預(yù)處理技術(shù)包含了數(shù)據(jù)清理,數(shù)據(jù)歸約鲤屡,數(shù)據(jù)變換损痰。
數(shù)據(jù)清理:清楚數(shù)據(jù)中的噪聲,糾正不一致酒来。數(shù)據(jù)歸約:通過如聚集卢未、刪除冗余特征或聚類來降低數(shù)據(jù)的規(guī)模。數(shù)據(jù)變化:數(shù)據(jù)歸一化,將數(shù)據(jù)壓縮到較小的區(qū)間辽社,例如0.0-1.0
可以提高涉及距離度量的挖掘算法的準(zhǔn)確率和效率
二伟墙、數(shù)據(jù)清理
數(shù)據(jù)一般是不完整的、有噪聲的和不一致的滴铅,數(shù)據(jù)清理試圖填補缺失的值戳葵,光滑噪聲、識別離群點汉匙,并糾正數(shù)據(jù)的不一致性拱烁。
2.1 填補缺失值方法
(1)忽略元組,(2)使用屬性的中心度量(如均值或中位數(shù))填充缺失值噩翠,(3)使用與給定元組屬于同一類的所有樣本的屬性均值或中位數(shù)戏自,(4)使用全局常量填充缺失值,比如使用Unknown伤锚。
2.2 光滑噪聲數(shù)據(jù)
噪聲是被測量的變量的隨機誤差或方差
(1)分箱技術(shù):分箱方法考慮相鄰的值擅笔,是一種局部平滑方法。分箱的主要目的是去噪见芹,將連續(xù)數(shù)據(jù)離散化剂娄,增加粒度。按照取值的不同可劃分為按箱平均值平滑玄呛、按箱中值平滑以及按箱邊界值平滑阅懦。
假設(shè)有4 8 15 21 21 24 25 28 34等9個數(shù),分為3箱
劃分為等頻的箱:箱1:4 8 15徘铝,箱2:21 21 24耳胎,箱3:25 28 34
箱均值光滑:箱1:9 9 9,箱2:22 22 22惕它,箱3:29 29 29
箱邊界光滑:箱1:4 415怕午,箱2:21 21 24,箱3:25 25 34
(2)回歸:用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)
(3)離群點分析:通過聚類來檢測離群點
(4)冗余和相關(guān)分析:若一個屬性如果能由另一個或另一組屬性“導(dǎo)出”淹魄,則這個屬性就是冗余的郁惜。另外一些冗余則可以被相關(guān)分析檢測到。標(biāo)稱數(shù)據(jù):使用卡方檢驗甲锡;數(shù)值屬性兆蕉,使用相關(guān)系數(shù)。
標(biāo)稱數(shù)據(jù)的卡方檢驗:
對于標(biāo)稱數(shù)據(jù)缤沦,兩個屬性A和B之間的相關(guān)聯(lián)系可以通過卡方檢驗虎韵,卡方統(tǒng)計檢驗假設(shè)A和B獨立,檢驗基于顯著水平缸废,具有自由度(r-1)(c-1)包蓝。
自由度:(r-1)*(c-1)驶社;查詢卡方分布表,得到在某置信水平下的拒絕假設(shè)的值测萎。
數(shù)值數(shù)據(jù)的相關(guān)系數(shù)
對于數(shù)值數(shù)據(jù)亡电,我們可以通過計算屬性A和B的相關(guān)系數(shù),也叫Pearson相關(guān)系數(shù)绳泉,估計兩個屬性的相關(guān)度
若r大于0逊抡,則A和B是正相關(guān),意味著A值隨B值的增加而增加零酪。該值越大冒嫡,相關(guān)性越強,表明A和B四苇,則可以說明A和B這兩屬性冗余孝凌。如果r等于0,說明A和B是獨立的月腋。如果r小于0蟀架,說明A和B是負(fù)相關(guān),一個值隨著另一個減少而增加榆骚,意味這這個屬性是阻止另外一個屬性出現(xiàn)的片拍。
數(shù)值數(shù)據(jù)的協(xié)方差、相關(guān)系數(shù)
協(xié)方差和方差是兩個類似的度量妓肢,評估兩個屬性如何一起變化捌省。A和B的協(xié)方差定義為:
若A和B獨立,即不具有相關(guān)性碉钠,則E(AB)=E(A)E(B)纲缓,則cov(A,B)=0。若cov(A,B)=0喊废,則說明A和B不相關(guān)祝高,不能說明獨立
2.3 數(shù)據(jù)規(guī)約
得到數(shù)據(jù)的規(guī)約表示,而使得信息內(nèi)容的損失最小化污筷,數(shù)據(jù)規(guī)約方法包括維規(guī)約工闺、數(shù)量規(guī)約、數(shù)據(jù)壓縮瓣蛀。
1 維規(guī)約:減少所考慮的屬性的個數(shù)陆蟆,方法包括小波變換、主成份分析(PCA)揪惦、屬性子集選擇和特征構(gòu)造。小波變換合適于高維數(shù)據(jù)罗侯,主成份分析適合于稀釋數(shù)據(jù)器腋。屬性子集選擇通常使用決策樹。屬性構(gòu)造可以幫助提高準(zhǔn)確性和對高維數(shù)據(jù)結(jié)構(gòu)的理解。
2 數(shù)量規(guī)約:使用參數(shù)或非參數(shù)模型纫塌,得到原數(shù)據(jù)的較小表示诊县。參數(shù)模型只存放模型參數(shù),而非實際數(shù)據(jù)措左。例如回歸和對數(shù)線性模型依痊,非參數(shù)模型包括直方圖、聚類怎披、抽樣胸嘁。抽樣包括無放回的簡單隨機抽樣,有放回的簡單隨機抽樣凉逛,簇抽樣性宏,分層抽樣
3 數(shù)據(jù)壓縮:使用變換,得到元數(shù)據(jù)的規(guī)約或壓縮表示状飞,如果原數(shù)據(jù)可以有壓縮后的數(shù)據(jù)重構(gòu)毫胜,而不損失任何信息,則數(shù)據(jù)壓縮是無損的诬辈,否則就是有損的酵使。
2.4 數(shù)據(jù)變換
將數(shù)據(jù)變換成統(tǒng)一形式,使得挖掘過程可能更有效焙糟,挖掘的模式更容易理解口渔。
數(shù)據(jù)變換策略:
1 光滑:去掉數(shù)據(jù)中的噪聲,包括分箱酬荞、回歸搓劫、聚類
2 屬性構(gòu)造:由給定的屬性構(gòu)造新的屬性并添加到屬性集中
3 聚集:對數(shù)據(jù)進(jìn)行匯總或聚集
4 規(guī)范化:把屬性數(shù)據(jù)按比例進(jìn)行縮放
5 離散化:數(shù)值屬性的原始值用區(qū)間標(biāo)簽或概念標(biāo)簽替換
6 由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層:屬性如street泛化到較高的概念層如city
2.4.1?最小-最大規(guī)范化
如income的最大最小是【200,50】混巧,映射到區(qū)間【0枪向,1】中,某個income值150:(150-50)/(200-50)(1-0)+0=2/3
2.4.2 z分?jǐn)?shù)規(guī)范化
假設(shè)incom的均值和標(biāo)準(zhǔn)差是54和16咧党,那么值73.6的被轉(zhuǎn)換為(73.6-54)/16=1.225