數(shù)據(jù)質(zhì)量
數(shù)據(jù)挖掘所使用的數(shù)據(jù)常常是為其他用途收集的,或者在收集時(shí)未明確其目的。因此,數(shù)據(jù)挖掘常常不能在數(shù)據(jù)源頭控制質(zhì)量约计,一般而言,原始數(shù)據(jù)都會(huì)存在以下幾個(gè)問題:測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤迁筛;噪聲和偽像病蛉;離群點(diǎn);遺漏值瑰煎;不一致的值铺然;重復(fù)的數(shù)據(jù)。
數(shù)據(jù)清洗
原始數(shù)據(jù)中出現(xiàn)的問題會(huì)對(duì)下一階段的分析過程產(chǎn)生重大的影響酒甸,因此魄健,在數(shù)據(jù)清洗階段需要針對(duì)不同的問題,進(jìn)行針對(duì)性的處理插勤。
1. 測(cè)量誤差和數(shù)據(jù)收集誤差
其中沽瘦,測(cè)量誤差是指測(cè)量過程中導(dǎo)致的問題,數(shù)據(jù)收集錯(cuò)誤是指諸如遺漏數(shù)據(jù)對(duì)象或?qū)傩灾蹬┘猓虿划?dāng)?shù)匕似渌麛?shù)據(jù)對(duì)象等錯(cuò)誤析恋。如果我們只考慮一般的錯(cuò)誤類型,例如人工輸入數(shù)據(jù)時(shí)鍵盤錄入錯(cuò)誤十分常見盛卡,因此可以開發(fā)許多數(shù)據(jù)輸入程序進(jìn)行檢測(cè)助隧,并且通過人工干預(yù)糾正這類錯(cuò)誤。
2. 噪聲和偽像
噪聲是測(cè)量誤差的隨機(jī)部分滑沧,這可能使得值被扭曲或加入了謬誤對(duì)象并村。噪聲通常包含時(shí)間或空間分量的數(shù)據(jù)巍实,在這些情況下,常沉梗可以使用信號(hào)或圖像處理技術(shù)降低噪聲棚潦,從而幫助發(fā)現(xiàn)可能“淹沒在噪聲中”的模式或信號(hào)。盡管如此膝昆,完全消除噪聲通常是十分困難的丸边,而許多數(shù)據(jù)挖掘工作都關(guān)注設(shè)計(jì)魯棒性很強(qiáng)的算法,即便在噪聲干擾下也能產(chǎn)生可以接受的結(jié)果荚孵。
3. 離群點(diǎn)
離群點(diǎn)是在某種意義上具有不同于數(shù)據(jù)集中其他大部分?jǐn)?shù)據(jù)對(duì)象的特征的數(shù)據(jù)對(duì)象妹窖,或是相對(duì)于該屬性的典型值來說不尋常的屬性值。對(duì)于離群點(diǎn)处窥,可以使用異常檢測(cè)算法進(jìn)行有效的檢測(cè)嘱吗。
4. 遺漏值
對(duì)象遺漏一個(gè)或多個(gè)屬性值的情況屢見不鮮玄组,例如有的人拒絕透露年齡和體重滔驾,這時(shí)信息收集不全的現(xiàn)象變得十分常見。對(duì)于遺漏值俄讹,有許多應(yīng)對(duì)的策略哆致,包括刪除數(shù)據(jù)對(duì)象或?qū)傩浴⒐烙?jì)遺漏值患膛、在分析時(shí)忽略遺漏值摊阀、使用默認(rèn)值、使用屬性平均值踪蹬、使用同類樣本平均值胞此、預(yù)測(cè)最可能的值等。
5. 不一致的值
數(shù)據(jù)可能包含不一致的值跃捣,比如地址字段列出了郵政編碼和城市名漱牵,但是有的郵政編碼區(qū)域并不包含在對(duì)應(yīng)的城市中,至于不一致的原因無從考究疚漆,重要的是能夠被檢測(cè)出來酣胀。對(duì)于容易檢測(cè)的值,有時(shí)可能需要查閱外部信息源娶聘,這樣在檢測(cè)到不一致后鹅经,即可進(jìn)行更正丙号。
6. 重復(fù)數(shù)據(jù)
數(shù)據(jù)集可能包含重復(fù)的數(shù)據(jù)對(duì)象。許多人都收到過重復(fù)的郵件,因?yàn)樗麄円陨晕⒉幌嗤拿侄啻纬霈F(xiàn)在數(shù)據(jù)庫(kù)中舱沧。為了檢測(cè)并刪除這種重復(fù),必須處理兩個(gè)主要問題。首先,如果兩個(gè)對(duì)象實(shí)際代表同一個(gè)對(duì)象波闹,則對(duì)應(yīng)的屬性值必然不同,必須解決這些不一致的值涛碑;其次精堕,需要避免意外地將兩個(gè)相似但并非重復(fù)的數(shù)據(jù)對(duì)象合并到一起。
數(shù)據(jù)集成
在企業(yè)中蒲障,由于開發(fā)時(shí)間或開發(fā)部門的不同歹篓,往往有多個(gè)異構(gòu)的、運(yùn)行在不同的軟硬件平臺(tái)上的信息系統(tǒng)同時(shí)運(yùn)行揉阎,這些系統(tǒng)的數(shù)據(jù)源彼此獨(dú)立庄撮、相互封閉,使得數(shù)據(jù)難以在系統(tǒng)之間交流毙籽、共享和融合洞斯,從而形成了"信息孤島"。隨著信息化應(yīng)用的不斷深入坑赡,企業(yè)內(nèi)部烙如、企業(yè)與外部信息交互的需求日益強(qiáng)烈,急切需要對(duì)已有的信息進(jìn)行整合毅否,聯(lián)通“信息孤島”亚铁,共享信息。
數(shù)據(jù)集成通過應(yīng)用間的數(shù)據(jù)交換從而達(dá)到集成螟加,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題徘溢,其前提是被集成應(yīng)用必須公開數(shù)據(jù)結(jié)構(gòu),即必須公開表結(jié)構(gòu)捆探,表間關(guān)系然爆,編碼的含義。
數(shù)據(jù)變換
1.平滑2.聚集3.數(shù)據(jù)概化4.規(guī)范化(1)最小-最大規(guī)范化(2)零-均值規(guī)范化(3)小數(shù)定標(biāo)規(guī)范化5.屬性構(gòu)造
數(shù)據(jù)規(guī)約
目的是為了獲得比原始數(shù)據(jù)小的多的黍图,但不破壞數(shù)據(jù)完整性的挖掘數(shù)據(jù)集曾雕,該數(shù)據(jù)集可以得到與原始數(shù)據(jù)相同的挖掘結(jié)果。
數(shù)據(jù)歸約的方法:?1.數(shù)據(jù)立方體聚集:把聚集的方法用于數(shù)據(jù)立方體雌隅。2.維歸約:檢測(cè)并刪除不相關(guān)翻默、弱相關(guān)或冗余屬性。3.數(shù)據(jù)壓縮:選擇正確的編碼壓縮數(shù)據(jù)集恰起。4.數(shù)值壓縮:用較小的數(shù)據(jù)表示數(shù)據(jù)修械,或采用較短的數(shù)據(jù)單位,或者用數(shù)據(jù)模型代表數(shù)據(jù)检盼。5.離散化和概念分層生成:使連續(xù)的數(shù)據(jù)離散化肯污,用確定的有限個(gè)區(qū)段值代替原始值;概念分層是指用較高層次的概念替換低層次的概念,以此來減少取值個(gè)數(shù)