? ? ? ? 數(shù)據(jù)預(yù)處理是指在對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前西篓,先對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成憋活、轉(zhuǎn)換岂津、離散和規(guī)約等一系列的處理工作,已達(dá)到挖掘算法進(jìn)行知識(shí)獲取研究所要求的最低規(guī)范和標(biāo)準(zhǔn)悦即。通常數(shù)據(jù)預(yù)處理包括:數(shù)據(jù)清洗吮成、數(shù)據(jù)集成、數(shù)據(jù)變換辜梳、數(shù)據(jù)規(guī)約粱甫。
一:數(shù)據(jù)清洗
數(shù)據(jù)清洗是填充缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等操作作瞄,主要通過(guò)分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式茶宵,利用現(xiàn)有的數(shù)據(jù)挖掘手段和方法去清洗“臟數(shù)據(jù)”,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿(mǎn)足數(shù)據(jù)質(zhì)量要求和應(yīng)用要求的數(shù)據(jù)宗挥,從而提高數(shù)據(jù)集的質(zhì)量乌庶,滿(mǎn)足現(xiàn)階段數(shù)據(jù)分析的需求。
1.數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量主要有10個(gè)維度:
數(shù)據(jù)規(guī)范:對(duì)數(shù)據(jù)標(biāo)準(zhǔn)属韧、數(shù)據(jù)模型安拟、業(yè)務(wù)規(guī)則、元數(shù)據(jù)和參考數(shù)據(jù)進(jìn)行有關(guān)存在性宵喂、完整性糠赦、質(zhì)量和歸檔的測(cè)量標(biāo)準(zhǔn);
數(shù)據(jù)完整性準(zhǔn)則:對(duì)數(shù)據(jù)進(jìn)行有關(guān)存在性、有效性拙泽、結(jié)構(gòu)淌山、內(nèi)容和其他基本數(shù)據(jù)特征的測(cè)量標(biāo)準(zhǔn);
重復(fù):對(duì)存在于系統(tǒng)內(nèi)或系統(tǒng)間的特定字段顾瞻、記錄或數(shù)據(jù)集意外重復(fù)的測(cè)量標(biāo)準(zhǔn)泼疑;
準(zhǔn)確性:對(duì)數(shù)據(jù)內(nèi)容正確性進(jìn)行測(cè)量的標(biāo)準(zhǔn);
一致性和同步:對(duì)各種不同的數(shù)據(jù)倉(cāng)庫(kù)荷荤、應(yīng)用和系統(tǒng)中存儲(chǔ)或使用的信息等價(jià)程度的測(cè)量退渗,以及使數(shù)據(jù)等價(jià)處理流程的測(cè)量標(biāo)準(zhǔn);
及時(shí)性和可用性:在預(yù)期時(shí)段內(nèi)對(duì)特定應(yīng)用的及時(shí)程度和可用程度的測(cè)量標(biāo)準(zhǔn)蕴纳;
易用性和可維護(hù)性:對(duì)數(shù)據(jù)可被訪問(wèn)和使用的程度会油,以及數(shù)據(jù)能被更新、維護(hù)和管理程度的測(cè)量標(biāo)準(zhǔn)古毛;
數(shù)據(jù)覆蓋:相對(duì)于數(shù)據(jù)總體和全體相關(guān)的對(duì)象數(shù)據(jù)的可用性和全面性的測(cè)量標(biāo)準(zhǔn)翻翩;
表達(dá)質(zhì)量:如何進(jìn)行有效信息表達(dá)以及如何從用戶(hù)中收集信息的測(cè)量標(biāo)準(zhǔn);
可理解性稻薇、相關(guān)性和可信度:數(shù)據(jù)質(zhì)量中可理解性和數(shù)據(jù)質(zhì)量中執(zhí)行度的測(cè)量標(biāo)準(zhǔn)嫂冻,以及對(duì)業(yè)務(wù)所需數(shù)據(jù)的重要性、實(shí)用性及相關(guān)性的測(cè)量標(biāo)準(zhǔn)塞椎。
數(shù)據(jù)值質(zhì)量問(wèn)題的分類(lèi):
數(shù)據(jù)錄入/更新
測(cè)量
簡(jiǎn)化
數(shù)據(jù)集成
2.數(shù)據(jù)清洗的定義
數(shù)據(jù)清洗又叫數(shù)據(jù)清理或數(shù)據(jù)凈化桨仿,主要用于數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和全面數(shù)據(jù)質(zhì)量管理三個(gè)方面忱屑。
現(xiàn)今數(shù)據(jù)清晰研究主要涉及以下幾方面:
Web領(lǐng)域的數(shù)據(jù)清洗研究:搜索引擎
特殊領(lǐng)域的數(shù)據(jù)清洗研究:金融蹬敲、保險(xiǎn)中的臟數(shù)據(jù)(錯(cuò)誤數(shù)據(jù)、不一致數(shù)據(jù)莺戒、重復(fù)數(shù)據(jù)以及業(yè)務(wù)邏輯錯(cuò)誤的數(shù)據(jù))
數(shù)字化文獻(xiàn)服務(wù)領(lǐng)域的數(shù)據(jù)清洗研究
射頻識(shí)別領(lǐng)域的數(shù)據(jù)清洗研究
3.數(shù)據(jù)清洗的原理
通過(guò)分析臟數(shù)據(jù)的產(chǎn)生原因及存在形式伴嗡,對(duì)數(shù)據(jù)的過(guò)程進(jìn)行考察、分析从铲,并總結(jié)出一些方法(數(shù)理統(tǒng)計(jì)瘪校、數(shù)據(jù)挖掘或預(yù)定義規(guī)則),將臟數(shù)據(jù)轉(zhuǎn)化為滿(mǎn)足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)名段。
4.數(shù)據(jù)清洗的基本方法
缺失數(shù)據(jù)處理:平均值阱扬、中間值、最大值伸辟、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值填充空缺法麻惶。
相似重復(fù)數(shù)據(jù)檢測(cè):基于字段(編輯距離算法、樹(shù)編輯距離算法信夫、TI Similarity相似匹配算法窃蹋、Cosine相似度函數(shù)算法)與基于記錄(排序鄰居算法卡啰、優(yōu)先隊(duì)列算法、Canopy聚類(lèi)算法)的重復(fù)檢測(cè)警没。
異常數(shù)據(jù)處理:異常數(shù)據(jù)的探測(cè)主要有基于統(tǒng)計(jì)學(xué)匈辱、基于距離和基于偏離3類(lèi)方法。
邏輯錯(cuò)誤檢測(cè):主要有統(tǒng)計(jì)法杀迹、聚類(lèi)方法和關(guān)聯(lián)規(guī)則方法亡脸。
不一致數(shù)據(jù):常用的消除數(shù)據(jù)不一致的方法有排序、融合和基于規(guī)則三種方法树酪。
5.數(shù)據(jù)清洗模型簡(jiǎn)介
Trillium的過(guò)程模型:用于專(zhuān)業(yè)的金融浅碾、保險(xiǎn)等行業(yè)。
AJAX的過(guò)程模型:主要用于數(shù)據(jù)挖掘方面嗅回。
Kimball的過(guò)程模型及穗。
二:數(shù)據(jù)集成
數(shù)據(jù)集成是指將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)合并并存放到一個(gè)一直的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中,這些數(shù)據(jù)源可能包括多個(gè)數(shù)據(jù)庫(kù)绵载、數(shù)據(jù)立方體和一般文件。
三:數(shù)據(jù)變換
數(shù)據(jù)變換是指不同來(lái)源所得到的數(shù)據(jù)可能導(dǎo)致不一致苛白,所以需要及你選哪個(gè)數(shù)據(jù)變換娃豹,構(gòu)成一個(gè)適合數(shù)據(jù)挖掘的描述形式。
數(shù)據(jù)轉(zhuǎn)換包含的內(nèi)容:
屬性的數(shù)據(jù)類(lèi)型轉(zhuǎn)化
屬性構(gòu)造
數(shù)據(jù)離散化
數(shù)據(jù)標(biāo)準(zhǔn)化
四:數(shù)據(jù)規(guī)約
對(duì)海量數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L(zhǎng)的時(shí)間购裙,使得這種分析不具有可操作性懂版。海量數(shù)據(jù)規(guī)約技術(shù)可以減少數(shù)據(jù)集容量,但仍接近保持原數(shù)據(jù)的完整性躏率。
數(shù)據(jù)立方體存儲(chǔ)多維聚集信息
屬性子集選擇:逐步向前選擇躯畴、逐步向后刪除、決策樹(shù)歸納
維度規(guī)約:小波變換薇芝、主成分分析
數(shù)值規(guī)約
離散化和概念分層產(chǎn)生:是數(shù)據(jù)挖掘強(qiáng)有力的工具蓬抄,允許挖掘多個(gè)抽象層的數(shù)據(jù)。