數(shù)據(jù)質(zhì)量監(jiān)控 - 晨柳溪 - 博客園 http://www.cnblogs.com/benchen/p/5852963.html
數(shù)據(jù)質(zhì)量的定義從數(shù)據(jù)使用者的角度定義碉熄,高質(zhì)量的數(shù)據(jù)應(yīng)該是能充分滿足用戶使用要求的數(shù)據(jù)。
數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)1:及時性:數(shù)據(jù)獲取是否及時肋拔,主要指數(shù)據(jù)提取锈津、傳送、轉(zhuǎn)換凉蜂、加載琼梆、展現(xiàn)的及時性性誉。在數(shù)據(jù)處理的各個環(huán)節(jié),都會涉及到及時性茎杂。我們一般考慮兩個方面第一就是接口數(shù)據(jù)是否能夠及時的抽取過來错览。第二就是展現(xiàn)層能否及時的展現(xiàn)出來。
2:完整性:是指數(shù)據(jù)是否完整煌往,描述的數(shù)據(jù)要素倾哺,要素屬性及要素關(guān)系存在或不存在,主要包括實體缺失刽脖、屬性缺失羞海、記錄缺失以及主外鍵參照完整性的內(nèi)容。
3:一致性:第一就是原始數(shù)據(jù)即文件接口和入庫的數(shù)據(jù)記錄條數(shù)是一致的曾棕。第二就是同一指標(biāo)在任何地方都應(yīng)該保持一致扣猫。
4:有效性:描述數(shù)據(jù)取值是否在界定的值域范圍內(nèi),主要包括數(shù)據(jù)格式翘地、數(shù)據(jù)類型申尤、值域和相關(guān)業(yè)務(wù)規(guī)則的有效性。
5:準(zhǔn)確性:主要是指指標(biāo)算法衙耕、數(shù)據(jù)處理過程的準(zhǔn)確性昧穿。這個準(zhǔn)確性主要是通過元數(shù)據(jù)管理中定義的指標(biāo)的算法、數(shù)據(jù)處理順序和人工檢查相結(jié)合的方式來保證橙喘。
數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量檢查接口數(shù)據(jù)的檢查时鸵。接口數(shù)據(jù)主要有文件和數(shù)據(jù)庫接口內(nèi)容本身的數(shù)據(jù)質(zhì)量問題: 及時性,有效性厅瞎,完整性
文件接口采集程序的監(jiān)控:文件接口采集程序是否正常啟動饰潜,正常結(jié)束等
數(shù)據(jù)倉庫層面的數(shù)據(jù)數(shù)據(jù)處理過程監(jiān)控:是否按時調(diào)度,是否成功和簸。
關(guān)鍵指標(biāo)的檢查:基礎(chǔ)指標(biāo)的檢查數(shù)值檢查:主要是通過檢查單個指標(biāo)的數(shù)值來發(fā)現(xiàn)指標(biāo)的異常和突變等情況彭雾。這里需要設(shè)置相應(yīng)的閥值來進(jìn)行。
波動檢查:主要是同比或者環(huán)比的檢查锁保。先計算指標(biāo)的同比或環(huán)比波動率薯酝,然后與預(yù)定的波動率上下限(閾值)進(jìn)行比較。
關(guān)聯(lián)檢查:對兩個存在關(guān)聯(lián)關(guān)系的指標(biāo)(如同增爽柒、同減正關(guān)聯(lián)關(guān)系)吴菠,分析變化和波動情況。
平衡檢查:通過對若干個指標(biāo)值的簡單四則運(yùn)算(加浩村、減做葵、乘、除)心墅,來檢驗各個指標(biāo)間潛在的平衡或其他比較關(guān)系蜂挪。
加權(quán)波動檢查:通過對單個指標(biāo)的基礎(chǔ)檢查結(jié)果和影響因素的加權(quán)計算分析重挑,綜合檢查指標(biāo)的波動和變化情況。
數(shù)據(jù)質(zhì)量的評測流程數(shù)據(jù)質(zhì)量需求分析
確定評價對象和范圍
選取數(shù)據(jù)質(zhì)量維度及評價標(biāo)準(zhǔn)
確定質(zhì)量測度及評價方法
運(yùn)用方法進(jìn)行評價
結(jié)果分析和評級
質(zhì)量結(jié)果和報告
數(shù)據(jù)質(zhì)量的評估方法基本概念模型M=<D棠涮,I谬哀,R,W 严肪,E史煎,S>
D(Dataset)是需要進(jìn)行評估的數(shù)據(jù)集
I(Indicator)數(shù)據(jù)集D上需要進(jìn)行評估的指標(biāo),如完整性驳糯、準(zhǔn)確性篇梭、一致性等
R(Rule)與評估指標(biāo)相對應(yīng)的規(guī)則
W(Weight)賦予規(guī)則R的權(quán)值(大于0的整數(shù)),描述了該規(guī)則在所有規(guī)則中所占的比重酝枢。
E(Expectation)對規(guī)則R給出的期望值(介于0到100之間的實數(shù))恬偷,是在評估之前對該規(guī)則所期望得到的結(jié)果。
構(gòu)造技術(shù)構(gòu)造數(shù)據(jù)質(zhì)量評估模型要經(jīng)過4個步驟:確定數(shù)據(jù)集評估應(yīng)用視圖,選擇評估指標(biāo)竣付,制定規(guī)則集诡延,計算規(guī)則結(jié)果得分。
下面將結(jié)合具體的實例來說明如何構(gòu)造數(shù)據(jù)質(zhì)量評估模型古胆。
1****肆良、確定數(shù)據(jù)集評估應(yīng)用視圖
在進(jìn)行數(shù)據(jù)質(zhì)量評估時,首先要提出數(shù)據(jù)質(zhì)量評估的需求逸绎,要確定哪些數(shù)據(jù)是用戶感興趣的(包括數(shù)據(jù)庫惹恃、數(shù)據(jù)庫中的數(shù)據(jù)集和數(shù)據(jù)集上的字段),對它們建立對應(yīng)的用戶視圖棺牧。
2****巫糙、選擇評估指標(biāo)
對于每個給定的數(shù)據(jù)集,選擇所需要的評估指標(biāo): 對于Customer陨帆,選擇完整性和有效性兩個指標(biāo)曲秉。
3****采蚀、制定規(guī)則集
根據(jù)選擇的評估指標(biāo)疲牵,制定數(shù)據(jù)質(zhì)量評估規(guī)則,并確定它們相應(yīng)的權(quán)值和期望值榆鼠。對于Customer纲爸,針對完整性和有效性指標(biāo)制定以下規(guī)則:
(1)ID 非空(權(quán)值:5,期望值:90):完整性
(2)ID長度為18位(權(quán)值:10妆够,期望值:90):準(zhǔn)確性
(3)Sex值為 F 或 M (權(quán)值:10识啦,期望值:98):有效性
4****负蚊、計算規(guī)則結(jié)果得分
對于規(guī)則集中的每條規(guī)則R,檢查數(shù)據(jù)集上的數(shù)據(jù)實例颓哮,計算滿足R的數(shù)據(jù)元組的百分比家妆,得到R對應(yīng)的結(jié)果S。計算數(shù)據(jù)元組總數(shù)的百分比冕茅,就是最終結(jié)果:假設(shè)它們的結(jié)果分別為95伤极,90,90姨伤。
參考
http://www.chinaz.com/web/2012/1112/281738.shtml
http://blog.sina.com.cn/s/blog_66239fdb0100z9yf.html
http://www.5ykj.com/Article/xslwqygl/98050.htm