數(shù)據(jù)倉庫蕊爵,通過etl工具將多源數(shù)據(jù)進(jìn)行集成辉哥,內(nèi)部實現(xiàn)對業(yè)務(wù)數(shù)據(jù)的清洗、加工攒射、模型醋旦、算法等,以實時或離線的方式對外提供數(shù)據(jù)服務(wù)会放,為部門或企業(yè)的決策提供有效支持饲齐。而數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析結(jié)論有效性和準(zhǔn)確性的基礎(chǔ),也是一切的前提咧最。
而數(shù)據(jù)質(zhì)量也是考驗一個數(shù)倉穩(wěn)定性捂人、是否成功的基礎(chǔ)。而保障數(shù)據(jù)質(zhì)量所面臨的挑戰(zhàn)也十分的巨大矢沿,數(shù)倉的數(shù)據(jù)鏈路長滥搭,對接的服務(wù)多,交叉的復(fù)雜性等決定數(shù)據(jù)質(zhì)量是一個綜合性問題捣鲸,它的成功是由多方面因素決定的瑟匆。
本文參考個人工作、網(wǎng)絡(luò)博客栽惶、《阿里大數(shù)據(jù)之路》愁溜,思考對于如何保障數(shù)據(jù)倉庫下的數(shù)據(jù)質(zhì)量的一些思考,如有不足之處歡迎溝通外厂。
數(shù)據(jù)質(zhì)量原則
數(shù)倉以數(shù)據(jù)集成冕象,面向企業(yè)提供數(shù)據(jù)查詢(OLAP)的方式存在,目前可分為實時和離線兩種應(yīng)用場景酣衷。當(dāng)前實時模塊并未發(fā)展起來交惯,以離線場景作為主要考慮點(diǎn)。結(jié)合數(shù)倉本身的特點(diǎn),給出數(shù)據(jù)質(zhì)量的幾個原則
-
完整性
記錄完整性:數(shù)據(jù)清洗席爽、處理意荤、加工處理過程中,數(shù)據(jù)沒有缺失只锻、遺漏等
信息完整性:庫玖像、表、字段信息完整未丟失齐饮,如表捐寥、字段的注釋,表與表之間存在的關(guān)系信息等
-
準(zhǔn)確性
包括記錄的信息和數(shù)據(jù)是否準(zhǔn)確祖驱,是否包含異常數(shù)據(jù)或錯誤的信息
-
一致性
數(shù)據(jù)在不同的層級或鏈路中流轉(zhuǎn)握恳,最后提供查詢接口或服務(wù)等。那么捺僻,數(shù)據(jù)在整個過程中是否保持一致乡洼,如字段名稱、類型匕坯、釋義等
-
及時性
數(shù)據(jù)都有一定的時效性俱箱,不同的業(yè)務(wù)指標(biāo)或數(shù)據(jù)服務(wù)時效不同了赌,要保障特定時間下能夠及時地提供數(shù)據(jù)
數(shù)據(jù)質(zhì)量保障
數(shù)據(jù)質(zhì)量發(fā)生的原因
在實際工作中诡宗,大致可分為三類要拂,具體如下
如何保障數(shù)據(jù)質(zhì)量
數(shù)倉一般在離線環(huán)境下,存儲著海量的數(shù)據(jù)术奖。與線上的OLTP相比礁遵,并沒有一套成熟的測試體系來保障數(shù)據(jù)在復(fù)雜流程中的質(zhì)量問題。有效的數(shù)據(jù)是一項非常重要的資產(chǎn)采记,而缺乏質(zhì)量的數(shù)據(jù)則像一堆無用又浪費(fèi)資源的磁盤榛丢。
-
加強(qiáng)數(shù)據(jù)校驗
在etl開發(fā)過程中,在數(shù)據(jù)清理挺庞、加工、整合等環(huán)節(jié)中應(yīng)增加數(shù)據(jù)的校驗稼病。如:
數(shù)據(jù)量的校驗 數(shù)倉層級之間的數(shù)據(jù)流轉(zhuǎn)选侨,rowCount是否發(fā)生改變
異常值的校驗 對于開發(fā)完成后的表,應(yīng)檢查是否存在異常值然走。如金額有負(fù)值援制,是否有空值,性別字段等
業(yè)務(wù)邏輯驗證 比較源數(shù)據(jù)結(jié)果與目標(biāo)的數(shù)據(jù)結(jié)果芍瑞,是否不一致
腳本/代碼測試 開發(fā)的代碼是否存在明顯問題晨仑,如中文字符等。在測試環(huán)境中是否可以正常運(yùn)行
-
自動化服務(wù)
一套成熟的開發(fā)平臺,將調(diào)度洪己、質(zhì)量妥凳、元數(shù)據(jù)、etl開發(fā)答捕、模型開發(fā)進(jìn)行整合逝钥,是最好的選擇。
-
提升數(shù)據(jù)產(chǎn)品化認(rèn)知
數(shù)倉將來自于業(yè)務(wù)系統(tǒng)的多源數(shù)據(jù)通過集成方式進(jìn)行整合并對外提供數(shù)據(jù)查詢拱镐,在數(shù)倉基礎(chǔ)之上構(gòu)建的各種數(shù)據(jù)服務(wù)平臺都是數(shù)倉數(shù)據(jù)的消費(fèi)者艘款,如報表平臺、分析平臺沃琅、推薦平臺哗咆、接口平臺等。數(shù)倉是以提供數(shù)據(jù)而存在的產(chǎn)品
-
質(zhì)量文化
I. 數(shù)據(jù)生產(chǎn)者對自己的數(shù)據(jù)質(zhì)量和元數(shù)據(jù)負(fù)責(zé)
II. 為消費(fèi)者提供必要的數(shù)據(jù)使用信息
III. 數(shù)據(jù)有生命周期益眉,應(yīng)考慮不同階段的數(shù)據(jù)演進(jìn)過程
數(shù)據(jù)質(zhì)量衡量
-
數(shù)據(jù)消費(fèi)者層面
提供及時晌柬、有效的準(zhǔn)確數(shù)據(jù),當(dāng)數(shù)據(jù)鏈路中存在問題時能夠快速的通知到數(shù)據(jù)消費(fèi)者呜叫,并能夠快速定位上游數(shù)據(jù)問題及排查恢復(fù)時間點(diǎn)
-
數(shù)據(jù)開發(fā)層面
I. 數(shù)倉夜里值班的起夜率
II. 數(shù)倉內(nèi)部流程與規(guī)范的一致性
參考
《大數(shù)據(jù)之路-阿里巴巴大數(shù)據(jù)實踐》