數(shù)據(jù)倉庫之質(zhì)量管理

數(shù)據(jù)倉庫蕊爵,通過etl工具將多源數(shù)據(jù)進(jìn)行集成辉哥,內(nèi)部實現(xiàn)對業(yè)務(wù)數(shù)據(jù)的清洗、加工攒射、模型醋旦、算法等,以實時或離線的方式對外提供數(shù)據(jù)服務(wù)会放,為部門或企業(yè)的決策提供有效支持饲齐。而數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析結(jié)論有效性和準(zhǔn)確性的基礎(chǔ),也是一切的前提咧最。

而數(shù)據(jù)質(zhì)量也是考驗一個數(shù)倉穩(wěn)定性捂人、是否成功的基礎(chǔ)。而保障數(shù)據(jù)質(zhì)量所面臨的挑戰(zhàn)也十分的巨大矢沿,數(shù)倉的數(shù)據(jù)鏈路長滥搭,對接的服務(wù)多,交叉的復(fù)雜性等決定數(shù)據(jù)質(zhì)量是一個綜合性問題捣鲸,它的成功是由多方面因素決定的瑟匆。

本文參考個人工作、網(wǎng)絡(luò)博客栽惶、《阿里大數(shù)據(jù)之路》愁溜,思考對于如何保障數(shù)據(jù)倉庫下的數(shù)據(jù)質(zhì)量的一些思考,如有不足之處歡迎溝通外厂。

數(shù)據(jù)質(zhì)量原則

數(shù)倉以數(shù)據(jù)集成冕象,面向企業(yè)提供數(shù)據(jù)查詢(OLAP)的方式存在,目前可分為實時和離線兩種應(yīng)用場景酣衷。當(dāng)前實時模塊并未發(fā)展起來交惯,以離線場景作為主要考慮點(diǎn)。結(jié)合數(shù)倉本身的特點(diǎn),給出數(shù)據(jù)質(zhì)量的幾個原則

  • 完整性

    記錄完整性:數(shù)據(jù)清洗席爽、處理意荤、加工處理過程中,數(shù)據(jù)沒有缺失只锻、遺漏等

    信息完整性:庫玖像、表、字段信息完整未丟失齐饮,如表捐寥、字段的注釋,表與表之間存在的關(guān)系信息等

  • 準(zhǔn)確性

    包括記錄的信息和數(shù)據(jù)是否準(zhǔn)確祖驱,是否包含異常數(shù)據(jù)或錯誤的信息

  • 一致性

    數(shù)據(jù)在不同的層級或鏈路中流轉(zhuǎn)握恳,最后提供查詢接口或服務(wù)等。那么捺僻,數(shù)據(jù)在整個過程中是否保持一致乡洼,如字段名稱、類型匕坯、釋義等

  • 及時性

    數(shù)據(jù)都有一定的時效性俱箱,不同的業(yè)務(wù)指標(biāo)或數(shù)據(jù)服務(wù)時效不同了赌,要保障特定時間下能夠及時地提供數(shù)據(jù)

數(shù)據(jù)質(zhì)量保障

數(shù)據(jù)質(zhì)量發(fā)生的原因

在實際工作中诡宗,大致可分為三類要拂,具體如下


數(shù)據(jù)質(zhì)量-原因總結(jié).png

如何保障數(shù)據(jù)質(zhì)量

數(shù)倉一般在離線環(huán)境下,存儲著海量的數(shù)據(jù)术奖。與線上的OLTP相比礁遵,并沒有一套成熟的測試體系來保障數(shù)據(jù)在復(fù)雜流程中的質(zhì)量問題。有效的數(shù)據(jù)是一項非常重要的資產(chǎn)采记,而缺乏質(zhì)量的數(shù)據(jù)則像一堆無用又浪費(fèi)資源的磁盤榛丢。

  1. 加強(qiáng)數(shù)據(jù)校驗

    在etl開發(fā)過程中,在數(shù)據(jù)清理挺庞、加工、整合等環(huán)節(jié)中應(yīng)增加數(shù)據(jù)的校驗稼病。如:

    • 數(shù)據(jù)量的校驗 數(shù)倉層級之間的數(shù)據(jù)流轉(zhuǎn)选侨,rowCount是否發(fā)生改變

    • 異常值的校驗 對于開發(fā)完成后的表,應(yīng)檢查是否存在異常值然走。如金額有負(fù)值援制,是否有空值,性別字段等

    • 業(yè)務(wù)邏輯驗證 比較源數(shù)據(jù)結(jié)果與目標(biāo)的數(shù)據(jù)結(jié)果芍瑞,是否不一致

    • 腳本/代碼測試 開發(fā)的代碼是否存在明顯問題晨仑,如中文字符等。在測試環(huán)境中是否可以正常運(yùn)行

  2. 自動化服務(wù)

    一套成熟的開發(fā)平臺,將調(diào)度洪己、質(zhì)量妥凳、元數(shù)據(jù)、etl開發(fā)答捕、模型開發(fā)進(jìn)行整合逝钥,是最好的選擇。

  3. 提升數(shù)據(jù)產(chǎn)品化認(rèn)知

    數(shù)倉將來自于業(yè)務(wù)系統(tǒng)的多源數(shù)據(jù)通過集成方式進(jìn)行整合并對外提供數(shù)據(jù)查詢拱镐,在數(shù)倉基礎(chǔ)之上構(gòu)建的各種數(shù)據(jù)服務(wù)平臺都是數(shù)倉數(shù)據(jù)的消費(fèi)者艘款,如報表平臺、分析平臺沃琅、推薦平臺哗咆、接口平臺等。數(shù)倉是以提供數(shù)據(jù)而存在的產(chǎn)品

  4. 質(zhì)量文化

    I. 數(shù)據(jù)生產(chǎn)者對自己的數(shù)據(jù)質(zhì)量和元數(shù)據(jù)負(fù)責(zé)

    II. 為消費(fèi)者提供必要的數(shù)據(jù)使用信息

    III. 數(shù)據(jù)有生命周期益眉,應(yīng)考慮不同階段的數(shù)據(jù)演進(jìn)過程

數(shù)據(jù)質(zhì)量衡量

  1. 數(shù)據(jù)消費(fèi)者層面

    提供及時晌柬、有效的準(zhǔn)確數(shù)據(jù),當(dāng)數(shù)據(jù)鏈路中存在問題時能夠快速的通知到數(shù)據(jù)消費(fèi)者呜叫,并能夠快速定位上游數(shù)據(jù)問題及排查恢復(fù)時間點(diǎn)

  2. 數(shù)據(jù)開發(fā)層面

    I. 數(shù)倉夜里值班的起夜率

    II. 數(shù)倉內(nèi)部流程與規(guī)范的一致性

參考

  1. 數(shù)據(jù)倉庫之?dāng)?shù)據(jù)質(zhì)量篇

  2. 《大數(shù)據(jù)之路-阿里巴巴大數(shù)據(jù)實踐》

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末空繁,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子朱庆,更是在濱河造成了極大的恐慌盛泡,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件娱颊,死亡現(xiàn)場離奇詭異傲诵,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)箱硕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進(jìn)店門拴竹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人剧罩,你說我怎么就攤上這事栓拜。” “怎么了惠昔?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵幕与,是天一觀的道長。 經(jīng)常有香客問我镇防,道長啦鸣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任来氧,我火速辦了婚禮诫给,結(jié)果婚禮上香拉,老公的妹妹穿的比我還像新娘。我一直安慰自己中狂,他們只是感情好凫碌,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著吃型,像睡著了一般证鸥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上勤晚,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天枉层,我揣著相機(jī)與錄音,去河邊找鬼赐写。 笑死鸟蜡,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的挺邀。 我是一名探鬼主播揉忘,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼端铛!你這毒婦竟也來了泣矛?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤禾蚕,失蹤者是張志新(化名)和其女友劉穎您朽,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體换淆,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡哗总,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了倍试。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片讯屈。...
    茶點(diǎn)故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖县习,靈堂內(nèi)的尸體忽然破棺而出涮母,到底是詐尸還是另有隱情,我是刑警寧澤躁愿,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布哈蝇,位于F島的核電站,受9級特大地震影響攘已,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜怜跑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一样勃、第九天 我趴在偏房一處隱蔽的房頂上張望吠勘。 院中可真熱鬧,春花似錦峡眶、人聲如沸剧防。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽峭拘。三九已至,卻和暖如春狮暑,著一層夾襖步出監(jiān)牢的瞬間鸡挠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工搬男, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拣展,地道東北人。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓缔逛,卻偏偏與公主長得像备埃,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子褐奴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 課程目標(biāo) 1.影響數(shù)據(jù)質(zhì)量的因素按脚、數(shù)據(jù)質(zhì)量問題類型2.了解MaxCompute(DataIDE)產(chǎn)品3.通過Dat...
    SunnyRivers閱讀 1,377評論 0 8
  • “當(dāng)你們還在湊星座的時候辅搬,哥已經(jīng)在湊生肖了”,這是崇尚恣意生活方式的任逸帆所說匪补,這個人物來自網(wǎng)絡(luò)神劇《一起同過窗》...
    無尚先生閱讀 1,001評論 2 3
  • 昨天還難受的要死伞辛,因為一件事情的落地,感覺今天的天空都是那么的明亮夯缺!我不是一個會控制情緒的人……別人的一舉一動蚤氏,都...
    貓咪愛吃魚_1340閱讀 201評論 0 0
  • 腳下永踩大地 頭上永頂藍(lán)天 身為熱血男兒 不必優(yōu)柔寡斷、停歇踊兜、退縮竿滨、不敢向前 舞起手中長劍 劈開前面阻擋的...
    王人廣閱讀 249評論 1 1