讀數(shù)據(jù)質(zhì)量管理:數(shù)據(jù)可靠性與數(shù)據(jù)質(zhì)量問題解決之道03數(shù)據(jù)目錄

讀數(shù)據(jù)質(zhì)量管理:數(shù)據(jù)可靠性與數(shù)據(jù)質(zhì)量問題解決之道03數(shù)據(jù)目錄.png

1. 同步數(shù)據(jù)

1.1. 不同的數(shù)據(jù)倉庫和數(shù)據(jù)湖通過數(shù)據(jù)集成層來進(jìn)行橋接

1.2. AWS Glue哄辣、Fivetran和Matillion等數(shù)據(jù)集成工具從不同來源收集數(shù)據(jù)动知,統(tǒng)一這些數(shù)據(jù)迄损,并將其轉(zhuǎn)換為上游來源

1.3. 數(shù)據(jù)集成的一個(gè)典型用例是收集數(shù)據(jù)湖的數(shù)據(jù)并以結(jié)構(gòu)化格式將其加載到數(shù)據(jù)倉庫中

1.4. ETL是數(shù)據(jù)集成中一個(gè)眾所周知的過程

  • 1.4.1. ETL通常描述集成的步驟,其中首先從一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)庫中提取數(shù)據(jù)宽气,轉(zhuǎn)換為新的結(jié)構(gòu)或格式佩憾,最后加載到目標(biāo)數(shù)據(jù)存儲(chǔ)庫中

2. 收集數(shù)據(jù)質(zhì)量指標(biāo)

2.1. 你無法修復(fù)你無法測量的東西

  • 2.1.1. 如果沒有數(shù)據(jù)質(zhì)量指標(biāo),你就無法獲得數(shù)據(jù)質(zhì)量

2.2. 數(shù)據(jù)宕機(jī)的時(shí)間(也就是你的數(shù)據(jù)不完整枉昏、有錯(cuò)誤陈肛、出現(xiàn)缺失或者其他不準(zhǔn)確的時(shí)間段)來度量數(shù)據(jù)質(zhì)量

  • 2.2.1. 公司會(huì)仔細(xì)度量宕機(jī)時(shí)間,并投入大量資源來避免發(fā)生服務(wù)中斷的情況

2.3. 問題列表

  • 2.3.1. 數(shù)據(jù)是最新的嗎兄裂?

  • 2.3.2. 數(shù)據(jù)是完整的嗎句旱?

  • 2.3.3. 字段是否在預(yù)期的范圍內(nèi)?

  • 2.3.4. 空值率是否高于或低于應(yīng)有的水平晰奖?

  • 2.3.5. 模式是否已經(jīng)更改谈撒?

2.4. 可擴(kuò)展性

  • 2.4.1. 跟蹤大量的表和大數(shù)據(jù)集可能會(huì)非常棘手

2.5. 監(jiān)控棧的其他部分

  • 2.5.1. 構(gòu)建真正可靠的數(shù)據(jù)管道并實(shí)現(xiàn)數(shù)據(jù)可觀測性需要的遠(yuǎn)不只是收集指標(biāo)這么簡單

2.6. Snowflake

  • 2.6.1. Snowflake是最流行的云數(shù)據(jù)倉庫工具之一,其設(shè)計(jì)從一開始就優(yōu)先考慮了數(shù)據(jù)質(zhì)量和數(shù)據(jù)完整性

  • 2.6.2. 映射清單

  • 2.6.3. 監(jiān)控?cái)?shù)據(jù)的新鮮度和容量

    • 2.6.3.1. 度量視圖的新鮮度和容量并不簡單匾南,因?yàn)檫@是底層查詢指令中包含的表的函數(shù)
  • 2.6.4. 建立你的查詢歷史記錄

    • 2.6.4.1. 擁有在Snowflake環(huán)境中運(yùn)行的所有查詢的可靠歷史記錄是解決問題時(shí)非常有用的工具啃匿,它可以讓你準(zhǔn)確了解最近一次寫入表的方式和時(shí)間
  • 2.6.5. 健康檢查

2.7. 數(shù)據(jù)倉庫最重要的功能之一就是能夠直接從其中提取數(shù)據(jù)質(zhì)量指標(biāo)并將其可視化以便進(jìn)行簡單的分析

2.8. 為跟蹤數(shù)據(jù)質(zhì)量指標(biāo)而提取的信息需要隨時(shí)能夠提供給團(tuán)隊(duì)中的其他成員使用,特別是當(dāng)事情發(fā)生變化或你正處于對(duì)數(shù)據(jù)管道進(jìn)行根因分析的痛苦之中時(shí)

3. 查詢?nèi)罩?/h1>

3.1. 問題

  • 3.1.1. 誰在訪問這些數(shù)據(jù)?

  • 3.1.2. 來自上游的哪里溯乒?

  • 3.1.3. 來自上游的哪里夹厌?

  • 3.1.4. 平均多久執(zhí)行一次特定的轉(zhuǎn)換?

  • 3.1.5. 有多少行會(huì)受到影響裆悄?

3.2. 查詢?nèi)罩颈硗ǔH存儲(chǔ)某些天數(shù)的查詢歷史記錄矛纹,且其中所包含的信息比數(shù)據(jù)質(zhì)量計(jì)劃所需要的多得多

3.3. 一個(gè)處理數(shù)據(jù)質(zhì)量指標(biāo)查詢?nèi)罩镜慕训慕鉀Q方案需要具有前瞻性,并將所需的指標(biāo)和聚合存儲(chǔ)在一個(gè)更為永久的位置

4. 數(shù)據(jù)目錄

4.1. 數(shù)據(jù)棧中的另一個(gè)關(guān)鍵元素是數(shù)據(jù)目錄光稼,它在理解數(shù)據(jù)質(zhì)量方面起著重要的作用

  • 4.1.1. 數(shù)據(jù)目錄作為元數(shù)據(jù)清單或南,為投資者提供了評(píng)估數(shù)據(jù)可訪問性、健康狀況和位置所需的信息

  • 4.1.2. 不僅可以監(jiān)測數(shù)據(jù)钟哥,還可以與機(jī)器學(xué)習(xí)和自動(dòng)化相集成,讓數(shù)據(jù)更易于被發(fā)現(xiàn)瞎访、更具協(xié)作性腻贰,并且更符合當(dāng)前組織、行業(yè)甚至政府的相關(guān)規(guī)則

4.2. 由于數(shù)據(jù)目錄提供了有關(guān)公司數(shù)據(jù)源的單一真相來源扒秸,因此你可以很容易地利用數(shù)據(jù)目錄來管理管道中的數(shù)據(jù)

  • 4.2.1. 數(shù)據(jù)目錄可以用來存儲(chǔ)元數(shù)據(jù)播演,讓利益相關(guān)方更好地了解特定來源的沿襲,從而增強(qiáng)對(duì)數(shù)據(jù)本身的信任

  • 4.2.2. 數(shù)據(jù)目錄可以方便地記錄個(gè)人身份信息的存放位置和下游蔓延位置伴奥,以及組織中誰有權(quán)通過管道來訪問這些信息

4.3. 問題

  • 4.3.1. 應(yīng)該在哪里查找數(shù)據(jù)写烤?

  • 4.3.2. 這些數(shù)據(jù)重要嗎?

  • 4.3.3. 這些數(shù)據(jù)代表了什么拾徙?

  • 4.3.4. 這些數(shù)據(jù)的相關(guān)性和重要性如何洲炊?

  • 4.3.5. 該如何使用這些數(shù)據(jù)?

4.4. 傳統(tǒng)上使用Excel來解決數(shù)據(jù)編目問題的方式

  • 4.4.1. 自動(dòng)化能夠讓數(shù)據(jù)工程師和分析師騰出時(shí)間來專注于真正能取得進(jìn)展的項(xiàng)目

4.5. 當(dāng)前存儲(chǔ)的大部分?jǐn)?shù)據(jù)都是非結(jié)構(gòu)化且高度流動(dòng)的

  • 4.5.1. 人們?cè)絹碓叫枰鶕?jù)數(shù)據(jù)的意圖和目的來理解數(shù)據(jù)尼啡,而不是簡單地描述消費(fèi)者訪問和使用的數(shù)據(jù)

  • 4.5.2. 數(shù)據(jù)編目可以發(fā)現(xiàn)并組織恰當(dāng)?shù)脑獢?shù)據(jù)來解釋你的數(shù)據(jù)管道

4.6. 構(gòu)建數(shù)據(jù)目錄

  • 4.6.1. 在構(gòu)建或投資數(shù)據(jù)目錄之前暂衡,你需要與運(yùn)營和分析團(tuán)隊(duì)的下游利益相關(guān)方一起合作,了解哪些數(shù)據(jù)對(duì)業(yè)務(wù)最為重要崖瞭,從而需要進(jìn)行記錄和編目

  • 4.6.2. 最基本的狂巢,數(shù)據(jù)目錄是元數(shù)據(jù)集合,可提供對(duì)數(shù)據(jù)位置书聚、所有權(quán)和潛在用例的背景信息和洞察

  • 4.6.3. Sqlparse唧领、ANTLR、Apache Calcite和MySQL的SQL Parser都是流行的開源SQL解析解決方案

  • 4.6.4. GraphQL雌续、REST和Cube.js等開源查詢語言工具將允許你在數(shù)據(jù)庫中查詢SQL并將其呈現(xiàn)在編目可視化服務(wù)中

  • 4.6.5. Amundsen斩个、Apache Atlas、DataHub或CKAN

  • 4.6.6. 當(dāng)你擁有嚴(yán)格的模型時(shí)驯杜,數(shù)據(jù)目錄的效果很好萨驶,但隨著數(shù)據(jù)管道變得越來越復(fù)雜,非結(jié)構(gòu)化數(shù)據(jù)開始成為黃金標(biāo)準(zhǔn)艇肴,我們對(duì)數(shù)據(jù)的理解(數(shù)據(jù)做什么腔呜、誰在使用它叁温、如何使用它)并不能反映現(xiàn)實(shí)情況

  • 4.6.7. 下一代數(shù)據(jù)目錄將具有學(xué)習(xí)、理解和推斷數(shù)據(jù)的能力核畴,讓用戶能夠以自助式服務(wù)的方式利用其洞察力

    • 4.6.7.1. 數(shù)據(jù)目錄將支持自動(dòng)數(shù)據(jù)發(fā)現(xiàn)和主動(dòng)元數(shù)據(jù)
  • 4.6.8. 數(shù)據(jù)管理策略還必須包含數(shù)據(jù)發(fā)現(xiàn)膝但,這是一種實(shí)時(shí)了解分布式數(shù)據(jù)資產(chǎn)健康狀況的新方法

    • 4.6.8.1. 數(shù)據(jù)發(fā)現(xiàn)借鑒了Zhamak Dehghani和Thoughtworks的數(shù)據(jù)網(wǎng)格模型提出的面向領(lǐng)域的分布式架構(gòu),認(rèn)為不同的數(shù)據(jù)所有者都應(yīng)對(duì)其數(shù)據(jù)產(chǎn)品負(fù)責(zé)谤草,并推動(dòng)不同位置的分布式數(shù)據(jù)之間的通信

    • 4.6.8.2. 一旦數(shù)據(jù)被提供給某一特定領(lǐng)域并在該領(lǐng)域轉(zhuǎn)換后跟束,該領(lǐng)域數(shù)據(jù)的所有者就可以利用這些數(shù)據(jù)來滿足其自身的運(yùn)營或分析需求

  • 4.6.9. 數(shù)據(jù)發(fā)現(xiàn)取代了對(duì)數(shù)據(jù)目錄的需要,它根據(jù)一組特定消費(fèi)者如何攝取丑孩、存儲(chǔ)冀宴、聚合和使用數(shù)據(jù),提供了對(duì)特定領(lǐng)域數(shù)據(jù)的動(dòng)態(tài)解讀

    • 4.6.9.1. 數(shù)據(jù)治理的標(biāo)準(zhǔn)和工具同樣是跨領(lǐng)域聯(lián)合的温学,以支持更高的可訪問性和互操作性

    • 4.6.9.2. 數(shù)據(jù)發(fā)現(xiàn)可以實(shí)時(shí)了解數(shù)據(jù)的當(dāng)前狀態(tài)略贮,而不是其理想狀態(tài)或“編目”狀態(tài)

4.7. 以數(shù)據(jù)質(zhì)量為優(yōu)先的數(shù)據(jù)目錄

  • 4.7.1. 自助式服務(wù)的數(shù)據(jù)發(fā)現(xiàn)與自動(dòng)化

    • 4.7.1.1. 即使沒有專門的支持團(tuán)隊(duì),數(shù)據(jù)團(tuán)隊(duì)也應(yīng)該能輕松利用其數(shù)據(jù)目錄

    • 4.7.1.2. 自助式服務(wù)仗岖、自動(dòng)化和工作流編排等數(shù)據(jù)工具消除了數(shù)據(jù)管道各階段之間及其過程中產(chǎn)生的孤島逃延,讓數(shù)據(jù)變得更容易理解和訪問

    • 4.7.1.3. 更高的可訪問性自然會(huì)提高數(shù)據(jù)的采用率,從而減輕數(shù)據(jù)工程團(tuán)隊(duì)的負(fù)擔(dān)

  • 4.7.2. 隨數(shù)據(jù)演變的可擴(kuò)展性

    • 4.7.2.1. 隨著公司接收越來越多的數(shù)據(jù)且非結(jié)構(gòu)化數(shù)據(jù)開始成為常態(tài)轧拄,通過擴(kuò)展來滿足這些需求的能力對(duì)于數(shù)據(jù)計(jì)劃的成功將變得至關(guān)重要
  • 4.7.3. 用于分布式數(shù)據(jù)發(fā)現(xiàn)的數(shù)據(jù)沿襲

    • 4.7.3.1. 數(shù)據(jù)發(fā)現(xiàn)嚴(yán)重依賴自動(dòng)化表格和字段級(jí)的沿襲來映射數(shù)據(jù)資產(chǎn)之間的上下游依賴關(guān)系

    • 4.7.3.2. 數(shù)據(jù)發(fā)現(xiàn)讓數(shù)據(jù)團(tuán)隊(duì)能夠相信團(tuán)隊(duì)對(duì)數(shù)據(jù)的假設(shè)與現(xiàn)實(shí)相符揽祥,從而在不考慮領(lǐng)域的前提下,在數(shù)據(jù)基礎(chǔ)設(shè)施中實(shí)現(xiàn)動(dòng)態(tài)發(fā)現(xiàn)和高度的可靠性

    • 4.7.3.3. 你的團(tuán)隊(duì)可能已經(jīng)以某種方式在數(shù)據(jù)發(fā)現(xiàn)方面進(jìn)行了投資檩电,無論是通過團(tuán)隊(duì)為驗(yàn)證數(shù)據(jù)而正在進(jìn)行的手動(dòng)工作拄丰,還是通過工程師編寫的自定義驗(yàn)證規(guī)則,或者僅僅是基于損壞的數(shù)據(jù)或未被察覺的隱性錯(cuò)誤所做出的決策成本

4.8. 要獲得真正可發(fā)現(xiàn)的數(shù)據(jù)俐末,很重要的一點(diǎn)在于數(shù)據(jù)不僅要“編目”愈案,而且從攝取到利用這一過程要準(zhǔn)確、干凈且完全可觀測

  • 4.8.1. 要可靠

  • 4.8.2. 只有了解你的數(shù)據(jù)及其狀態(tài)鹅搪,以及在其生命周期的所有階段和跨領(lǐng)域的使用方式站绪,我們才能開始信任它

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市丽柿,隨后出現(xiàn)的幾起案子恢准,更是在濱河造成了極大的恐慌,老刑警劉巖甫题,帶你破解...
    沈念sama閱讀 219,589評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件馁筐,死亡現(xiàn)場離奇詭異,居然都是意外死亡坠非,警方通過查閱死者的電腦和手機(jī)敏沉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人盟迟,你說我怎么就攤上這事秋泳。” “怎么了攒菠?”我有些...
    開封第一講書人閱讀 165,933評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵迫皱,是天一觀的道長。 經(jīng)常有香客問我辖众,道長卓起,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,976評(píng)論 1 295
  • 正文 為了忘掉前任凹炸,我火速辦了婚禮戏阅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘啤它。我一直安慰自己奕筐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評(píng)論 6 393
  • 文/花漫 我一把揭開白布蚕键。 她就那樣靜靜地躺著救欧,像睡著了一般衰粹。 火紅的嫁衣襯著肌膚如雪锣光。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,775評(píng)論 1 307
  • 那天铝耻,我揣著相機(jī)與錄音誊爹,去河邊找鬼。 笑死瓢捉,一個(gè)胖子當(dāng)著我的面吹牛频丘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播泡态,決...
    沈念sama閱讀 40,474評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼搂漠,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了某弦?” 一聲冷哼從身側(cè)響起桐汤,我...
    開封第一講書人閱讀 39,359評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎靶壮,沒想到半個(gè)月后怔毛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,854評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡腾降,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評(píng)論 3 338
  • 正文 我和宋清朗相戀三年拣度,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,146評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡抗果,死狀恐怖筋帖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情窖张,我是刑警寧澤幕随,帶...
    沈念sama閱讀 35,826評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站宿接,受9級(jí)特大地震影響赘淮,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜睦霎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評(píng)論 3 331
  • 文/蒙蒙 一梢卸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧副女,春花似錦蛤高、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至沟涨,卻和暖如春恤批,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背裹赴。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評(píng)論 1 272
  • 我被黑心中介騙來泰國打工喜庞, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人棋返。 一個(gè)月前我還...
    沈念sama閱讀 48,420評(píng)論 3 373
  • 正文 我出身青樓延都,卻偏偏與公主長得像,于是被迫代替她去往敵國和親睛竣。 傳聞我的和親對(duì)象是個(gè)殘疾皇子晰房,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評(píng)論 2 356

推薦閱讀更多精彩內(nèi)容