1. 同步數(shù)據(jù)
1.1. 不同的數(shù)據(jù)倉庫和數(shù)據(jù)湖通過數(shù)據(jù)集成層來進(jìn)行橋接
1.2. AWS Glue哄辣、Fivetran和Matillion等數(shù)據(jù)集成工具從不同來源收集數(shù)據(jù)动知,統(tǒng)一這些數(shù)據(jù)迄损,并將其轉(zhuǎn)換為上游來源
1.3. 數(shù)據(jù)集成的一個(gè)典型用例是收集數(shù)據(jù)湖的數(shù)據(jù)并以結(jié)構(gòu)化格式將其加載到數(shù)據(jù)倉庫中
1.4. ETL是數(shù)據(jù)集成中一個(gè)眾所周知的過程
- 1.4.1. ETL通常描述集成的步驟,其中首先從一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)庫中提取數(shù)據(jù)宽气,轉(zhuǎn)換為新的結(jié)構(gòu)或格式佩憾,最后加載到目標(biāo)數(shù)據(jù)存儲(chǔ)庫中
2. 收集數(shù)據(jù)質(zhì)量指標(biāo)
2.1. 你無法修復(fù)你無法測量的東西
- 2.1.1. 如果沒有數(shù)據(jù)質(zhì)量指標(biāo),你就無法獲得數(shù)據(jù)質(zhì)量
2.2. 數(shù)據(jù)宕機(jī)的時(shí)間(也就是你的數(shù)據(jù)不完整枉昏、有錯(cuò)誤陈肛、出現(xiàn)缺失或者其他不準(zhǔn)確的時(shí)間段)來度量數(shù)據(jù)質(zhì)量
- 2.2.1. 公司會(huì)仔細(xì)度量宕機(jī)時(shí)間,并投入大量資源來避免發(fā)生服務(wù)中斷的情況
2.3. 問題列表
2.3.1. 數(shù)據(jù)是最新的嗎兄裂?
2.3.2. 數(shù)據(jù)是完整的嗎句旱?
2.3.3. 字段是否在預(yù)期的范圍內(nèi)?
2.3.4. 空值率是否高于或低于應(yīng)有的水平晰奖?
2.3.5. 模式是否已經(jīng)更改谈撒?
2.4. 可擴(kuò)展性
- 2.4.1. 跟蹤大量的表和大數(shù)據(jù)集可能會(huì)非常棘手
2.5. 監(jiān)控棧的其他部分
- 2.5.1. 構(gòu)建真正可靠的數(shù)據(jù)管道并實(shí)現(xiàn)數(shù)據(jù)可觀測性需要的遠(yuǎn)不只是收集指標(biāo)這么簡單
2.6. Snowflake
2.6.1. Snowflake是最流行的云數(shù)據(jù)倉庫工具之一,其設(shè)計(jì)從一開始就優(yōu)先考慮了數(shù)據(jù)質(zhì)量和數(shù)據(jù)完整性
2.6.2. 映射清單
-
2.6.3. 監(jiān)控?cái)?shù)據(jù)的新鮮度和容量
- 2.6.3.1. 度量視圖的新鮮度和容量并不簡單匾南,因?yàn)檫@是底層查詢指令中包含的表的函數(shù)
-
2.6.4. 建立你的查詢歷史記錄
- 2.6.4.1. 擁有在Snowflake環(huán)境中運(yùn)行的所有查詢的可靠歷史記錄是解決問題時(shí)非常有用的工具啃匿,它可以讓你準(zhǔn)確了解最近一次寫入表的方式和時(shí)間
2.6.5. 健康檢查
2.7. 數(shù)據(jù)倉庫最重要的功能之一就是能夠直接從其中提取數(shù)據(jù)質(zhì)量指標(biāo)并將其可視化以便進(jìn)行簡單的分析
2.8. 為跟蹤數(shù)據(jù)質(zhì)量指標(biāo)而提取的信息需要隨時(shí)能夠提供給團(tuán)隊(duì)中的其他成員使用,特別是當(dāng)事情發(fā)生變化或你正處于對(duì)數(shù)據(jù)管道進(jìn)行根因分析的痛苦之中時(shí)
3. 查詢?nèi)罩?/h1>
3.1. 問題
3.1.1. 誰在訪問這些數(shù)據(jù)?
3.1.2. 來自上游的哪里溯乒?
3.1.3. 來自上游的哪里夹厌?
3.1.4. 平均多久執(zhí)行一次特定的轉(zhuǎn)換?
3.1.5. 有多少行會(huì)受到影響裆悄?
3.2. 查詢?nèi)罩颈硗ǔH存儲(chǔ)某些天數(shù)的查詢歷史記錄矛纹,且其中所包含的信息比數(shù)據(jù)質(zhì)量計(jì)劃所需要的多得多
3.3. 一個(gè)處理數(shù)據(jù)質(zhì)量指標(biāo)查詢?nèi)罩镜慕训慕鉀Q方案需要具有前瞻性,并將所需的指標(biāo)和聚合存儲(chǔ)在一個(gè)更為永久的位置
4. 數(shù)據(jù)目錄
4.1. 數(shù)據(jù)棧中的另一個(gè)關(guān)鍵元素是數(shù)據(jù)目錄光稼,它在理解數(shù)據(jù)質(zhì)量方面起著重要的作用
4.1.1. 數(shù)據(jù)目錄作為元數(shù)據(jù)清單或南,為投資者提供了評(píng)估數(shù)據(jù)可訪問性、健康狀況和位置所需的信息
4.1.2. 不僅可以監(jiān)測數(shù)據(jù)钟哥,還可以與機(jī)器學(xué)習(xí)和自動(dòng)化相集成,讓數(shù)據(jù)更易于被發(fā)現(xiàn)瞎访、更具協(xié)作性腻贰,并且更符合當(dāng)前組織、行業(yè)甚至政府的相關(guān)規(guī)則
4.2. 由于數(shù)據(jù)目錄提供了有關(guān)公司數(shù)據(jù)源的單一真相來源扒秸,因此你可以很容易地利用數(shù)據(jù)目錄來管理管道中的數(shù)據(jù)
4.2.1. 數(shù)據(jù)目錄可以用來存儲(chǔ)元數(shù)據(jù)播演,讓利益相關(guān)方更好地了解特定來源的沿襲,從而增強(qiáng)對(duì)數(shù)據(jù)本身的信任
4.2.2. 數(shù)據(jù)目錄可以方便地記錄個(gè)人身份信息的存放位置和下游蔓延位置伴奥,以及組織中誰有權(quán)通過管道來訪問這些信息
4.3. 問題
4.3.1. 應(yīng)該在哪里查找數(shù)據(jù)写烤?
4.3.2. 這些數(shù)據(jù)重要嗎?
4.3.3. 這些數(shù)據(jù)代表了什么拾徙?
4.3.4. 這些數(shù)據(jù)的相關(guān)性和重要性如何洲炊?
4.3.5. 該如何使用這些數(shù)據(jù)?
4.4. 傳統(tǒng)上使用Excel來解決數(shù)據(jù)編目問題的方式
- 4.4.1. 自動(dòng)化能夠讓數(shù)據(jù)工程師和分析師騰出時(shí)間來專注于真正能取得進(jìn)展的項(xiàng)目
4.5. 當(dāng)前存儲(chǔ)的大部分?jǐn)?shù)據(jù)都是非結(jié)構(gòu)化且高度流動(dòng)的
4.5.1. 人們?cè)絹碓叫枰鶕?jù)數(shù)據(jù)的意圖和目的來理解數(shù)據(jù)尼啡,而不是簡單地描述消費(fèi)者訪問和使用的數(shù)據(jù)
4.5.2. 數(shù)據(jù)編目可以發(fā)現(xiàn)并組織恰當(dāng)?shù)脑獢?shù)據(jù)來解釋你的數(shù)據(jù)管道
4.6. 構(gòu)建數(shù)據(jù)目錄
4.6.1. 在構(gòu)建或投資數(shù)據(jù)目錄之前暂衡,你需要與運(yùn)營和分析團(tuán)隊(duì)的下游利益相關(guān)方一起合作,了解哪些數(shù)據(jù)對(duì)業(yè)務(wù)最為重要崖瞭,從而需要進(jìn)行記錄和編目
4.6.2. 最基本的狂巢,數(shù)據(jù)目錄是元數(shù)據(jù)集合,可提供對(duì)數(shù)據(jù)位置书聚、所有權(quán)和潛在用例的背景信息和洞察
4.6.3. Sqlparse唧领、ANTLR、Apache Calcite和MySQL的SQL Parser都是流行的開源SQL解析解決方案
4.6.4. GraphQL雌续、REST和Cube.js等開源查詢語言工具將允許你在數(shù)據(jù)庫中查詢SQL并將其呈現(xiàn)在編目可視化服務(wù)中
4.6.5. Amundsen斩个、Apache Atlas、DataHub或CKAN
4.6.6. 當(dāng)你擁有嚴(yán)格的模型時(shí)驯杜,數(shù)據(jù)目錄的效果很好萨驶,但隨著數(shù)據(jù)管道變得越來越復(fù)雜,非結(jié)構(gòu)化數(shù)據(jù)開始成為黃金標(biāo)準(zhǔn)艇肴,我們對(duì)數(shù)據(jù)的理解(數(shù)據(jù)做什么腔呜、誰在使用它叁温、如何使用它)并不能反映現(xiàn)實(shí)情況
-
4.6.7. 下一代數(shù)據(jù)目錄將具有學(xué)習(xí)、理解和推斷數(shù)據(jù)的能力核畴,讓用戶能夠以自助式服務(wù)的方式利用其洞察力
- 4.6.7.1. 數(shù)據(jù)目錄將支持自動(dòng)數(shù)據(jù)發(fā)現(xiàn)和主動(dòng)元數(shù)據(jù)
-
4.6.8. 數(shù)據(jù)管理策略還必須包含數(shù)據(jù)發(fā)現(xiàn)膝但,這是一種實(shí)時(shí)了解分布式數(shù)據(jù)資產(chǎn)健康狀況的新方法
4.6.8.1. 數(shù)據(jù)發(fā)現(xiàn)借鑒了Zhamak Dehghani和Thoughtworks的數(shù)據(jù)網(wǎng)格模型提出的面向領(lǐng)域的分布式架構(gòu),認(rèn)為不同的數(shù)據(jù)所有者都應(yīng)對(duì)其數(shù)據(jù)產(chǎn)品負(fù)責(zé)谤草,并推動(dòng)不同位置的分布式數(shù)據(jù)之間的通信
4.6.8.2. 一旦數(shù)據(jù)被提供給某一特定領(lǐng)域并在該領(lǐng)域轉(zhuǎn)換后跟束,該領(lǐng)域數(shù)據(jù)的所有者就可以利用這些數(shù)據(jù)來滿足其自身的運(yùn)營或分析需求
-
4.6.9. 數(shù)據(jù)發(fā)現(xiàn)取代了對(duì)數(shù)據(jù)目錄的需要,它根據(jù)一組特定消費(fèi)者如何攝取丑孩、存儲(chǔ)冀宴、聚合和使用數(shù)據(jù),提供了對(duì)特定領(lǐng)域數(shù)據(jù)的動(dòng)態(tài)解讀
4.6.9.1. 數(shù)據(jù)治理的標(biāo)準(zhǔn)和工具同樣是跨領(lǐng)域聯(lián)合的温学,以支持更高的可訪問性和互操作性
4.6.9.2. 數(shù)據(jù)發(fā)現(xiàn)可以實(shí)時(shí)了解數(shù)據(jù)的當(dāng)前狀態(tài)略贮,而不是其理想狀態(tài)或“編目”狀態(tài)
4.7. 以數(shù)據(jù)質(zhì)量為優(yōu)先的數(shù)據(jù)目錄
-
4.7.1. 自助式服務(wù)的數(shù)據(jù)發(fā)現(xiàn)與自動(dòng)化
4.7.1.1. 即使沒有專門的支持團(tuán)隊(duì),數(shù)據(jù)團(tuán)隊(duì)也應(yīng)該能輕松利用其數(shù)據(jù)目錄
4.7.1.2. 自助式服務(wù)仗岖、自動(dòng)化和工作流編排等數(shù)據(jù)工具消除了數(shù)據(jù)管道各階段之間及其過程中產(chǎn)生的孤島逃延,讓數(shù)據(jù)變得更容易理解和訪問
4.7.1.3. 更高的可訪問性自然會(huì)提高數(shù)據(jù)的采用率,從而減輕數(shù)據(jù)工程團(tuán)隊(duì)的負(fù)擔(dān)
-
4.7.2. 隨數(shù)據(jù)演變的可擴(kuò)展性
- 4.7.2.1. 隨著公司接收越來越多的數(shù)據(jù)且非結(jié)構(gòu)化數(shù)據(jù)開始成為常態(tài)轧拄,通過擴(kuò)展來滿足這些需求的能力對(duì)于數(shù)據(jù)計(jì)劃的成功將變得至關(guān)重要
-
4.7.3. 用于分布式數(shù)據(jù)發(fā)現(xiàn)的數(shù)據(jù)沿襲
4.7.3.1. 數(shù)據(jù)發(fā)現(xiàn)嚴(yán)重依賴自動(dòng)化表格和字段級(jí)的沿襲來映射數(shù)據(jù)資產(chǎn)之間的上下游依賴關(guān)系
4.7.3.2. 數(shù)據(jù)發(fā)現(xiàn)讓數(shù)據(jù)團(tuán)隊(duì)能夠相信團(tuán)隊(duì)對(duì)數(shù)據(jù)的假設(shè)與現(xiàn)實(shí)相符揽祥,從而在不考慮領(lǐng)域的前提下,在數(shù)據(jù)基礎(chǔ)設(shè)施中實(shí)現(xiàn)動(dòng)態(tài)發(fā)現(xiàn)和高度的可靠性
4.7.3.3. 你的團(tuán)隊(duì)可能已經(jīng)以某種方式在數(shù)據(jù)發(fā)現(xiàn)方面進(jìn)行了投資檩电,無論是通過團(tuán)隊(duì)為驗(yàn)證數(shù)據(jù)而正在進(jìn)行的手動(dòng)工作拄丰,還是通過工程師編寫的自定義驗(yàn)證規(guī)則,或者僅僅是基于損壞的數(shù)據(jù)或未被察覺的隱性錯(cuò)誤所做出的決策成本
4.8. 要獲得真正可發(fā)現(xiàn)的數(shù)據(jù)俐末,很重要的一點(diǎn)在于數(shù)據(jù)不僅要“編目”愈案,而且從攝取到利用這一過程要準(zhǔn)確、干凈且完全可觀測
4.8.1. 要可靠
4.8.2. 只有了解你的數(shù)據(jù)及其狀態(tài)鹅搪,以及在其生命周期的所有階段和跨領(lǐng)域的使用方式站绪,我們才能開始信任它