數(shù)據(jù)倉(cāng)庫(kù)—數(shù)據(jù)治理

數(shù)據(jù)倉(cāng)庫(kù)系列文章(部分已出僧须,持續(xù)更新)

  1. 數(shù)倉(cāng)架構(gòu)發(fā)展史
  2. 數(shù)倉(cāng)建模方法論
  3. 數(shù)倉(cāng)建模分層理論
  4. 數(shù)倉(cāng)建南跖。—寬表的設(shè)計(jì)
  5. 數(shù)倉(cāng)建亩淳停—指標(biāo)體系
  6. 數(shù)據(jù)倉(cāng)庫(kù)之拉鏈表
  7. 數(shù)倉(cāng)—數(shù)據(jù)集成
  8. 數(shù)倉(cāng)—數(shù)據(jù)集市
  9. 數(shù)倉(cāng)—商業(yè)智能系統(tǒng)
  10. 數(shù)倉(cāng)—埋點(diǎn)設(shè)計(jì)與管理
  11. 數(shù)倉(cāng)—ID Mapping
  12. 數(shù)倉(cāng)—OneID
  13. 數(shù)倉(cāng)—AARRR海盜模型
  14. 數(shù)倉(cāng)—總線矩陣
  15. 數(shù)倉(cāng)—數(shù)據(jù)安全
  16. 數(shù)倉(cāng)—數(shù)據(jù)質(zhì)量
  17. 數(shù)倉(cāng)—數(shù)倉(cāng)建模和業(yè)務(wù)建模

數(shù)據(jù)治理

  • 元數(shù)據(jù)管理
  • 數(shù)據(jù)質(zhì)量
  • 數(shù)據(jù)模型
  • 安全管理
  • 主數(shù)據(jù)管理
  • 數(shù)據(jù)生命周期

數(shù)據(jù)治理(Data Governance),是一套持續(xù)改善管理機(jī)制功蜓,通常包括了數(shù)據(jù)架構(gòu)組織、數(shù)據(jù)模型冷溃、政策及體系制定、技術(shù)工具梦裂、數(shù)據(jù)標(biāo)準(zhǔn)似枕、數(shù)據(jù)質(zhì)量、影響度分析年柠、作業(yè)流程凿歼、監(jiān)督及考核流程等內(nèi)容。

統(tǒng)一流程參考模型

image-20201205183104040

為什么要治理

image-20201205183119801
  • 不論是金融行業(yè)冗恨、通訊行業(yè)答憔、地產(chǎn)行業(yè)、傳統(tǒng)制造業(yè)以及農(nóng)業(yè)掀抹,其信息化的發(fā)展基本都遵循了“諾蘭模型”虐拓。筆者認(rèn)為企業(yè)信息化大致經(jīng)歷了初期的煙囪式系統(tǒng)建設(shè)、中期的集成式系統(tǒng)建設(shè)和后期的數(shù)據(jù)管理式系統(tǒng)建設(shè)三個(gè)大的階段傲武,可以說(shuō)是一個(gè)先建設(shè)后治理的過(guò)程蓉驹。

數(shù)據(jù)質(zhì)量層次不齊

  • “數(shù)據(jù)資產(chǎn)化”的概念已經(jīng)被大多數(shù)人理解和接受。不論是企業(yè)揪利、政府還是其他組織機(jī)構(gòu)态兴,對(duì)于的數(shù)據(jù)資產(chǎn)的管理越來(lái)越重視。然而疟位,數(shù)據(jù)并不等于資產(chǎn)瞻润,也就是說(shuō)不是所有數(shù)據(jù)都是數(shù)據(jù)資產(chǎn),數(shù)據(jù)中也有垃圾數(shù)據(jù)甜刻。我們需要治理的是能夠?yàn)槠髽I(yè)創(chuàng)造價(jià)值的數(shù)據(jù)資產(chǎn)敢订,而不是全部數(shù)據(jù)。

數(shù)據(jù)交換和共享困難

  • 企業(yè)信息化建設(shè)初期缺乏整體的信息化規(guī)劃罢吃,系統(tǒng)建設(shè)大多都是以業(yè)務(wù)部門(mén)驅(qū)動(dòng)的單體架構(gòu)系統(tǒng)或套裝軟件楚午,數(shù)據(jù)分散在這些架構(gòu)不統(tǒng)一、開(kāi)發(fā)語(yǔ)言不一致尿招、數(shù)據(jù)庫(kù)多樣化的系統(tǒng)中矾柜,甚至還有大量的數(shù)據(jù)存放在員工的個(gè)人電腦中,導(dǎo)致在企業(yè)內(nèi)部形成了一個(gè)個(gè)的“信息孤島”就谜。
  • 這些“孤島”之間缺乏有效的連接通道怪蔑,數(shù)據(jù)不能互聯(lián)互通,不能按照用戶的指令進(jìn)行有意義的交流丧荐,數(shù)據(jù)的價(jià)值不能充分發(fā)揮缆瓣。只有聯(lián)通數(shù)據(jù),消除這些“信息孤島”虹统,才能實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)弓坞、數(shù)據(jù)驅(qū)動(dòng)管理隧甚,才能真正釋放數(shù)據(jù)價(jià)值

打通各個(gè)業(yè)務(wù)線之間的數(shù)據(jù)建設(shè)渡冻,很多公司都是統(tǒng)一建設(shè)

缺乏有效的管理機(jī)制

  • 許多企業(yè)都認(rèn)識(shí)到了數(shù)據(jù)的重要性戚扳,并嘗試通過(guò)生產(chǎn)系統(tǒng)的業(yè)務(wù)流來(lái)控制數(shù)據(jù)流,但由于缺乏有效的管理機(jī)制和某些人為的因素族吻,在數(shù)據(jù)流轉(zhuǎn)過(guò)程中帽借,存在數(shù)據(jù)維護(hù)錯(cuò)誤、數(shù)據(jù)重復(fù)超歌、數(shù)據(jù)不一致砍艾、數(shù)據(jù)不完整的情況,導(dǎo)致了產(chǎn)生了大量的垃圾數(shù)據(jù)巍举。數(shù)據(jù)產(chǎn)權(quán)不明確辐董,管理職責(zé)混亂,管理和使用流程不清晰禀综,是造成數(shù)據(jù)質(zhì)量問(wèn)題的重要因素。

存在數(shù)據(jù)安全隱患

  • 近年來(lái)苔严,隨著大數(shù)據(jù)的發(fā)展定枷,諸如此類的數(shù)據(jù)安全事件多不勝數(shù)。數(shù)據(jù)資產(chǎn)管理上届氢,正在由傳統(tǒng)分散式的人工管理向計(jì)算機(jī)集中化管理方向發(fā)展欠窒,數(shù)據(jù)的安全問(wèn)題愈來(lái)愈受到人們的關(guān)注。

發(fā)現(xiàn)問(wèn)題嚴(yán)重滯后

影響不清晰

  • 數(shù)據(jù)變更對(duì)下游的影響不清晰退子,無(wú)法確認(rèn)影響范圍

DMBOK的數(shù)據(jù)治理框架

  • DMBOK是由數(shù)據(jù)管理協(xié)會(huì)(DAMA)編撰的關(guān)于數(shù)據(jù)管理的專業(yè)書(shū)籍岖妄,一本DAMA 數(shù)據(jù)管理辭典。對(duì)于企業(yè)數(shù)據(jù)治理體系的建設(shè)有一定的指導(dǎo)性

注:DAMA 是數(shù)據(jù)管理協(xié)會(huì)的簡(jiǎn)稱寂祥,是一個(gè)全球性數(shù)據(jù)管理和業(yè)務(wù)專業(yè)志愿人士組成的非營(yíng)利協(xié)會(huì)荐虐,致力于數(shù)據(jù)管理的研究和實(shí)踐。

image-20201205183235954

數(shù)據(jù)控制:在數(shù)據(jù)管理和使用層面之上進(jìn)行規(guī)劃丸凭、監(jiān)督和控制福扬。

數(shù)據(jù)架構(gòu)管理:定義數(shù)據(jù)資產(chǎn)管理藍(lán)圖。

數(shù)據(jù)開(kāi)發(fā):數(shù)據(jù)的分析惜犀、設(shè)計(jì)铛碑、實(shí)施、測(cè)試虽界、部署汽烦、維護(hù)等工作。

數(shù)據(jù)操作管理:提供從數(shù)據(jù)獲取到清除的技術(shù)支持莉御。

數(shù)據(jù)安全管理:確保隱私撇吞、保密性和適當(dāng)?shù)脑L問(wèn)權(quán)限等俗冻。

數(shù)據(jù)質(zhì)量管理:定義、監(jiān)測(cè)和提高數(shù)據(jù)質(zhì)量梢夯。

參考數(shù)據(jù)和主數(shù)據(jù)管理:管理數(shù)據(jù)的黃金版本和副本言疗。

數(shù)據(jù)倉(cāng)庫(kù)和商務(wù)智能管理:實(shí)現(xiàn)報(bào)告和分析。

文件和內(nèi)容管理:管理數(shù)據(jù)庫(kù)以外的數(shù)據(jù)

元數(shù)據(jù)管理:元數(shù)據(jù)的整合颂砸、控制以及提供元數(shù)據(jù)噪奄。

數(shù)倉(cāng)治理

  • 節(jié)約機(jī)器資源(存在很多廢棄的邏輯和表,占用了大量的存儲(chǔ)資源和計(jì)算資源)
  • 節(jié)約人力資源(降低了開(kāi)發(fā)和維護(hù)的成本)
  • 數(shù)據(jù)資產(chǎn)沉淀

這個(gè)是一個(gè)長(zhǎng)期的工作人乓,類似于代碼重構(gòu)

治理的分類

粗治理

  • 臨時(shí)表的處理
  • 無(wú)訪問(wèn)信息的表(統(tǒng)一管理元數(shù)據(jù)和adhoc 以及調(diào)度)
  • 無(wú)下游依賴的表(得有調(diào)度系統(tǒng))

細(xì)治理

專項(xiàng)性質(zhì)的治理方案勤篮,主要針對(duì)有人負(fù)責(zé)的項(xiàng)目

  • 運(yùn)行時(shí)間長(zhǎng)的任務(wù)
  • 存儲(chǔ)空間空間過(guò)大的表

數(shù)據(jù)源治理

  • 據(jù)源,顧名思義就是數(shù)據(jù)的來(lái)源色罚,互聯(lián)網(wǎng)公司的數(shù)據(jù)來(lái)源隨著公司的規(guī)模擴(kuò)張而呈遞增趨勢(shì)碰缔,同時(shí)自不同的業(yè)務(wù)源,比如埋點(diǎn)采集戳护,客戶上報(bào)等金抡。

數(shù)據(jù)源管理

  • 配置了大量的重復(fù)數(shù)據(jù)源

數(shù)據(jù)源監(jiān)控

  • 可以監(jiān)控?cái)?shù)據(jù)量和數(shù)據(jù)質(zhì)量

數(shù)據(jù)同步

  • 數(shù)據(jù)同步是指不同數(shù)據(jù)存儲(chǔ)系統(tǒng)之間要進(jìn)行數(shù)據(jù)遷移,比如在hdfs上腌且,大多業(yè)務(wù)和應(yīng)用因?yàn)樾实脑虿豢梢灾苯訌腍DFS上獲取數(shù)據(jù)梗肝,因此需要將hdfs上匯總后的數(shù)據(jù)同步至其他的存儲(chǔ)系統(tǒng),比如mysql
  • sqoop可以做到這一點(diǎn)铺董,但是Sqoop太過(guò)繁重巫击,而且不管數(shù)據(jù)量大小,都需要啟動(dòng)MapReduce來(lái)執(zhí)行精续,而且需要Hadoop集群的每臺(tái)機(jī)器都能訪問(wèn)業(yè)務(wù)數(shù)據(jù)庫(kù)坝锰;阿里開(kāi)源的dataX是一個(gè)很好的解決方案。

數(shù)倉(cāng)模型治理

數(shù)據(jù)劃分及命名空間約定

表的命名就涉及到數(shù)據(jù)域的劃分重付,因?yàn)楸淼拿枰獙?shù)據(jù)域囊括進(jìn)去

  • 根據(jù)業(yè)務(wù)劃分?jǐn)?shù)據(jù)并約定命名顷级,建議針對(duì)業(yè)務(wù)名稱結(jié)合數(shù)據(jù)層次約定相關(guān)命名的英文縮寫(xiě),這樣可以給后續(xù)數(shù)據(jù)開(kāi)發(fā)過(guò)程中确垫,對(duì)項(xiàng)目空間愕把、表、字段等命名做為重要參照森爽。
  • 按業(yè)務(wù)劃分:命名時(shí)按主要的業(yè)務(wù)劃分恨豁,以指導(dǎo)物理模型的劃分原則、命名原則及使用的ODS project爬迟。例如橘蜜,按業(yè)務(wù)定義英文縮寫(xiě),阿里的“淘寶”英文縮寫(xiě)可以定義為“tb”。
  • 按數(shù)據(jù)域劃分:命名時(shí)按照CDM層的數(shù)據(jù)進(jìn)行數(shù)據(jù)域劃分计福,以便有效地對(duì)數(shù)據(jù)進(jìn)行管理跌捆,以及指導(dǎo)數(shù)據(jù)表的命名。例如象颖,“交易”數(shù)據(jù)的英文縮寫(xiě)可定義為“trd”佩厚。
    -** 按業(yè)務(wù)過(guò)程劃分**:當(dāng)一個(gè)數(shù)據(jù)域由多個(gè)業(yè)務(wù)過(guò)程組成時(shí),命名時(shí)可以按業(yè)務(wù)流程劃分说订。業(yè)務(wù)過(guò)程是從數(shù)據(jù)分析角度看客觀存在的或者抽象的業(yè)務(wù)行為動(dòng)作抄瓦。例如,交易數(shù)據(jù)域中的“退款”這個(gè)業(yè)務(wù)過(guò)程的英文縮寫(xiě)可約定命名為“rfd_ent”陶冷。
  • 表命名規(guī)范需清晰钙姊、一致,表命名需易于下游的理解和使用
  • 下線表的統(tǒng)一命名
常規(guī)表的命名
  • 分層前綴[dwd|dws|ads|bi]業(yè)務(wù)域主題域XXX粒度
  • 業(yè)務(wù)域埂伦、主題域我們都可以用詞根的方式枚舉清楚煞额,不斷完善,粒度也是同樣的沾谜,主要的是時(shí)間粒度膊毁、日、月基跑、年婚温、周等,使用詞根定義好簡(jiǎn)稱涩僻。
中間表
  • 中間表一般出現(xiàn)在Job中,是Job中臨時(shí)存儲(chǔ)的中間數(shù)據(jù)的表栈顷,中間表的作用域只限于當(dāng)前Job執(zhí)行過(guò)程中逆日,Job一旦執(zhí)行完成,該中間表的使命就完成了萄凤,是可以刪除的(按照自己公司的場(chǎng)景自由選擇室抽,以前公司會(huì)保留幾天的中間表數(shù)據(jù),用來(lái)排查問(wèn)題)靡努。

統(tǒng)一指標(biāo)和字段命名

  • 相同的字段在不同表中的字段名必須相同坪圾。
  • 核心指標(biāo)要進(jìn)行邏輯收口以及在元數(shù)據(jù)上進(jìn)行維護(hù)

公共處理邏輯下沉及單一

  • 底層公用的處理邏輯應(yīng)該在數(shù)據(jù)調(diào)度依賴的底層進(jìn)行封裝與實(shí)現(xiàn),不要讓公用的處理邏輯暴露給應(yīng)用層實(shí)現(xiàn)惑朦,不要讓公共邏輯在多處同時(shí)存在兽泄。

核心模型與擴(kuò)展模型分離

  • 建立核心模型與擴(kuò)展模型體系,核心模型包括的字段支持常用核心的業(yè)務(wù)漾月,擴(kuò)展模型包括的字段支持個(gè)性化或是少量應(yīng)用的需要病梢。在必須讓核心模型與擴(kuò)展模型做關(guān)聯(lián)時(shí),不能讓擴(kuò)展字段過(guò)度侵入核心模型,以免破壞了核心模型的架構(gòu)簡(jiǎn)潔性與可維護(hù)性蜓陌。

層次調(diào)用約定

  • 應(yīng)用層應(yīng)優(yōu)先調(diào)用公共層數(shù)據(jù)觅彰,必須存在中間層數(shù)據(jù),不允許應(yīng)用層跨過(guò)中間層從ODS層重復(fù)加工數(shù)據(jù)钮热。
  • 一方面填抬,中間層團(tuán)隊(duì)?wèi)?yīng)該積極了解應(yīng)用層數(shù)據(jù)的建設(shè)需求,將公用的數(shù)據(jù)沉淀到公共層隧期,為其他團(tuán)隊(duì)提供數(shù)據(jù)服務(wù)
  • 另一方面飒责,應(yīng)用層團(tuán)隊(duì)也應(yīng)積極配合中間層團(tuán)隊(duì)進(jìn)行持續(xù)的數(shù)據(jù)公共建設(shè)的改造。必須避免出現(xiàn)過(guò)度的引用ODS層厌秒、不合理的數(shù)據(jù)復(fù)制以及子集合冗余读拆。

垃圾的數(shù)倉(cāng)就會(huì)出現(xiàn)大量的跨層調(diào)用,所以可以通過(guò)跨層調(diào)用ods 表率來(lái)衡量數(shù)倉(cāng)的建設(shè)

組合原則

  • 將維度所描述業(yè)務(wù)相關(guān)性強(qiáng)的字段在一個(gè)物理維表實(shí)現(xiàn)鸵闪。

相關(guān)性強(qiáng)是指經(jīng)常需要一起查詢或進(jìn)行報(bào)表展現(xiàn)檐晕、兩個(gè)維度屬性間是否存在天然的關(guān)系等。例如蚌讼,商品基本屬性和所屬品牌辟灰。

數(shù)據(jù)拆分

  • 對(duì)于維度屬性過(guò)多,涉及源較多的維度表(例如會(huì)員表)篡石,可以做適當(dāng)拆分

數(shù)據(jù)的水平和垂直拆分是按照訪問(wèn)熱度分布和數(shù)據(jù)表非空數(shù)據(jù)值芥喇、零數(shù)據(jù)值在行列二維空間上分布情況進(jìn)行劃分的。

核心表
  • 拆分為核心表和擴(kuò)展表凰萨。核心表相對(duì)字段較少继控,刷新產(chǎn)出時(shí)間較早,優(yōu)先使用胖眷。擴(kuò)展表字段較多橄抹,且可以冗余核心表部分字段唆途,刷新產(chǎn)出時(shí)間較晚,適合數(shù)據(jù)分析人員使用。

數(shù)據(jù)冗余

  • 數(shù)據(jù)記錄數(shù)較大的維度表(例如商品表)参淫,可以適當(dāng)冗余一些子集合拔第,以減少下游掃描數(shù)據(jù)量

sql 規(guī)范

任務(wù)注釋
  • name: 任務(wù)名和表名保持一致
  • description:任務(wù)描述义矛,該任務(wù)的主要內(nèi)容
  • target:目標(biāo)表名咆槽,一般一個(gè)任務(wù)只輸出一個(gè)目標(biāo)表
  • author:創(chuàng)建者,和創(chuàng)建日期劳淆,
  • modify:內(nèi)容變更記錄链沼,變更人,變更日期沛鸵,變更原因 忆植,這個(gè)從版本控制中也可以找到,但是這些這里更直觀一些。
sql 模板
  • sql 的寫(xiě)法朝刊,sql 結(jié)構(gòu)

數(shù)據(jù)服務(wù)治理

報(bào)表治理

接口治理

上下游約定

  • 由于數(shù)倉(cāng)的特性和定位耀里,它就需要強(qiáng)依賴上游的業(yè)務(wù)系統(tǒng),當(dāng)然也會(huì)有一些下游系統(tǒng)拾氓,所以定好上下游的規(guī)范冯挎,變更的通知機(jī)制是非常有必要的。

上游約定

  • 對(duì)于數(shù)倉(cāng)來(lái)說(shuō)咙鞍,最重要的就是數(shù)據(jù)了房官,數(shù)倉(cāng)中的數(shù)據(jù),主要來(lái)源是業(yè)務(wù)系統(tǒng)续滋,就是公司各種業(yè)務(wù)數(shù)據(jù)翰守,所以數(shù)倉(cāng)需要不斷的將業(yè)務(wù)系統(tǒng)數(shù)據(jù)同步到自身平臺(tái)來(lái),所以一旦上游業(yè)務(wù)系統(tǒng)發(fā)生變化疲酌,數(shù)倉(cāng)也要同步變化蜡峰,不然,這種同步操作很可能失敗朗恳。
表結(jié)構(gòu)變更
  • 上游的表結(jié)構(gòu)經(jīng)常會(huì)發(fā)生變化湿颅,新增字段、修改字段粥诫、刪除字段(除非真的不用這個(gè)字段了油航,通常會(huì)選擇標(biāo)識(shí)為棄用)。
  • 表結(jié)構(gòu)最好要維護(hù)清楚怀浆,表名谊囚、字段名、字段類型执赡、字段描述镰踏,都整理清楚,不使用的字段要么刪除搀玖,要么備注好余境,當(dāng)業(yè)務(wù)頻繁發(fā)生變化或者迭代優(yōu)化的時(shí)候驻呐,很容易出現(xiàn)灌诅,我寫(xiě)了半天的代碼,最后發(fā)現(xiàn)表用的不對(duì)含末,字段用的不對(duì)猜拾,這就尷尬了。
  • 對(duì)于這種變化佣盒,人工處理的話挎袜,就是手動(dòng)在數(shù)倉(cāng)對(duì)應(yīng)的表中增加、修改字段,然后修改同步任務(wù)盯仪;這個(gè)最好可以搞成自動(dòng)化的紊搪,比如,自動(dòng)監(jiān)控上游表結(jié)構(gòu)的變更全景,變化后耀石,自動(dòng)去修改數(shù)倉(cāng)中的表結(jié)構(gòu),自動(dòng)修改同步任務(wù)爸黄。
枚舉值
  • 業(yè)務(wù)系統(tǒng)中會(huì)有很多的常量滞伟,用來(lái)標(biāo)識(shí)一些狀態(tài)或者類型,這種值經(jīng)常會(huì)新增炕贵,數(shù)倉(cāng)中會(huì)對(duì)這些值做些處理梆奈,比如轉(zhuǎn)換成維度,會(huì)翻譯成對(duì)應(yīng)的中文称开,而實(shí)際上這種映射關(guān)系亩钟,我們是不知道的,只有業(yè)務(wù)開(kāi)發(fā)才知道钥弯,所以最好可以讓他們維護(hù)一張枚舉值表径荔,我們?nèi)ネ竭@張表。
create_time & update_time
  • 正常來(lái)說(shuō)脆霎,create_time总处,當(dāng)這條記錄插入后,就不會(huì)再變了睛蛛,但是某種情況下鹦马,哈哈,開(kāi)發(fā)同學(xué)會(huì)去更新它忆肾;update_time荸频,當(dāng)這條記錄變化后,這個(gè)時(shí)間也要變客冈,有的開(kāi)發(fā)同學(xué)不去更新它
  • 所以在做增量操作的時(shí)候旭从,一定和開(kāi)發(fā)說(shuō)好這兩個(gè)字段的定義和使用場(chǎng)景。
is_delete & is_valid
  • 有些場(chǎng)景下场仲,我們需要?jiǎng)h除某些數(shù)據(jù)和悦,一般不會(huì)物理刪除,會(huì)通過(guò)一個(gè)字段來(lái)做邏輯刪除渠缕,請(qǐng)和開(kāi)發(fā)同學(xué)溝通好鸽素,使用固定的一個(gè)字段,并確認(rèn)該字段雙方的理解是一致的亦鳞,不然后面又很多坑

下游約定

  • 對(duì)于數(shù)倉(cāng)來(lái)說(shuō)馍忽,一般的郵件棒坏、報(bào)表、可視化平臺(tái)都是下游遭笋,所以當(dāng)我們?cè)跀?shù)倉(cāng)中進(jìn)行某些重構(gòu)坝冕、優(yōu)化操作的時(shí)候,也需要通知他們瓦呼。
  • 主要就是對(duì)數(shù)倉(cāng)模型做好維護(hù)徽诲,表的使用場(chǎng)景、字段描述等吵血。對(duì)上游的要求谎替,自己也要做好,因?yàn)樽约阂彩巧嫌巍?/li>

數(shù)倉(cāng)評(píng)價(jià)(如何評(píng)價(jià)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的好壞)

image-20210905100559380

其實(shí)對(duì)整個(gè)數(shù)倉(cāng)而言蹋辅,我們關(guān)注的就三個(gè)點(diǎn)钱贯,準(zhǔn)確性、時(shí)效性侦另、穩(wěn)定性

面試官說(shuō)這些都是一些原則秩命,比較虛,有沒(méi)有可衡量的指標(biāo)褒傅?就是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)建好了弃锐,用這些指標(biāo)評(píng)價(jià)它好不好,有不好的要指出來(lái)殿托,指導(dǎo)它改進(jìn)霹菊。

指標(biāo)項(xiàng)

  1. 失敗的離線任務(wù)個(gè)數(shù)
  2. 沒(méi)有按時(shí)完成的任務(wù)個(gè)數(shù)
  3. ODS 同步超時(shí)的任務(wù)個(gè)數(shù)

數(shù)據(jù)準(zhǔn)確性

  • 對(duì)外的報(bào)表提供反饋機(jī)制,對(duì)數(shù)據(jù)準(zhǔn)確性進(jìn)行跟蹤
  • 數(shù)檢平臺(tái)的整個(gè)平臺(tái)的數(shù)據(jù)準(zhǔn)確性進(jìn)行監(jiān)控(到后期能不能利用機(jī)器學(xué)習(xí)去監(jiān)控支竹,否則你要定制大量的規(guī)則)

時(shí)效性

  • 針對(duì)數(shù)倉(cāng)的對(duì)外提供的數(shù)據(jù)能否滿足失效性的需求
  • 監(jiān)控?cái)?shù)倉(cāng)任務(wù)的運(yùn)行時(shí)長(zhǎng)進(jìn)行優(yōu)化
  • 能否快速響應(yīng)業(yè)務(wù)的數(shù)據(jù)需求

覆蓋性

我們主要指的是對(duì)數(shù)據(jù)域的覆蓋情況

建構(gòu)層次清晰

  • 縱向的數(shù)據(jù)分層旋廷,橫向的主題劃分,業(yè)務(wù)過(guò)程劃分礼搁,讓整個(gè)層次結(jié)構(gòu)清晰易理解

數(shù)據(jù)準(zhǔn)確一致

  • 定義一致性指標(biāo)饶碘、統(tǒng)一命名規(guī)范、統(tǒng)一業(yè)務(wù)含義馒吴、統(tǒng)一計(jì)算口徑扎运,專業(yè)的建模團(tuán)隊(duì)

性能指標(biāo)

  • 通過(guò)統(tǒng)一的規(guī)劃設(shè)計(jì),選用合理的數(shù)據(jù)模型饮戳,清晰統(tǒng)一的規(guī)范豪治,并且考慮數(shù)據(jù)的使用場(chǎng)景,使得整體性能更好

需要持續(xù)不斷的業(yè)務(wù)邏輯重構(gòu)莹捡,是整體的sql 水平上升鬼吵,提倡優(yōu)化精神

成本指標(biāo)

  • 避免煙囪式的重復(fù)建設(shè)扣甲,節(jié)約計(jì)算篮赢、存儲(chǔ)齿椅、人力成本。

易用性指標(biāo)

  • 復(fù)雜邏輯前置启泣,降低業(yè)務(wù)方的使用門(mén)檻

通過(guò)冗余維度和事實(shí)表涣脚,進(jìn)行公共計(jì)算邏輯下沉,明細(xì)與匯總共存等為業(yè)務(wù)提供靈活性

需求響速度

數(shù)倉(cāng)建設(shè)的好寥茫,底層設(shè)施完善遣蚀,報(bào)表開(kāi)發(fā)人員就可以快速響應(yīng)業(yè)務(wù)方的需求,跟上業(yè)務(wù)方快速試錯(cuò)纱耻、快速嘗試的節(jié)奏

穩(wěn)定性

穩(wěn)定性影響了時(shí)效性芭梯,也就是決定了我們的數(shù)據(jù)能不能按時(shí)產(chǎn)出,衡量穩(wěn)定性的方式弄喘,我們可以使用三個(gè)9玖喘,或者四個(gè)9,甚至是用每天失敗的任務(wù)數(shù)除以總的任務(wù)數(shù)蘑志,我們的主要目標(biāo)是得出一個(gè)相對(duì)合理的指標(biāo)累奈,從而不斷的去優(yōu)化它。

總結(jié)

  1. 數(shù)據(jù)治理和代碼重構(gòu)一樣急但,是一個(gè)慢活澎媒,但是它不能不做,因?yàn)閿?shù)據(jù)治理可以提高整個(gè)數(shù)倉(cāng)的管理效率波桩,從而更好的服務(wù)業(yè)務(wù)
  2. 數(shù)據(jù)治理需要一些數(shù)據(jù)去指導(dǎo)戒努,同理它的成果需要從數(shù)據(jù)方面去衡量,所以在整個(gè)過(guò)程中需要數(shù)據(jù)去證明它的價(jià)值與意義
  3. 數(shù)倉(cāng)本身也需要自身的指標(biāo)去衡量镐躲,我們可以通過(guò)數(shù)據(jù)治理柏卤,使得數(shù)倉(cāng)的指標(biāo)得到改善,這樣我們也可以證明數(shù)據(jù)治理的意義匀油。

知識(shí)星球

其實(shí)知識(shí)星球我以前就建立了缘缚,當(dāng)時(shí)覺(jué)得自己沒(méi)有那么多的精力維護(hù),不能很好的幫助有需要的同學(xué)們敌蚜,所以一直沒(méi)有開(kāi)放桥滨。最近很多同學(xué)私聊我學(xué)習(xí)路線,個(gè)人精力也是有限弛车,并不能及時(shí)解答所有同學(xué)的問(wèn)題齐媒。
通過(guò)調(diào)查,大部分同學(xué)表示愿意加入知識(shí)星球纷跛,我也覺(jué)得這樣讓大家的提問(wèn)更加有層次和意義喻括,而不是問(wèn)一些比較膚淺和不太合適的問(wèn)題,有問(wèn)題也能自己先查詢一下贫奠,這樣更好的交流和解答疑問(wèn)唬血,提升時(shí)間利用率望蜡。
點(diǎn)此加入

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末拷恨,一起剝皮案震驚了整個(gè)濱河市脖律,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌腕侄,老刑警劉巖小泉,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異冕杠,居然都是意外死亡微姊,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)分预,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)柒桑,“玉大人,你說(shuō)我怎么就攤上這事噪舀】荆” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵与倡,是天一觀的道長(zhǎng)界逛。 經(jīng)常有香客問(wèn)我,道長(zhǎng)纺座,這世上最難降的妖魔是什么息拜? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮净响,結(jié)果婚禮上少欺,老公的妹妹穿的比我還像新娘。我一直安慰自己馋贤,他們只是感情好赞别,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著配乓,像睡著了一般仿滔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上犹芹,一...
    開(kāi)封第一講書(shū)人閱讀 49,007評(píng)論 1 284
  • 那天崎页,我揣著相機(jī)與錄音,去河邊找鬼腰埂。 笑死飒焦,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的屿笼。 我是一名探鬼主播牺荠,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼翁巍,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了志电?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蛔趴,失蹤者是張志新(化名)和其女友劉穎挑辆,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體孝情,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鱼蝉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了箫荡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片魁亦。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖羔挡,靈堂內(nèi)的尸體忽然破棺而出洁奈,到底是詐尸還是另有隱情,我是刑警寧澤绞灼,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布利术,位于F島的核電站,受9級(jí)特大地震影響低矮,放射性物質(zhì)發(fā)生泄漏印叁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一军掂、第九天 我趴在偏房一處隱蔽的房頂上張望轮蜕。 院中可真熱鬧,春花似錦蝗锥、人聲如沸跃洛。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)税课。三九已至,卻和暖如春痊剖,著一層夾襖步出監(jiān)牢的瞬間韩玩,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工陆馁, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留找颓,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓叮贩,卻偏偏與公主長(zhǎng)得像击狮,于是被迫代替她去往敵國(guó)和親佛析。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容