數(shù)據(jù)倉(cāng)庫(kù)系列文章(部分已出僧须,持續(xù)更新)
- 數(shù)倉(cāng)架構(gòu)發(fā)展史
- 數(shù)倉(cāng)建模方法論
- 數(shù)倉(cāng)建模分層理論
- 數(shù)倉(cāng)建南跖。—寬表的設(shè)計(jì)
- 數(shù)倉(cāng)建亩淳停—指標(biāo)體系
- 數(shù)據(jù)倉(cāng)庫(kù)之拉鏈表
- 數(shù)倉(cāng)—數(shù)據(jù)集成
- 數(shù)倉(cāng)—數(shù)據(jù)集市
- 數(shù)倉(cāng)—商業(yè)智能系統(tǒng)
- 數(shù)倉(cāng)—埋點(diǎn)設(shè)計(jì)與管理
- 數(shù)倉(cāng)—ID Mapping
- 數(shù)倉(cāng)—OneID
- 數(shù)倉(cāng)—AARRR海盜模型
- 數(shù)倉(cāng)—總線矩陣
- 數(shù)倉(cāng)—數(shù)據(jù)安全
- 數(shù)倉(cāng)—數(shù)據(jù)質(zhì)量
- 數(shù)倉(cāng)—數(shù)倉(cāng)建模和業(yè)務(wù)建模
數(shù)據(jù)治理
- 元數(shù)據(jù)管理
- 數(shù)據(jù)質(zhì)量
- 數(shù)據(jù)模型
- 安全管理
- 主數(shù)據(jù)管理
- 數(shù)據(jù)生命周期
數(shù)據(jù)治理(Data Governance),是一套持續(xù)改善管理機(jī)制功蜓,通常包括了數(shù)據(jù)架構(gòu)組織、數(shù)據(jù)模型冷溃、政策及體系制定、技術(shù)工具梦裂、數(shù)據(jù)標(biāo)準(zhǔn)似枕、數(shù)據(jù)質(zhì)量、影響度分析年柠、作業(yè)流程凿歼、監(jiān)督及考核流程等內(nèi)容。
統(tǒng)一流程參考模型
為什么要治理
- 不論是金融行業(yè)冗恨、通訊行業(yè)答憔、地產(chǎn)行業(yè)、傳統(tǒng)制造業(yè)以及農(nóng)業(yè)掀抹,其信息化的發(fā)展基本都遵循了“諾蘭模型”虐拓。筆者認(rèn)為企業(yè)信息化大致經(jīng)歷了初期的煙囪式系統(tǒng)建設(shè)、中期的集成式系統(tǒng)建設(shè)和后期的數(shù)據(jù)管理式系統(tǒng)建設(shè)三個(gè)大的階段傲武,可以說(shuō)是一個(gè)先建設(shè)后治理的過(guò)程蓉驹。
數(shù)據(jù)質(zhì)量層次不齊
- “數(shù)據(jù)資產(chǎn)化”的概念已經(jīng)被大多數(shù)人理解和接受。不論是企業(yè)揪利、政府還是其他組織機(jī)構(gòu)态兴,對(duì)于的數(shù)據(jù)資產(chǎn)的管理越來(lái)越重視。然而疟位,數(shù)據(jù)并不等于資產(chǎn)瞻润,也就是說(shuō)不是所有數(shù)據(jù)都是數(shù)據(jù)資產(chǎn),數(shù)據(jù)中也有垃圾數(shù)據(jù)甜刻。我們需要治理的是能夠?yàn)槠髽I(yè)創(chuàng)造價(jià)值的數(shù)據(jù)資產(chǎn)敢订,而不是全部數(shù)據(jù)。
數(shù)據(jù)交換和共享困難
- 企業(yè)信息化建設(shè)初期缺乏整體的信息化規(guī)劃罢吃,系統(tǒng)建設(shè)大多都是以業(yè)務(wù)部門(mén)驅(qū)動(dòng)的單體架構(gòu)系統(tǒng)或套裝軟件楚午,數(shù)據(jù)分散在這些架構(gòu)不統(tǒng)一、開(kāi)發(fā)語(yǔ)言不一致尿招、數(shù)據(jù)庫(kù)多樣化的系統(tǒng)中矾柜,甚至還有大量的數(shù)據(jù)存放在員工的個(gè)人電腦中,導(dǎo)致在企業(yè)內(nèi)部形成了一個(gè)個(gè)的“信息孤島”就谜。
- 這些“孤島”之間缺乏有效的連接通道怪蔑,數(shù)據(jù)不能互聯(lián)互通,不能按照用戶的指令進(jìn)行有意義的交流丧荐,數(shù)據(jù)的價(jià)值不能充分發(fā)揮缆瓣。只有聯(lián)通數(shù)據(jù),消除這些“信息孤島”虹统,才能實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)弓坞、數(shù)據(jù)驅(qū)動(dòng)管理隧甚,才能真正釋放數(shù)據(jù)價(jià)值。
打通各個(gè)業(yè)務(wù)線之間的數(shù)據(jù)建設(shè)渡冻,很多公司都是統(tǒng)一建設(shè)
缺乏有效的管理機(jī)制
- 許多企業(yè)都認(rèn)識(shí)到了數(shù)據(jù)的重要性戚扳,并嘗試通過(guò)生產(chǎn)系統(tǒng)的業(yè)務(wù)流來(lái)控制數(shù)據(jù)流,但由于缺乏有效的管理機(jī)制和某些人為的因素族吻,在數(shù)據(jù)流轉(zhuǎn)過(guò)程中帽借,存在數(shù)據(jù)維護(hù)錯(cuò)誤、數(shù)據(jù)重復(fù)超歌、數(shù)據(jù)不一致砍艾、數(shù)據(jù)不完整的情況,導(dǎo)致了產(chǎn)生了大量的垃圾數(shù)據(jù)巍举。數(shù)據(jù)產(chǎn)權(quán)不明確辐董,管理職責(zé)混亂,管理和使用流程不清晰禀综,是造成數(shù)據(jù)質(zhì)量問(wèn)題的重要因素。
存在數(shù)據(jù)安全隱患
- 近年來(lái)苔严,隨著大數(shù)據(jù)的發(fā)展定枷,諸如此類的數(shù)據(jù)安全事件多不勝數(shù)。數(shù)據(jù)資產(chǎn)管理上届氢,正在由傳統(tǒng)分散式的人工管理向計(jì)算機(jī)集中化管理方向發(fā)展欠窒,數(shù)據(jù)的安全問(wèn)題愈來(lái)愈受到人們的關(guān)注。
發(fā)現(xiàn)問(wèn)題嚴(yán)重滯后
影響不清晰
- 數(shù)據(jù)變更對(duì)下游的影響不清晰退子,無(wú)法確認(rèn)影響范圍
DMBOK的數(shù)據(jù)治理框架
- DMBOK是由數(shù)據(jù)管理協(xié)會(huì)(DAMA)編撰的關(guān)于數(shù)據(jù)管理的專業(yè)書(shū)籍岖妄,一本DAMA 數(shù)據(jù)管理辭典。對(duì)于企業(yè)數(shù)據(jù)治理體系的建設(shè)有一定的指導(dǎo)性
注:DAMA 是數(shù)據(jù)管理協(xié)會(huì)的簡(jiǎn)稱寂祥,是一個(gè)全球性數(shù)據(jù)管理和業(yè)務(wù)專業(yè)志愿人士組成的非營(yíng)利協(xié)會(huì)荐虐,致力于數(shù)據(jù)管理的研究和實(shí)踐。
數(shù)據(jù)控制:在數(shù)據(jù)管理和使用層面之上進(jìn)行規(guī)劃丸凭、監(jiān)督和控制福扬。
數(shù)據(jù)架構(gòu)管理:定義數(shù)據(jù)資產(chǎn)管理藍(lán)圖。
數(shù)據(jù)開(kāi)發(fā):數(shù)據(jù)的分析惜犀、設(shè)計(jì)铛碑、實(shí)施、測(cè)試虽界、部署汽烦、維護(hù)等工作。
數(shù)據(jù)操作管理:提供從數(shù)據(jù)獲取到清除的技術(shù)支持莉御。
數(shù)據(jù)安全管理:確保隱私撇吞、保密性和適當(dāng)?shù)脑L問(wèn)權(quán)限等俗冻。
數(shù)據(jù)質(zhì)量管理:定義、監(jiān)測(cè)和提高數(shù)據(jù)質(zhì)量梢夯。
參考數(shù)據(jù)和主數(shù)據(jù)管理:管理數(shù)據(jù)的黃金版本和副本言疗。
數(shù)據(jù)倉(cāng)庫(kù)和商務(wù)智能管理:實(shí)現(xiàn)報(bào)告和分析。
文件和內(nèi)容管理:管理數(shù)據(jù)庫(kù)以外的數(shù)據(jù)
元數(shù)據(jù)管理:元數(shù)據(jù)的整合颂砸、控制以及提供元數(shù)據(jù)噪奄。
數(shù)倉(cāng)治理
- 節(jié)約機(jī)器資源(存在很多廢棄的邏輯和表,占用了大量的存儲(chǔ)資源和計(jì)算資源)
- 節(jié)約人力資源(降低了開(kāi)發(fā)和維護(hù)的成本)
- 數(shù)據(jù)資產(chǎn)沉淀
這個(gè)是一個(gè)長(zhǎng)期的工作人乓,類似于代碼重構(gòu)
治理的分類
粗治理
- 臨時(shí)表的處理
- 無(wú)訪問(wèn)信息的表(統(tǒng)一管理元數(shù)據(jù)和adhoc 以及調(diào)度)
- 無(wú)下游依賴的表(得有調(diào)度系統(tǒng))
細(xì)治理
專項(xiàng)性質(zhì)的治理方案勤篮,主要針對(duì)有人負(fù)責(zé)的項(xiàng)目
- 運(yùn)行時(shí)間長(zhǎng)的任務(wù)
- 存儲(chǔ)空間空間過(guò)大的表
數(shù)據(jù)源治理
- 據(jù)源,顧名思義就是數(shù)據(jù)的來(lái)源色罚,互聯(lián)網(wǎng)公司的數(shù)據(jù)來(lái)源隨著公司的規(guī)模擴(kuò)張而呈遞增趨勢(shì)碰缔,同時(shí)自不同的業(yè)務(wù)源,比如埋點(diǎn)采集戳护,客戶上報(bào)等金抡。
數(shù)據(jù)源管理
- 配置了大量的重復(fù)數(shù)據(jù)源
數(shù)據(jù)源監(jiān)控
- 可以監(jiān)控?cái)?shù)據(jù)量和數(shù)據(jù)質(zhì)量
數(shù)據(jù)同步
- 數(shù)據(jù)同步是指不同數(shù)據(jù)存儲(chǔ)系統(tǒng)之間要進(jìn)行數(shù)據(jù)遷移,比如在hdfs上腌且,大多業(yè)務(wù)和應(yīng)用因?yàn)樾实脑虿豢梢灾苯訌腍DFS上獲取數(shù)據(jù)梗肝,因此需要將hdfs上匯總后的數(shù)據(jù)同步至其他的存儲(chǔ)系統(tǒng),比如mysql
- sqoop可以做到這一點(diǎn)铺董,但是Sqoop太過(guò)繁重巫击,而且不管數(shù)據(jù)量大小,都需要啟動(dòng)MapReduce來(lái)執(zhí)行精续,而且需要Hadoop集群的每臺(tái)機(jī)器都能訪問(wèn)業(yè)務(wù)數(shù)據(jù)庫(kù)坝锰;阿里開(kāi)源的dataX是一個(gè)很好的解決方案。
數(shù)倉(cāng)模型治理
數(shù)據(jù)劃分及命名空間約定
表的命名就涉及到數(shù)據(jù)域的劃分重付,因?yàn)楸淼拿枰獙?shù)據(jù)域囊括進(jìn)去
- 根據(jù)業(yè)務(wù)劃分?jǐn)?shù)據(jù)并約定命名顷级,建議針對(duì)業(yè)務(wù)名稱結(jié)合數(shù)據(jù)層次約定相關(guān)命名的英文縮寫(xiě),這樣可以給后續(xù)數(shù)據(jù)開(kāi)發(fā)過(guò)程中确垫,對(duì)項(xiàng)目空間愕把、表、字段等命名做為重要參照森爽。
- 按業(yè)務(wù)劃分:命名時(shí)按主要的業(yè)務(wù)劃分恨豁,以指導(dǎo)物理模型的劃分原則、命名原則及使用的ODS project爬迟。例如橘蜜,按業(yè)務(wù)定義英文縮寫(xiě),阿里的“淘寶”英文縮寫(xiě)可以定義為“tb”。
-
按數(shù)據(jù)域劃分:命名時(shí)按照CDM層的數(shù)據(jù)進(jìn)行數(shù)據(jù)域劃分计福,以便有效地對(duì)數(shù)據(jù)進(jìn)行管理跌捆,以及指導(dǎo)數(shù)據(jù)表的命名。例如象颖,“交易”數(shù)據(jù)的英文縮寫(xiě)可定義為“trd”佩厚。
-** 按業(yè)務(wù)過(guò)程劃分**:當(dāng)一個(gè)數(shù)據(jù)域由多個(gè)業(yè)務(wù)過(guò)程組成時(shí),命名時(shí)可以按業(yè)務(wù)流程劃分说订。業(yè)務(wù)過(guò)程是從數(shù)據(jù)分析角度看客觀存在的或者抽象的業(yè)務(wù)行為動(dòng)作抄瓦。例如,交易數(shù)據(jù)域中的“退款”這個(gè)業(yè)務(wù)過(guò)程的英文縮寫(xiě)可約定命名為“rfd_ent”陶冷。 - 表命名規(guī)范需清晰钙姊、一致,表命名需易于下游的理解和使用
- 下線表的統(tǒng)一命名
常規(guī)表的命名
- 分層前綴[dwd|dws|ads|bi]業(yè)務(wù)域主題域XXX粒度
- 業(yè)務(wù)域埂伦、主題域我們都可以用詞根的方式枚舉清楚煞额,不斷完善,粒度也是同樣的沾谜,主要的是時(shí)間粒度膊毁、日、月基跑、年婚温、周等,使用詞根定義好簡(jiǎn)稱涩僻。
中間表
- 中間表一般出現(xiàn)在Job中,是Job中臨時(shí)存儲(chǔ)的中間數(shù)據(jù)的表栈顷,中間表的作用域只限于當(dāng)前Job執(zhí)行過(guò)程中逆日,Job一旦執(zhí)行完成,該中間表的使命就完成了萄凤,是可以刪除的(按照自己公司的場(chǎng)景自由選擇室抽,以前公司會(huì)保留幾天的中間表數(shù)據(jù),用來(lái)排查問(wèn)題)靡努。
統(tǒng)一指標(biāo)和字段命名
- 相同的字段在不同表中的字段名必須相同坪圾。
- 核心指標(biāo)要進(jìn)行邏輯收口以及在元數(shù)據(jù)上進(jìn)行維護(hù)
公共處理邏輯下沉及單一
- 底層公用的處理邏輯應(yīng)該在數(shù)據(jù)調(diào)度依賴的底層進(jìn)行封裝與實(shí)現(xiàn),不要讓公用的處理邏輯暴露給應(yīng)用層實(shí)現(xiàn)惑朦,不要讓公共邏輯在多處同時(shí)存在兽泄。
核心模型與擴(kuò)展模型分離
- 建立核心模型與擴(kuò)展模型體系,核心模型包括的字段支持常用核心的業(yè)務(wù)漾月,擴(kuò)展模型包括的字段支持個(gè)性化或是少量應(yīng)用的需要病梢。在必須讓核心模型與擴(kuò)展模型做關(guān)聯(lián)時(shí),不能讓擴(kuò)展字段過(guò)度侵入核心模型,以免破壞了核心模型的架構(gòu)簡(jiǎn)潔性與可維護(hù)性蜓陌。
層次調(diào)用約定
- 應(yīng)用層應(yīng)優(yōu)先調(diào)用公共層數(shù)據(jù)觅彰,必須存在中間層數(shù)據(jù),不允許應(yīng)用層跨過(guò)中間層從ODS層重復(fù)加工數(shù)據(jù)钮热。
- 一方面填抬,中間層團(tuán)隊(duì)?wèi)?yīng)該積極了解應(yīng)用層數(shù)據(jù)的建設(shè)需求,將公用的數(shù)據(jù)沉淀到公共層隧期,為其他團(tuán)隊(duì)提供數(shù)據(jù)服務(wù)
- 另一方面飒责,應(yīng)用層團(tuán)隊(duì)也應(yīng)積極配合中間層團(tuán)隊(duì)進(jìn)行持續(xù)的數(shù)據(jù)公共建設(shè)的改造。必須避免出現(xiàn)過(guò)度的引用ODS層厌秒、不合理的數(shù)據(jù)復(fù)制以及子集合冗余读拆。
垃圾的數(shù)倉(cāng)就會(huì)出現(xiàn)大量的跨層調(diào)用,所以可以通過(guò)跨層調(diào)用ods 表率來(lái)衡量數(shù)倉(cāng)的建設(shè)
組合原則
- 將維度所描述業(yè)務(wù)相關(guān)性強(qiáng)的字段在一個(gè)物理維表實(shí)現(xiàn)鸵闪。
相關(guān)性強(qiáng)是指經(jīng)常需要一起查詢或進(jìn)行報(bào)表展現(xiàn)檐晕、兩個(gè)維度屬性間是否存在天然的關(guān)系等。例如蚌讼,商品基本屬性和所屬品牌辟灰。
數(shù)據(jù)拆分
- 對(duì)于維度屬性過(guò)多,涉及源較多的維度表(例如會(huì)員表)篡石,可以做適當(dāng)拆分
數(shù)據(jù)的水平和垂直拆分是按照訪問(wèn)熱度分布和數(shù)據(jù)表非空數(shù)據(jù)值芥喇、零數(shù)據(jù)值在行列二維空間上分布情況進(jìn)行劃分的。
核心表
- 拆分為核心表和擴(kuò)展表凰萨。核心表相對(duì)字段較少继控,刷新產(chǎn)出時(shí)間較早,優(yōu)先使用胖眷。擴(kuò)展表字段較多橄抹,且可以冗余核心表部分字段唆途,刷新產(chǎn)出時(shí)間較晚,適合數(shù)據(jù)分析人員使用。
數(shù)據(jù)冗余
- 數(shù)據(jù)記錄數(shù)較大的維度表(例如商品表)参淫,可以適當(dāng)冗余一些子集合拔第,以減少下游掃描數(shù)據(jù)量
sql 規(guī)范
任務(wù)注釋
- name: 任務(wù)名和表名保持一致
- description:任務(wù)描述义矛,該任務(wù)的主要內(nèi)容
- target:目標(biāo)表名咆槽,一般一個(gè)任務(wù)只輸出一個(gè)目標(biāo)表
- author:創(chuàng)建者,和創(chuàng)建日期劳淆,
- modify:內(nèi)容變更記錄链沼,變更人,變更日期沛鸵,變更原因 忆植,這個(gè)從版本控制中也可以找到,但是這些這里更直觀一些。
sql 模板
- sql 的寫(xiě)法朝刊,sql 結(jié)構(gòu)
數(shù)據(jù)服務(wù)治理
報(bào)表治理
接口治理
上下游約定
- 由于數(shù)倉(cāng)的特性和定位耀里,它就需要強(qiáng)依賴上游的業(yè)務(wù)系統(tǒng),當(dāng)然也會(huì)有一些下游系統(tǒng)拾氓,所以定好上下游的規(guī)范冯挎,變更的通知機(jī)制是非常有必要的。
上游約定
- 對(duì)于數(shù)倉(cāng)來(lái)說(shuō)咙鞍,最重要的就是數(shù)據(jù)了房官,數(shù)倉(cāng)中的數(shù)據(jù),主要來(lái)源是業(yè)務(wù)系統(tǒng)续滋,就是公司各種業(yè)務(wù)數(shù)據(jù)翰守,所以數(shù)倉(cāng)需要不斷的將業(yè)務(wù)系統(tǒng)數(shù)據(jù)同步到自身平臺(tái)來(lái),所以一旦上游業(yè)務(wù)系統(tǒng)發(fā)生變化疲酌,數(shù)倉(cāng)也要同步變化蜡峰,不然,這種同步操作很可能失敗朗恳。
表結(jié)構(gòu)變更
- 上游的表結(jié)構(gòu)經(jīng)常會(huì)發(fā)生變化湿颅,新增字段、修改字段粥诫、刪除字段(除非真的不用這個(gè)字段了油航,通常會(huì)選擇標(biāo)識(shí)為棄用)。
- 表結(jié)構(gòu)最好要維護(hù)清楚怀浆,表名谊囚、字段名、字段類型执赡、字段描述镰踏,都整理清楚,不使用的字段要么刪除搀玖,要么備注好余境,當(dāng)業(yè)務(wù)頻繁發(fā)生變化或者迭代優(yōu)化的時(shí)候驻呐,很容易出現(xiàn)灌诅,我寫(xiě)了半天的代碼,最后發(fā)現(xiàn)表用的不對(duì)含末,字段用的不對(duì)猜拾,這就尷尬了。
- 對(duì)于這種變化佣盒,人工處理的話挎袜,就是手動(dòng)在數(shù)倉(cāng)對(duì)應(yīng)的表中增加、修改字段,然后修改同步任務(wù)盯仪;這個(gè)最好可以搞成自動(dòng)化的紊搪,比如,自動(dòng)監(jiān)控上游表結(jié)構(gòu)的變更全景,變化后耀石,自動(dòng)去修改數(shù)倉(cāng)中的表結(jié)構(gòu),自動(dòng)修改同步任務(wù)爸黄。
枚舉值
- 業(yè)務(wù)系統(tǒng)中會(huì)有很多的常量滞伟,用來(lái)標(biāo)識(shí)一些狀態(tài)或者類型,這種值經(jīng)常會(huì)新增炕贵,數(shù)倉(cāng)中會(huì)對(duì)這些值做些處理梆奈,比如轉(zhuǎn)換成維度,會(huì)翻譯成對(duì)應(yīng)的中文称开,而實(shí)際上這種映射關(guān)系亩钟,我們是不知道的,只有業(yè)務(wù)開(kāi)發(fā)才知道钥弯,所以最好可以讓他們維護(hù)一張枚舉值表径荔,我們?nèi)ネ竭@張表。
create_time & update_time
- 正常來(lái)說(shuō)脆霎,create_time总处,當(dāng)這條記錄插入后,就不會(huì)再變了睛蛛,但是某種情況下鹦马,哈哈,開(kāi)發(fā)同學(xué)會(huì)去更新它忆肾;update_time荸频,當(dāng)這條記錄變化后,這個(gè)時(shí)間也要變客冈,有的開(kāi)發(fā)同學(xué)不去更新它
- 所以在做增量操作的時(shí)候旭从,一定和開(kāi)發(fā)說(shuō)好這兩個(gè)字段的定義和使用場(chǎng)景。
is_delete & is_valid
- 有些場(chǎng)景下场仲,我們需要?jiǎng)h除某些數(shù)據(jù)和悦,一般不會(huì)物理刪除,會(huì)通過(guò)一個(gè)字段來(lái)做邏輯刪除渠缕,請(qǐng)和開(kāi)發(fā)同學(xué)溝通好鸽素,使用固定的一個(gè)字段,并確認(rèn)該字段雙方的理解是一致的亦鳞,不然后面又很多坑
下游約定
- 對(duì)于數(shù)倉(cāng)來(lái)說(shuō)馍忽,一般的郵件棒坏、報(bào)表、可視化平臺(tái)都是下游遭笋,所以當(dāng)我們?cè)跀?shù)倉(cāng)中進(jìn)行某些重構(gòu)坝冕、優(yōu)化操作的時(shí)候,也需要通知他們瓦呼。
- 主要就是對(duì)數(shù)倉(cāng)模型做好維護(hù)徽诲,表的使用場(chǎng)景、字段描述等吵血。對(duì)上游的要求谎替,自己也要做好,因?yàn)樽约阂彩巧嫌巍?/li>
數(shù)倉(cāng)評(píng)價(jià)(如何評(píng)價(jià)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的好壞)
其實(shí)對(duì)整個(gè)數(shù)倉(cāng)而言蹋辅,我們關(guān)注的就三個(gè)點(diǎn)钱贯,準(zhǔn)確性、時(shí)效性侦另、穩(wěn)定性
面試官說(shuō)這些都是一些原則秩命,比較虛,有沒(méi)有可衡量的指標(biāo)褒傅?就是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)建好了弃锐,用這些指標(biāo)評(píng)價(jià)它好不好,有不好的要指出來(lái)殿托,指導(dǎo)它改進(jìn)霹菊。
指標(biāo)項(xiàng)
- 失敗的離線任務(wù)個(gè)數(shù)
- 沒(méi)有按時(shí)完成的任務(wù)個(gè)數(shù)
- ODS 同步超時(shí)的任務(wù)個(gè)數(shù)
數(shù)據(jù)準(zhǔn)確性
- 對(duì)外的報(bào)表提供反饋機(jī)制,對(duì)數(shù)據(jù)準(zhǔn)確性進(jìn)行跟蹤
- 數(shù)檢平臺(tái)的整個(gè)平臺(tái)的數(shù)據(jù)準(zhǔn)確性進(jìn)行監(jiān)控(到后期能不能利用機(jī)器學(xué)習(xí)去監(jiān)控支竹,否則你要定制大量的規(guī)則)
時(shí)效性
- 針對(duì)數(shù)倉(cāng)的對(duì)外提供的數(shù)據(jù)能否滿足失效性的需求
- 監(jiān)控?cái)?shù)倉(cāng)任務(wù)的運(yùn)行時(shí)長(zhǎng)進(jìn)行優(yōu)化
- 能否快速響應(yīng)業(yè)務(wù)的數(shù)據(jù)需求
覆蓋性
我們主要指的是對(duì)數(shù)據(jù)域的覆蓋情況
建構(gòu)層次清晰
- 縱向的數(shù)據(jù)分層旋廷,橫向的主題劃分,業(yè)務(wù)過(guò)程劃分礼搁,讓整個(gè)層次結(jié)構(gòu)清晰易理解
數(shù)據(jù)準(zhǔn)確一致
- 定義一致性指標(biāo)饶碘、統(tǒng)一命名規(guī)范、統(tǒng)一業(yè)務(wù)含義馒吴、統(tǒng)一計(jì)算口徑扎运,專業(yè)的建模團(tuán)隊(duì)
性能指標(biāo)
- 通過(guò)統(tǒng)一的規(guī)劃設(shè)計(jì),選用合理的數(shù)據(jù)模型饮戳,清晰統(tǒng)一的規(guī)范豪治,并且考慮數(shù)據(jù)的使用場(chǎng)景,使得整體性能更好
需要持續(xù)不斷的業(yè)務(wù)邏輯重構(gòu)莹捡,是整體的sql 水平上升鬼吵,提倡優(yōu)化精神
成本指標(biāo)
- 避免煙囪式的重復(fù)建設(shè)扣甲,節(jié)約計(jì)算篮赢、存儲(chǔ)齿椅、人力成本。
易用性指標(biāo)
- 復(fù)雜邏輯前置启泣,降低業(yè)務(wù)方的使用門(mén)檻
通過(guò)冗余維度和事實(shí)表涣脚,進(jìn)行公共計(jì)算邏輯下沉,明細(xì)與匯總共存等為業(yè)務(wù)提供靈活性
需求響速度
數(shù)倉(cāng)建設(shè)的好寥茫,底層設(shè)施完善遣蚀,報(bào)表開(kāi)發(fā)人員就可以快速響應(yīng)業(yè)務(wù)方的需求,跟上業(yè)務(wù)方快速試錯(cuò)纱耻、快速嘗試的節(jié)奏
穩(wěn)定性
穩(wěn)定性影響了時(shí)效性芭梯,也就是決定了我們的數(shù)據(jù)能不能按時(shí)產(chǎn)出,衡量穩(wěn)定性的方式弄喘,我們可以使用三個(gè)9玖喘,或者四個(gè)9,甚至是用每天失敗的任務(wù)數(shù)除以總的任務(wù)數(shù)蘑志,我們的主要目標(biāo)是得出一個(gè)相對(duì)合理的指標(biāo)累奈,從而不斷的去優(yōu)化它。
總結(jié)
- 數(shù)據(jù)治理和代碼重構(gòu)一樣急但,是一個(gè)慢活澎媒,但是它不能不做,因?yàn)閿?shù)據(jù)治理可以提高整個(gè)數(shù)倉(cāng)的管理效率波桩,從而更好的服務(wù)業(yè)務(wù)
- 數(shù)據(jù)治理需要一些數(shù)據(jù)去指導(dǎo)戒努,同理它的成果需要從數(shù)據(jù)方面去衡量,所以在整個(gè)過(guò)程中需要數(shù)據(jù)去證明它的價(jià)值與意義
- 數(shù)倉(cāng)本身也需要自身的指標(biāo)去衡量镐躲,我們可以通過(guò)數(shù)據(jù)治理柏卤,使得數(shù)倉(cāng)的指標(biāo)得到改善,這樣我們也可以證明數(shù)據(jù)治理的意義匀油。
知識(shí)星球
其實(shí)知識(shí)星球我以前就建立了缘缚,當(dāng)時(shí)覺(jué)得自己沒(méi)有那么多的精力維護(hù),不能很好的幫助有需要的同學(xué)們敌蚜,所以一直沒(méi)有開(kāi)放桥滨。最近很多同學(xué)私聊我學(xué)習(xí)路線,個(gè)人精力也是有限弛车,并不能及時(shí)解答所有同學(xué)的問(wèn)題齐媒。
通過(guò)調(diào)查,大部分同學(xué)表示愿意加入知識(shí)星球纷跛,我也覺(jué)得這樣讓大家的提問(wèn)更加有層次和意義喻括,而不是問(wèn)一些比較膚淺和不太合適的問(wèn)題,有問(wèn)題也能自己先查詢一下贫奠,這樣更好的交流和解答疑問(wèn)唬血,提升時(shí)間利用率望蜡。
點(diǎn)此加入。