【數(shù)據(jù)治理】數(shù)據(jù)元足丢、元數(shù)據(jù)概述

數(shù)據(jù)治理

數(shù)據(jù)元

什么是數(shù)據(jù)元:

《GB/T 19488.1 電子政務(wù)數(shù)據(jù)元第1部分:設(shè)計(jì)和管理規(guī)范》 里是這樣定義的:

數(shù)據(jù)元(Data element):又稱數(shù)據(jù)類型粱腻,通過定義、標(biāo)識斩跌、表示以及允許值等一系列屬性描述的數(shù)據(jù)單元绍些。在特定的語義環(huán)境中被認(rèn)為是不可再分的最小數(shù)據(jù)單元。

舉例說明:

語義環(huán)境:描述員工年齡的大小 age為數(shù)據(jù)元滔驶,“18“為數(shù)據(jù)元的值遇革。

數(shù)據(jù)元一般來說由三部分組成:
對象類:思想卿闹、概念或真實(shí)世界中的事物的集合揭糕,它們具有清晰的邊界和含義,其特征和行為遵循同樣的規(guī)則锻霎。
特性:對象類中的所有成員共同具有的一個有別于其它的著角、顯著的特征。
表示:它描述了數(shù)據(jù)被表達(dá)的方式旋恼。

還是以前面的例子:
語義環(huán)境:描述員工年齡的大小 age為數(shù)據(jù)元吏口,“18“為數(shù)據(jù)元的值。
對象是員工 冰更,特性是 年齡 age ,表示是 數(shù)值
語義環(huán)境:描述員工所屬部門的編碼 deptcode為數(shù)據(jù)元产徊,“1001“為數(shù)據(jù)元的值。
對象是員工所屬部門蜀细,特性是 編碼 deptcode ,表示是 文本

元數(shù)據(jù)

什么是元數(shù)據(jù)

百度百科是這樣定義的:

元數(shù)據(jù)(Metadata)舟铜,又稱中介數(shù)據(jù)、中繼數(shù)據(jù)奠衔,為描述數(shù)據(jù)的數(shù)據(jù)谆刨,主要是描述數(shù)據(jù)屬性(property)的信息,用來支持如指示存儲位置归斤、歷史數(shù)據(jù)痊夭、資源查找、文件記錄等功能脏里。

《DAMA數(shù)據(jù)管理知識體系指南》是這樣定義的:

元數(shù)據(jù)最常見的定義是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”她我。這個定義非常簡單,但也容易引起誤解迫横》撸可以歸類為元數(shù)據(jù)的信息范圍很廣,不僅包括技術(shù)和業(yè)務(wù)流程员淫、數(shù)據(jù)規(guī)則和約束合蔽,還包括邏輯數(shù)據(jù)結(jié)構(gòu)與物理數(shù)據(jù)結(jié)構(gòu)等。它描述了數(shù)據(jù)本身(如數(shù)據(jù)庫介返、數(shù)據(jù)元素拴事、數(shù)據(jù)模型)沃斤,數(shù)據(jù)表示的概念(如業(yè)務(wù)流程、應(yīng)用系統(tǒng)刃宵、軟件代碼衡瓶、技術(shù)基礎(chǔ)設(shè)施),數(shù)據(jù)與概念之間的聯(lián)系(關(guān)系)牲证。元數(shù)據(jù)可以幫助組織理解其自身的數(shù)據(jù)哮针、系統(tǒng)和流程,同時幫助用戶評估數(shù)據(jù)質(zhì)量坦袍,對數(shù)據(jù)庫與其他應(yīng)用程序的管理來說是不可或缺的十厢。它有助于處理、維護(hù)捂齐、集成蛮放、保護(hù)和治理其他數(shù)據(jù)。

怎么理解呢奠宜?《DAMA數(shù)據(jù)管理知識體系指南》舉了一個比較好理解的例子:

為了理解元數(shù)據(jù)在數(shù)據(jù)管理中的重要作用包颁,試想一個大型圖書館中有成千上萬的書籍和雜志,但是沒有目錄卡片压真。沒有目錄卡片娩嚼,讀者將不知道如何尋找一本特定的書籍甚至一個特定的主題。目錄卡片不僅提供了必要的信息(圖書館擁有哪些書籍和資料以及它們被存放在哪里)滴肿,還幫助讀者可以使用不同的方式(主題領(lǐng)域岳悟、作者或者書名)來查找資料。如果沒有目錄嘴高,尋找一本特定的書將是一件十分困難的事情竿音。一個組織沒有元數(shù)據(jù),就如同一個圖書館沒有目錄卡片拴驮。

面對數(shù)據(jù)總是會有以下的一些疑問:

這個數(shù)據(jù)怎么來的春瞬?誰創(chuàng)建的,誰更新的套啤,從哪個系統(tǒng)來的…
這個數(shù)據(jù)是什么宽气?數(shù)據(jù)的語義環(huán)境是什么,數(shù)據(jù)怎么存儲的潜沦,數(shù)據(jù)的定位是什么…
這個數(shù)據(jù)怎么用萄涯?數(shù)據(jù)的應(yīng)用場景是什么,有沒有和其他系統(tǒng)共享唆鸡,如果丟失會造成什么影響…
這個數(shù)據(jù)怎么管理涝影?誰負(fù)責(zé)這個數(shù)據(jù),這個數(shù)據(jù)怎么評定質(zhì)量争占,誰有權(quán)訪問這個數(shù)據(jù)…

為了更好的解決這些問題燃逻,從而使用元數(shù)據(jù)來記錄數(shù)據(jù)相關(guān)的信息序目。

元數(shù)據(jù)的分類

元數(shù)據(jù)管理的范圍將涵括數(shù)據(jù)產(chǎn)生、數(shù)據(jù)存儲伯襟、數(shù)據(jù)加工和展現(xiàn)等各個環(huán)節(jié)的數(shù)據(jù)描述信息猿涨,幫助用戶理解數(shù)據(jù)來龍去脈、關(guān)系及相關(guān)屬性姆怪。按其描述對象的不同可以劃分為三類元數(shù)據(jù):業(yè)務(wù)元數(shù)據(jù)叛赚、技術(shù)元數(shù)據(jù)、和操作元數(shù)據(jù)稽揭。

業(yè)務(wù)元數(shù)據(jù)

業(yè)務(wù)元數(shù)據(jù)(Business Metadata)主要關(guān)注數(shù)據(jù)的內(nèi)容和條件俺附,另包括與數(shù)據(jù)治理相關(guān)的詳細(xì)信息。業(yè)務(wù)元數(shù)據(jù)包括主題域淀衣、概念昙读、實(shí)體召调、屬性的非技術(shù)名稱和定義膨桥、屬性的數(shù)據(jù)類型和其他特征,如范圍描述唠叛、計(jì)算公式只嚣、算法和業(yè)務(wù)規(guī)則、有效的域值及其定義艺沼。業(yè)務(wù)元數(shù)據(jù)的示例包括:

1)數(shù)據(jù)集册舞、表和字段的定義和描述。
2)業(yè)務(wù)規(guī)則障般、轉(zhuǎn)換規(guī)則调鲸、計(jì)算公式和推導(dǎo)公式。
3)數(shù)據(jù)模型挽荡。
4)數(shù)據(jù)質(zhì)量規(guī)則和檢核結(jié)果藐石。
5)數(shù)據(jù)的更新計(jì)劃。
6)數(shù)據(jù)標(biāo)準(zhǔn)定拟。
7)有效值約束于微。
8)數(shù)據(jù)的安全/隱私級別。

技術(shù)元數(shù)據(jù)

技術(shù)元數(shù)據(jù)(Technical Metadata)又可以分成結(jié)構(gòu)性技術(shù)元數(shù)據(jù)和關(guān)聯(lián)性技術(shù)元數(shù)據(jù)青自。結(jié)構(gòu)性技術(shù)元數(shù)據(jù)提供了在信息技術(shù)的基礎(chǔ)架構(gòu)中對數(shù)據(jù)的說明株依,如數(shù)據(jù)的存放位置、數(shù)據(jù)的存儲類型延窜、數(shù)據(jù)的血緣關(guān)系等恋腕。關(guān)聯(lián)性技術(shù)元數(shù)據(jù)描述了數(shù)據(jù)之間的關(guān)聯(lián)和數(shù)據(jù)在信息技術(shù)環(huán)境之中的流轉(zhuǎn)情況。技術(shù)元數(shù)據(jù)的示例包括:

1)物理數(shù)據(jù)庫表名和字段名逆瑞。
2)字段屬性(數(shù)據(jù)類型)荠藤。
4)訪問權(quán)限祈远。
5)數(shù)據(jù)CRUD(增、刪商源、改车份、查)規(guī)則。
6)物理數(shù)據(jù)模型牡彻,包括數(shù)據(jù)表名扫沼、鍵和索引。
7)記錄數(shù)據(jù)模型與實(shí)物資產(chǎn)之間的關(guān)系庄吼。
8)ETL作業(yè)詳細(xì)信息缎除。
9)文件格式模式定義。
10)源到目標(biāo)的映射文檔总寻。
11)數(shù)據(jù)血緣文檔器罐,包括上游和下游變更影響的信息。
12)程序和應(yīng)用的名稱和描述渐行。
13)周期作業(yè)(內(nèi)容更新)的調(diào)度計(jì)劃和依賴轰坊。
14)恢復(fù)和備份規(guī)則。
15)數(shù)據(jù)訪問的權(quán)限祟印、組肴沫、角色。

操作元數(shù)據(jù)

操作元數(shù)據(jù)(Operational Metadata)主要是指與元數(shù)據(jù)管理相關(guān)的組織蕴忆、崗位颤芬、職責(zé)、流程套鹅,以及系統(tǒng)日常運(yùn)行產(chǎn)生的操作數(shù)據(jù)站蝠。操作元數(shù)據(jù)管理的內(nèi)容主要包括:與元數(shù)據(jù)管理相關(guān)的組織、崗位卓鹿、職責(zé)菱魔、流程、項(xiàng)目减牺、版本豌习,以及系統(tǒng)生產(chǎn)運(yùn)行產(chǎn)生的操作記錄,如運(yùn)行記錄拔疚、應(yīng)用程序肥隆、運(yùn)行作業(yè)。

1)批處理程序的作業(yè)執(zhí)行日志稚失。
2)抽取歷史和結(jié)果栋艳。
3)調(diào)度異常處理。
4)錯誤日志句各。
5)報(bào)表和查詢的訪問模式吸占、頻率和執(zhí)行時間晴叨。
6)補(bǔ)丁和版本的維護(hù)計(jì)劃和執(zhí)行情況,以及當(dāng)前的補(bǔ)丁級別矾屯。
7)備份兼蕊、保留、創(chuàng)建日期件蚕、災(zāi)備恢復(fù)預(yù)案孙技。
8)數(shù)據(jù)歸檔、保留規(guī)則和相關(guān)歸檔文件排作。
9)清洗標(biāo)準(zhǔn)牵啦。
10)數(shù)據(jù)共享規(guī)則和協(xié)議。
11)技術(shù)人員的角色妄痪、職責(zé)和聯(lián)系信息哈雏。

元數(shù)據(jù)應(yīng)用

經(jīng)過前面的介紹,大概對元數(shù)據(jù)有個初步的印象衫生,可能接下來就要問了:元數(shù)據(jù)有什么用裳瘪?

先引入一個場景:
假設(shè)有一天,我們需要對某一些業(yè)務(wù)信息指標(biāo)做一個報(bào)表統(tǒng)計(jì)障簿,用于前端的數(shù)據(jù)展示盹愚,這些業(yè)務(wù)信息可能來自于不同的表,通過不同的ETL過程到目標(biāo)數(shù)據(jù)倉庫站故,最后展示在一個報(bào)表中,如下圖所示:

血緣分析

舉例:
假設(shè)你在管理報(bào)表毅舆,有一天你發(fā)現(xiàn)有報(bào)表數(shù)據(jù)中 指標(biāo)3 的數(shù)據(jù)異常西篓,你需要找出錯誤的數(shù)據(jù)并提交流程修正,那么這個錯誤數(shù)據(jù)從何而來憋活?一個個核對數(shù)據(jù)顯然不夠高效岂津,那你就得知道這個報(bào)表的的指標(biāo)來源,元數(shù)據(jù)的血緣分析能幫助你分析這個錯誤數(shù)據(jù)的上游路徑悦即。

查看元數(shù)據(jù)可以發(fā)現(xiàn):

指標(biāo)3 是由數(shù)據(jù)集市的 B主題數(shù)據(jù) 經(jīng)過ETL過程生成的 吮成,

B主題數(shù)據(jù) 又是 由 數(shù)據(jù)倉庫中的table1 和 table 4經(jīng)過ETL過程生成的

血緣分析是一種技術(shù)手段,用于對數(shù)據(jù)處理過程的全面追蹤辜梳,從而找到某個數(shù)據(jù)對象為起點(diǎn)的所有相關(guān)元數(shù)據(jù)對象以及這些元數(shù)據(jù)對象之間的關(guān)系粱甫。元數(shù)據(jù)對象之間的關(guān)系特指表示這些元數(shù)據(jù)對象的數(shù)據(jù)流輸入輸出關(guān)系 。

由元數(shù)據(jù)構(gòu)建的血緣分析作瞄,可以快速定位數(shù)據(jù)鏈路茶宵,明確ETL細(xì)節(jié),縮小數(shù)據(jù)問題的范圍宗挥。

影響分析

舉例:

還接上面的例子乌庶,有一天你發(fā)現(xiàn)數(shù)據(jù)倉庫的table2 數(shù)據(jù)錯了种蝶,等你將table2數(shù)據(jù)更正后,此時你需要及時提醒大家這個數(shù)據(jù)的更正信息瞒大,只需要通知這個數(shù)據(jù)影響到的實(shí)體就可以了螃征,然而整個報(bào)表流程的數(shù)據(jù)傳遞這么復(fù)雜,怎么判斷哪些實(shí)體會受到這個數(shù)據(jù)的影響呢透敌。

如果沒有元數(shù)據(jù)会傲,那我們可能需要遍歷所有的腳本、數(shù)據(jù)拙泽。才能得到想要的答案淌山;而如果有成熟的元數(shù)據(jù)管理,那我們就可以直接得到答案顾瞻,節(jié)省大量時間泼疑。

數(shù)據(jù)地圖

數(shù)據(jù)地圖是一種圖形化的數(shù)據(jù)資產(chǎn)管理工具,它提供了多層次的圖形化展示荷荤,并具備各種力度控制能力退渗,滿足業(yè)務(wù)使用、數(shù)據(jù)管理蕴纳、開發(fā)運(yùn)維不同應(yīng)用場景的圖形查詢和輔助分析需求会油。

為什么有數(shù)據(jù)地圖:

如果公司的數(shù)據(jù)庫里只有百十來張表,那基本上不需要啥數(shù)據(jù)地圖古毛,因?yàn)榭磕X子就能全記住了翻翩。

但是,如果有好幾個系統(tǒng)稻薇、幾百張表嫂冻,而且在數(shù)倉里還分了好多層,之間的關(guān)系錯綜復(fù)雜塞椎,誰能全部記得住敖胺隆?

這個數(shù)據(jù)地圖主要解決這些問題:
平臺由多少數(shù)據(jù)資源案狠?
每個數(shù)據(jù)源由多少表服傍、字段?
這些表骂铁、字段里面都是什么內(nèi)容吹零?
怎么獲取這些數(shù)據(jù)?

為啥叫“數(shù)據(jù)地圖”从铲,其實(shí)就是借用了地圖“找信息”的功能瘪校,意思是在“數(shù)據(jù)地圖”功能中,能找到所有的數(shù)據(jù)。

數(shù)據(jù)地圖不是跟百度地圖阱扬、高德地圖一樣泣懊,而是跟ETL流程DAG一樣的,或者直接是表格展示麻惶。 更簡單的表格基本上就是庫名馍刮、表名、元數(shù)據(jù)代碼窃蹋、字段名卡啰、數(shù)倉位置、上游 警没、下游匈辱、管轄單位、負(fù)責(zé)人等杀迹。

————————————————
原文鏈接:https://blog.csdn.net/qq_41116027/article/details/124392461

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末亡脸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子树酪,更是在濱河造成了極大的恐慌浅碾,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件续语,死亡現(xiàn)場離奇詭異垂谢,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)疮茄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門滥朱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人娃豹,你說我怎么就攤上這事焚虱。” “怎么了懂版?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長躏率。 經(jīng)常有香客問我躯畴,道長,這世上最難降的妖魔是什么薇芝? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任蓬抄,我火速辦了婚禮,結(jié)果婚禮上夯到,老公的妹妹穿的比我還像新娘嚷缭。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布阅爽。 她就那樣靜靜地躺著路幸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪付翁。 梳的紋絲不亂的頭發(fā)上简肴,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機(jī)與錄音百侧,去河邊找鬼砰识。 笑死,一個胖子當(dāng)著我的面吹牛佣渴,可吹牛的內(nèi)容都是我干的辫狼。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼辛润,長吁一口氣:“原來是場噩夢啊……” “哼膨处!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起频蛔,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤灵迫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后晦溪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瀑粥,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年三圆,在試婚紗的時候發(fā)現(xiàn)自己被綠了狞换。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡舟肉,死狀恐怖修噪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情路媚,我是刑警寧澤黄琼,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站整慎,受9級特大地震影響脏款,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜裤园,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一撤师、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拧揽,春花似錦剃盾、人聲如沸腺占。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽衰伯。三九已至,卻和暖如春闰歪,著一層夾襖步出監(jiān)牢的瞬間嚎研,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工库倘, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留临扮,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓教翩,卻偏偏與公主長得像杆勇,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子饱亿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容