數(shù)據(jù)元
什么是數(shù)據(jù)元:
《GB/T 19488.1 電子政務(wù)數(shù)據(jù)元第1部分:設(shè)計(jì)和管理規(guī)范》 里是這樣定義的:
數(shù)據(jù)元(Data element):又稱數(shù)據(jù)類型粱腻,通過定義、標(biāo)識斩跌、表示以及允許值等一系列屬性描述的數(shù)據(jù)單元绍些。在特定的語義環(huán)境中被認(rèn)為是不可再分的最小數(shù)據(jù)單元。
舉例說明:
語義環(huán)境:描述員工年齡的大小 age為數(shù)據(jù)元滔驶,“18“為數(shù)據(jù)元的值遇革。
數(shù)據(jù)元一般來說由三部分組成:
對象類:思想卿闹、概念或真實(shí)世界中的事物的集合揭糕,它們具有清晰的邊界和含義,其特征和行為遵循同樣的規(guī)則锻霎。
特性:對象類中的所有成員共同具有的一個有別于其它的著角、顯著的特征。
表示:它描述了數(shù)據(jù)被表達(dá)的方式旋恼。
還是以前面的例子:
語義環(huán)境:描述員工年齡的大小 age為數(shù)據(jù)元吏口,“18“為數(shù)據(jù)元的值。
對象是員工 冰更,特性是 年齡 age ,表示是 數(shù)值
語義環(huán)境:描述員工所屬部門的編碼 deptcode為數(shù)據(jù)元产徊,“1001“為數(shù)據(jù)元的值。
對象是員工所屬部門蜀细,特性是 編碼 deptcode ,表示是 文本
元數(shù)據(jù)
什么是元數(shù)據(jù)
百度百科是這樣定義的:
元數(shù)據(jù)(Metadata)舟铜,又稱中介數(shù)據(jù)、中繼數(shù)據(jù)奠衔,為描述數(shù)據(jù)的數(shù)據(jù)谆刨,主要是描述數(shù)據(jù)屬性(property)的信息,用來支持如指示存儲位置归斤、歷史數(shù)據(jù)痊夭、資源查找、文件記錄等功能脏里。
《DAMA數(shù)據(jù)管理知識體系指南》是這樣定義的:
元數(shù)據(jù)最常見的定義是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”她我。這個定義非常簡單,但也容易引起誤解迫横》撸可以歸類為元數(shù)據(jù)的信息范圍很廣,不僅包括技術(shù)和業(yè)務(wù)流程员淫、數(shù)據(jù)規(guī)則和約束合蔽,還包括邏輯數(shù)據(jù)結(jié)構(gòu)與物理數(shù)據(jù)結(jié)構(gòu)等。它描述了數(shù)據(jù)本身(如數(shù)據(jù)庫介返、數(shù)據(jù)元素拴事、數(shù)據(jù)模型)沃斤,數(shù)據(jù)表示的概念(如業(yè)務(wù)流程、應(yīng)用系統(tǒng)刃宵、軟件代碼衡瓶、技術(shù)基礎(chǔ)設(shè)施),數(shù)據(jù)與概念之間的聯(lián)系(關(guān)系)牲证。元數(shù)據(jù)可以幫助組織理解其自身的數(shù)據(jù)哮针、系統(tǒng)和流程,同時幫助用戶評估數(shù)據(jù)質(zhì)量坦袍,對數(shù)據(jù)庫與其他應(yīng)用程序的管理來說是不可或缺的十厢。它有助于處理、維護(hù)捂齐、集成蛮放、保護(hù)和治理其他數(shù)據(jù)。
怎么理解呢奠宜?《DAMA數(shù)據(jù)管理知識體系指南》舉了一個比較好理解的例子:
為了理解元數(shù)據(jù)在數(shù)據(jù)管理中的重要作用包颁,試想一個大型圖書館中有成千上萬的書籍和雜志,但是沒有目錄卡片压真。沒有目錄卡片娩嚼,讀者將不知道如何尋找一本特定的書籍甚至一個特定的主題。目錄卡片不僅提供了必要的信息(圖書館擁有哪些書籍和資料以及它們被存放在哪里)滴肿,還幫助讀者可以使用不同的方式(主題領(lǐng)域岳悟、作者或者書名)來查找資料。如果沒有目錄嘴高,尋找一本特定的書將是一件十分困難的事情竿音。一個組織沒有元數(shù)據(jù),就如同一個圖書館沒有目錄卡片拴驮。
面對數(shù)據(jù)總是會有以下的一些疑問:
這個數(shù)據(jù)怎么來的春瞬?誰創(chuàng)建的,誰更新的套啤,從哪個系統(tǒng)來的…
這個數(shù)據(jù)是什么宽气?數(shù)據(jù)的語義環(huán)境是什么,數(shù)據(jù)怎么存儲的潜沦,數(shù)據(jù)的定位是什么…
這個數(shù)據(jù)怎么用萄涯?數(shù)據(jù)的應(yīng)用場景是什么,有沒有和其他系統(tǒng)共享唆鸡,如果丟失會造成什么影響…
這個數(shù)據(jù)怎么管理涝影?誰負(fù)責(zé)這個數(shù)據(jù),這個數(shù)據(jù)怎么評定質(zhì)量争占,誰有權(quán)訪問這個數(shù)據(jù)…
為了更好的解決這些問題燃逻,從而使用元數(shù)據(jù)來記錄數(shù)據(jù)相關(guān)的信息序目。
元數(shù)據(jù)的分類
元數(shù)據(jù)管理的范圍將涵括數(shù)據(jù)產(chǎn)生、數(shù)據(jù)存儲伯襟、數(shù)據(jù)加工和展現(xiàn)等各個環(huán)節(jié)的數(shù)據(jù)描述信息猿涨,幫助用戶理解數(shù)據(jù)來龍去脈、關(guān)系及相關(guān)屬性姆怪。按其描述對象的不同可以劃分為三類元數(shù)據(jù):業(yè)務(wù)元數(shù)據(jù)叛赚、技術(shù)元數(shù)據(jù)、和操作元數(shù)據(jù)稽揭。
業(yè)務(wù)元數(shù)據(jù)
業(yè)務(wù)元數(shù)據(jù)(Business Metadata)主要關(guān)注數(shù)據(jù)的內(nèi)容和條件俺附,另包括與數(shù)據(jù)治理相關(guān)的詳細(xì)信息。業(yè)務(wù)元數(shù)據(jù)包括主題域淀衣、概念昙读、實(shí)體召调、屬性的非技術(shù)名稱和定義膨桥、屬性的數(shù)據(jù)類型和其他特征,如范圍描述唠叛、計(jì)算公式只嚣、算法和業(yè)務(wù)規(guī)則、有效的域值及其定義艺沼。業(yè)務(wù)元數(shù)據(jù)的示例包括:
1)數(shù)據(jù)集册舞、表和字段的定義和描述。
2)業(yè)務(wù)規(guī)則障般、轉(zhuǎn)換規(guī)則调鲸、計(jì)算公式和推導(dǎo)公式。
3)數(shù)據(jù)模型挽荡。
4)數(shù)據(jù)質(zhì)量規(guī)則和檢核結(jié)果藐石。
5)數(shù)據(jù)的更新計(jì)劃。
6)數(shù)據(jù)標(biāo)準(zhǔn)定拟。
7)有效值約束于微。
8)數(shù)據(jù)的安全/隱私級別。
技術(shù)元數(shù)據(jù)
技術(shù)元數(shù)據(jù)(Technical Metadata)又可以分成結(jié)構(gòu)性技術(shù)元數(shù)據(jù)和關(guān)聯(lián)性技術(shù)元數(shù)據(jù)青自。結(jié)構(gòu)性技術(shù)元數(shù)據(jù)提供了在信息技術(shù)的基礎(chǔ)架構(gòu)中對數(shù)據(jù)的說明株依,如數(shù)據(jù)的存放位置、數(shù)據(jù)的存儲類型延窜、數(shù)據(jù)的血緣關(guān)系等恋腕。關(guān)聯(lián)性技術(shù)元數(shù)據(jù)描述了數(shù)據(jù)之間的關(guān)聯(lián)和數(shù)據(jù)在信息技術(shù)環(huán)境之中的流轉(zhuǎn)情況。技術(shù)元數(shù)據(jù)的示例包括:
1)物理數(shù)據(jù)庫表名和字段名逆瑞。
2)字段屬性(數(shù)據(jù)類型)荠藤。
4)訪問權(quán)限祈远。
5)數(shù)據(jù)CRUD(增、刪商源、改车份、查)規(guī)則。
6)物理數(shù)據(jù)模型牡彻,包括數(shù)據(jù)表名扫沼、鍵和索引。
7)記錄數(shù)據(jù)模型與實(shí)物資產(chǎn)之間的關(guān)系庄吼。
8)ETL作業(yè)詳細(xì)信息缎除。
9)文件格式模式定義。
10)源到目標(biāo)的映射文檔总寻。
11)數(shù)據(jù)血緣文檔器罐,包括上游和下游變更影響的信息。
12)程序和應(yīng)用的名稱和描述渐行。
13)周期作業(yè)(內(nèi)容更新)的調(diào)度計(jì)劃和依賴轰坊。
14)恢復(fù)和備份規(guī)則。
15)數(shù)據(jù)訪問的權(quán)限祟印、組肴沫、角色。
操作元數(shù)據(jù)
操作元數(shù)據(jù)(Operational Metadata)主要是指與元數(shù)據(jù)管理相關(guān)的組織蕴忆、崗位颤芬、職責(zé)、流程套鹅,以及系統(tǒng)日常運(yùn)行產(chǎn)生的操作數(shù)據(jù)站蝠。操作元數(shù)據(jù)管理的內(nèi)容主要包括:與元數(shù)據(jù)管理相關(guān)的組織、崗位卓鹿、職責(zé)菱魔、流程、項(xiàng)目减牺、版本豌习,以及系統(tǒng)生產(chǎn)運(yùn)行產(chǎn)生的操作記錄,如運(yùn)行記錄拔疚、應(yīng)用程序肥隆、運(yùn)行作業(yè)。
1)批處理程序的作業(yè)執(zhí)行日志稚失。
2)抽取歷史和結(jié)果栋艳。
3)調(diào)度異常處理。
4)錯誤日志句各。
5)報(bào)表和查詢的訪問模式吸占、頻率和執(zhí)行時間晴叨。
6)補(bǔ)丁和版本的維護(hù)計(jì)劃和執(zhí)行情況,以及當(dāng)前的補(bǔ)丁級別矾屯。
7)備份兼蕊、保留、創(chuàng)建日期件蚕、災(zāi)備恢復(fù)預(yù)案孙技。
8)數(shù)據(jù)歸檔、保留規(guī)則和相關(guān)歸檔文件排作。
9)清洗標(biāo)準(zhǔn)牵啦。
10)數(shù)據(jù)共享規(guī)則和協(xié)議。
11)技術(shù)人員的角色妄痪、職責(zé)和聯(lián)系信息哈雏。
元數(shù)據(jù)應(yīng)用
經(jīng)過前面的介紹,大概對元數(shù)據(jù)有個初步的印象衫生,可能接下來就要問了:元數(shù)據(jù)有什么用裳瘪?
先引入一個場景:
假設(shè)有一天,我們需要對某一些業(yè)務(wù)信息指標(biāo)做一個報(bào)表統(tǒng)計(jì)障簿,用于前端的數(shù)據(jù)展示盹愚,這些業(yè)務(wù)信息可能來自于不同的表,通過不同的ETL過程到目標(biāo)數(shù)據(jù)倉庫站故,最后展示在一個報(bào)表中,如下圖所示:
血緣分析
舉例:
假設(shè)你在管理報(bào)表毅舆,有一天你發(fā)現(xiàn)有報(bào)表數(shù)據(jù)中 指標(biāo)3 的數(shù)據(jù)異常西篓,你需要找出錯誤的數(shù)據(jù)并提交流程修正,那么這個錯誤數(shù)據(jù)從何而來憋活?一個個核對數(shù)據(jù)顯然不夠高效岂津,那你就得知道這個報(bào)表的的指標(biāo)來源,元數(shù)據(jù)的血緣分析能幫助你分析這個錯誤數(shù)據(jù)的上游路徑悦即。
查看元數(shù)據(jù)可以發(fā)現(xiàn):
指標(biāo)3 是由數(shù)據(jù)集市的 B主題數(shù)據(jù) 經(jīng)過ETL過程生成的 吮成,
B主題數(shù)據(jù) 又是 由 數(shù)據(jù)倉庫中的table1 和 table 4經(jīng)過ETL過程生成的
血緣分析是一種技術(shù)手段,用于對數(shù)據(jù)處理過程的全面追蹤辜梳,從而找到某個數(shù)據(jù)對象為起點(diǎn)的所有相關(guān)元數(shù)據(jù)對象以及這些元數(shù)據(jù)對象之間的關(guān)系粱甫。元數(shù)據(jù)對象之間的關(guān)系特指表示這些元數(shù)據(jù)對象的數(shù)據(jù)流輸入輸出關(guān)系 。
由元數(shù)據(jù)構(gòu)建的血緣分析作瞄,可以快速定位數(shù)據(jù)鏈路茶宵,明確ETL細(xì)節(jié),縮小數(shù)據(jù)問題的范圍宗挥。
影響分析
舉例:
還接上面的例子乌庶,有一天你發(fā)現(xiàn)數(shù)據(jù)倉庫的table2 數(shù)據(jù)錯了种蝶,等你將table2數(shù)據(jù)更正后,此時你需要及時提醒大家這個數(shù)據(jù)的更正信息瞒大,只需要通知這個數(shù)據(jù)影響到的實(shí)體就可以了螃征,然而整個報(bào)表流程的數(shù)據(jù)傳遞這么復(fù)雜,怎么判斷哪些實(shí)體會受到這個數(shù)據(jù)的影響呢透敌。
如果沒有元數(shù)據(jù)会傲,那我們可能需要遍歷所有的腳本、數(shù)據(jù)拙泽。才能得到想要的答案淌山;而如果有成熟的元數(shù)據(jù)管理,那我們就可以直接得到答案顾瞻,節(jié)省大量時間泼疑。
數(shù)據(jù)地圖
數(shù)據(jù)地圖是一種圖形化的數(shù)據(jù)資產(chǎn)管理工具,它提供了多層次的圖形化展示荷荤,并具備各種力度控制能力退渗,滿足業(yè)務(wù)使用、數(shù)據(jù)管理蕴纳、開發(fā)運(yùn)維不同應(yīng)用場景的圖形查詢和輔助分析需求会油。
為什么有數(shù)據(jù)地圖:
如果公司的數(shù)據(jù)庫里只有百十來張表,那基本上不需要啥數(shù)據(jù)地圖古毛,因?yàn)榭磕X子就能全記住了翻翩。
但是,如果有好幾個系統(tǒng)稻薇、幾百張表嫂冻,而且在數(shù)倉里還分了好多層,之間的關(guān)系錯綜復(fù)雜塞椎,誰能全部記得住敖胺隆?
這個數(shù)據(jù)地圖主要解決這些問題:
平臺由多少數(shù)據(jù)資源案狠?
每個數(shù)據(jù)源由多少表服傍、字段?
這些表骂铁、字段里面都是什么內(nèi)容吹零?
怎么獲取這些數(shù)據(jù)?
為啥叫“數(shù)據(jù)地圖”从铲,其實(shí)就是借用了地圖“找信息”的功能瘪校,意思是在“數(shù)據(jù)地圖”功能中,能找到所有的數(shù)據(jù)。
數(shù)據(jù)地圖不是跟百度地圖阱扬、高德地圖一樣泣懊,而是跟ETL流程DAG一樣的,或者直接是表格展示麻惶。 更簡單的表格基本上就是庫名馍刮、表名、元數(shù)據(jù)代碼窃蹋、字段名卡啰、數(shù)倉位置、上游 警没、下游匈辱、管轄單位、負(fù)責(zé)人等杀迹。
————————————————
原文鏈接:https://blog.csdn.net/qq_41116027/article/details/124392461