加過一些數(shù)據(jù)開發(fā)的社群稠通,經(jīng)常會(huì)有人問元數(shù)據(jù)系統(tǒng)怎么開發(fā),大概網(wǎng)上很難搜到相關(guān)的好文章买猖。
什么是元數(shù)據(jù)
首先改橘,元數(shù)據(jù)的概念,通常解釋為數(shù)據(jù)的數(shù)據(jù)玉控,這個(gè)太難看懂了飞主,需要換個(gè)角度解釋。
舉個(gè)例子,網(wǎng)上商城描述一本圖書碌识,會(huì)把書分類到某個(gè)學(xué)科碾篡,還會(huì)描述其價(jià)格、作者筏餐、出版社开泽、語言、用戶評(píng)價(jià)等胖烛,這些圖書的額外描述就可以認(rèn)為是元數(shù)據(jù)眼姐。這些圖書的元數(shù)據(jù)可以用于圖書館管理,或者網(wǎng)上購(gòu)物時(shí)的搜索和篩選佩番。
再舉個(gè)例子众旗,一張圖片,圖片本身是數(shù)據(jù)趟畏,那元數(shù)據(jù)就是圖片的文件名稱贡歧、格式、尺寸赋秀、光圈大小利朵、拍攝時(shí)間、拍攝地點(diǎn)猎莲、主題绍弟、人物等。照片有了元數(shù)據(jù)著洼,就可以用于照片歸類管理和檢索樟遣,很多網(wǎng)絡(luò)相冊(cè)都提供了按時(shí)間、地點(diǎn)身笤、人物篩選照片的功能豹悬。
數(shù)據(jù)倉(cāng)庫的元數(shù)據(jù)是什么
這個(gè)沒有標(biāo)準(zhǔn)答案,因?yàn)槊考夜镜臄?shù)據(jù)倉(cāng)庫不一樣液荸,從而其元數(shù)據(jù)也就不一樣瞻佛。參考Kimball的數(shù)據(jù)倉(cāng)庫經(jīng)典理論,數(shù)據(jù)倉(cāng)庫的元數(shù)據(jù)可以這么劃分
- 業(yè)務(wù)元數(shù)據(jù):表和字段的業(yè)務(wù)含義娇钱、責(zé)任人伤柄、用戶文檔、培訓(xùn)資料
- 技術(shù)元數(shù)據(jù):數(shù)據(jù)庫描述文搂、建表語句适刀、存儲(chǔ)路徑、執(zhí)行計(jì)劃细疚、備份計(jì)劃蔗彤、安全策略
- 過程元數(shù)據(jù):假設(shè)數(shù)據(jù)每天跑一次川梅,那每天幾點(diǎn)開跑,幾點(diǎn)跑完然遏,最新的數(shù)據(jù)量贫途,消耗的資源,數(shù)據(jù)質(zhì)量校驗(yàn)結(jié)果待侵,每天被查詢的情況
值得一提的是丢早,很多地方提到的開源的元數(shù)據(jù)系統(tǒng),往往只做了技術(shù)元數(shù)據(jù)的一部分秧倾,僅僅是大數(shù)據(jù)基礎(chǔ)設(shè)施的技術(shù)元數(shù)據(jù)怨酝。
數(shù)據(jù)倉(cāng)庫為什么需要元數(shù)據(jù)系統(tǒng)
因?yàn)橛行枨螅墚a(chǎn)生價(jià)值那先,或者提升效率农猬,所以數(shù)據(jù)倉(cāng)庫需要元數(shù)據(jù)系統(tǒng)。特別是數(shù)據(jù)倉(cāng)庫達(dá)到一定規(guī)模后售淡,靠腦力記不住數(shù)據(jù)倉(cāng)庫本身的所有信息斤葱。這里列舉一些典型場(chǎng)景:
-
開發(fā)者
- 希望找到快速找到表或字段的業(yè)務(wù)含義,以便寫出準(zhǔn)確的SQL
- 希望知道一張表是不是已經(jīng)更新了揖闸,或者每天什么時(shí)候可以用揍堕,防止用了舊數(shù)據(jù)
- 當(dāng)有問題時(shí),希望知道表的責(zé)任人是誰汤纸,方便聯(lián)系咨詢
- 用到一張陌生的表時(shí)衩茸,希望看看別人是怎么用
- 當(dāng)一張表要發(fā)生變更或出錯(cuò),希望知道對(duì)別人有沒有影響
- 一張表的數(shù)據(jù)被人篡改或誤刪贮泞,找到是誰操作的楞慈,便于挽回?fù)p失
-
數(shù)據(jù)倉(cāng)庫管理者
- 數(shù)據(jù)倉(cāng)庫里到底有哪些數(shù)據(jù)了,有多少表隙畜,多少數(shù)據(jù)量
- 每天有多少人在用數(shù)據(jù)倉(cāng)庫抖部,有多少任務(wù)在跑说贝,消耗了多少資源
- 每天的任務(wù)是否按時(shí)完成议惰,是否有數(shù)據(jù)質(zhì)量問題
- 是否有任務(wù)消耗了太多系統(tǒng)計(jì)算資源,要找出來做性能優(yōu)化
有些使用場(chǎng)景可以算作是數(shù)據(jù)管理/治理的需求乡恕,這個(gè)怎么劃分不重要言询,首先得要有這些數(shù)據(jù)
元數(shù)據(jù)系統(tǒng)的本質(zhì)
一個(gè)電商平臺(tái),它的核心數(shù)據(jù)是訂單傲宜、商品运杭,除了有面向用戶的商品瀏覽和下單系統(tǒng),還需要有個(gè)后臺(tái)系統(tǒng)來管理訂單函卒、商品辆憔。同樣道理,一個(gè)數(shù)據(jù)倉(cāng)庫最核心的東西就是表以及表里的數(shù)據(jù),除了有個(gè)開發(fā)平臺(tái)或報(bào)表系統(tǒng)開發(fā)這些表和數(shù)據(jù)虱咧,還需要有個(gè)系統(tǒng)來管理熊榛、監(jiān)控這些表和數(shù)據(jù)的生產(chǎn)和使用,這就是數(shù)據(jù)倉(cāng)庫的元數(shù)據(jù)系統(tǒng)腕巡。
大數(shù)據(jù)時(shí)代玄坦,連自己的數(shù)據(jù)都管不好,怎么去用好那么多業(yè)務(wù)數(shù)據(jù)绘沉?
怎么開發(fā)一個(gè)元數(shù)據(jù)系統(tǒng)
實(shí)踐證明煎楣,開發(fā)一個(gè)數(shù)據(jù)倉(cāng)庫元數(shù)據(jù)系統(tǒng),技術(shù)上并不難车伞,是個(gè)業(yè)務(wù)復(fù)雜度遠(yuǎn)大于技術(shù)復(fù)雜度的系統(tǒng)择懂。
把需求搞清楚,做好設(shè)計(jì)另玖,自然能做個(gè)有用的元數(shù)據(jù)系統(tǒng)休蟹。