給初心者的數(shù)據(jù)倉(cāng)庫元數(shù)據(jù)系統(tǒng)開發(fā)指南

加過一些數(shù)據(jù)開發(fā)的社群稠通,經(jīng)常會(huì)有人問元數(shù)據(jù)系統(tǒng)怎么開發(fā),大概網(wǎng)上很難搜到相關(guān)的好文章买猖。

什么是元數(shù)據(jù)

首先改橘,元數(shù)據(jù)的概念,通常解釋為數(shù)據(jù)的數(shù)據(jù)玉控,這個(gè)太難看懂了飞主,需要換個(gè)角度解釋。

舉個(gè)例子,網(wǎng)上商城描述一本圖書碌识,會(huì)把書分類到某個(gè)學(xué)科碾篡,還會(huì)描述其價(jià)格、作者筏餐、出版社开泽、語言、用戶評(píng)價(jià)等胖烛,這些圖書的額外描述就可以認(rèn)為是元數(shù)據(jù)眼姐。這些圖書的元數(shù)據(jù)可以用于圖書館管理,或者網(wǎng)上購(gòu)物時(shí)的搜索和篩選佩番。

再舉個(gè)例子众旗,一張圖片,圖片本身是數(shù)據(jù)趟畏,那元數(shù)據(jù)就是圖片的文件名稱贡歧、格式、尺寸赋秀、光圈大小利朵、拍攝時(shí)間、拍攝地點(diǎn)猎莲、主題绍弟、人物等。照片有了元數(shù)據(jù)著洼,就可以用于照片歸類管理和檢索樟遣,很多網(wǎng)絡(luò)相冊(cè)都提供了按時(shí)間、地點(diǎn)身笤、人物篩選照片的功能豹悬。


mac系統(tǒng)展示的照片元數(shù)據(jù)

數(shù)據(jù)倉(cāng)庫的元數(shù)據(jù)是什么

這個(gè)沒有標(biāo)準(zhǔn)答案,因?yàn)槊考夜镜臄?shù)據(jù)倉(cāng)庫不一樣液荸,從而其元數(shù)據(jù)也就不一樣瞻佛。參考Kimball的數(shù)據(jù)倉(cāng)庫經(jīng)典理論,數(shù)據(jù)倉(cāng)庫的元數(shù)據(jù)可以這么劃分

  • 業(yè)務(wù)元數(shù)據(jù):表和字段的業(yè)務(wù)含義娇钱、責(zé)任人伤柄、用戶文檔、培訓(xùn)資料
  • 技術(shù)元數(shù)據(jù):數(shù)據(jù)庫描述文搂、建表語句适刀、存儲(chǔ)路徑、執(zhí)行計(jì)劃细疚、備份計(jì)劃蔗彤、安全策略
  • 過程元數(shù)據(jù):假設(shè)數(shù)據(jù)每天跑一次川梅,那每天幾點(diǎn)開跑,幾點(diǎn)跑完然遏,最新的數(shù)據(jù)量贫途,消耗的資源,數(shù)據(jù)質(zhì)量校驗(yàn)結(jié)果待侵,每天被查詢的情況

值得一提的是丢早,很多地方提到的開源的元數(shù)據(jù)系統(tǒng),往往只做了技術(shù)元數(shù)據(jù)的一部分秧倾,僅僅是大數(shù)據(jù)基礎(chǔ)設(shè)施的技術(shù)元數(shù)據(jù)怨酝。

數(shù)據(jù)倉(cāng)庫為什么需要元數(shù)據(jù)系統(tǒng)

因?yàn)橛行枨螅墚a(chǎn)生價(jià)值那先,或者提升效率农猬,所以數(shù)據(jù)倉(cāng)庫需要元數(shù)據(jù)系統(tǒng)。特別是數(shù)據(jù)倉(cāng)庫達(dá)到一定規(guī)模后售淡,靠腦力記不住數(shù)據(jù)倉(cāng)庫本身的所有信息斤葱。這里列舉一些典型場(chǎng)景:

  • 開發(fā)者

    • 希望找到快速找到表或字段的業(yè)務(wù)含義,以便寫出準(zhǔn)確的SQL
    • 希望知道一張表是不是已經(jīng)更新了揖闸,或者每天什么時(shí)候可以用揍堕,防止用了舊數(shù)據(jù)
    • 當(dāng)有問題時(shí),希望知道表的責(zé)任人是誰汤纸,方便聯(lián)系咨詢
    • 用到一張陌生的表時(shí)衩茸,希望看看別人是怎么用
    • 當(dāng)一張表要發(fā)生變更或出錯(cuò),希望知道對(duì)別人有沒有影響
    • 一張表的數(shù)據(jù)被人篡改或誤刪贮泞,找到是誰操作的楞慈,便于挽回?fù)p失
  • 數(shù)據(jù)倉(cāng)庫管理者

    • 數(shù)據(jù)倉(cāng)庫里到底有哪些數(shù)據(jù)了,有多少表隙畜,多少數(shù)據(jù)量
    • 每天有多少人在用數(shù)據(jù)倉(cāng)庫抖部,有多少任務(wù)在跑说贝,消耗了多少資源
    • 每天的任務(wù)是否按時(shí)完成议惰,是否有數(shù)據(jù)質(zhì)量問題
    • 是否有任務(wù)消耗了太多系統(tǒng)計(jì)算資源,要找出來做性能優(yōu)化

有些使用場(chǎng)景可以算作是數(shù)據(jù)管理/治理的需求乡恕,這個(gè)怎么劃分不重要言询,首先得要有這些數(shù)據(jù)

元數(shù)據(jù)系統(tǒng)的本質(zhì)

一個(gè)電商平臺(tái),它的核心數(shù)據(jù)是訂單傲宜、商品运杭,除了有面向用戶的商品瀏覽和下單系統(tǒng),還需要有個(gè)后臺(tái)系統(tǒng)來管理訂單函卒、商品辆憔。同樣道理,一個(gè)數(shù)據(jù)倉(cāng)庫最核心的東西就是表以及表里的數(shù)據(jù),除了有個(gè)開發(fā)平臺(tái)或報(bào)表系統(tǒng)開發(fā)這些表和數(shù)據(jù)虱咧,還需要有個(gè)系統(tǒng)來管理熊榛、監(jiān)控這些表和數(shù)據(jù)的生產(chǎn)和使用,這就是數(shù)據(jù)倉(cāng)庫的元數(shù)據(jù)系統(tǒng)腕巡。

大數(shù)據(jù)時(shí)代玄坦,連自己的數(shù)據(jù)都管不好,怎么去用好那么多業(yè)務(wù)數(shù)據(jù)绘沉?

怎么開發(fā)一個(gè)元數(shù)據(jù)系統(tǒng)

實(shí)踐證明煎楣,開發(fā)一個(gè)數(shù)據(jù)倉(cāng)庫元數(shù)據(jù)系統(tǒng),技術(shù)上并不難车伞,是個(gè)業(yè)務(wù)復(fù)雜度遠(yuǎn)大于技術(shù)復(fù)雜度的系統(tǒng)择懂。

把需求搞清楚,做好設(shè)計(jì)另玖,自然能做個(gè)有用的元數(shù)據(jù)系統(tǒng)休蟹。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市日矫,隨后出現(xiàn)的幾起案子赂弓,更是在濱河造成了極大的恐慌,老刑警劉巖哪轿,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件盈魁,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡窃诉,警方通過查閱死者的電腦和手機(jī)杨耙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來飘痛,“玉大人珊膜,你說我怎么就攤上這事⌒觯” “怎么了车柠?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)塑猖。 經(jīng)常有香客問我竹祷,道長(zhǎng),這世上最難降的妖魔是什么羊苟? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任塑陵,我火速辦了婚禮,結(jié)果婚禮上蜡励,老公的妹妹穿的比我還像新娘令花。我一直安慰自己阻桅,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布兼都。 她就那樣靜靜地躺著鳍刷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪俯抖。 梳的紋絲不亂的頭發(fā)上输瓜,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天芬萍,我揣著相機(jī)與錄音,去河邊找鬼柬祠。 笑死漫蛔,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蠕嫁。 我是一名探鬼主播剃毒,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼赘阀,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼脑奠!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起轰豆,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤秒咨,失蹤者是張志新(化名)和其女友劉穎掌挚,沒想到半個(gè)月后菩咨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡糙置,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了懊纳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嗤疯。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡茂缚,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出龟糕,到底是詐尸還是另有隱情翩蘸,我是刑警寧澤淮逊,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布泄鹏,位于F島的核電站,受9級(jí)特大地震影響舶治,放射性物質(zhì)發(fā)生泄漏霉猛。R本人自食惡果不足惜珠闰,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一伏嗜、第九天 我趴在偏房一處隱蔽的房頂上張望伐厌。 院中可真熱鬧挣轨,春花似錦轩猩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽葫慎。三九已至,卻和暖如春艰额,著一層夾襖步出監(jiān)牢的瞬間椒涯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拯欧,地道東北人财骨。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓隆箩,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親捌臊。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354