數(shù)據(jù)血緣的定義
數(shù)據(jù)血緣即數(shù)據(jù)的來龍去脈,主要包含數(shù)據(jù)的來源齿兔、數(shù)據(jù)的加工方式橱脸、映射關(guān)系以及數(shù)據(jù)出口础米。
數(shù)據(jù)血緣屬于元數(shù)據(jù)的一部分,清晰的數(shù)據(jù)血緣是數(shù)據(jù)平臺維持穩(wěn)定的基礎(chǔ)添诉,更有利于數(shù)據(jù)變更影響分析以及數(shù)據(jù)問題排查屁桑。
數(shù)據(jù)血緣的范圍
數(shù)據(jù)血緣單純的數(shù)據(jù)角度來看包含的維度有數(shù)據(jù)庫、表栏赴、字段蘑斧、系統(tǒng)、應(yīng)用程序须眷,即數(shù)據(jù)存儲在什么數(shù)據(jù)庫的什么表竖瘾,對應(yīng)的字段是什么以及字段的屬性,數(shù)據(jù)所屬的系統(tǒng)以及與數(shù)據(jù)有關(guān) 的應(yīng)用程序花颗。
數(shù)據(jù)血緣從業(yè)務(wù)角度來看包含的維度主要是數(shù)據(jù)所屬業(yè)務(wù)線捕传,涉及到業(yè)務(wù)便要梳理清楚數(shù)據(jù)的產(chǎn)生邏輯、數(shù)據(jù)的使用邏輯以及業(yè)務(wù)線之間的關(guān)聯(lián)關(guān)系扩劝。
數(shù)據(jù)血緣獲取
數(shù)據(jù)血緣的獲取主要有程序解析與人工采集兩種方式庸论。
1.程序解析
程序解析主要是面向存儲過程、sql今野、視圖以及已有的ETL過程葡公。
以一個(gè)數(shù)據(jù)加工的完整流程為例,每個(gè)數(shù)據(jù)加工的流程都通過一個(gè)唯一的標(biāo)識進(jìn)行標(biāo)記条霜,流程中的每一個(gè)環(huán)節(jié)都記錄其前后依賴關(guān)系催什,程序?qū)⒚恳粋€(gè)環(huán)節(jié)的邏輯解析以后 根據(jù)依賴關(guān)系和流程便可以生成全流程的數(shù)據(jù)血緣。
- 人工采集
人工采集可以是程序解析的一種輔助宰睡,也可以單獨(dú)以這種方式發(fā)揮作用蒲凶。
與程序解析不同的是,人工采集的結(jié)果可以更準(zhǔn)確與詳實(shí)拆内,即使是在程序解析可以實(shí)現(xiàn)極高的準(zhǔn)確率的情況下也需要以人工的方式進(jìn)行一次審核是比較合理的做法旋圆。
數(shù)據(jù)血緣的表現(xiàn)形式
數(shù)據(jù)血緣在表現(xiàn)關(guān)聯(lián)關(guān)系時(shí)其實(shí)與知識圖譜非常的類似。
下圖為使用neo4j生成用來表示血緣的圖:
(為了讓展示方式清晰麸恍,故隱去了圖中節(jié)點(diǎn)的一些屬性)
如上圖所示灵巧,兩個(gè)橘黃色分別表示ods和dwd層的兩張表,藍(lán)色的代表字段抹沪,dwd_vol有一個(gè)字段fund_account刻肄,其數(shù)據(jù)來源為將ods_vol表中的fund_account求和。
以上的表現(xiàn)方式在使用程序解析時(shí)可以非常方便的生成融欧,但是對于手工采集敏弃,則需要先通過其他形式進(jìn)行記錄,如下表格所示:
(以上表格中的內(nèi)容僅供參考噪馏,命名方面可能不是太規(guī)整)