也談數(shù)據(jù)治理
|0x00 數(shù)據(jù)治理是什么
數(shù)據(jù)治理络它,在不同行業(yè)的概念辙培,可能不同蕾额。比如在國家標(biāo)準(zhǔn)化管理委員會發(fā)布《信息技術(shù)服務(wù)治理第5部分:數(shù)據(jù)治理規(guī)范》娜谊,從非常宏觀的角度來制定,側(cè)重于拉通概念和達(dá)成共識恬叹,像一種“國家標(biāo)準(zhǔn)”候生;《華為數(shù)據(jù)之道》是從企業(yè)數(shù)字化的角度切入下去,側(cè)重?cái)?shù)據(jù)治理體系和方法論绽昼,屬于一種“管理方案”唯鸭;而阿里推出的《大數(shù)據(jù)之路》一書,則在數(shù)據(jù)技術(shù)層面給出了有價值的指導(dǎo)硅确,算是具體的“實(shí)現(xiàn)方案”了目溉。
DAMA(國際數(shù)據(jù)管理協(xié)會)給“數(shù)據(jù)治理”下的定義是:數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動集合。DGI(國際數(shù)據(jù)治理研究所)則認(rèn)為:數(shù)據(jù)治理是一個通過一系列信息相關(guān)的過程來實(shí)現(xiàn)決策權(quán)和職責(zé)分工的系統(tǒng)菱农,這些過程按照達(dá)成共識的模型來執(zhí)行缭付,該模型描述了誰(Who)能根據(jù)什么信息,在什么時間(When)和情況(Where)下循未,用什么方法(How)陷猫,采取什么行動(What)。IBM(數(shù)據(jù)治理委員會)提出的數(shù)據(jù)治理概念中的妖,將“數(shù)據(jù)治理”相關(guān)的要素劃分為了四個層次烙丛,分別是:支持規(guī)程、核心規(guī)程羔味、支持條件和成果河咽。
在主數(shù)據(jù)領(lǐng)域,也有數(shù)據(jù)治理的訴求赋元,MDM(Master Data Management)就代表這個事情忘蟹§浚可以參考2018年中國信通院牽頭編寫的《主數(shù)據(jù)管理實(shí)踐白皮書》,也給出了相關(guān)建議媚值。
以上可以看出狠毯,“數(shù)據(jù)治理”這個主題,大家都看得懂明面意思褥芒,但太過于寬泛嚼松,以至于很多細(xì)節(jié)爭論頗多,各行各業(yè)也都有自己的看法锰扶。從筆者自身的經(jīng)歷出發(fā)献酗,在互聯(lián)網(wǎng)的工作中,數(shù)據(jù)治理更多的是從經(jīng)營的角度出發(fā)坷牛,來控制成本(包括人力罕偎、機(jī)器、技術(shù)債務(wù)等)增長不超過業(yè)務(wù)的增長京闰,同時能夠支持業(yè)務(wù)的長期颜及、快速的使用需求。數(shù)據(jù)治理涉及到的地方蹂楣,包括了“數(shù)據(jù)開發(fā)俏站、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全”這幾個崗位痊土。
因此肄扎,我們大體上明確了這個概念,即“數(shù)據(jù)治理”(Data Governance)是組織中涉及數(shù)據(jù)使用的一整套管理行為施戴。由企業(yè)數(shù)據(jù)治理部門發(fā)起并推行,關(guān)于如何制定和實(shí)施針對整個企業(yè)內(nèi)部數(shù)據(jù)的商業(yè)應(yīng)用和技術(shù)管理的一系列政策和流程(以上來源于:百度百科)萌丈。
“數(shù)據(jù)治理”對抗的是三個老大難:“復(fù)雜性困局”赞哗、“信息不對稱(包括數(shù)據(jù)孤島與跨部門溝通)”和“惰性心理”。因此辆雾,數(shù)據(jù)治理需要一個系統(tǒng)性的工程來對抗肪笋,站在數(shù)據(jù)從生產(chǎn)到使用的全鏈路視角,通過技術(shù)工具的改進(jìn)(釋放技術(shù)紅利)度迂,來定性定量的分析問題原因藤乙,并通過運(yùn)營手段來最終落地,最終控制數(shù)據(jù)成本與復(fù)雜度有序增長惭墓。
剛才這段話看著很“八股”坛梁,其實(shí)我覺得找不到更簡化的語言來描述了,如果能的話腊凶,大概就是“統(tǒng)一標(biāo)準(zhǔn)”划咐、“嚴(yán)格規(guī)范”拴念,統(tǒng)一標(biāo)準(zhǔn)可以按照“一致性維度”的角度來考慮,“嚴(yán)格規(guī)范”則從制度和工具兩個方向來改進(jìn)褐缠。
|0x01 基于一致性維度的思考
在Kimball的維度建模理論中政鼠,有一個很重要的概念叫Conformed Dimension,中文一般翻譯為“一致性維度”队魏」悖“一致性維度”是構(gòu)建多維分析體系的三個關(guān)鍵性概念之一,另兩個是總線架構(gòu)(Bus Architecture)和一致性事實(shí)(Conformed Fact)胡桨。
在《數(shù)據(jù)倉庫工具箱》(第三版)中官帘,也提到了數(shù)據(jù)治理的問題,是站在一致性維度的角度上來看待登失。在絕大多數(shù)組織中遏佣,業(yè)務(wù)數(shù)據(jù)相關(guān)的規(guī)則,包括概念和口徑揽浙,都是業(yè)務(wù)團(tuán)隊(duì)自己定義的状婶,這樣很容易導(dǎo)致數(shù)據(jù)孤島問題的出現(xiàn),因此通常需要比較高階的領(lǐng)導(dǎo)來推動數(shù)據(jù)治理的工作馅巷。書中提到了這個領(lǐng)導(dǎo)應(yīng)該具備的素養(yǎng)膛虫,包括:
? 來自組織內(nèi)部;
? 對企業(yè)的業(yè)務(wù)有非常廣泛的了解钓猬;
? 能夠平衡組織訴求與業(yè)務(wù)發(fā)展的需要稍刀;
? 具備比較高的權(quán)威;
? 非常強(qiáng)的與人打交道的能力敞曹;
? 具備談判技巧账月,以確保目的的達(dá)成。
很明顯澳迫,能夠做到這些事情的人并不多局齿,在大多數(shù)行業(yè)中,能夠?qū)σ恢滦跃S度下定義的人太少橄登,因此很多人會認(rèn)為一致性維度非常困難抓歼。這種問題便是思維上轉(zhuǎn)變的問題,即業(yè)務(wù)團(tuán)隊(duì)按照自己的訴求來發(fā)展拢锹,轉(zhuǎn)換到從公司層面上出發(fā)谣妻,為整個公司的業(yè)務(wù)來推動數(shù)據(jù)的共享。例如卒稳,財(cái)務(wù)團(tuán)隊(duì)就有比較統(tǒng)一的一致性維度蹋半,它有一個為人熟知的名字:“統(tǒng)一會計(jì)科目”,這樣數(shù)據(jù)跟業(yè)務(wù)就有了很好的映射關(guān)系充坑。
因此湃窍,數(shù)據(jù)中臺的概念被發(fā)明闻蛀,并且迅速普及起來,因?yàn)閿?shù)據(jù)確實(shí)需要放在一起您市,才能做好有效的管理觉痛。在互聯(lián)網(wǎng)企業(yè),有兩個地方非骋鹦荩看重?cái)?shù)據(jù)的一致性維度薪棒,是數(shù)倉團(tuán)隊(duì)的公共層,以及業(yè)務(wù)團(tuán)隊(duì)的主數(shù)據(jù)榕莺。
在數(shù)倉團(tuán)隊(duì)俐芯,數(shù)據(jù)公共層的英文是CDM,Common Data Model钉鸯,直譯過來便是通用數(shù)據(jù)模型吧史。CDM包括了DIM維表、DWD業(yè)務(wù)過程與DWS匯總表唠雕,是直接基于源系統(tǒng)ODS開發(fā)的贸营,主要是面向數(shù)據(jù)域設(shè)計(jì),建立一致性維度岩睁、一致性事實(shí)钞脂。在公共層強(qiáng)一致的基礎(chǔ)上,下游ADS便可以根據(jù)不同的業(yè)務(wù)訴求捕儒,做相應(yīng)的業(yè)務(wù)開發(fā)冰啃,保障數(shù)據(jù)的一致性。
在業(yè)務(wù)團(tuán)隊(duì)刘莹,主數(shù)據(jù)的英文是MDM阎毅,MD Master Data,主數(shù)據(jù)管理又可以翻譯成Master Data Management点弯,指系統(tǒng)間共享數(shù)據(jù)(例如扇调,客戶、供應(yīng)商蒲拉、賬戶和組織部門相關(guān)數(shù)據(jù))肃拜。與記錄業(yè)務(wù)活動痴腌,波動較大的交易數(shù)據(jù)相比雌团,主數(shù)據(jù)(也稱基準(zhǔn)數(shù)據(jù))變化緩慢,主數(shù)據(jù)跟元數(shù)據(jù)類似士聪,只有避免了碎片化建設(shè)锦援,通過標(biāo)準(zhǔn)的數(shù)據(jù)體系來支持業(yè)務(wù)數(shù)字化轉(zhuǎn)型的數(shù)據(jù),才是好的主數(shù)據(jù)剥悟。主數(shù)據(jù)如何用起來灵寺?除了提供標(biāo)準(zhǔn)的數(shù)據(jù)接口之外曼库,更重要的就是給數(shù)據(jù)中臺提供標(biāo)準(zhǔn)的業(yè)務(wù)數(shù)據(jù),然后數(shù)據(jù)中臺通過標(biāo)準(zhǔn)的數(shù)據(jù)來積累標(biāo)準(zhǔn)的業(yè)務(wù)過程數(shù)據(jù)略板,這樣歷史上的信息毁枯,才不至于因?yàn)橄到y(tǒng)的調(diào)整,失去了統(tǒng)計(jì)的意義叮称。某種意義上种玛,領(lǐng)域建模,就是考慮如何把主數(shù)據(jù)劃分好瓤檐。
在互聯(lián)網(wǎng)公司中赂韵,由于業(yè)務(wù)的復(fù)雜性,通常還會定義很多其他的標(biāo)準(zhǔn):如標(biāo)準(zhǔn)的英文簡稱挠蛉、數(shù)據(jù)表的標(biāo)準(zhǔn)命名方法等祭示,這些都很好的規(guī)定了數(shù)據(jù)各個方向的“標(biāo)準(zhǔn)”,是對抗系統(tǒng)“熵增”谴古,控制復(fù)雜性增加的有效方法质涛。
但真實(shí)的業(yè)務(wù)總是超出我們想象的復(fù)雜,即便按照剛才的規(guī)范做過整理讥电,不同業(yè)務(wù)之間的復(fù)雜性依舊是一個很大的挑戰(zhàn)蹂窖。定個“標(biāo)準(zhǔn)”總是容易的,但定個“好標(biāo)準(zhǔn)”卻是動態(tài)的一個過程恩敌,這里面比拼的瞬测,就是我們對業(yè)務(wù)的深度理解和思考能力。
|0x02 “嚴(yán)格規(guī)范”:從人到工具的改進(jìn)
做治理的另一個思路纠炮,便是制定嚴(yán)格的規(guī)范標(biāo)準(zhǔn)月趟,在大廠,各種規(guī)范通常包含在了“安全生產(chǎn)”的大概念下恢口,包括了代碼規(guī)范孝宗、上線規(guī)范、運(yùn)維規(guī)范等多個場景耕肩。但這些規(guī)范通常是按照人的角度來組織的因妇,因此需要成立相應(yīng)的組織來應(yīng)對,并嵌入在項(xiàng)目研發(fā)流程中猿诸,通過一些標(biāo)準(zhǔn)化的看板來監(jiān)控日常的執(zhí)行情況婚被。
嚴(yán)格的規(guī)范,其實(shí)對抗的就是“人性”梳虽,當(dāng)一個人在同一個崗位待久了之后址芯,懈怠的心理是一定會出現(xiàn)的。就像程序員的自嘲:“自己熟悉的業(yè)務(wù),很清楚坑在哪里谷炸,自己會避免踩到北专,但因?yàn)閼械脤懙轿臋n里,所以后人接手的時候旬陡,就踩上了一個又一個的坑拓颓,這時候重構(gòu),就是避免踩更多坑的好方法描孟,但本質(zhì)上還是重復(fù)了‘挖坑-跳坑-填坑-挖坑’的模式”录粱。
因此我們就進(jìn)入了借助工具,來輔助開發(fā)的階段画拾。
工具解決問題的第一個思路啥繁,是以產(chǎn)品的方式,來搞定數(shù)據(jù)的流轉(zhuǎn)問題青抛。例如在數(shù)據(jù)埋點(diǎn)的場景中旗闽,不論是哪一種業(yè)務(wù)形態(tài),其基礎(chǔ)的特點(diǎn)都是數(shù)據(jù)打點(diǎn)蜜另、加密壓縮适室、網(wǎng)絡(luò)傳輸、數(shù)據(jù)校對等共通的能力举瑰,通過產(chǎn)品來實(shí)現(xiàn)全自動化捣辆,相當(dāng)于讓工具代替了人做開發(fā),其規(guī)范是可以得到有效保障的此迅。這種方式非常像“SAAS”解決方案汽畴。
工具解決問題的第二個思路,是以完備的監(jiān)控工具耸序,輔助非標(biāo)準(zhǔn)場景做建模忍些。監(jiān)控工具包括了代碼規(guī)范檢查器、任務(wù)運(yùn)行監(jiān)控坎怪、數(shù)據(jù)血緣追蹤罢坝、DQC檢查校驗(yàn),來配合人把檢查和運(yùn)維的壓力釋放出來搅窿,專心用在業(yè)務(wù)場景的建模與優(yōu)化上嘁酿。這種方式非常像“PAAS”解決方案。
工具解決問題的第三個思路男应,是利用技術(shù)的發(fā)展闹司,推動根本性問題的解決。比如因?yàn)閿?shù)據(jù)庫性能的瓶頸殉了,業(yè)務(wù)要用到的數(shù)據(jù)庫包括了NOSQL开仰、MPP等各種OLAP的拟枚、OLTP的數(shù)據(jù)方案薪铜,本身監(jiān)控就不好做众弓,但如果把OLTP和OLAP數(shù)據(jù)庫能夠用一套方案來解決,就可以避免多個地方維度的問題隔箍,TiDB就在嘗試做類似的事情谓娃。另外數(shù)據(jù)成本的增加,本身也與分布式系統(tǒng)的冗余備份蜒滩、壓縮技術(shù)強(qiáng)相關(guān)滨达,把系統(tǒng)做的更可靠,本身就能夠節(jié)約不少的存儲成本俯艰,也算是一種根本性問題解決的思路捡遍。這種方式非常像“IAAS”解決方案。
因此竹握,數(shù)據(jù)治理很難有標(biāo)準(zhǔn)的解決方案画株,更多的是根據(jù)業(yè)務(wù)場景的不同,選擇合適自己的方法啦辐。
|0xFF 治理新思路:用數(shù)據(jù)來治理數(shù)據(jù)
這個思路在之前的文章《數(shù)據(jù)資產(chǎn)治理概要:用數(shù)據(jù)來治理數(shù)據(jù)》中提到過谓传,這里想說一些更深入的內(nèi)容。
用工具解決問題芹关,是工業(yè)化時代的思路续挟,而隨著時代步入了數(shù)字化,信息量的爆炸式增長侥衬、復(fù)雜性的不斷加深诗祸,都導(dǎo)致了工具也無法完全解決問題,因?yàn)楣ぞ叩谋举|(zhì)是給人提效轴总,而不是機(jī)器解決機(jī)器自己的問題贬媒。用數(shù)據(jù)來推動數(shù)據(jù)治理,本質(zhì)上就是通過數(shù)據(jù)來洞察數(shù)據(jù)自己的問題肘习,進(jìn)一步提升了解決問題的效率际乘,就像運(yùn)維通過自動化的監(jiān)控系統(tǒng),一人管理幾千臺服務(wù)器一樣漂佩,數(shù)據(jù)工程師通過自動化的數(shù)據(jù)監(jiān)控機(jī)制脖含,一個人維護(hù)幾千張表也就不是什么問題了。什么是維護(hù)投蝉?不僅僅是保證表不出錯养葵,也包括了識別不合理資源消耗、下線舊業(yè)務(wù)表瘩缆、動態(tài)檢查模型復(fù)用程度等关拒。
維度建模本質(zhì)上是一種規(guī)則,模型好不好本質(zhì)上也是一種規(guī)則,既然都是規(guī)則着绊,那么就可以通過“翻譯”的形式谐算,來做成一種工具,來實(shí)施監(jiān)控归露。當(dāng)然機(jī)器也有做不到的地方洲脂,比如:一張表僅有一個下游,對比一張表有一千個下游剧包,哪個價值更高恐锦?這個真不好回答,事實(shí)上強(qiáng)如機(jī)器學(xué)習(xí)疆液,也需要人工大量參與的地方一铅,所以借鑒打標(biāo)等改進(jìn)的方法,可以對監(jiān)控系統(tǒng)本身做出一些改變堕油。
但治理動作本身馅闽,就會對業(yè)務(wù)有比較強(qiáng)的入侵性,而“數(shù)據(jù)驅(qū)動”的本意馍迄,是用數(shù)據(jù)驅(qū)動業(yè)務(wù)增長福也,但不是主導(dǎo)業(yè)務(wù)發(fā)展思路。實(shí)際的開發(fā)過程中攀圈,技術(shù)都是對業(yè)務(wù)結(jié)果負(fù)責(zé)的暴凑,即便是中后臺部門,也面臨比較大的前臺業(yè)務(wù)壓力赘来,因此治理通常是數(shù)據(jù)團(tuán)隊(duì)自己搗鼓的東西现喳,除了能夠更好的應(yīng)對業(yè)務(wù)增長外,其余的價值大概也就是降低成本了犬辰,因此從公司整體的戰(zhàn)略高度來看嗦篱,數(shù)據(jù)治理的重要性,顯然還提不上日程幌缝。換句話說灸促,先有業(yè)務(wù)打贏了,你才有機(jī)會去治理數(shù)據(jù)涵卵。
當(dāng)然浴栽,一些政策主導(dǎo)的地方,比如政府部門轿偎,對數(shù)據(jù)治理的理解典鸡,就不是這樣了,更傾向于通過軍令狀的形式坏晦,用“行政”而非“技術(shù)”方法萝玷,來解決數(shù)據(jù)中存在的問題嫁乘,如下圖所示。
在“行政”治理的思路下球碉,數(shù)據(jù)治理的原則就是“要從源頭控制蜓斧,不要先污染后治理”,但在“業(yè)務(wù)”先行的思路下汁尺,數(shù)據(jù)治理又會變成“危機(jī)驅(qū)動”的方式來解決。但有一點(diǎn)是共同的多律,就是數(shù)據(jù)治理的過程要貫穿到整個業(yè)務(wù)迭代的過程中痴突,剩下的就是方法的選擇了。
數(shù)據(jù)治理是一件體系化的工程狼荞,數(shù)字化時代辽装,這是一個新興的方向,值得做出探索相味。