文章選自5月28日稼稿,華矩科技數(shù)據(jù)治理系列講座之譚海華先生的分享:企業(yè)實(shí)施數(shù)據(jù)治理及數(shù)據(jù)標(biāo)準(zhǔn)關(guān)鍵問題及建設(shè)思路介紹苔咪,說明如何透過數(shù)據(jù)標(biāo)準(zhǔn)看數(shù)據(jù)治理的實(shí)施漓概。
今天跟各位分享的乏屯,是想嘗試通過一個(gè)數(shù)據(jù)治理里面的一些關(guān)鍵環(huán)節(jié)根时,來看怎么樣去進(jìn)行數(shù)據(jù)治理。主要分為以下幾個(gè)部分:
首先辰晕,談?wù)勗趺纯磾?shù)據(jù)治理的問題包括誤區(qū)蛤迎。我們從問題入手,我們看一看數(shù)據(jù)治理中最普遍碰到的問題含友,通過問題去分析我們所面臨的情況替裆。
第二個(gè)校辩,通過一個(gè)數(shù)據(jù)治理結(jié)構(gòu)更深入地剖析一下我們?cè)谡麄€(gè)數(shù)據(jù)治理里面的一些瓶頸和問題究竟在哪里。
第三個(gè)就是回到數(shù)據(jù)治理里面一個(gè)很關(guān)鍵的環(huán)節(jié)——數(shù)據(jù)標(biāo)準(zhǔn)辆童,我們可以通過對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的討論來去看宜咒,在數(shù)據(jù)治理里面它所反映出來的問題。
最后一點(diǎn)把鉴,談?wù)勅绾瓮ㄟ^數(shù)據(jù)探查來驅(qū)動(dòng)數(shù)據(jù)治理故黑。
我們談數(shù)據(jù)治理,其實(shí)有這么幾大塊庭砍,包括數(shù)據(jù)質(zhì)量场晶、數(shù)據(jù)標(biāo)準(zhǔn),包括數(shù)據(jù)安全怠缸,然后從橫向來講诗轻,我們又講組織講技術(shù)講流程,我想這個(gè)是構(gòu)成了我們整個(gè)數(shù)據(jù)治理的一些內(nèi)涵凯旭。今天我們的聚焦點(diǎn)在數(shù)據(jù)標(biāo)準(zhǔn)管理里面概耻,通過討論數(shù)據(jù)標(biāo)準(zhǔn)的管理,來看我們?cè)趺催M(jìn)行數(shù)據(jù)治理罐呼。
01
企業(yè)數(shù)據(jù)治理常見的誤區(qū)及問題
那么當(dāng)前企業(yè)數(shù)據(jù)治理的誤區(qū)和問題在哪里鞠柄?這里稍微羅列一下幾個(gè)有代表性的數(shù)據(jù)治理推進(jìn)的模式。
第一種推進(jìn)模型包含了管理咨詢嫉柴、工具選型厌杜、實(shí)施落地,有些企業(yè)直接做完管理咨詢计螺,之后管理咨詢會(huì)給他做工具選型夯尽,然后再讓這兩項(xiàng)實(shí)施落地。還有一種模型是從整體的數(shù)據(jù)治理框架的咨詢基礎(chǔ)上登馒,落到更為具體的數(shù)據(jù)管控的一些范疇匙握,比如說主數(shù)據(jù)管理、元數(shù)據(jù)管理陈轿,甚至還有一些數(shù)據(jù)字典圈纺、數(shù)據(jù)映射、數(shù)據(jù)標(biāo)準(zhǔn)麦射,然后再到標(biāo)準(zhǔn)規(guī)范蛾娶,再到工具選型,最后再實(shí)施落地潜秋。
這里面幾個(gè)模型蛔琅,整個(gè)思路無(wú)非就是先有方法,接著我們?cè)趺慈グ褍?nèi)容做出來峻呛,然后我們希望用一個(gè)合適的平臺(tái)把這些方法內(nèi)容支撐起來罗售,我想不管是用什么路徑辜窑,不管是用什么推進(jìn)的方法,這里面要做的這些工作是回避不了的莽囤。
那么為什么今天會(huì)挑數(shù)據(jù)標(biāo)準(zhǔn)跟規(guī)范來重點(diǎn)談谬擦?可以說它是落在了一個(gè)承上啟下的這么一個(gè)關(guān)鍵環(huán)節(jié),當(dāng)然我統(tǒng)稱它叫內(nèi)容了朽缎,有方法有平臺(tái)惨远,但是沒內(nèi)容也落不了地,就是說我們目前碰到的很多瓶頸其實(shí)是在這里话肖。
這里我們講幾個(gè)場(chǎng)景北秽,看看數(shù)據(jù)治理的問題,包括誤區(qū)在哪里最筒?
一種情況就是說我們會(huì)發(fā)現(xiàn)贺氓,后發(fā)標(biāo)準(zhǔn)會(huì)導(dǎo)致前期制定的標(biāo)準(zhǔn)要重新調(diào)整,對(duì)于一個(gè)數(shù)據(jù)治理項(xiàng)目來講的話床蜘,我們應(yīng)該怎么去處理這些問題辙培,或者說怎么去優(yōu)化這些問題,這個(gè)是非常典型的一種情況邢锯。
第二個(gè)就是說在這些企業(yè)里我們會(huì)發(fā)現(xiàn)在系統(tǒng)建設(shè)的時(shí)候扬蕊,它的一些前后次序的考慮,因?yàn)檫@種考慮的一些情況可能會(huì)導(dǎo)致一些工作的返工丹擎,或者說導(dǎo)致一些工作沒辦法覆蓋尾抑,這個(gè)次序問題對(duì)我們后面的落地來講也至關(guān)重要。
還有一個(gè)蒂培,不同的數(shù)據(jù)質(zhì)量現(xiàn)狀及需求優(yōu)先級(jí)決定了企業(yè)數(shù)據(jù)治理的路徑再愈。我們會(huì)發(fā)現(xiàn)在選擇治理的優(yōu)先級(jí)包括路徑的時(shí)候,其實(shí)往往會(huì)決定于我們對(duì)企業(yè)自己的數(shù)據(jù)現(xiàn)狀的判斷是什么护戳。
這里面我們會(huì)發(fā)現(xiàn)翎冲,其實(shí)每個(gè)企業(yè)都有它直接面臨要解決的問題,同時(shí)也存在一些誤區(qū)媳荒,主要體現(xiàn)在兩方面抗悍。一方面,大家很容易把數(shù)據(jù)治理的某些工作靜態(tài)化或者是說局部化肺樟,但因?yàn)檫@個(gè)數(shù)據(jù)是一個(gè)增量檐春,是會(huì)變化的逻淌,怎么樣去處理這些問題么伯,我想這是要有一個(gè)動(dòng)態(tài)發(fā)展的觀點(diǎn)。另一方面卡儒,很多數(shù)據(jù)治理的工作田柔,它不是基于準(zhǔn)確量化的數(shù)據(jù)質(zhì)量的診斷結(jié)果來去做的俐巴,也就是說可能它是脫離現(xiàn)狀的、脫離客戶的硬爆,或者說我們企業(yè)自己數(shù)據(jù)的一個(gè)現(xiàn)狀欣舵,而是按照一定的規(guī)律去走了,最后耗時(shí)耗力卻身陷進(jìn)退兩難的窘境缀磕。造成這些問題或誤區(qū)的原因缘圈,可能是沒有一個(gè)有效的工具來處理這些問題,因?yàn)闆]辦法了解自己的數(shù)據(jù)袜蚕,即使要了解糟把,成本也很高。所以現(xiàn)在我們碰到的很大部分企業(yè)對(duì)這種數(shù)據(jù)問題的診斷牲剃,是通過手工來處理遣疯,廣度深度跟擴(kuò)展度都不夠,就讓他無(wú)法去做好這個(gè)事情凿傅。
02
企業(yè)數(shù)據(jù)治理的解構(gòu)
接下來我們通過數(shù)據(jù)治理里面的一些具體工作缠犀,來看它是怎么樣影響到數(shù)據(jù)治理成敗的。
以人員信息整合為例聪舒,人員信息整合雖然看起來是簡(jiǎn)單的一句話辨液,但是背后隱藏的事情不是想象的那么簡(jiǎn)單。比如說我們要實(shí)現(xiàn)各渠道員工信息过椎,?IT外包人員信息整合等等室梅,這里面涉及到跨系統(tǒng)跨界,還有甚至可能會(huì)有跨不同的企業(yè)系統(tǒng)疚宇,怎么去整合這些人員的信息亡鼠?
像是“李明”、 “明李”這些大家看到非常典型的姓名問題敷待,另外還有日期和時(shí)間也都不一樣间涵,入職時(shí)間也有不同的日志格式,要如何去進(jìn)行統(tǒng)一識(shí)別榜揖?哪個(gè)是正確的勾哩?我們首先要問哪個(gè)是正確的,哪個(gè)是標(biāo)準(zhǔn)举哟,這也是一個(gè)問題思劳。最后就是,如何來確保語(yǔ)義的一致性妨猩?何謂語(yǔ)義一致性?比如說staff ID跟 ID還有卡號(hào)潜叛,在不同的工作表格里面,ID跟staff ID語(yǔ)義究竟是不是指相同的事,這些都是我們要面臨并解決的問題威兜。除了上述問題销斟,這里面還有可能包含新舊系統(tǒng)的遷移,有核心系統(tǒng)異構(gòu)數(shù)據(jù)集成問題椒舵、舊系統(tǒng)的數(shù)據(jù)質(zhì)量問題蚂踊,這些可能都是企業(yè)面臨的現(xiàn)狀。
不同的企業(yè)面臨同樣問題的時(shí)候笔宿,假如說他的數(shù)據(jù)治理的成熟度不一樣犁钟,可能他采取的措施也是不一樣的。當(dāng)然成熟度決定了我們數(shù)據(jù)的現(xiàn)狀泼橘,數(shù)據(jù)的現(xiàn)狀決定了我們應(yīng)該用什么樣的方法特纤,采用什么樣的任務(wù),采用什么樣的路徑來去達(dá)到我們的業(yè)務(wù)目標(biāo)侥加。
03
企業(yè)如何通過尋找事實(shí)來建立數(shù)據(jù)標(biāo)準(zhǔn)
不管你用什么方法捧存,數(shù)據(jù)標(biāo)準(zhǔn)它必須要去建立的。那么如何解決上面列出的種種問題担败,首先需要了解企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)建立的幾種模式昔穴。
第一種方式是通過數(shù)據(jù)字典去核查。
第二種則是溯源提前,我們?cè)谧鰯?shù)據(jù)標(biāo)準(zhǔn)時(shí)吗货,它不是從零開始的,那么我們必須知道原來存在什么狈网,所以產(chǎn)生大量的溯源工作宙搬。我們現(xiàn)在做數(shù)據(jù)治理及數(shù)據(jù)標(biāo)準(zhǔn)的時(shí)候,這將成為一個(gè)沒辦法逾越的過程拓哺。當(dāng)然也跟我們的整個(gè)IT系統(tǒng)勇垛,包括我們的系統(tǒng)建設(shè)的一些文檔的完整性,和我們?cè)O(shè)計(jì)的這些完整性有關(guān)士鸥,但往往是因?yàn)檫@些因素闲孤,甚至是歷史的原因,我們沒有辦法再去了解整個(gè)脈絡(luò)了烤礁。
還有一種就是理論派讼积,即通過我們的一些定義來重新建立標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)的科學(xué)性怎么樣脚仔,它能不能夠覆蓋過往的歷史勤众,未必想的那么周全,接著下來就是業(yè)務(wù)IT要落實(shí)驗(yàn)證了鲤脏,然后發(fā)現(xiàn)沖突要進(jìn)行處理们颜,各方確認(rèn)最后去執(zhí)行。
不管用什么方法,我們的數(shù)據(jù)管理部門都需要考慮這三個(gè)問題掌桩,時(shí)間、成本及質(zhì)量姑食。有些是時(shí)間上讓你無(wú)法承受波岛,因?yàn)檫@歷史數(shù)據(jù)太多了,我們不能花太多的時(shí)間去完成音半。第二個(gè)是成本则拷,尤其是金融,我們用的還是早期的大機(jī)系統(tǒng)曹鸠,我們現(xiàn)在連去讀這種代碼的人都沒有了煌茬,這個(gè)不僅僅是成本的問題,甚至連技能都已經(jīng)成問題彻桃,必須請(qǐng)更高階的人或者說更稀有的人才去完成這個(gè)任務(wù)坛善。還有一個(gè)就是質(zhì)量,這種做出來的質(zhì)量對(duì)我們有多大的保障邻眷。這幾個(gè)維度可能會(huì)讓我們?cè)谧龅臅r(shí)候眠屎,要不就打退堂鼓,要不我們可能再減輕其他的要求肆饶,我相信是大家可能會(huì)面臨的問題改衩。
例子:如何知道不同表中的字段是“一回事”(符合業(yè)務(wù)及技術(shù)標(biāo)準(zhǔn)規(guī)范)
你怎么定義這個(gè)標(biāo)準(zhǔn)?你的數(shù)據(jù)映射標(biāo)準(zhǔn)是怎么樣去建立的驯镊?定義這個(gè)標(biāo)準(zhǔn)的原則又是什么葫督?我們?cè)趺创_保不同表中的字段是一回事兒?如果同時(shí)符合業(yè)務(wù)跟技術(shù)標(biāo)準(zhǔn)規(guī)范板惑,我們能夠認(rèn)為他講的是同一件事橄镜。這里通過一個(gè)例子說明幾種常見方法及其難點(diǎn)。
一種是數(shù)據(jù)字典核查冯乘,這種情況我相信大家都知道蛉鹿,并不是你所有的數(shù)據(jù)都能有數(shù)據(jù)字典核查的,這個(gè)是會(huì)面臨的問題往湿。
第二種是代碼溯源妖异,剛才我提到的沒有數(shù)據(jù)支點(diǎn)怎么辦?打開源代碼领追,找懂代碼的人一個(gè)個(gè)去看他膳,看了當(dāng)然你還要驗(yàn)證了,不是看了就可以绒窑,還要驗(yàn)證棕孙。
第三個(gè)是人傳人,就是說我們只能在跟業(yè)務(wù)人員去溝通了,究竟你這個(gè)是什么事情蟀俊?有可能業(yè)務(wù)人員講給你钦铺,還得再講給程序員,然后信息一級(jí)級(jí)地衰減肢预,這是人傳人的方法矛洞。
第四個(gè)是歷史問題,那就更加沒辦法做了烫映,成為歷史的問題是什么沼本?沒有人知道。
還有一個(gè)是你對(duì)一些你不熟悉的領(lǐng)域锭沟,你怎么技術(shù)判斷抽兆,我們都知道IT,我們沒有辦法像業(yè)務(wù)人員那樣子對(duì)所有的業(yè)務(wù)都熟悉的族淮,你對(duì)不熟悉的領(lǐng)域怎么辦辫红?怎么去做?
還有信息傳遞的衰減問題祝辣,這個(gè)就是在整個(gè)過程中會(huì)面臨的問題厉熟。
04
企業(yè)如何通過數(shù)據(jù)探查驅(qū)動(dòng)數(shù)據(jù)治理
那么如何有效解決以上幾種方法的瓶頸?我們知道在企業(yè)數(shù)據(jù)治理里面有三大要素较幌。
第一個(gè)就是起點(diǎn)揍瑟,基準(zhǔn)線數(shù)據(jù)治理它一定是要有起點(diǎn)的,這一點(diǎn)是對(duì)一個(gè)企業(yè)數(shù)據(jù)治理的標(biāo)的乍炉,要治理的對(duì)象绢片,要有一個(gè)清醒的認(rèn)知,這是第一點(diǎn)岛琼。
第二點(diǎn)事實(shí)標(biāo)準(zhǔn)底循,在過往里面我跟很多企業(yè)交流過,我們也嘗試過用剛才我們很多方法來做這個(gè)標(biāo)準(zhǔn)槐瑞,但是這里面會(huì)面臨剛才講到的不可承受的這種壓力熙涤,包括時(shí)間成本、資金成本困檩、質(zhì)量的問題祠挫。假如說我們能找到這個(gè)標(biāo)準(zhǔn)的話,它對(duì)解決我們剛才考慮的三個(gè)元素問題是非常關(guān)鍵的悼沿。
第三個(gè)就是快捷等舔,我們講數(shù)據(jù)治理就是說除了這兩點(diǎn),快捷也是很重要糟趾,因?yàn)槲覀兊臄?shù)據(jù)是增量的慌植,是不斷地在迭代在成長(zhǎng)的甚牲,剛剛做完的標(biāo)準(zhǔn)已經(jīng)沒辦法滿足后續(xù)的數(shù)據(jù)成長(zhǎng)的要求,所以我們經(jīng)常會(huì)疲于奔命來不斷修正我們的這種標(biāo)準(zhǔn)蝶柿。
我們都知道丈钙,其實(shí)數(shù)據(jù)治理非常重要的一個(gè)目標(biāo),就是提升我們的數(shù)據(jù)質(zhì)量交汤。在過往華矩也做了一些這種實(shí)施的方法雏赦,即怎么樣通過數(shù)據(jù)來分析我們的現(xiàn)狀,然后給出我們的建議蜻展。當(dāng)然我們?cè)谥v數(shù)據(jù)質(zhì)量審查的時(shí)候有這么幾個(gè)角度,一個(gè)包括我們數(shù)據(jù)的屬性怎么看邀摆,我們的語(yǔ)義定義是怎么看纵顾,我們的規(guī)則怎么看,這些都是我們進(jìn)行數(shù)據(jù)質(zhì)量審查的時(shí)候去了解我們的現(xiàn)狀栋盹,去了解我們的基準(zhǔn)線施逾,了解我們的數(shù)據(jù)治理的起點(diǎn)在哪里,會(huì)發(fā)現(xiàn)標(biāo)準(zhǔn)的異常例获,會(huì)發(fā)現(xiàn)事實(shí)標(biāo)準(zhǔn)汉额,我們會(huì)對(duì)語(yǔ)義定義、業(yè)務(wù)規(guī)則進(jìn)行認(rèn)定榨汤,通過這種探討蠕搜,我們?nèi)グl(fā)現(xiàn)一些跨系統(tǒng)歷史數(shù)據(jù)的現(xiàn)狀。
我們?cè)诳磾?shù)據(jù)所謂的六性的時(shí)候收壕,往往可以看出我們的業(yè)務(wù)管理跟我們的數(shù)據(jù)治理管理是怎么關(guān)聯(lián)起來的妓灌,橫向跟縱向是互為因果的關(guān)系。比如說你在做數(shù)據(jù)探查的時(shí)候蜜宪,你在做數(shù)據(jù)質(zhì)量檢查的時(shí)候虫埂,你發(fā)現(xiàn)一致性有問題,而所有權(quán)跟責(zé)任這個(gè)板塊里面是缺失的圃验,說明這個(gè)板塊的管理的內(nèi)容的缺失會(huì)導(dǎo)致一致性的問題出現(xiàn)掉伏,也會(huì)導(dǎo)致準(zhǔn)確度的出現(xiàn)。為什么澳窑?因?yàn)樗袡?quán)不一樣斧散,這個(gè)沒做好就有多頭管理,多頭管理它就有不同的定義摊聋,不同的定義就會(huì)影響它的準(zhǔn)確度颅湘,一致性的問題。
反過來也是一樣的栗精,比如說像數(shù)據(jù)定義和標(biāo)準(zhǔn)化不一致的問題闯参,會(huì)導(dǎo)致它的完整性的問題瞻鹏,為什么?因?yàn)樗鼤?huì)產(chǎn)生不同標(biāo)準(zhǔn)鹿寨,在一個(gè)系統(tǒng)里面他認(rèn)為他是完備的新博,但在另外一個(gè)系統(tǒng)里面他是不完備的,所以探查完整性很快就會(huì)發(fā)現(xiàn)這個(gè)問題脚草。當(dāng)然還有準(zhǔn)確性的問題赫悄,這些我相信是我們?cè)谧鰯?shù)據(jù)探查,在做數(shù)據(jù)診斷的時(shí)候馏慨,看到的不僅僅是數(shù)據(jù)本身的問題埂淮,它其實(shí)反映了整個(gè)數(shù)據(jù)治理的問題,這個(gè)就是為什么說數(shù)據(jù)探查能夠推動(dòng)我們數(shù)據(jù)治理的原因写隶。
最后倔撞,關(guān)于企業(yè)數(shù)據(jù)治理項(xiàng)目的推進(jìn),有幾點(diǎn)建議慕趴。
首先痪蝇,數(shù)據(jù)診斷是數(shù)據(jù)治理首發(fā)及必不可少的一步,所以說數(shù)據(jù)診斷要先了解我們自己的的情況冕房,包括數(shù)據(jù)一致性的問題躏啰、組件分析、管理分析耙册、依賴沖突分析给僵、合規(guī)分析等等。在你開始做數(shù)據(jù)治理的時(shí)候详拙,我們是建議要開展一些局部或者全局性的企業(yè)級(jí)數(shù)據(jù)質(zhì)量診斷想际,來了解一下我們數(shù)據(jù)的基本情況是什么,找準(zhǔn)你的基起點(diǎn)溪厘,包括你的基準(zhǔn)線胡本。
第二,建立企業(yè)級(jí)的數(shù)據(jù)質(zhì)量跟蹤處理平臺(tái)的時(shí)候畸悬,你可以逐步去完善我們數(shù)據(jù)治理的某一些漏洞侧甫,但這個(gè)往往在現(xiàn)實(shí)生活中并不是大部分企業(yè)可以做到的,所以我覺得要用一個(gè)持續(xù)發(fā)展的觀念來看這個(gè)問題蹋宦。
第三個(gè)就是說要有一個(gè)精準(zhǔn)的解決數(shù)據(jù)質(zhì)量問題的方法披粟,能夠快速的定位這些數(shù)據(jù)治理面臨的情況,并及時(shí)解決冷冗。