如何有效的進行數(shù)據(jù)治理和數(shù)據(jù)管控
大數(shù)據(jù)時代的到來,讓政府袄友、企業(yè)看到了數(shù)據(jù)資產(chǎn)的價值,并快速開始探索應(yīng)用場景和商業(yè)模式霹菊、建設(shè)技術(shù)平臺剧蚣。但是支竹,如果在大數(shù)據(jù)拼圖中遺忘了數(shù)據(jù)治理,那么做再多的業(yè)務(wù)和技術(shù)投入也是徒勞的鸠按,因為很經(jīng)典的一句話:Garbage in Garbage out礼搁。
當你處理或使用過大量數(shù)據(jù),那么對“數(shù)據(jù)治理”這個詞你一定不會陌生目尖。你會思考數(shù)據(jù)治理是什么馒吴?數(shù)據(jù)治理是否適合你?如何實施瑟曲。簡單來說饮戳,數(shù)據(jù)治理就是處理數(shù)據(jù)的策略——如何收集、驗證洞拨、存儲扯罐、訪問、保護和使用數(shù)據(jù)烦衣。數(shù)據(jù)治理也還包括誰來查看歹河,使用,共享你的數(shù)據(jù)琉挖。
隨著大數(shù)據(jù)時代的推進,以上這些問題日益突出涣脚,越來越多的企業(yè)依賴采集示辈、治理、儲存和分析數(shù)據(jù)遣蚀,并實現(xiàn)他們的商業(yè)目標矾麻。數(shù)據(jù)變成了企業(yè)的盈利工具、業(yè)務(wù)媒介和商業(yè)機密芭梯。數(shù)據(jù)泄露會導(dǎo)致法律糾紛险耀,還會令消費者對公司的核心業(yè)務(wù)失去信心。
如果抱著僥幸的心理玖喘,讓各個業(yè)務(wù)部門自己管理數(shù)據(jù)甩牺,那么你會缺乏有效的數(shù)據(jù)管理,甚至各部門會自己做自己的累奈。你無法想象各個部門按隨心所欲地自己生產(chǎn)贬派、儲存、銷售產(chǎn)品澎媒。數(shù)據(jù)使用不當就像庫存使用不當一樣搞乏,會給企業(yè)造成沉重的損失。因此必須制定一項測量用以保證所需數(shù)據(jù)的有效和安全戒努,可用性请敦,這就是我們要談的“數(shù)據(jù)治理”。
數(shù)據(jù)治理的特點
數(shù)據(jù)治理策略必須包含完整的數(shù)據(jù)生命周期。策略必須包含從數(shù)據(jù)采集侍筛、清洗到管理萤皂,在這個生命周期內(nèi),數(shù)據(jù)治理必須要有關(guān)注以下內(nèi)容:
數(shù)據(jù)從哪里來勾笆,數(shù)據(jù)怎么來
這是數(shù)據(jù)生命周期的起點敌蚜。數(shù)據(jù)來源決定了數(shù)據(jù)治理策略的基礎(chǔ)。例如數(shù)據(jù)集的大小就由數(shù)據(jù)來源所決定窝爪。是從目標市場弛车、現(xiàn)存用戶和社交媒體收集數(shù)據(jù)?還是使用第三方收集數(shù)據(jù)或者分析你收集的數(shù)據(jù)蒲每?輸入數(shù)據(jù)流是什么纷跛?數(shù)據(jù)治理必須關(guān)注這些問題,并制定策略來管理數(shù)據(jù)的采集邀杏,引導(dǎo)第三方處理他們收集的數(shù)據(jù)或者分析你收集的數(shù)據(jù)贫奠,控制數(shù)據(jù)的路徑和生命周期。
數(shù)據(jù)校驗
通常數(shù)據(jù)源都是非常龐大且多樣的望蜡,這是一個讓數(shù)據(jù)管理者非常頭疼的問題唤崭。將數(shù)據(jù)噪音和重要數(shù)據(jù)進行區(qū)分僅僅只是開始,如果你正從關(guān)聯(lián)公司收集數(shù)據(jù)脖律,你必須確保數(shù)據(jù)是可靠的谢肾,對于那些幾萬、幾十萬小泉、甚至成百上千萬的復(fù)雜關(guān)系數(shù)據(jù)芦疏,單靠人為的通過Excel對進行數(shù)據(jù)清洗已經(jīng)不太現(xiàn)實,需要專業(yè)的數(shù)據(jù)清洗工具或系統(tǒng)對海量復(fù)雜關(guān)系數(shù)據(jù)進行批量查詢微姊、替換酸茴、糾正、豐富以及存儲兢交。將元數(shù)據(jù)薪捍、主數(shù)據(jù)、交易數(shù)據(jù)配喳、參考數(shù)據(jù)以及數(shù)據(jù)標準內(nèi)置固化到數(shù)據(jù)清洗工具或系統(tǒng)中飘诗,結(jié)合組織架構(gòu)、內(nèi)容管控界逛、過程管控等管理機制昆稿、技術(shù)標準提高數(shù)據(jù)治理人員的工作效率。比如:需要手工編寫程序收集的元數(shù)據(jù)息拜,系統(tǒng)幫你自動獲雀忍丁净响;需要人工識別或編寫代碼實現(xiàn)的數(shù)據(jù)質(zhì)量檢查,系統(tǒng)幫你自動識別問題喳瓣;用文檔管理的數(shù)據(jù)字典馋贤,系統(tǒng)幫你在線管理;基于郵件和線下的流程畏陕,系統(tǒng)幫你線上自動化配乓。當然,系統(tǒng)并不是萬能的惠毁,數(shù)據(jù)治理的軟件工具與其他軟件工具一樣犹芹,沒有什么神奇之處,沒有數(shù)據(jù)治理人員的參與和數(shù)據(jù)治理工作的推進鞠绰,軟件再完美也無法完成數(shù)據(jù)治理整個過程腰埂。這也是為什么數(shù)據(jù)治理咨詢服務(wù)一直有其市場,以及為什么國內(nèi)大部分單純數(shù)據(jù)治理軟件項目未能達到預(yù)期目標蜈膨。
數(shù)據(jù)治理必須解決存儲問題
而數(shù)據(jù)存儲和數(shù)據(jù)集的大小有密切關(guān)系屿笼。大數(shù)據(jù)的存儲必須是在安全的冗余系統(tǒng)之中。常常利用層次體系翁巍,根據(jù)使用頻率來存儲數(shù)據(jù)驴一。這樣一來,昂貴的在線系統(tǒng)提供的是被頻繁請求的數(shù)據(jù)灶壶,而請求頻率較低的數(shù)據(jù)則存儲在便宜肝断,可用率較低的系統(tǒng)上。當然例朱,一些請求頻率低但是敏感的數(shù)據(jù)如果存儲于安全性較低的系統(tǒng)上孝情,風險會大大提升鱼蝉。因此洒嗤,在制定數(shù)據(jù)存儲方案時,良好的數(shù)據(jù)治理策略必須考慮到方方面面的因素魁亦。
數(shù)據(jù)治理必須建立訪問管理制度渔隶,在需求和安全性找到平衡點
明確訪問者的權(quán)限,只能訪問他們對應(yīng)權(quán)限包含的數(shù)據(jù)洁奈。只有合法請求才能夠訪問數(shù)據(jù)间唉,而敏感的數(shù)據(jù)需要更高的權(quán)限和更嚴密的驗證才可以被訪問。只向具有特定安全級別的用戶開放利术。應(yīng)該對用戶和數(shù)據(jù)本身設(shè)置訪問級別呈野,管理賬戶時,應(yīng)與人力資源部和采購部緊密互動印叁,這一點非常重要被冒,因為這樣可以及時地使離職員工和停止合作的供應(yīng)商不再擁有訪問權(quán)限军掂。處理好這些細節(jié)以及確保數(shù)據(jù)所有權(quán)和責任,這是構(gòu)成完整的數(shù)據(jù)治理策略的一部分昨悼。
數(shù)據(jù)的使用/共享/分析
如何使用數(shù)據(jù)是數(shù)據(jù)治理之后一項重要的內(nèi)容蝗锥,數(shù)據(jù)可能會用于客戶管理,提高客戶體驗率触,投放定向廣告终议,用戶應(yīng)用系統(tǒng)初始化基礎(chǔ)數(shù)據(jù)工作,輔助應(yīng)用系統(tǒng)建設(shè)葱蝗,提供市場分析和關(guān)聯(lián)公司共享數(shù)據(jù)穴张。必須仔細界定哪些數(shù)據(jù)可用于共享或者用于營銷,并保護它們免遭攻擊和泄露垒玲,因為數(shù)據(jù)本來就應(yīng)該被用于純粹的內(nèi)部用途陆馁。讓用戶知悉采集數(shù)據(jù)的所有公司都會遵守數(shù)據(jù)安全和保證的規(guī)定。能夠確保數(shù)據(jù)被合理合規(guī)的使用合愈,也是數(shù)據(jù)治理重要的一項內(nèi)容叮贩。
收集、驗證佛析、存儲益老、訪問和使用都是數(shù)據(jù)安全計劃的必要組成部分
收集、驗證寸莫、存儲捺萌、訪問和使用都是數(shù)據(jù)安全計劃的必要組成部分,必須要有一個全面的策略來解決這些問題以及其他安全問題膘茎。數(shù)據(jù)安全計劃必須是有效且可用性高,但是數(shù)據(jù)生命周期的所有部分都很容易受到攻擊和由于粗心造成的破壞披坏。你必須在數(shù)據(jù)治理中確定數(shù)據(jù)安全計劃态坦,包括訪問控制,靜態(tài)數(shù)據(jù)棒拂,數(shù)據(jù)加工伞梯,數(shù)據(jù)傳輸之后的加密等。
管理/元數(shù)據(jù)
沒有管理的數(shù)據(jù)生命周期是不完整的帚屉。例如谜诫,將元數(shù)據(jù)應(yīng)用于一段數(shù)據(jù),用來進行識別檢索攻旦。元數(shù)據(jù)包含數(shù)據(jù)的來源喻旷,采集或生成的日期,信息訪問的級別牢屋,語義分類及其他企業(yè)所必須的信息且预。數(shù)據(jù)治理能建立一個元數(shù)據(jù)詞匯表牺陶,界定數(shù)據(jù)的有效期。請注意數(shù)據(jù)也會過期辣之,過期之后我們只能用于歷史數(shù)據(jù)的分析掰伸。
數(shù)據(jù)治理的企業(yè)問題
數(shù)據(jù)治理創(chuàng)建的過程中可能會在企業(yè)內(nèi)部遭到一些阻力,比如有的人會害怕失去訪問數(shù)據(jù)的權(quán)限怀估,而有些人也不愿意和競爭者共享數(shù)據(jù)狮鸭。數(shù)據(jù)治理政策需要解決上述問題,讓各方面的人都可接受多搀。習慣了數(shù)據(jù)筒倉環(huán)境的公司歧蕉,在適應(yīng)新的數(shù)據(jù)治理策略上面會有困難,但如今對大型數(shù)據(jù)集的依賴以及隨之而來的諸多安全問題康铭,使創(chuàng)建和實施覆蓋全公司的數(shù)據(jù)策略成為一種必然惯退。
數(shù)據(jù)日益成為企業(yè)基礎(chǔ)設(shè)施的一部分,在企業(yè)一步步處理各種特定情況的過程中形成決策从藤。它以一次性的方式作出催跪,常常是對某一特定問題的回應(yīng)。因此夷野,企業(yè)處理數(shù)據(jù)的方法會因為不同部門而改變懊蒸,甚至會因為部門內(nèi)部的不同情況而改變。即使每個部門已經(jīng)有一套合理的數(shù)據(jù)處理方案悯搔,但這些方案可能彼此沖突骑丸,企業(yè)將不得不想辦法協(xié)調(diào)。弄清數(shù)據(jù)存儲的要求和需求是一件難事妒貌,如果做得不好通危,就無法發(fā)揮數(shù)據(jù)在營銷和客戶維系方面的潛力,而如果發(fā)生數(shù)據(jù)泄露灌曙,你還要承擔法律責任菊碟。
另外在大企業(yè)內(nèi)部,部門之間會展開對數(shù)據(jù)資源的爭奪平匈,各部門只關(guān)注自身的業(yè)務(wù)情況框沟,缺乏全局觀念藏古,很難在沒有調(diào)解的情況下達成妥協(xié)增炭。
因此公司需要一個類似數(shù)據(jù)治理委員會的機構(gòu),他的職責是執(zhí)行現(xiàn)有數(shù)據(jù)策略拧晕、挖掘未被滿足的需求以及潛在安全問題等隙姿,創(chuàng)建數(shù)據(jù)治理策略,使數(shù)據(jù)的采集厂捞、管護输玷、儲存队丝、訪問以及使用策略均實現(xiàn)標準化,同時還會考慮各個部門和崗位的不同需求欲鹏。平衡不同部門之間存在沖突的需求机久,在安全性與訪問需求之間進行協(xié)調(diào),確保最高效赔嚎、最安全的數(shù)據(jù)管理策略膘盖。
成功的數(shù)據(jù)治理步驟
建立數(shù)據(jù)治理委員會
負責評估各個數(shù)據(jù)用戶的需求,建立覆蓋全公司的數(shù)據(jù)管理策略尤误,滿足內(nèi)部用戶侠畔、外部用戶甚至法律方面的各種需求。該委員會的成員應(yīng)該囊括各個業(yè)務(wù)領(lǐng)域的利益相關(guān)者损晤,確保各方需求都得到較好地滿足软棺,所有類型的數(shù)據(jù)所有權(quán)均得到體現(xiàn)。委員會也需要有數(shù)據(jù)安全專家尤勋,數(shù)據(jù)安全也是重要的一環(huán)喘落。了解數(shù)據(jù)治理委員會的目標是什么,這一點很重要最冰,因此揖盘,應(yīng)該思考企業(yè)需要數(shù)據(jù)治理策略的原因,并清楚地加以說明锌奴。
制定數(shù)據(jù)治理的框架
這個框架要將企業(yè)內(nèi)部兽狭、外部、甚至是法律層面的數(shù)據(jù)需求都納入其中鹿蜀』郏框架內(nèi)的各個部分要能夠融合成一個整體,滿足收集茴恰、清洗颠焦、存儲、檢索和安全要求往枣。為此伐庭,企業(yè)必須清楚說明其端到端數(shù)據(jù)策略,以便設(shè)計一個能夠滿足所有需求和必要操作的框架分冈。
有計劃地把各個部分結(jié)合起來圾另,彼此支持,這有很多好處雕沉,比如在高度安全的環(huán)境中執(zhí)行檢索要求集乔。合規(guī)性也需要專門的設(shè)計,成為框架的一部分坡椒,這樣就可以追蹤和報告監(jiān)管問題扰路。這個框架還包括日常記錄和其他安全措施尤溜,能夠?qū)舭l(fā)出早期預(yù)警。在使用數(shù)據(jù)前汗唱,對其進行驗證宫莱,這也是框架的一部分。數(shù)據(jù)治理委員會應(yīng)該了解框架的每個部分哩罪,明確其用途梢睛,以及它如何在數(shù)據(jù)的整個生命周期中發(fā)揮作用。
數(shù)據(jù)測試策略
通常一個數(shù)據(jù)策略需要在小規(guī)模的商用環(huán)境中進行測試识椰,用來發(fā)現(xiàn)數(shù)據(jù)策略在框架绝葡,結(jié)構(gòu)和計劃上的不足之處并進行調(diào)整,之后才能夠投入正式使用腹鹉。
數(shù)據(jù)治理策略要與時俱進
隨著數(shù)據(jù)治理策略延伸到新的業(yè)務(wù)領(lǐng)域藏畅,肯定需要對策略進行調(diào)整。而且功咒,隨著技術(shù)的發(fā)展愉阎,數(shù)據(jù)策略也應(yīng)該發(fā)展,與安全形勢力奋、數(shù)據(jù)分析方法以及數(shù)據(jù)管理工具等保持同步榜旦。
明確什么是成功的數(shù)據(jù)策略
我們需要確立衡量數(shù)據(jù)治理是否成功的明確標準,以便衡量進展景殷。制定數(shù)據(jù)管理目標溅呢,有助于確定成功的重要指標,進而確保數(shù)據(jù)治理策略的方向是符合企業(yè)需求猿挚。
總結(jié)
無論企業(yè)大小咐旧,在使用數(shù)據(jù)上都面臨相似的數(shù)據(jù)挑戰(zhàn)。企業(yè)越大绩蜻,數(shù)據(jù)越多铣墨,而數(shù)據(jù)越多,越發(fā)需要制定一個有效的办绝,正式的數(shù)據(jù)治理策略伊约。規(guī)模較小的企業(yè)也許只需要非正式的數(shù)據(jù)治理策略就足夠了,但這只限于那些規(guī)模很小且對數(shù)據(jù)依賴度很低的公司孕蝉。即便是非正式的數(shù)據(jù)治理計劃也需要盡可能考慮數(shù)據(jù)用戶和員工數(shù)據(jù)的采集屡律、驗證、訪問昔驱、存儲疹尾。
當企業(yè)規(guī)模擴大上忍,數(shù)據(jù)需求跨越多個部門時骤肛,當數(shù)據(jù)系統(tǒng)和數(shù)據(jù)集太大纳本,難以駕馭時,當業(yè)務(wù)發(fā)展需要企業(yè)級的策略時腋颠,或者當法律或監(jiān)管提出需求時繁成,就必須制定更為正式的數(shù)據(jù)治理策略。