為什么我需要數(shù)據(jù)治理和大數(shù)據(jù)葱跋?
數(shù)據(jù)治理使組織能夠處理其擁有的數(shù)據(jù),從該數(shù)據(jù)中獲取更多價(jià)值源梭,并使用戶可以看到該數(shù)據(jù)的重要方面年局。它還提供管理這些方面的功能吓笙。這不僅是因?yàn)楝F(xiàn)有數(shù)據(jù)的錯(cuò)誤和遺漏法牲,而且因?yàn)閿?shù)據(jù)的新用途通常需要新的屬性,因此需要新的元數(shù)據(jù)來支持它們眼虱。
數(shù)據(jù)治理需要什么脑溢?
從人和流程開始
數(shù)據(jù)治理是關(guān)于啟用和鼓勵(lì)有關(guān)數(shù)據(jù)的良好行為僵朗,以及限制產(chǎn)生風(fēng)險(xiǎn)的行為。無論您是在大數(shù)據(jù)環(huán)境還是傳統(tǒng)的數(shù)據(jù)管理環(huán)境中屑彻,都是一樣的验庙。使組織能夠識(shí)別誰(shuí)負(fù)責(zé)數(shù)據(jù),協(xié)作設(shè)置策略和制定決策社牲,就如何使用數(shù)據(jù)及其用途創(chuàng)建明確的協(xié)議粪薛,了解某些指標(biāo)和信息的來源,并確定變更對(duì)業(yè)務(wù)的影響數(shù)據(jù)搏恤。這些都是任何環(huán)境所需要的违寿。
使用技術(shù)作為上述的推動(dòng)者
這些過程通常變化很大,涉及組織不同部門的許多不同利益相關(guān)者熟空。他們也是時(shí)間敏感的藤巢。特別是在大數(shù)據(jù)場(chǎng)景中,數(shù)據(jù)變化的類型息罗,數(shù)量和頻率一直在增加掂咒。雖然可以執(zhí)行一次或兩次這些任務(wù),但如果沒有專門的系統(tǒng)和自動(dòng)化迈喉,就不可能連續(xù)執(zhí)行治理绍刮。以同樣的方式考慮這一點(diǎn),我們的大多數(shù)業(yè)務(wù)流程都需要自動(dòng)化挨摸,以便高效孩革,高效地執(zhí)行。此外油坝,與任何其他流程一樣嫉戚,必須測(cè)量和管理數(shù)據(jù)本身的治理,以便在必要時(shí)可以提高數(shù)據(jù)的質(zhì)量澈圈,實(shí)用性和安全性彬檀。
預(yù)先確定數(shù)據(jù)管理的哪些方面對(duì)您的業(yè)務(wù)至關(guān)重要
了解您需要管理的內(nèi)容是實(shí)施適當(dāng)數(shù)據(jù)治理的關(guān)鍵部分。雖然所有信息可能都應(yīng)該受到某些治理的影響瞬女,并且應(yīng)該對(duì)其進(jìn)行編目以便找到窍帝,但是有一部分重要信息應(yīng)該成為任何數(shù)據(jù)治理工作的重點(diǎn)。這些關(guān)鍵數(shù)據(jù)元素及其前提是組織決策诽偷,服務(wù)客戶和向監(jiān)管機(jī)構(gòu)報(bào)告的基礎(chǔ)坤学。
利用現(xiàn)有流程和最佳實(shí)踐
數(shù)據(jù)治理不一定是一項(xiàng)新的繁瑣的舉措。實(shí)際上报慕,由于對(duì)抑制因素和開銷的感知深浮,一些組織可能會(huì)擱置正式的數(shù)據(jù)治理計(jì)劃。但事實(shí)是眠冈,您已經(jīng)擁有適當(dāng)?shù)牧鞒谭晌梢宰鳛檎綌?shù)據(jù)治理計(jì)劃的基礎(chǔ)。這些可能被標(biāo)記為“工作流程”或“業(yè)務(wù)規(guī)則”蜗顽,但這些僅僅是針對(duì)同一組實(shí)踐的不同術(shù)語(yǔ)布卡。使用這些流程作為起點(diǎn),構(gòu)建一種策略雇盖,幫助您從大數(shù)據(jù)中獲取更多價(jià)值忿等。
數(shù)據(jù)治理的關(guān)鍵要求是什么?
這些功能中的每一項(xiàng)都可以實(shí)現(xiàn)受管理的環(huán)境?目錄和數(shù)據(jù)字典元數(shù)據(jù)的組合為數(shù)據(jù)策略和使用的可審計(jì)性提供了完整的信息崔挖。它還包含血統(tǒng)和操縱贸街。工作流控制信息生命周期管理的過程,包括攝取狸相,操作/派生和處置匾浪。強(qiáng)大的分布式基礎(chǔ)架構(gòu)可實(shí)現(xiàn)業(yè)務(wù)連續(xù)性,快速處理和數(shù)據(jù)的持續(xù)可用性卷哩。
確保系統(tǒng)可靠性和可用性
雖然高可用性和災(zāi)難恢復(fù)等概念通常不被歸類為數(shù)據(jù)治理策略的組件蛋辈,但這些功能對(duì)于數(shù)據(jù)是有價(jià)值資產(chǎn)的任何環(huán)境都至關(guān)重要。因此将谊,數(shù)據(jù)治理策略必須包含高可用性和災(zāi)難恢復(fù)策略冷溶。畢竟,如果系統(tǒng)無法可靠地保持運(yùn)行尊浓,那么數(shù)據(jù)將與相關(guān)的數(shù)據(jù)治理策略一起貶值逞频。
識(shí)別數(shù)據(jù)和維護(hù)數(shù)據(jù)目錄
由于各種數(shù)據(jù)的爆炸式增長(zhǎng),對(duì)數(shù)據(jù)進(jìn)行編目并使該目錄可供用戶使用至關(guān)重要栋齿。但是苗胀,這不僅僅是跟蹤有關(guān)信息的技術(shù)元數(shù)據(jù)襟诸。它需要一個(gè)可以自動(dòng)完成該過程的大部分引擎。數(shù)據(jù)太多基协,而且手動(dòng)分類所有內(nèi)容的速度增長(zhǎng)太快歌亲。其次,業(yè)務(wù)用戶需要可以訪問此目錄澜驮,因此他們可以“購(gòu)買”他們檢查業(yè)務(wù)問題所需的數(shù)據(jù)陷揪。這意味著數(shù)據(jù)的實(shí)施必須與業(yè)務(wù)術(shù)語(yǔ)相關(guān)聯(lián)。組織需要一個(gè)可以輕松擴(kuò)充和更新的業(yè)務(wù)術(shù)語(yǔ)表杂穷,因?yàn)樾聰?shù)據(jù)和現(xiàn)有數(shù)據(jù)的新用途將發(fā)揮作用悍缠。此外,環(huán)境能夠跟蹤與數(shù)據(jù)相關(guān)的各種資產(chǎn)至關(guān)重要耐量,它的使用和加工飞蚓。
探索該數(shù)據(jù)以識(shí)別機(jī)會(huì)
獲得數(shù)據(jù)目錄后,您需要一種很好的方法來查找該目錄中的內(nèi)容廊蜒。組織內(nèi)的不同角色需要以不同的方式看待事物玷坠。IT專業(yè)人員需要在系統(tǒng)或應(yīng)用程序上下文中查看數(shù)據(jù)。安全團(tuán)隊(duì)需要根據(jù)其隱私策略上下文查看信息劲藐,審核員需要通過靈活的可視化查看完整的血統(tǒng)和相關(guān)信息八堡,能夠在上下文中顯示任何類型的關(guān)系。這應(yīng)該與基于角色的視圖和模板相結(jié)合聘芜,以及按角色定制導(dǎo)航兄渺,以使業(yè)務(wù)用戶盡可能簡(jiǎn)單地找到他或她需要的內(nèi)容√郑可以使用先進(jìn)的機(jī)器學(xué)習(xí)和人工智能來幫助找到適當(dāng)?shù)臄?shù)據(jù)挂谍。當(dāng)然,
保持?jǐn)?shù)據(jù)的有效性
保持?jǐn)?shù)據(jù)的有效性是兩部分的努力瞎饲。首先是建立圍繞數(shù)據(jù)的系統(tǒng)政策和控制口叙,并確保測(cè)量的數(shù)據(jù)準(zhǔn)確性適合其用途。工作流和策略管理功能使了解數(shù)據(jù)的業(yè)務(wù)用戶可以輕松地協(xié)作嗅战,協(xié)商和批準(zhǔn)策略和過程妄田。與IT服務(wù)管理系統(tǒng)集成后,可以將策略信息一旦最終確定驮捍,即可轉(zhuǎn)移到IT部門進(jìn)行實(shí)施疟呐,而不會(huì)丟失上下文以及策略及其要求的細(xì)節(jié)。自動(dòng)規(guī)則可以輕松確定策略是否沒有準(zhǔn)則东且。全面的業(yè)務(wù)沿襲使任何人都可以確定哪些策略適用于哪些信息启具,哪些業(yè)務(wù)術(shù)語(yǔ)涉及哪些數(shù)據(jù),
保護(hù)敏感數(shù)據(jù)
保護(hù)數(shù)據(jù)可能是一項(xiàng)復(fù)雜的工作珊泳,雖然這種能力還依賴于擁有合適的人員和流程鲁冯,但該技術(shù)可以在確保適當(dāng)保護(hù)方面發(fā)揮很大作用拷沸。保護(hù)敏感數(shù)據(jù)需要幾個(gè)步驟。首先薯演,必須確定數(shù)據(jù)及其敏感性撞芍。其次,必須有一種方法可以明確說明圍繞數(shù)據(jù)做什么以及由誰(shuí)做的政策涣仿。第三,必須有一種系統(tǒng)的方法來收集這些信息并將其傳播給數(shù)據(jù)的消費(fèi)者和能夠?qū)π畔?shí)施物理控制的技術(shù)人員示惊。這三個(gè)步驟通常是由實(shí)現(xiàn)合規(guī)性的需要驅(qū)動(dòng)的好港,但也與您自己的內(nèi)部政策相關(guān)聯(lián)。重要的是米罚,
大數(shù)據(jù)有何不同钧汹,以及它如何影響數(shù)據(jù)治理?
關(guān)于大數(shù)據(jù)的一些事情改變了之前對(duì)數(shù)據(jù)治理的理解录择。其中每一項(xiàng)都需要一種新方法來有效地管理數(shù)據(jù)資產(chǎn)拔莱。
各種資產(chǎn),包括工作隘竭,模型塘秦,可視化
第一個(gè)主要區(qū)別是不同類型的數(shù)據(jù)資產(chǎn)的數(shù)量,以及此類別正在增長(zhǎng)的事實(shí)动看。
數(shù)據(jù)類之間缺乏物理隔離
第二個(gè)區(qū)別是更微妙尊剔,但它是我們使用信息管理拓?fù)浞蛛x數(shù)據(jù)的方式的副產(chǎn)品。通常菱皆,我們依賴于某些數(shù)據(jù)的物理分離须误,以某種方式將其識(shí)別為敏感數(shù)據(jù),并管理圍繞該數(shù)據(jù)的控制仇轻。在大數(shù)據(jù)世界中京痢,雖然數(shù)據(jù)可以分布,但物理隔離通常不存在篷店,必須使用其他方法來識(shí)別哪些數(shù)據(jù)是敏感的祭椰,誰(shuí)對(duì)哪些數(shù)據(jù)負(fù)責(zé)。治理流程需要維護(hù)這些信息疲陕。
通過組合以前沒有相關(guān)的數(shù)據(jù)來創(chuàng)造價(jià)值
此外吭产,數(shù)據(jù)共享通常是一個(gè)尚未正式化的過程。數(shù)據(jù)湖的目標(biāo)是創(chuàng)建一個(gè)可以輕松利用所有數(shù)據(jù)的環(huán)境鸭轮。這意味著擁有數(shù)據(jù)的組織的不同部分必須同意提供它臣淤,并以受控方式提供它。此外窃爷,現(xiàn)在可以與組織的許多部分共享數(shù)據(jù)邑蒋,通常不需要他們付出太多努力姓蜂。這意味著需要明確協(xié)商數(shù)據(jù)共享要求,以便數(shù)據(jù)的所有用戶都能理解他們應(yīng)該和不應(yīng)該對(duì)數(shù)據(jù)做什么医吊。此外钱慢,語(yǔ)義不匹配的范圍也會(huì)增加,因?yàn)榻M織的不同部分將使用具有不同含義的相同術(shù)語(yǔ)卿堂。
更多樣化和靈活的流程
大數(shù)據(jù)不是基于ETL的預(yù)先定義和政策決定束莫,而是暗示自下而上的“按需要做”治理方法。這反過來意味著該治理的自動(dòng)化系統(tǒng)需要高度靈活和協(xié)作草描,并具有明確的運(yùn)營(yíng)模式览绿。該運(yùn)營(yíng)模型考慮了數(shù)據(jù)的配置,使用穗慕,更改和退役的整個(gè)生命周期以及質(zhì)量和可靠性饿敲,需要自動(dòng)化以處理不斷增加的數(shù)據(jù)量和種類。
多樣性的增加使自動(dòng)化成為一項(xiàng)要求
數(shù)量和種類的不斷增加需要自動(dòng)化逛绵。手動(dòng)流程無法跟上數(shù)據(jù)變化的次數(shù)以及幾乎每天都帶入湖中的新數(shù)據(jù)怀各。手動(dòng)流程處理現(xiàn)有的大量數(shù)據(jù)太慢而且繁瑣。將管理信息保存在桌面工具术浪,電子表格甚至文檔共享站點(diǎn)上太慢而且繁瑣瓢对,并且不會(huì)使業(yè)務(wù)用戶即時(shí)訪問他們所需的數(shù)據(jù)。有必要使用應(yīng)用程序自動(dòng)執(zhí)行數(shù)據(jù)治理胰苏,就像使用特定應(yīng)用程序?yàn)榇四康淖詣?dòng)執(zhí)行任何其他業(yè)務(wù)活動(dòng)一樣沥曹。Collibra數(shù)據(jù)治理中心旨在成為您的大數(shù)據(jù)環(huán)境的應(yīng)用程序,以及您的所有數(shù)據(jù)治理需求碟联。
該數(shù)據(jù)是操作必需品并且一直在使用
最終妓美,這些數(shù)據(jù)是組織的生命線。托管和處理它的基礎(chǔ)架構(gòu)和平臺(tái)必須能夠跟上所有更改鲤孵,以及使用和處理數(shù)據(jù)的請(qǐng)求量壶栋。如果沒有這種可靠性和安全性,組織將無法利用其數(shù)據(jù)普监,也無法快速獲取新的數(shù)據(jù)和洞察力贵试,從而具有競(jìng)爭(zhēng)力。數(shù)據(jù)已成為商業(yè)競(jìng)爭(zhēng)和產(chǎn)品和服務(wù)質(zhì)量的關(guān)鍵水平凯正。
大數(shù)據(jù)治理成功
最后毙玻,這些流程旨在使您的組織更加靈活和有能力。您可以在需要時(shí)使用您的數(shù)據(jù)廊散,您可以添加它桑滩,您可以管理它,它就在那里允睹。擁有大數(shù)據(jù)和治理功能的最佳組織發(fā)現(xiàn)有許多具體的好處运准。他們可以比以往更有效地查找數(shù)據(jù)幌氮,描述數(shù)據(jù),使用數(shù)據(jù)并進(jìn)行管理胁澳。
保持可用性
在管理大數(shù)據(jù)時(shí)该互,您希望最大化正常運(yùn)行時(shí)間,同時(shí)最大限度地減少確保正常運(yùn)行時(shí)間的工作量?您的基礎(chǔ)大數(shù)據(jù)平臺(tái)必須實(shí)現(xiàn)這些目標(biāo)韭畸。
保護(hù)敏感數(shù)據(jù)
需要廣泛的重要功能來滿足您的數(shù)據(jù)安全要求宇智。您的數(shù)據(jù)平臺(tái)必須提供以數(shù)據(jù)為中心的控件,以確保安全的環(huán)境胰丁。
快速訪問您的數(shù)據(jù)
組織花費(fèi)高達(dá)75%的時(shí)間來創(chuàng)建從事數(shù)據(jù)的分析和爭(zhēng)吵活動(dòng)随橘。數(shù)據(jù)易于搜索,機(jī)器學(xué)習(xí)人工智能有助于推薦合適的數(shù)據(jù)隘马。高級(jí)可視化可以顯示任何類型的關(guān)系和數(shù)據(jù)上下文太防,因此數(shù)據(jù)科學(xué)家和BI專業(yè)人員可以輕松快速地獲取正確的數(shù)據(jù)妻顶。而且因?yàn)閿?shù)據(jù)提取治理可以確保您知道數(shù)據(jù)湖中究竟是什么酸员。
快速安全地更改數(shù)據(jù)
確保您的查詢返回正確的數(shù)據(jù),以便可以信任基于該數(shù)據(jù)的分析指標(biāo)讳嘱。數(shù)據(jù)科學(xué)家幔嗦,所有者和用戶可以確保使用正確的數(shù)據(jù)值,參考和結(jié)果沥潭。使用非結(jié)構(gòu)化數(shù)據(jù)需要生產(chǎn)者邀泉,消費(fèi)者和數(shù)據(jù)科學(xué)家之間的有效協(xié)調(diào),以確保所有各方都了解可能影響結(jié)果的變化钝鸽。由于對(duì)數(shù)據(jù)的更改經(jīng)常發(fā)生并且經(jīng)常在發(fā)現(xiàn)該數(shù)據(jù)的新用途時(shí)不斷發(fā)生汇恤,因此這是一項(xiàng)關(guān)鍵功能。這種通信還減少了耗時(shí)的錯(cuò)誤分析和解決方案;?部分原因是分析中幾乎沒有莫名其妙的錯(cuò)誤拔恰,部分原因是報(bào)告問題和解決問題的過程是自動(dòng)化的因谎。這增加了對(duì)分析的信任,增加了它們的使用颜懊,并促進(jìn)了自助服務(wù)财岔。
了解您的數(shù)據(jù)
數(shù)據(jù)治理可以讓您了解自己擁有的內(nèi)容,并以多種不同的方式查找知識(shí)河爹。大數(shù)據(jù)環(huán)境不僅僅是表格匠璧,文件和流。組織使用許多不同類型的資產(chǎn)來提供高性能咸这,預(yù)測(cè)分析和獨(dú)特見解夷恍。這些包括分析模型,地圖/減少作業(yè)媳维,查詢裁厅,可視化冰沙,報(bào)告和使用數(shù)據(jù)的任何人工制品。
若想獲取更多前沿互聯(lián)網(wǎng)資訊执虹,洞悉數(shù)據(jù)奧秘拓挥,敬請(qǐng)關(guān)注微信公眾號(hào)——西西西語(yǔ),歡迎前來討論學(xué)習(xí)~