數(shù)據(jù)湖

一吓蘑、 數(shù)據(jù)湖概述

數(shù)據(jù)湖這一概念,最早是在2011年由CITO Research網(wǎng)站的CTO和作家Dan Woods首次提出坟冲。其比喻是:如果我們把數(shù)據(jù)比作大自然的水磨镶,那么各個江川河流的水未經(jīng)加工,源源不斷地匯聚到數(shù)據(jù)湖中健提。業(yè)界便對數(shù)據(jù)湖一直有著廣泛而不同的理解和定義琳猫。

“數(shù)據(jù)湖是一個集中化存儲海量的、多個來源私痹,多種類型數(shù)據(jù)脐嫂,并可以對數(shù)據(jù)進(jìn)行快速加工,分析的平臺紊遵,本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu)雹锣。”

"數(shù)據(jù)湖"的核心價值在于為企業(yè)提供了數(shù)據(jù)平臺化運(yùn)營機(jī)制癞蚕。隨著DT時代的到來蕊爵,企業(yè)急需變革,需要利用信息化桦山、數(shù)字化攒射、新技術(shù)的利器形成平臺化系統(tǒng),賦能公司的人員和業(yè)務(wù)恒水,快速應(yīng)對挑戰(zhàn)会放。而這一切的數(shù)據(jù)基礎(chǔ),正是數(shù)據(jù)湖所能提供的钉凌。

下面通過一組漫畫咧最,更直觀的解釋數(shù)據(jù)湖的概念。

從前,數(shù)據(jù)少的時候矢沿,人們拿腦子記就可以了滥搭,大不了采用結(jié)繩記事:

后來,為了更有效率的記事和工作捣鲸,數(shù)據(jù)庫出現(xiàn)了瑟匆。數(shù)據(jù)庫核心是滿足快速的增刪改查,應(yīng)對聯(lián)機(jī)事務(wù)栽惶。

比如你用銀卡消費(fèi)了愁溜,后臺數(shù)據(jù)庫就要快速記下這筆交易,更新你的卡余額外厂。

日子久了冕象,人們發(fā)現(xiàn),庫里的數(shù)據(jù)越來越多了汁蝶,不光要支持聯(lián)機(jī)業(yè)務(wù)交惯,還有分析的價值。但是穿仪,傳統(tǒng)數(shù)據(jù)庫要滿足頻繁席爽、快速的讀寫需求,并不適合這種以讀取大量數(shù)據(jù)為特征的分析業(yè)務(wù)啊片。

于是只锻,人們在現(xiàn)有的數(shù)據(jù)庫基礎(chǔ)上溃睹,對數(shù)據(jù)進(jìn)行加工顷霹。這個加工過程怀浆,被稱為:ETL(Extract-Transform-Load)抽取蚯斯、轉(zhuǎn)換和加載。

經(jīng)過這三步龟再,數(shù)據(jù)倉庫就建好了按咒。這個“倉庫”挖帘,主要是為了數(shù)據(jù)分析用途瞒窒,比如用于BI捺僻、出報表、做經(jīng)營分析等等崇裁。

簡要總結(jié)下:數(shù)據(jù)庫用于聯(lián)機(jī)事務(wù)匕坯,通常為小數(shù)據(jù)量高頻讀寫。

數(shù)據(jù)庫等原始數(shù)據(jù)拔稳,經(jīng)過ETL加工以后葛峻,就被裝進(jìn)了數(shù)據(jù)倉庫。數(shù)據(jù)倉庫主要用于聯(lián)機(jī)分析業(yè)務(wù)巴比,通常為大數(shù)據(jù)量讀取术奖。

雖然應(yīng)用場景不一樣礁遵,但他們都是結(jié)構(gòu)化數(shù)據(jù)。

在相當(dāng)長的一段時間內(nèi)采记,他們聯(lián)合起來佣耐,共同滿足企業(yè)的實(shí)時“交易”型業(yè)務(wù)和聯(lián)機(jī)“分析性”的業(yè)務(wù)。

隨著時代的發(fā)展挺庞,數(shù)據(jù)的類型越來越多,人們對數(shù)據(jù)的需求也越來越復(fù)雜稼病。

企業(yè)越來越看重這些“大數(shù)據(jù)”的價值选侨,希望把他們存好、用好然走。

這些數(shù)據(jù)援制,五花八門,又多又雜芍瑞,怎么存呢晨仑?

索性挖個大坑吧!

這就是數(shù)據(jù)湖的原型拆檬。說白了洪己,數(shù)據(jù)湖就像一個“大水坑”,是一種把各類異構(gòu)數(shù)據(jù)進(jìn)行集中存儲的架構(gòu)竟贯。

為什么不是數(shù)據(jù)河Data River答捕?

因?yàn)椋瑪?shù)據(jù)要能存屑那,而不是一江春水向東流拱镐。

為什么不是數(shù)據(jù)池Data Pool?

因?yàn)槌旨剩銐虼笪掷牛髷?shù)據(jù)太大,一池存不下蜘欲。

為什么不是數(shù)據(jù)海Data Sea益眉?

因?yàn)椋髽I(yè)的數(shù)據(jù)要有邊界姥份,可以流通和交換呜叫,但更注重隱私和安全,“海到無邊天作岸”殿衰,那可不行朱庆。

so,數(shù)據(jù)湖闷祥,Data Lake娱颊,剛剛好傲诵。

可是,概念雖好箱硕,把這個“水坑”用好卻不容易拴竹。

二、 數(shù)據(jù)湖特點(diǎn)

數(shù)據(jù)湖本身剧罩,具備以下幾個特點(diǎn):

1.原始數(shù)據(jù)

海量原始數(shù)據(jù)集中存儲栓拜,無需加工。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲惠昔,包括源系統(tǒng)數(shù)據(jù)的原始副本幕与,以及用于報告、可視化镇防、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)啦鸣。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV来氧,日志诫给, XML, JSON)啦扬,非結(jié)構(gòu)化數(shù)據(jù)(電子郵件中狂,文檔, PDF)和二進(jìn)制數(shù)據(jù)(圖像扑毡,音頻吃型,視頻)。也就是數(shù)據(jù)湖將不同種類的數(shù)據(jù)匯聚到一起僚楞。

2.按需計算

使用者按需處理勤晚,不需要移動數(shù)據(jù)即可計算。數(shù)據(jù)庫通常提供了多種數(shù)據(jù)計算引擎供用戶來選擇泉褐。常見的包括批量赐写、實(shí)時查詢、流式處理膜赃、機(jī)器學(xué)習(xí)等挺邀。

3.延遲綁定

數(shù)據(jù)湖提供靈活的,面向任務(wù)的數(shù)據(jù)編訂跳座,不需要提前定義數(shù)據(jù)模型端铛。

三、 數(shù)據(jù)湖優(yōu)缺點(diǎn)

任何事物都有兩面性疲眷,數(shù)據(jù)湖有優(yōu)點(diǎn)也同樣存在些缺點(diǎn)禾蚕。

3.1優(yōu)點(diǎn)

  1. 數(shù)據(jù)湖中的數(shù)據(jù)最接近原生的。這對于數(shù)據(jù)探索類需求狂丝,帶來很大便利换淆,可以直接得到原始數(shù)據(jù)哗总。
  2. 數(shù)據(jù)湖統(tǒng)一企業(yè)內(nèi)部各個業(yè)務(wù)系統(tǒng)數(shù)據(jù),解決信息孤島問題倍试。為橫跨多個系統(tǒng)的數(shù)據(jù)應(yīng)用讯屈,提供一種可能。
  3. 數(shù)據(jù)湖提供了全局的县习、統(tǒng)一的企業(yè)級數(shù)據(jù)概覽視圖涮母,這對于數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全..直到整體的數(shù)據(jù)治理躁愿,甚至提高到數(shù)據(jù)資產(chǎn)層面都大有裨益叛本。
  4. 數(shù)據(jù)湖改變了原有工作模式,鼓勵人人了解攘已、分析數(shù)據(jù)炮赦;而不是依賴于專門的數(shù)據(jù)團(tuán)隊的”供給”方式怜跑,可以提升數(shù)據(jù)運(yùn)營效率样勃、改善客戶互動、鼓勵數(shù)據(jù)創(chuàng)新性芬。

3.2 缺點(diǎn)

  1. 對數(shù)據(jù)的歸集處理程度明顯缺失峡眶,對于試圖直接使用數(shù)據(jù)的用戶來說顯得有些過于“原材料”化,且數(shù)據(jù)太過冗余植锉。應(yīng)對這一問題辫樱,可通過”數(shù)據(jù)接入+數(shù)據(jù)加工+數(shù)據(jù)建模”的方式來解決俊庇。
  2. 對數(shù)據(jù)湖基礎(chǔ)層的性能有較高要求狮暑,必須依托高性能的服務(wù)器進(jìn)行數(shù)據(jù)處理過程。這主要是來自于海量數(shù)據(jù)辉饱、異構(gòu)多樣化數(shù)據(jù)搬男、延遲綁定模式等帶來的問題。.
  3. 數(shù)據(jù)處理技能要求高彭沼。這也主要是因?yàn)閿?shù)據(jù)過于原始帶來的問題缔逛。

四、 數(shù)據(jù)湖與關(guān)聯(lián)概念

1.數(shù)據(jù)湖與數(shù)據(jù)倉庫

數(shù)據(jù)湖建設(shè)思路從本質(zhì)上顛覆了傳統(tǒng)數(shù)據(jù)倉庫建設(shè)方法論姓惑。傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫則強(qiáng)調(diào)的是整合褐奴、面向主題、分層次等思路于毙。其兩者并不是對等的概念敦冬,更多是包含;即數(shù)據(jù)倉庫作為數(shù)據(jù)湖的一類“數(shù)據(jù)應(yīng)用”存在唯沮。

兩者可從以下維度進(jìn)行對比:

1)存儲數(shù)據(jù)類型

數(shù)據(jù)倉庫是存儲清洗加工過的匪补,可信任的伞辛、結(jié)構(gòu)良好的數(shù)據(jù);數(shù)據(jù)湖則是存儲大量原始數(shù)據(jù)夯缺,包括結(jié)構(gòu)化的蚤氏、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在我們世界中踊兜,主要是由原始的竿滨、混亂的、非結(jié)構(gòu)化的數(shù)據(jù)組成捏境。

隨著“混亂數(shù)據(jù)”的不斷升級于游,人們對它的興趣也不斷增長,想要更好的理解它垫言、從其中獲取價值贰剥、并根據(jù)它做出決策。這就得需要一個靈活筷频、敏捷蚌成、經(jīng)濟(jì)且相對輕松的解決方案,然而這些都不是數(shù)據(jù)倉庫的強(qiáng)項(xiàng)凛捏。而且當(dāng)有新的需求提出時担忧,傳統(tǒng)數(shù)據(jù)倉庫又難以快速隨之變化。

2)處理數(shù)據(jù)方式

如果需要加載到數(shù)據(jù)倉庫中的數(shù)據(jù)坯癣,我們首先需要定義好它瓶盛,這叫做寫時模式(Schema-On-Write)。而對于數(shù)據(jù)湖示罗,您只需加載原始數(shù)據(jù)惩猫,然后,當(dāng)您準(zhǔn)備使用數(shù)據(jù)時蚜点,就給它一個定義轧房,這叫做讀時模式(Schema-On-Read)。

這是兩種截然不同的數(shù)據(jù)處理方法禽额。因?yàn)閿?shù)據(jù)湖是在數(shù)據(jù)到使用時再定義模型結(jié)構(gòu)锯厢,因此提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務(wù)的高效率分析訴求脯倒。

3)工作合作方式

傳統(tǒng)的數(shù)據(jù)倉庫的工作方式是集中式的实辑,業(yè)務(wù)人員給需求到數(shù)據(jù)團(tuán)隊,數(shù)據(jù)團(tuán)隊根據(jù)要求加工藻丢、開發(fā)成維度表剪撬,供業(yè)務(wù)團(tuán)隊通過BI報表工具查詢。

數(shù)據(jù)湖更多是開放悠反、自助式的(self-service)残黑,開放數(shù)據(jù)給所有人使用馍佑,數(shù)據(jù)團(tuán)隊更多是提供工具、環(huán)境供各業(yè)務(wù)團(tuán)隊使用(不過集中式的維度表建設(shè)還是需要的)梨水,業(yè)務(wù)團(tuán)隊進(jìn)行開發(fā)拭荤、分析。

2.數(shù)據(jù)湖 vs 大數(shù)據(jù)

數(shù)據(jù)湖的技術(shù)實(shí)現(xiàn)疫诽,與大數(shù)據(jù)技術(shù)緊密結(jié)合舅世。

·通過Hadoop存儲成本低的特點(diǎn),將海量的原始數(shù)據(jù)奇徒、本地數(shù)據(jù)雏亚、轉(zhuǎn)換數(shù)據(jù)等保存在Hadoop中。這樣所有數(shù)據(jù)都在一個地方存儲摩钙,能給后續(xù)的管理罢低、再處理、分析提供基礎(chǔ)胖笛。

·通過Hive网持、Spark等低成本處理能力(相較于RDBMS),將數(shù)據(jù)交給大數(shù)據(jù)庫平臺即行處理匀钧。此外翎碑,還可通過Storm谬返、Flink等支持流式處理等特殊計算方式之斯。

·由于Hadoop的可擴(kuò)展性,可以很方便地實(shí)現(xiàn)全量數(shù)據(jù)存儲遣铝。結(jié)合數(shù)據(jù)生命周期管理佑刷,可做到全時間跨度的數(shù)據(jù)管控

3.數(shù)據(jù)湖 vs 云計算

云計算采用虛擬化、多租戶等技術(shù)滿足業(yè)務(wù)對服務(wù)器酿炸、網(wǎng)絡(luò)瘫絮、存儲等基礎(chǔ)資源的最大化利用,降低企業(yè)對IT基礎(chǔ)設(shè)施的成本填硕,為企業(yè)帶來了巨大的經(jīng)濟(jì)性麦萤;同時云計算技術(shù)實(shí)現(xiàn)了主機(jī)、存儲等資源快速申請扁眯、使用壮莹,則同樣為企業(yè)帶來了更多的管理便捷性。在構(gòu)建數(shù)據(jù)湖的基礎(chǔ)設(shè)施時姻檀,云計算技術(shù)可以發(fā)揮很大作用命满。此外,像AWS绣版、MicroSoft胶台、EMC等均提供了云端的數(shù)據(jù)湖服務(wù)歼疮。

4.數(shù)據(jù)湖 vs 人工智能

近些年,人工智能技術(shù)再一次飛速發(fā)展诈唬,訓(xùn)練和推理等需要同時處理超大的韩脏,甚至是多個數(shù)據(jù)集,這些數(shù)據(jù)集通常是視頻铸磅、圖片骤素、文本等非結(jié)構(gòu)化數(shù)據(jù),來源于多個行業(yè)愚屁、組織济竹、項(xiàng)目,對這些數(shù)據(jù)的采集霎槐、存儲送浊、清洗、轉(zhuǎn)換丘跌、特征提取等工作是一個系列復(fù)雜袭景、漫長的工程。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集闭树、治理耸棒、分析的平臺,同時提供極高的帶寬报辱、海量小文件存取与殃、多協(xié)議互通、數(shù)據(jù)共享的能力碍现,可以極大加速數(shù)據(jù)挖掘幅疼、深度學(xué)習(xí)等過程。

5.數(shù)據(jù)湖 vs 數(shù)據(jù)治理

傳統(tǒng)方式下昼接,數(shù)據(jù)治理工作往往是在數(shù)據(jù)倉庫中爽篷。那么在構(gòu)建企業(yè)級數(shù)據(jù)湖后,對數(shù)據(jù)治理的需求實(shí)際更強(qiáng)了慢睡。因?yàn)榕c”預(yù)建闹鸸ぃ”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散漂辐、無序泪喊、不規(guī)格化等,需要通過治理工作達(dá)到數(shù)據(jù)”可用”狀態(tài)者吁,否則數(shù)據(jù)湖很可能會”腐化”成數(shù)據(jù)沼澤窘俺,浪費(fèi)大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要瘤泪。這也是對數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一灶泵。

6.數(shù)據(jù)湖 vs 數(shù)據(jù)安全

數(shù)據(jù)湖中存放有大量原始及加工過的數(shù)據(jù),這些數(shù)據(jù)在不受監(jiān)管的情況下被訪問是非常危險的对途。這里是需要考慮必要的數(shù)據(jù)安全及隱私保護(hù)問題赦邻,這些是需要數(shù)據(jù)湖提供的能力。但換種角度來看实檀,將數(shù)據(jù)集中在數(shù)據(jù)湖中惶洲,其實(shí)是有利于數(shù)據(jù)安全工作的。這要比數(shù)據(jù)分散在企業(yè)各處要好的多膳犹。

五恬吕、 數(shù)據(jù)湖的架構(gòu)體系

數(shù)據(jù)湖是一種存儲架構(gòu),本質(zhì)上講是存儲须床,企業(yè)基于云服務(wù)铐料,可以快速挖出一個適合自己的“湖”,完成數(shù)據(jù)的采集豺旬、存儲钠惩、處理、治理族阅,提供數(shù)據(jù)集成共享服務(wù)篓跛、高性能計算能力和大數(shù)據(jù)分析算法模型,支撐經(jīng)營管理數(shù)據(jù)分析應(yīng)用的全面開展坦刀。為規(guī)睦⒐担化數(shù)據(jù)應(yīng)用賦能。

數(shù)據(jù)湖技術(shù)架構(gòu)涉及了數(shù)據(jù)接入(轉(zhuǎn)移)求泰、數(shù)據(jù)存儲央渣、數(shù)據(jù)計算计盒、數(shù)據(jù)應(yīng)用渴频、數(shù)據(jù)治理、元數(shù)據(jù)北启、數(shù)據(jù)質(zhì)量卜朗、數(shù)據(jù)資源目錄、數(shù)據(jù)安全及數(shù)據(jù)審計等10個方面領(lǐng)域:

圖片

1.數(shù)據(jù)接入(移動)

數(shù)據(jù)提取允許連接器從不同的數(shù)據(jù)源獲取數(shù)據(jù)并加載到數(shù)據(jù)湖中咕村。數(shù)據(jù)提取支持:所有類型的結(jié)構(gòu)化场钉,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。批量懈涛,實(shí)時逛万,一次性負(fù)載等多次攝取批钠;在數(shù)據(jù)接入方面宇植,需提供適配的多源異構(gòu)數(shù)據(jù)資源接入方式得封,為企業(yè)數(shù)據(jù)湖的數(shù)據(jù)抽取匯聚提供通道。

2.數(shù)據(jù)存儲

數(shù)據(jù)存儲應(yīng)是可擴(kuò)展的指郁,提供經(jīng)濟(jì)高效的存儲并允許快速訪問數(shù)據(jù)探索忙上。它應(yīng)該支持各種數(shù)據(jù)格式。

3.數(shù)據(jù)計算

數(shù)據(jù)湖需要提供多種數(shù)據(jù)分析引擎闲坎,來滿足數(shù)據(jù)計算需求疫粥。需要滿足批量、實(shí)時腰懂、流式等特定計算場景梗逮。此外,向下還需要提供海量數(shù)據(jù)的訪問能力绣溜,可滿足高并發(fā)讀取需求库糠,提高實(shí)時分析效率。并需要兼容各種開源的數(shù)據(jù)格式涮毫,直接訪問以這些格式存儲的數(shù)據(jù)瞬欧。

4.數(shù)據(jù)治理

數(shù)據(jù)治理是管理數(shù)據(jù)湖中使用的數(shù)據(jù)的可用性,安全性和完整性的過程罢防。數(shù)據(jù)治理是一項(xiàng)持續(xù)的工作艘虎,通過闡明戰(zhàn)略、建立框架咒吐、制定方 針以及實(shí)現(xiàn)數(shù)據(jù)共享野建,為所有其他數(shù)據(jù)管理職能提供指導(dǎo)和監(jiān)督。

5.元數(shù)據(jù)

元數(shù)據(jù)管理是數(shù)據(jù)湖整個數(shù)據(jù)生命周期中需要做的基礎(chǔ)性工作恬叹,企業(yè)需要對元數(shù)據(jù)的生命周期進(jìn)行管理候生。元數(shù)據(jù)管理本身并不是目的,它是組織從其數(shù)據(jù)中獲得更多價值的一種手段绽昼,要達(dá)到數(shù)據(jù)驅(qū)動唯鸭,組織必須先是由元數(shù)據(jù)驅(qū)動的。

6.數(shù)據(jù)資源目錄

數(shù)據(jù)資源目錄的初始構(gòu)建硅确,通常會掃描大量數(shù)據(jù)以收集元數(shù)據(jù)目溉。目錄的數(shù)據(jù)范圍可能包括全部數(shù)據(jù)湖中被確定為有價值和可共享的數(shù)據(jù)資產(chǎn)。數(shù)據(jù)資源目錄使用算法和機(jī)器學(xué)習(xí)自動完成查找和掃描數(shù)據(jù)集菱农、提取元數(shù)據(jù)以支持?jǐn)?shù)據(jù)集發(fā)現(xiàn)缭付、暴露數(shù)據(jù)沖突啰挪、推斷語義和業(yè)務(wù)術(shù)語滤否、給數(shù)據(jù)打標(biāo)簽以支持搜索、以及標(biāo)識隱私瑰步、安全性和敏感數(shù)據(jù)的合規(guī)性。

7.隱私與安全

數(shù)據(jù)安全是安全政策和安全程序的規(guī)劃绣檬、開發(fā)和執(zhí)行舅巷、以提供對數(shù)據(jù)和信息資產(chǎn)的身份驗(yàn)證、授權(quán)河咽、訪問和審核钠右。需要在數(shù)據(jù)湖的每個層中實(shí)現(xiàn)安全性。它始于存儲忘蟹,發(fā)掘和消耗飒房,基本需求是停止未授權(quán)用戶的訪問。身份驗(yàn)證媚值、審計狠毯、授權(quán)和數(shù)據(jù)保護(hù)是數(shù)據(jù)湖安全的一些重要特性。

8.數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量是數(shù)據(jù)湖架構(gòu)的重要組成部分褥芒。數(shù)據(jù)用于確定商業(yè)價值嚼松,從劣質(zhì)數(shù)據(jù)中提取洞察力將導(dǎo)致質(zhì)量差的洞察力。數(shù)據(jù)質(zhì)量重點(diǎn)關(guān)注需求锰扶、檢查献酗、分析和提升的實(shí)現(xiàn)能力,對數(shù)據(jù)從計劃坷牛、獲取罕偎、存儲、共享京闰、維護(hù)颜及、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題進(jìn)行識別蹂楣、度量俏站、監(jiān)控、預(yù)警等一系列活動痊土,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高肄扎。

9.數(shù)據(jù)審計

兩個主要的數(shù)據(jù)審計任務(wù)是跟蹤對關(guān)鍵數(shù)據(jù)集的更改:跟蹤重要數(shù)據(jù)集元素的更改;捕獲如何/何時/以及更改這些元素的人員施戴。數(shù)據(jù)審計有助于評估風(fēng)險和合規(guī)性反浓。

10.數(shù)據(jù)應(yīng)用

數(shù)據(jù)應(yīng)用是指通過對數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行統(tǒng)一的管理、加工和應(yīng)用赞哗,對內(nèi)支持業(yè)務(wù)運(yùn)營、流程優(yōu)化辆雾、營銷推廣肪笋、風(fēng)險管理、渠道整合等活動,對外支持?jǐn)?shù)據(jù)開放共享藤乙、數(shù)據(jù)服務(wù)等活動猜揪,從而提升數(shù)據(jù)在組織運(yùn)營管理過程中的支撐輔助作用,同時實(shí)現(xiàn)數(shù)據(jù)價值的變現(xiàn)坛梁。在基本的計算能力之上而姐,數(shù)據(jù)湖需提供批量報表、即席查詢划咐、交互式分析拴念、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)等上層應(yīng)用褐缠,還需要提供自助式數(shù)據(jù)探索能力政鼠。

六、 如何通過數(shù)據(jù)治理實(shí)現(xiàn)數(shù)據(jù)湖商業(yè)價值

數(shù)據(jù)湖對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用队魏。構(gòu)建開放公般、靈活、可擴(kuò)展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺胡桨, 將企業(yè)內(nèi)官帘、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限昧谊。

  1. 利用數(shù)據(jù)湖智能分析遏佣、數(shù)據(jù)可視化等技術(shù),實(shí)現(xiàn)了數(shù)據(jù)共享揽浙、日常報表自動生成状婶、快速和智能分析,滿足企業(yè)各級數(shù)據(jù)分析應(yīng)用需求馅巷。
  2. 深度挖掘數(shù)據(jù)價值膛虫,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實(shí)現(xiàn)了數(shù)據(jù)的目錄钓猬、模型稍刀、標(biāo)準(zhǔn)、認(rèn)責(zé)敞曹、安全账月、可視化、共享等管理澳迫,實(shí)現(xiàn)數(shù)據(jù)集中存儲局齿、處理、分類與管理橄登,實(shí)現(xiàn)報表生成自動化抓歼、數(shù)據(jù)分析敏捷化讥此、數(shù)據(jù)挖掘可視化,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評估谣妻、落地管理流程萄喳。

七、 數(shù)據(jù)湖遇到挑戰(zhàn)

數(shù)據(jù)湖本身是一個中心化的存儲蹋半,能夠存儲任意規(guī)模的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)他巨。數(shù)據(jù)湖的優(yōu)勢就是數(shù)據(jù)可以先作為資產(chǎn)存放起來,問題就在于如何把這些數(shù)據(jù)在業(yè)務(wù)中利用起來减江。當(dāng)部署了數(shù)據(jù)湖之后染突,數(shù)據(jù)治理問題將會接踵而至,比如從數(shù)據(jù)湖到數(shù)據(jù)湖您市,如何將數(shù)據(jù)進(jìn)行分流觉痛、湖的數(shù)據(jù)如何進(jìn)行整理等。

數(shù)據(jù)倉庫里的數(shù)據(jù)是經(jīng)過過整理茵休、清晰易懂的薪棒。而數(shù)據(jù)湖的概念是不經(jīng)處理直接進(jìn)行堆砌,那么數(shù)據(jù)湖就有可能會變成“數(shù)據(jù)沼澤”榕莺,篩選難度會變大俐芯。由于定義不正確、信息不完整钉鸯、數(shù)據(jù)陳舊或無法找到所需信息吧史,它需要更多的元數(shù)據(jù)來理解存儲在數(shù)據(jù)湖中的數(shù)據(jù)資產(chǎn),包括數(shù)據(jù)內(nèi)容唠雕、數(shù)據(jù)資產(chǎn)圖譜贸营、數(shù)據(jù)敏感性、用戶喜好岩睁、數(shù)據(jù)質(zhì)量钞脂、上下文(缺乏上下文將無法用于分析)和數(shù)據(jù)價值等業(yè)務(wù)層面的理解。另外這些系統(tǒng)和應(yīng)用是技術(shù)人員開發(fā)的捕儒,由于技術(shù)人員和業(yè)務(wù)人員的思維和“語言”存在差異冰啃,這使得業(yè)務(wù)用戶獲取數(shù)據(jù)變得更加復(fù)雜和困難。

1.避免數(shù)據(jù)沼澤

如何讓數(shù)據(jù)湖的水保持清亮不會成為數(shù)據(jù)沼澤刘莹?“數(shù)據(jù)湖的數(shù)據(jù)不被有效使用就會成為大垃圾場阎毅。”中國有句諺語:“流水不腐点弯,戶樞不蠹”扇调。數(shù)據(jù)只有流動起來,才可以不成為數(shù)據(jù)沼澤蒲拉,湖泊只是暫存數(shù)據(jù)河流的基地肃拜。數(shù)據(jù)流動就意味著所有的數(shù)據(jù)產(chǎn)生痴腌,最終要有它的耕種者和使用者雌团。要讓數(shù)據(jù)有效流動起來燃领,就要建立有效的“數(shù)據(jù)河”(Data River)。業(yè)界在數(shù)據(jù)湖的嘗試上一般都會忽視數(shù)據(jù)治理的重要性锦援,這是很危險的猛蔽,由它導(dǎo)致的數(shù)據(jù)沼澤也是企業(yè)對數(shù)據(jù)湖持續(xù)觀望的原因之一。

2.數(shù)據(jù)智能化治理是數(shù)據(jù)湖實(shí)現(xiàn)價值必有之路

對數(shù)據(jù)治理的需求實(shí)際更強(qiáng)了灵寺。因?yàn)榕c“預(yù)建穆猓”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散略板、無序毁枯、不規(guī)則化等,需要通過治理工作達(dá)到數(shù)據(jù)“可用”狀態(tài)叮称,否則數(shù)據(jù)湖很可能會“腐化”成數(shù)據(jù)沼澤种玛,浪費(fèi)大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展瓤檐,數(shù)據(jù)治理至關(guān)重要赂韵,沒有數(shù)據(jù)湖治理,企業(yè)可能失去有意義的商業(yè)智能挠蛉。這也是對數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一祭示。

考慮全面的數(shù)據(jù)湖治理,包括是誰引入的數(shù)據(jù)谴古、誰負(fù)責(zé)數(shù)據(jù)质涛,以及數(shù)據(jù)的定義,以確保數(shù)據(jù)的妥善標(biāo)記和使用掰担,實(shí)現(xiàn)對企業(yè)數(shù)據(jù)資源內(nèi)容層面的優(yōu)化改造和有效管控汇陆。

八、 數(shù)據(jù)湖的未來展望

現(xiàn)階段數(shù)據(jù)湖更多是作為數(shù)據(jù)倉庫的補(bǔ)充恩敌,數(shù)據(jù)湖概念和技術(shù)還在不斷演化瞬测,不同的解決方案供應(yīng)商也在添加新的特性和功能,包括架構(gòu)標(biāo)準(zhǔn)化和互操作性纠炮、數(shù)據(jù)治理要求月趟、數(shù)據(jù)安全性等。

數(shù)據(jù)湖作為一種云服務(wù)隨時按需滿足對不同數(shù)據(jù)的分析恢口、處理和存儲需求孝宗,數(shù)據(jù)湖的擴(kuò)展性,可以為用戶提供更多的實(shí)時分析耕肩,基于企業(yè)大數(shù)據(jù)的數(shù)據(jù)湖正在向支持更多類型的實(shí)時智能化服務(wù)發(fā)展因妇,將會為企業(yè)現(xiàn)有的數(shù)據(jù)驅(qū)動型決策制定模式帶來極大改變问潭。

數(shù)據(jù)湖發(fā)展到現(xiàn)在,已經(jīng)成為企業(yè)數(shù)據(jù)體系的基礎(chǔ):數(shù)據(jù)庫婚被、數(shù)倉狡忙、大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)等各種數(shù)據(jù)服務(wù)址芯,都可以“一湖盡收”灾茁。在這個“上云用數(shù)賦智”時代,很多企業(yè)已經(jīng)完成上云第一步谷炸,接下來北专,就是如何“用數(shù)”和“賦智”。


-END-

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末旬陡,一起剝皮案震驚了整個濱河市拓颓,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌描孟,老刑警劉巖驶睦,帶你破解...
    沈念sama閱讀 222,104評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異画拾,居然都是意外死亡啥繁,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評論 3 399
  • 文/潘曉璐 我一進(jìn)店門青抛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來旗闽,“玉大人,你說我怎么就攤上這事蜜另∈适遥” “怎么了?”我有些...
    開封第一講書人閱讀 168,697評論 0 360
  • 文/不壞的土叔 我叫張陵举瑰,是天一觀的道長捣辆。 經(jīng)常有香客問我,道長此迅,這世上最難降的妖魔是什么汽畴? 我笑而不...
    開封第一講書人閱讀 59,836評論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮耸序,結(jié)果婚禮上忍些,老公的妹妹穿的比我還像新娘。我一直安慰自己坎怪,他們只是感情好罢坝,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著搅窿,像睡著了一般嘁酿。 火紅的嫁衣襯著肌膚如雪隙券。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,441評論 1 310
  • 那天闹司,我揣著相機(jī)與錄音娱仔,去河邊找鬼。 笑死开仰,一個胖子當(dāng)著我的面吹牛拟枚,可吹牛的內(nèi)容都是我干的薪铜。 我是一名探鬼主播众弓,決...
    沈念sama閱讀 40,992評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼隔箍!你這毒婦竟也來了谓娃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,899評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蜒滩,失蹤者是張志新(化名)和其女友劉穎滨达,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體俯艰,經(jīng)...
    沈念sama閱讀 46,457評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡捡遍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了竹握。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片画株。...
    茶點(diǎn)故事閱讀 40,664評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖啦辐,靈堂內(nèi)的尸體忽然破棺而出谓传,到底是詐尸還是另有隱情,我是刑警寧澤芹关,帶...
    沈念sama閱讀 36,346評論 5 350
  • 正文 年R本政府宣布续挟,位于F島的核電站,受9級特大地震影響侥衬,放射性物質(zhì)發(fā)生泄漏诗祸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評論 3 334
  • 文/蒙蒙 一轴总、第九天 我趴在偏房一處隱蔽的房頂上張望直颅。 院中可真熱鬧,春花似錦肘习、人聲如沸际乘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽脖含。三九已至罪塔,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間养葵,已是汗流浹背征堪。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留关拒,地道東北人佃蚜。 一個月前我還...
    沈念sama閱讀 49,081評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像着绊,于是被迫代替她去往敵國和親谐算。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 什么是數(shù)據(jù)湖归露? 維基上對它的解釋:數(shù)據(jù)湖(Data Lake)是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)洲脂。它按原樣存儲...
    歌灣汐云閱讀 23,401評論 1 18
  • 我們談?wù)摂?shù)據(jù)中臺之前疆液, 我們也聽到過數(shù)據(jù)平臺一铅、數(shù)據(jù)倉庫、數(shù)據(jù)湖的相關(guān)概念堕油,它們都與數(shù)據(jù)有關(guān)系潘飘,但他們和數(shù)據(jù)中臺有什...
    garyond閱讀 12,564評論 0 23
  • 什么是數(shù)據(jù)湖? 數(shù)據(jù)湖是一個安全的集中式存儲庫馍迄,它以數(shù)據(jù)原始形式和可用于分析的形式存儲所有數(shù)據(jù)福也,并提供彈性容量和吞...
    毛毛蟲小姑娘閱讀 1,099評論 0 0
  • 我是黑夜里大雨紛飛的人啊 1 “又到一年六月,有人笑有人哭攀圈,有人歡樂有人憂愁暴凑,有人驚喜有人失落,有的覺得收獲滿滿有...
    陌忘宇閱讀 8,544評論 28 53
  • 信任包括信任自己和信任他人 很多時候赘来,很多事情现喳,失敗、遺憾犬辰、錯過嗦篱,源于不自信,不信任他人 覺得自己做不成幌缝,別人做不...
    吳氵晃閱讀 6,193評論 4 8