一吓蘑、 數(shù)據(jù)湖概述
數(shù)據(jù)湖這一概念,最早是在2011年由CITO Research網(wǎng)站的CTO和作家Dan Woods首次提出坟冲。其比喻是:如果我們把數(shù)據(jù)比作大自然的水磨镶,那么各個江川河流的水未經(jīng)加工,源源不斷地匯聚到數(shù)據(jù)湖中健提。業(yè)界便對數(shù)據(jù)湖一直有著廣泛而不同的理解和定義琳猫。
“數(shù)據(jù)湖是一個集中化存儲海量的、多個來源私痹,多種類型數(shù)據(jù)脐嫂,并可以對數(shù)據(jù)進(jìn)行快速加工,分析的平臺紊遵,本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu)雹锣。”
"數(shù)據(jù)湖"的核心價值在于為企業(yè)提供了數(shù)據(jù)平臺化運(yùn)營機(jī)制癞蚕。隨著DT時代的到來蕊爵,企業(yè)急需變革,需要利用信息化桦山、數(shù)字化攒射、新技術(shù)的利器形成平臺化系統(tǒng),賦能公司的人員和業(yè)務(wù)恒水,快速應(yīng)對挑戰(zhàn)会放。而這一切的數(shù)據(jù)基礎(chǔ),正是數(shù)據(jù)湖所能提供的钉凌。
下面通過一組漫畫咧最,更直觀的解釋數(shù)據(jù)湖的概念。
從前,數(shù)據(jù)少的時候矢沿,人們拿腦子記就可以了滥搭,大不了采用結(jié)繩記事:
后來,為了更有效率的記事和工作捣鲸,數(shù)據(jù)庫出現(xiàn)了瑟匆。數(shù)據(jù)庫核心是滿足快速的增刪改查,應(yīng)對聯(lián)機(jī)事務(wù)栽惶。
比如你用銀卡消費(fèi)了愁溜,后臺數(shù)據(jù)庫就要快速記下這筆交易,更新你的卡余額外厂。
日子久了冕象,人們發(fā)現(xiàn),庫里的數(shù)據(jù)越來越多了汁蝶,不光要支持聯(lián)機(jī)業(yè)務(wù)交惯,還有分析的價值。但是穿仪,傳統(tǒng)數(shù)據(jù)庫要滿足頻繁席爽、快速的讀寫需求,并不適合這種以讀取大量數(shù)據(jù)為特征的分析業(yè)務(wù)啊片。
于是只锻,人們在現(xiàn)有的數(shù)據(jù)庫基礎(chǔ)上溃睹,對數(shù)據(jù)進(jìn)行加工顷霹。這個加工過程怀浆,被稱為:ETL(Extract-Transform-Load)抽取蚯斯、轉(zhuǎn)換和加載。
經(jīng)過這三步龟再,數(shù)據(jù)倉庫就建好了按咒。這個“倉庫”挖帘,主要是為了數(shù)據(jù)分析用途瞒窒,比如用于BI捺僻、出報表、做經(jīng)營分析等等崇裁。
簡要總結(jié)下:數(shù)據(jù)庫用于聯(lián)機(jī)事務(wù)匕坯,通常為小數(shù)據(jù)量高頻讀寫。
數(shù)據(jù)庫等原始數(shù)據(jù)拔稳,經(jīng)過ETL加工以后葛峻,就被裝進(jìn)了數(shù)據(jù)倉庫。數(shù)據(jù)倉庫主要用于聯(lián)機(jī)分析業(yè)務(wù)巴比,通常為大數(shù)據(jù)量讀取术奖。
雖然應(yīng)用場景不一樣礁遵,但他們都是結(jié)構(gòu)化數(shù)據(jù)。
在相當(dāng)長的一段時間內(nèi)采记,他們聯(lián)合起來佣耐,共同滿足企業(yè)的實(shí)時“交易”型業(yè)務(wù)和聯(lián)機(jī)“分析性”的業(yè)務(wù)。
隨著時代的發(fā)展挺庞,數(shù)據(jù)的類型越來越多,人們對數(shù)據(jù)的需求也越來越復(fù)雜稼病。
企業(yè)越來越看重這些“大數(shù)據(jù)”的價值选侨,希望把他們存好、用好然走。
這些數(shù)據(jù)援制,五花八門,又多又雜芍瑞,怎么存呢晨仑?
索性挖個大坑
吧!
這就是數(shù)據(jù)湖的原型拆檬。說白了洪己,數(shù)據(jù)湖就像一個“大水坑”,是一種把各類異構(gòu)數(shù)據(jù)進(jìn)行集中存儲的架構(gòu)竟贯。
為什么不是數(shù)據(jù)河Data River答捕?
因?yàn)椋瑪?shù)據(jù)要能存屑那,而不是一江春水向東流拱镐。
為什么不是數(shù)據(jù)池Data Pool?
因?yàn)槌旨剩銐虼笪掷牛髷?shù)據(jù)太大,一池存不下蜘欲。
為什么不是數(shù)據(jù)海Data Sea益眉?
因?yàn)椋髽I(yè)的數(shù)據(jù)要有邊界姥份,可以流通和交換呜叫,但更注重隱私和安全,“海到無邊天作岸”殿衰,那可不行朱庆。
so,數(shù)據(jù)湖闷祥,Data Lake娱颊,剛剛好傲诵。
可是,概念雖好箱硕,把這個“水坑”用好卻不容易拴竹。
二、 數(shù)據(jù)湖特點(diǎn)
數(shù)據(jù)湖本身剧罩,具備以下幾個特點(diǎn):
1.原始數(shù)據(jù)
海量原始數(shù)據(jù)集中存儲栓拜,無需加工。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲惠昔,包括源系統(tǒng)數(shù)據(jù)的原始副本幕与,以及用于報告、可視化镇防、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)啦鸣。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV来氧,日志诫给, XML, JSON)啦扬,非結(jié)構(gòu)化數(shù)據(jù)(電子郵件中狂,文檔, PDF)和二進(jìn)制數(shù)據(jù)(圖像扑毡,音頻吃型,視頻)。也就是數(shù)據(jù)湖將不同種類的數(shù)據(jù)匯聚到一起僚楞。
2.按需計算
使用者按需處理勤晚,不需要移動數(shù)據(jù)即可計算。數(shù)據(jù)庫通常提供了多種數(shù)據(jù)計算引擎供用戶來選擇泉褐。常見的包括批量赐写、實(shí)時查詢、流式處理膜赃、機(jī)器學(xué)習(xí)等挺邀。
3.延遲綁定
數(shù)據(jù)湖提供靈活的,面向任務(wù)的數(shù)據(jù)編訂跳座,不需要提前定義數(shù)據(jù)模型端铛。
三、 數(shù)據(jù)湖優(yōu)缺點(diǎn)
任何事物都有兩面性疲眷,數(shù)據(jù)湖有優(yōu)點(diǎn)也同樣存在些缺點(diǎn)禾蚕。
3.1優(yōu)點(diǎn)
- 數(shù)據(jù)湖中的數(shù)據(jù)最接近原生的。這對于數(shù)據(jù)探索類需求狂丝,帶來很大便利换淆,可以直接得到原始數(shù)據(jù)哗总。
- 數(shù)據(jù)湖統(tǒng)一企業(yè)內(nèi)部各個業(yè)務(wù)系統(tǒng)數(shù)據(jù),解決信息孤島問題倍试。為橫跨多個系統(tǒng)的數(shù)據(jù)應(yīng)用讯屈,提供一種可能。
- 數(shù)據(jù)湖提供了全局的县习、統(tǒng)一的企業(yè)級數(shù)據(jù)概覽視圖涮母,這對于數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全..直到整體的數(shù)據(jù)治理躁愿,甚至提高到數(shù)據(jù)資產(chǎn)層面都大有裨益叛本。
- 數(shù)據(jù)湖改變了原有工作模式,鼓勵人人了解攘已、分析數(shù)據(jù)炮赦;而不是依賴于專門的數(shù)據(jù)團(tuán)隊的”供給”方式怜跑,可以提升數(shù)據(jù)運(yùn)營效率样勃、改善客戶互動、鼓勵數(shù)據(jù)創(chuàng)新性芬。
3.2 缺點(diǎn)
- 對數(shù)據(jù)的歸集處理程度明顯缺失峡眶,對于試圖直接使用數(shù)據(jù)的用戶來說顯得有些過于“原材料”化,且數(shù)據(jù)太過冗余植锉。應(yīng)對這一問題辫樱,可通過”數(shù)據(jù)接入+數(shù)據(jù)加工+數(shù)據(jù)建模”的方式來解決俊庇。
- 對數(shù)據(jù)湖基礎(chǔ)層的性能有較高要求狮暑,必須依托高性能的服務(wù)器進(jìn)行數(shù)據(jù)處理過程。這主要是來自于海量數(shù)據(jù)辉饱、異構(gòu)多樣化數(shù)據(jù)搬男、延遲綁定模式等帶來的問題。.
- 數(shù)據(jù)處理技能要求高彭沼。這也主要是因?yàn)閿?shù)據(jù)過于原始帶來的問題缔逛。
四、 數(shù)據(jù)湖與關(guān)聯(lián)概念
1.數(shù)據(jù)湖與數(shù)據(jù)倉庫
數(shù)據(jù)湖建設(shè)思路從本質(zhì)上顛覆了傳統(tǒng)數(shù)據(jù)倉庫建設(shè)方法論姓惑。傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫則強(qiáng)調(diào)的是整合褐奴、面向主題、分層次等思路于毙。其兩者并不是對等的概念敦冬,更多是包含;即數(shù)據(jù)倉庫作為數(shù)據(jù)湖的一類“數(shù)據(jù)應(yīng)用”存在唯沮。
兩者可從以下維度進(jìn)行對比:
1)存儲數(shù)據(jù)類型
數(shù)據(jù)倉庫是存儲清洗加工過的匪补,可信任的伞辛、結(jié)構(gòu)良好的數(shù)據(jù);數(shù)據(jù)湖則是存儲大量原始數(shù)據(jù)夯缺,包括結(jié)構(gòu)化的蚤氏、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在我們世界中踊兜,主要是由原始的竿滨、混亂的、非結(jié)構(gòu)化的數(shù)據(jù)組成捏境。
隨著“混亂數(shù)據(jù)”的不斷升級于游,人們對它的興趣也不斷增長,想要更好的理解它垫言、從其中獲取價值贰剥、并根據(jù)它做出決策。這就得需要一個靈活筷频、敏捷蚌成、經(jīng)濟(jì)且相對輕松的解決方案,然而這些都不是數(shù)據(jù)倉庫的強(qiáng)項(xiàng)凛捏。而且當(dāng)有新的需求提出時担忧,傳統(tǒng)數(shù)據(jù)倉庫又難以快速隨之變化。
2)處理數(shù)據(jù)方式
如果需要加載到數(shù)據(jù)倉庫中的數(shù)據(jù)坯癣,我們首先需要定義好它瓶盛,這叫做寫時模式(Schema-On-Write)。而對于數(shù)據(jù)湖示罗,您只需加載原始數(shù)據(jù)惩猫,然后,當(dāng)您準(zhǔn)備使用數(shù)據(jù)時蚜点,就給它一個定義轧房,這叫做讀時模式(Schema-On-Read)。
這是兩種截然不同的數(shù)據(jù)處理方法禽额。因?yàn)閿?shù)據(jù)湖是在數(shù)據(jù)到使用時再定義模型結(jié)構(gòu)锯厢,因此提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務(wù)的高效率分析訴求脯倒。
3)工作合作方式
傳統(tǒng)的數(shù)據(jù)倉庫的工作方式是集中式的实辑,業(yè)務(wù)人員給需求到數(shù)據(jù)團(tuán)隊,數(shù)據(jù)團(tuán)隊根據(jù)要求加工藻丢、開發(fā)成維度表剪撬,供業(yè)務(wù)團(tuán)隊通過BI報表工具查詢。
數(shù)據(jù)湖更多是開放悠反、自助式的(self-service)残黑,開放數(shù)據(jù)給所有人使用馍佑,數(shù)據(jù)團(tuán)隊更多是提供工具、環(huán)境供各業(yè)務(wù)團(tuán)隊使用(不過集中式的維度表建設(shè)還是需要的)梨水,業(yè)務(wù)團(tuán)隊進(jìn)行開發(fā)拭荤、分析。
2.數(shù)據(jù)湖 vs 大數(shù)據(jù)
數(shù)據(jù)湖的技術(shù)實(shí)現(xiàn)疫诽,與大數(shù)據(jù)技術(shù)緊密結(jié)合舅世。
·通過Hadoop存儲成本低的特點(diǎn),將海量的原始數(shù)據(jù)奇徒、本地數(shù)據(jù)雏亚、轉(zhuǎn)換數(shù)據(jù)等保存在Hadoop中。這樣所有數(shù)據(jù)都在一個地方存儲摩钙,能給后續(xù)的管理罢低、再處理、分析提供基礎(chǔ)胖笛。
·通過Hive网持、Spark等低成本處理能力(相較于RDBMS),將數(shù)據(jù)交給大數(shù)據(jù)庫平臺即行處理匀钧。此外翎碑,還可通過Storm谬返、Flink等支持流式處理等特殊計算方式之斯。
·由于Hadoop的可擴(kuò)展性,可以很方便地實(shí)現(xiàn)全量數(shù)據(jù)存儲遣铝。結(jié)合數(shù)據(jù)生命周期管理佑刷,可做到全時間跨度的數(shù)據(jù)管控
3.數(shù)據(jù)湖 vs 云計算
云計算采用虛擬化、多租戶等技術(shù)滿足業(yè)務(wù)對服務(wù)器酿炸、網(wǎng)絡(luò)瘫絮、存儲等基礎(chǔ)資源的最大化利用,降低企業(yè)對IT基礎(chǔ)設(shè)施的成本填硕,為企業(yè)帶來了巨大的經(jīng)濟(jì)性麦萤;同時云計算技術(shù)實(shí)現(xiàn)了主機(jī)、存儲等資源快速申請扁眯、使用壮莹,則同樣為企業(yè)帶來了更多的管理便捷性。在構(gòu)建數(shù)據(jù)湖的基礎(chǔ)設(shè)施時姻檀,云計算技術(shù)可以發(fā)揮很大作用命满。此外,像AWS绣版、MicroSoft胶台、EMC等均提供了云端的數(shù)據(jù)湖服務(wù)歼疮。
4.數(shù)據(jù)湖 vs 人工智能
近些年,人工智能技術(shù)再一次飛速發(fā)展诈唬,訓(xùn)練和推理等需要同時處理超大的韩脏,甚至是多個數(shù)據(jù)集,這些數(shù)據(jù)集通常是視頻铸磅、圖片骤素、文本等非結(jié)構(gòu)化數(shù)據(jù),來源于多個行業(yè)愚屁、組織济竹、項(xiàng)目,對這些數(shù)據(jù)的采集霎槐、存儲送浊、清洗、轉(zhuǎn)換丘跌、特征提取等工作是一個系列復(fù)雜袭景、漫長的工程。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集闭树、治理耸棒、分析的平臺,同時提供極高的帶寬报辱、海量小文件存取与殃、多協(xié)議互通、數(shù)據(jù)共享的能力碍现,可以極大加速數(shù)據(jù)挖掘幅疼、深度學(xué)習(xí)等過程。
5.數(shù)據(jù)湖 vs 數(shù)據(jù)治理
傳統(tǒng)方式下昼接,數(shù)據(jù)治理工作往往是在數(shù)據(jù)倉庫中爽篷。那么在構(gòu)建企業(yè)級數(shù)據(jù)湖后,對數(shù)據(jù)治理的需求實(shí)際更強(qiáng)了慢睡。因?yàn)榕c”預(yù)建闹鸸ぃ”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散漂辐、無序泪喊、不規(guī)格化等,需要通過治理工作達(dá)到數(shù)據(jù)”可用”狀態(tài)者吁,否則數(shù)據(jù)湖很可能會”腐化”成數(shù)據(jù)沼澤窘俺,浪費(fèi)大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要瘤泪。這也是對數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一灶泵。
6.數(shù)據(jù)湖 vs 數(shù)據(jù)安全
數(shù)據(jù)湖中存放有大量原始及加工過的數(shù)據(jù),這些數(shù)據(jù)在不受監(jiān)管的情況下被訪問是非常危險的对途。這里是需要考慮必要的數(shù)據(jù)安全及隱私保護(hù)問題赦邻,這些是需要數(shù)據(jù)湖提供的能力。但換種角度來看实檀,將數(shù)據(jù)集中在數(shù)據(jù)湖中惶洲,其實(shí)是有利于數(shù)據(jù)安全工作的。這要比數(shù)據(jù)分散在企業(yè)各處要好的多膳犹。
五恬吕、 數(shù)據(jù)湖的架構(gòu)體系
數(shù)據(jù)湖是一種存儲架構(gòu),本質(zhì)上講是存儲须床,企業(yè)基于云服務(wù)铐料,可以快速挖出一個適合自己的“湖”,完成數(shù)據(jù)的采集豺旬、存儲钠惩、處理、治理族阅,提供數(shù)據(jù)集成共享服務(wù)篓跛、高性能計算能力和大數(shù)據(jù)分析算法模型,支撐經(jīng)營管理數(shù)據(jù)分析應(yīng)用的全面開展坦刀。為規(guī)睦⒐担化數(shù)據(jù)應(yīng)用賦能。
數(shù)據(jù)湖技術(shù)架構(gòu)涉及了數(shù)據(jù)接入(轉(zhuǎn)移)求泰、數(shù)據(jù)存儲央渣、數(shù)據(jù)計算计盒、數(shù)據(jù)應(yīng)用渴频、數(shù)據(jù)治理、元數(shù)據(jù)北启、數(shù)據(jù)質(zhì)量卜朗、數(shù)據(jù)資源目錄、數(shù)據(jù)安全及數(shù)據(jù)審計等10個方面領(lǐng)域:
1.數(shù)據(jù)接入(移動)
數(shù)據(jù)提取允許連接器從不同的數(shù)據(jù)源獲取數(shù)據(jù)并加載到數(shù)據(jù)湖中咕村。數(shù)據(jù)提取支持:所有類型的結(jié)構(gòu)化场钉,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。批量懈涛,實(shí)時逛万,一次性負(fù)載等多次攝取批钠;在數(shù)據(jù)接入方面宇植,需提供適配的多源異構(gòu)數(shù)據(jù)資源接入方式得封,為企業(yè)數(shù)據(jù)湖的數(shù)據(jù)抽取匯聚提供通道。
2.數(shù)據(jù)存儲
數(shù)據(jù)存儲應(yīng)是可擴(kuò)展的指郁,提供經(jīng)濟(jì)高效的存儲并允許快速訪問數(shù)據(jù)探索忙上。它應(yīng)該支持各種數(shù)據(jù)格式。
3.數(shù)據(jù)計算
數(shù)據(jù)湖需要提供多種數(shù)據(jù)分析引擎闲坎,來滿足數(shù)據(jù)計算需求疫粥。需要滿足批量、實(shí)時腰懂、流式等特定計算場景梗逮。此外,向下還需要提供海量數(shù)據(jù)的訪問能力绣溜,可滿足高并發(fā)讀取需求库糠,提高實(shí)時分析效率。并需要兼容各種開源的數(shù)據(jù)格式涮毫,直接訪問以這些格式存儲的數(shù)據(jù)瞬欧。
4.數(shù)據(jù)治理
數(shù)據(jù)治理是管理數(shù)據(jù)湖中使用的數(shù)據(jù)的可用性,安全性和完整性的過程罢防。數(shù)據(jù)治理是一項(xiàng)持續(xù)的工作艘虎,通過闡明戰(zhàn)略、建立框架咒吐、制定方 針以及實(shí)現(xiàn)數(shù)據(jù)共享野建,為所有其他數(shù)據(jù)管理職能提供指導(dǎo)和監(jiān)督。
5.元數(shù)據(jù)
元數(shù)據(jù)管理是數(shù)據(jù)湖整個數(shù)據(jù)生命周期中需要做的基礎(chǔ)性工作恬叹,企業(yè)需要對元數(shù)據(jù)的生命周期進(jìn)行管理候生。元數(shù)據(jù)管理本身并不是目的,它是組織從其數(shù)據(jù)中獲得更多價值的一種手段绽昼,要達(dá)到數(shù)據(jù)驅(qū)動唯鸭,組織必須先是由元數(shù)據(jù)驅(qū)動的。
6.數(shù)據(jù)資源目錄
數(shù)據(jù)資源目錄的初始構(gòu)建硅确,通常會掃描大量數(shù)據(jù)以收集元數(shù)據(jù)目溉。目錄的數(shù)據(jù)范圍可能包括全部數(shù)據(jù)湖中被確定為有價值和可共享的數(shù)據(jù)資產(chǎn)。數(shù)據(jù)資源目錄使用算法和機(jī)器學(xué)習(xí)自動完成查找和掃描數(shù)據(jù)集菱农、提取元數(shù)據(jù)以支持?jǐn)?shù)據(jù)集發(fā)現(xiàn)缭付、暴露數(shù)據(jù)沖突啰挪、推斷語義和業(yè)務(wù)術(shù)語滤否、給數(shù)據(jù)打標(biāo)簽以支持搜索、以及標(biāo)識隱私瑰步、安全性和敏感數(shù)據(jù)的合規(guī)性。
7.隱私與安全
數(shù)據(jù)安全是安全政策和安全程序的規(guī)劃绣檬、開發(fā)和執(zhí)行舅巷、以提供對數(shù)據(jù)和信息資產(chǎn)的身份驗(yàn)證、授權(quán)河咽、訪問和審核钠右。需要在數(shù)據(jù)湖的每個層中實(shí)現(xiàn)安全性。它始于存儲忘蟹,發(fā)掘和消耗飒房,基本需求是停止未授權(quán)用戶的訪問。身份驗(yàn)證媚值、審計狠毯、授權(quán)和數(shù)據(jù)保護(hù)是數(shù)據(jù)湖安全的一些重要特性。
8.數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量是數(shù)據(jù)湖架構(gòu)的重要組成部分褥芒。數(shù)據(jù)用于確定商業(yè)價值嚼松,從劣質(zhì)數(shù)據(jù)中提取洞察力將導(dǎo)致質(zhì)量差的洞察力。數(shù)據(jù)質(zhì)量重點(diǎn)關(guān)注需求锰扶、檢查献酗、分析和提升的實(shí)現(xiàn)能力,對數(shù)據(jù)從計劃坷牛、獲取罕偎、存儲、共享京闰、維護(hù)颜及、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題進(jìn)行識別蹂楣、度量俏站、監(jiān)控、預(yù)警等一系列活動痊土,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高肄扎。
9.數(shù)據(jù)審計
兩個主要的數(shù)據(jù)審計任務(wù)是跟蹤對關(guān)鍵數(shù)據(jù)集的更改:跟蹤重要數(shù)據(jù)集元素的更改;捕獲如何/何時/以及更改這些元素的人員施戴。數(shù)據(jù)審計有助于評估風(fēng)險和合規(guī)性反浓。
10.數(shù)據(jù)應(yīng)用
數(shù)據(jù)應(yīng)用是指通過對數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行統(tǒng)一的管理、加工和應(yīng)用赞哗,對內(nèi)支持業(yè)務(wù)運(yùn)營、流程優(yōu)化辆雾、營銷推廣肪笋、風(fēng)險管理、渠道整合等活動,對外支持?jǐn)?shù)據(jù)開放共享藤乙、數(shù)據(jù)服務(wù)等活動猜揪,從而提升數(shù)據(jù)在組織運(yùn)營管理過程中的支撐輔助作用,同時實(shí)現(xiàn)數(shù)據(jù)價值的變現(xiàn)坛梁。在基本的計算能力之上而姐,數(shù)據(jù)湖需提供批量報表、即席查詢划咐、交互式分析拴念、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)等上層應(yīng)用褐缠,還需要提供自助式數(shù)據(jù)探索能力政鼠。
六、 如何通過數(shù)據(jù)治理實(shí)現(xiàn)數(shù)據(jù)湖商業(yè)價值
數(shù)據(jù)湖對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用队魏。構(gòu)建開放公般、靈活、可擴(kuò)展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺胡桨, 將企業(yè)內(nèi)官帘、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限昧谊。
- 利用數(shù)據(jù)湖智能分析遏佣、數(shù)據(jù)可視化等技術(shù),實(shí)現(xiàn)了數(shù)據(jù)共享揽浙、日常報表自動生成状婶、快速和智能分析,滿足企業(yè)各級數(shù)據(jù)分析應(yīng)用需求馅巷。
- 深度挖掘數(shù)據(jù)價值膛虫,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實(shí)現(xiàn)了數(shù)據(jù)的目錄钓猬、模型稍刀、標(biāo)準(zhǔn)、認(rèn)責(zé)敞曹、安全账月、可視化、共享等管理澳迫,實(shí)現(xiàn)數(shù)據(jù)集中存儲局齿、處理、分類與管理橄登,實(shí)現(xiàn)報表生成自動化抓歼、數(shù)據(jù)分析敏捷化讥此、數(shù)據(jù)挖掘可視化,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評估谣妻、落地管理流程萄喳。
七、 數(shù)據(jù)湖遇到挑戰(zhàn)
數(shù)據(jù)湖本身是一個中心化的存儲蹋半,能夠存儲任意規(guī)模的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)他巨。數(shù)據(jù)湖的優(yōu)勢就是數(shù)據(jù)可以先作為資產(chǎn)存放起來,問題就在于如何把這些數(shù)據(jù)在業(yè)務(wù)中利用起來减江。當(dāng)部署了數(shù)據(jù)湖之后染突,數(shù)據(jù)治理問題將會接踵而至,比如從數(shù)據(jù)湖到數(shù)據(jù)湖您市,如何將數(shù)據(jù)進(jìn)行分流觉痛、湖的數(shù)據(jù)如何進(jìn)行整理等。
數(shù)據(jù)倉庫里的數(shù)據(jù)是經(jīng)過過整理茵休、清晰易懂的薪棒。而數(shù)據(jù)湖的概念是不經(jīng)處理直接進(jìn)行堆砌,那么數(shù)據(jù)湖就有可能會變成“數(shù)據(jù)沼澤”榕莺,篩選難度會變大俐芯。由于定義不正確、信息不完整钉鸯、數(shù)據(jù)陳舊或無法找到所需信息吧史,它需要更多的元數(shù)據(jù)來理解存儲在數(shù)據(jù)湖中的數(shù)據(jù)資產(chǎn),包括數(shù)據(jù)內(nèi)容唠雕、數(shù)據(jù)資產(chǎn)圖譜贸营、數(shù)據(jù)敏感性、用戶喜好岩睁、數(shù)據(jù)質(zhì)量钞脂、上下文(缺乏上下文將無法用于分析)和數(shù)據(jù)價值等業(yè)務(wù)層面的理解。另外這些系統(tǒng)和應(yīng)用是技術(shù)人員開發(fā)的捕儒,由于技術(shù)人員和業(yè)務(wù)人員的思維和“語言”存在差異冰啃,這使得業(yè)務(wù)用戶獲取數(shù)據(jù)變得更加復(fù)雜和困難。
1.避免數(shù)據(jù)沼澤
如何讓數(shù)據(jù)湖的水保持清亮不會成為數(shù)據(jù)沼澤刘莹?“數(shù)據(jù)湖的數(shù)據(jù)不被有效使用就會成為大垃圾場阎毅。”中國有句諺語:“流水不腐点弯,戶樞不蠹”扇调。數(shù)據(jù)只有流動起來,才可以不成為數(shù)據(jù)沼澤蒲拉,湖泊只是暫存數(shù)據(jù)河流的基地肃拜。數(shù)據(jù)流動就意味著所有的數(shù)據(jù)產(chǎn)生痴腌,最終要有它的耕種者和使用者雌团。要讓數(shù)據(jù)有效流動起來燃领,就要建立有效的“數(shù)據(jù)河”(Data River)。業(yè)界在數(shù)據(jù)湖的嘗試上一般都會忽視數(shù)據(jù)治理的重要性锦援,這是很危險的猛蔽,由它導(dǎo)致的數(shù)據(jù)沼澤也是企業(yè)對數(shù)據(jù)湖持續(xù)觀望的原因之一。
2.數(shù)據(jù)智能化治理是數(shù)據(jù)湖實(shí)現(xiàn)價值必有之路
對數(shù)據(jù)治理的需求實(shí)際更強(qiáng)了灵寺。因?yàn)榕c“預(yù)建穆猓”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散略板、無序毁枯、不規(guī)則化等,需要通過治理工作達(dá)到數(shù)據(jù)“可用”狀態(tài)叮称,否則數(shù)據(jù)湖很可能會“腐化”成數(shù)據(jù)沼澤种玛,浪費(fèi)大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展瓤檐,數(shù)據(jù)治理至關(guān)重要赂韵,沒有數(shù)據(jù)湖治理,企業(yè)可能失去有意義的商業(yè)智能挠蛉。這也是對數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一祭示。
考慮全面的數(shù)據(jù)湖治理,包括是誰引入的數(shù)據(jù)谴古、誰負(fù)責(zé)數(shù)據(jù)质涛,以及數(shù)據(jù)的定義,以確保數(shù)據(jù)的妥善標(biāo)記和使用掰担,實(shí)現(xiàn)對企業(yè)數(shù)據(jù)資源內(nèi)容層面的優(yōu)化改造和有效管控汇陆。
八、 數(shù)據(jù)湖的未來展望
現(xiàn)階段數(shù)據(jù)湖更多是作為數(shù)據(jù)倉庫的補(bǔ)充恩敌,數(shù)據(jù)湖概念和技術(shù)還在不斷演化瞬测,不同的解決方案供應(yīng)商也在添加新的特性和功能,包括架構(gòu)標(biāo)準(zhǔn)化和互操作性纠炮、數(shù)據(jù)治理要求月趟、數(shù)據(jù)安全性等。
數(shù)據(jù)湖作為一種云服務(wù)隨時按需滿足對不同數(shù)據(jù)的分析恢口、處理和存儲需求孝宗,數(shù)據(jù)湖的擴(kuò)展性,可以為用戶提供更多的實(shí)時分析耕肩,基于企業(yè)大數(shù)據(jù)的數(shù)據(jù)湖正在向支持更多類型的實(shí)時智能化服務(wù)發(fā)展因妇,將會為企業(yè)現(xiàn)有的數(shù)據(jù)驅(qū)動型決策制定模式帶來極大改變问潭。
數(shù)據(jù)湖發(fā)展到現(xiàn)在,已經(jīng)成為企業(yè)數(shù)據(jù)體系的基礎(chǔ):數(shù)據(jù)庫婚被、數(shù)倉狡忙、大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)等各種數(shù)據(jù)服務(wù)址芯,都可以“一湖盡收”灾茁。在這個“上云用數(shù)賦智”時代,很多企業(yè)已經(jīng)完成上云第一步谷炸,接下來北专,就是如何“用數(shù)”和“賦智”。
-END-