關(guān)于數(shù)據(jù)倉庫大脉、數(shù)據(jù)湖、數(shù)據(jù)平臺和數(shù)據(jù)中臺的概念和區(qū)別

我們談?wù)摂?shù)據(jù)中臺之前水孩, 我們也聽到過數(shù)據(jù)平臺、數(shù)據(jù)倉庫琐驴、數(shù)據(jù)湖的相關(guān)概念俘种,它們都與數(shù)據(jù)有關(guān)系秤标,但他們和數(shù)據(jù)中臺有什么樣的區(qū)別, 下面我們將圍繞數(shù)據(jù)平臺宙刘、數(shù)據(jù)倉庫苍姜、數(shù)據(jù)湖和數(shù)據(jù)中臺的區(qū)別進(jìn)行介紹。

相關(guān)概念

數(shù)據(jù)倉庫

數(shù)據(jù)倉庫(Data Warehouse)悬包,也稱為企業(yè)數(shù)據(jù)倉庫衙猪,它是一個(gè)面向主題的、集成的布近、相對穩(wěn)定的垫释、反映歷史變化的數(shù)據(jù)集合存儲系統(tǒng),它將來自不同來源的結(jié)構(gòu)化數(shù)據(jù)聚合起來撑瞧,用于業(yè)務(wù)智能領(lǐng)域的比較和分析棵譬,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲庫,并且是高度建模的预伺。

數(shù)據(jù)倉庫邏輯架構(gòu)

數(shù)據(jù)倉庫系統(tǒng)的作用能實(shí)現(xiàn)跨業(yè)務(wù)條線订咸、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持酬诀。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運(yùn)營數(shù)據(jù)轉(zhuǎn)化成為高價(jià)值的可以獲取的信息(或知識)脏嚷,并且在恰當(dāng)?shù)臅r(shí)候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜恕?/p>

數(shù)據(jù)倉庫的作用主要體現(xiàn)在企業(yè)決策、分析瞒御、計(jì)劃和響應(yīng)以下幾個(gè)方面:

數(shù)據(jù)倉庫的作用

數(shù)據(jù)倉庫針對實(shí)時(shí)數(shù)據(jù)處理和非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱父叙,以及在業(yè)務(wù)在預(yù)警預(yù)測等方面應(yīng)用有一定的限制。

數(shù)據(jù)倉庫架構(gòu)示意圖

數(shù)據(jù)湖

數(shù)據(jù)湖(Data Lake)是Pentaho公司CTO James Dixon提出來一種數(shù)據(jù)存儲理念—即在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法葵腹。數(shù)據(jù)湖作為一個(gè)集中的存儲庫高每,可以在其中存儲任意規(guī)模的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)湖中践宴,可以存儲不需要對其進(jìn)行結(jié)構(gòu)化的數(shù)據(jù)鲸匿,這樣就可以運(yùn)行不同類型的分析。下面的定義是維基百科所給出的“數(shù)據(jù)湖”定義阻肩。

數(shù)據(jù)湖(Data Lake)是一個(gè)存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫带欢,其中的數(shù)據(jù)可供存取、處理烤惊、分析及傳輸乔煞。數(shù)據(jù)湖是以其自然格式存儲的數(shù)據(jù)的系統(tǒng)或存儲庫,通常是對象Blob或文件柒室。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲渡贾,包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報(bào)告雄右、可視化空骚、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)纺讲。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV囤屹,日志熬甚,XML,JSON)肋坚,非結(jié)構(gòu)化數(shù)據(jù)(電子郵件乡括,文檔,PDF)和二進(jìn)制數(shù)據(jù)(圖像智厌,音頻诲泌,視頻)。

[來源:維基百科]

以下是關(guān)于數(shù)據(jù)湖的示意圖(圖片來源于網(wǎng)絡(luò)):

數(shù)據(jù)湖示意圖

數(shù)據(jù)湖能夠幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)的集中式管理等多種能力峦剔;數(shù)據(jù)湖融合了先進(jìn)的數(shù)據(jù)科學(xué)档礁、機(jī)器學(xué)習(xí)和人工智能技術(shù),幫助企業(yè)構(gòu)建更加優(yōu)化的數(shù)據(jù)運(yùn)營模型吝沫,為企業(yè)提供預(yù)測分析呻澜、推薦模型等能力,這些模型能夠刺激企業(yè)能力的持續(xù)增長惨险,不斷賦能于企業(yè)增長羹幸。數(shù)據(jù)湖能從以下方面幫助到企業(yè):

  • 實(shí)現(xiàn)數(shù)據(jù)治理;

  • 通過應(yīng)用機(jī)器學(xué)習(xí)與人工智能技術(shù)實(shí)現(xiàn)商業(yè)智能辫愉;

  • 預(yù)測分析和模型推薦栅受,例如:領(lǐng)域特定的推薦引擎 ;

  • 信息追蹤與一致性保障恭朗;

  • 基于歷史數(shù)據(jù)分析生成新的數(shù)據(jù)維度屏镊,挖掘數(shù)據(jù)深度價(jià)值;

  • 提供集中式存儲的企業(yè)數(shù)據(jù)中心痰腮,并提供基于數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務(wù)而芥;

  • 協(xié)助企業(yè)實(shí)現(xiàn)靈活的增長決策。

數(shù)據(jù)湖示例

數(shù)據(jù)平臺

數(shù)據(jù)平臺是在大數(shù)據(jù)基礎(chǔ)上出現(xiàn)的融合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)平臺膀值,為業(yè)務(wù)提供服務(wù)的方式主要是直接提供數(shù)據(jù)集棍丐。

數(shù)據(jù)平臺的出現(xiàn)是為了解決數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報(bào)表開發(fā)周期長的問題,所以先撇開業(yè)務(wù)需求沧踏、把企業(yè)所有的數(shù)據(jù)都抽取出來放到一起歌逢,成為一個(gè)大的數(shù)據(jù)集,其中有結(jié)構(gòu)化數(shù)據(jù)翘狱、非結(jié)構(gòu)化數(shù)據(jù)等秘案。當(dāng)業(yè)務(wù)方有需求的時(shí)候,再把他們需要的若干個(gè)小數(shù)據(jù)集單獨(dú)提取出來,以數(shù)據(jù)集的形式提供給數(shù)據(jù)應(yīng)用踏烙。

大數(shù)據(jù)時(shí)代师骗,數(shù)據(jù)平臺一般被稱之為大數(shù)據(jù)平臺。狹義上的大數(shù)據(jù)平臺和傳統(tǒng)數(shù)據(jù)平臺的功能一致讨惩,只是技術(shù)架構(gòu)和數(shù)據(jù)容量方面的不同,但廣義的大數(shù)據(jù)平臺通常被賦予更多的使命寒屯,它不僅存儲多樣化的數(shù)據(jù)類型荐捻,還具有報(bào)表分析等數(shù)據(jù)倉庫的功能,以及其他數(shù)據(jù)分析挖掘方面的高級功能寡夹。

數(shù)據(jù)中臺

注:關(guān)于數(shù)據(jù)中臺的概念处面, 我在上一篇文章《什么是數(shù)據(jù)中臺》中詳細(xì)介紹過, 在這里就不進(jìn)行詳細(xì)論述了菩掏。大家可以查看一篇文章魂角。

網(wǎng)易數(shù)據(jù)中臺架構(gòu)圖
阿里數(shù)據(jù)中臺邏輯架構(gòu)圖

數(shù)據(jù)中臺通過對企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理智绸、建模野揪、分析和應(yīng)用,使數(shù)據(jù)對內(nèi)優(yōu)化管理提高業(yè)務(wù)價(jià)值瞧栗,對外進(jìn)行數(shù)據(jù)合作讓業(yè)務(wù)價(jià)值得到釋放斯稳,使之成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺建立后迹恐,會形成數(shù)據(jù)API服務(wù)挣惰,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。

數(shù)據(jù)中臺對一個(gè)企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用殴边。數(shù)據(jù)中臺為解耦而生憎茂,企業(yè)建設(shè)數(shù)據(jù)中臺的最大意義就是應(yīng)用與數(shù)據(jù)之間的解藕,這樣企業(yè)就可以不受限制地按需構(gòu)建滿足業(yè)務(wù)需求的數(shù)據(jù)應(yīng)用锤岸。

  • 構(gòu)建了開放竖幔、靈活、可擴(kuò)展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺能耻, 將企業(yè)內(nèi)赏枚、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限晓猛。

  • 利用大數(shù)據(jù)智能分析饿幅、數(shù)據(jù)可視化等技術(shù),實(shí)現(xiàn)了數(shù)據(jù)共享戒职、日常報(bào)表自動生成栗恩、快速和智能分析,滿足企業(yè)各級部門之間的數(shù)據(jù)分析應(yīng)用需求洪燥。

  • 深度挖掘數(shù)據(jù)價(jià)值磕秤,助力企業(yè)數(shù)字化轉(zhuǎn)型落地乳乌。實(shí)現(xiàn)了數(shù)據(jù)的目錄、模型市咆、標(biāo)準(zhǔn)汉操、認(rèn)責(zé)、安全蒙兰、可視化磷瘤、共享等管理,實(shí)現(xiàn)數(shù)據(jù)集中存儲搜变、處理采缚、分類與管理,建立大數(shù)據(jù)分析工具庫挠他、算法服務(wù)庫扳抽,實(shí)現(xiàn)報(bào)表生成自動化、數(shù)據(jù)分析敏捷化殖侵、數(shù)據(jù)挖掘可視化贸呢,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程愉耙。

數(shù)據(jù)倉庫 VS 數(shù)據(jù)湖

相較而言贮尉,數(shù)據(jù)湖是較新的技術(shù),擁有不斷演變的架構(gòu)朴沿。數(shù)據(jù)湖存儲任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本帝牡、音頻颠印、視頻和圖像)的原始數(shù)據(jù)症歇。根據(jù)定義淮腾,數(shù)據(jù)湖不會接受數(shù)據(jù)治理,但專家們一致認(rèn)為良好的數(shù)據(jù)管理對預(yù)防數(shù)據(jù)湖轉(zhuǎn)變?yōu)閿?shù)據(jù)沼澤不可或缺坚芜。數(shù)據(jù)湖在數(shù)據(jù)讀取期間創(chuàng)建模式览芳。與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性鸿竖,而且更靈活沧竟,并且提供了更高的敏捷性。值得一提的是缚忧,數(shù)據(jù)湖非常適合使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來執(zhí)行各種任務(wù)悟泵,比如數(shù)據(jù)挖掘和數(shù)據(jù)分析,以及提取非結(jié)構(gòu)化數(shù)據(jù)等闪水。

表1 數(shù)據(jù)倉庫與數(shù)據(jù)湖的區(qū)別

數(shù)據(jù)倉庫 VS 數(shù)據(jù)平臺

由于數(shù)據(jù)倉庫具有歷史性的特性糕非,其中存儲的數(shù)據(jù)大多是結(jié)構(gòu)化數(shù)據(jù);而數(shù)據(jù)平臺的出現(xiàn)解決了數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報(bào)表開發(fā)周期長的問題。

表2 數(shù)據(jù)倉庫與數(shù)據(jù)平臺的區(qū)別

通過以上的論述朽肥,我們發(fā)現(xiàn)數(shù)據(jù)平臺和數(shù)據(jù)湖好像存在諸多相似性禁筏,這二者之間的區(qū)別,從個(gè)人角度理解上分析應(yīng)該是數(shù)據(jù)加工的角度不同衡招,數(shù)據(jù)湖更著重于對原始數(shù)據(jù)的存儲篱昔,而數(shù)據(jù)平臺則同數(shù)據(jù)倉庫一樣,需對原始數(shù)據(jù)進(jìn)行清洗始腾、轉(zhuǎn)換等數(shù)據(jù)處理后按照統(tǒng)一的標(biāo)準(zhǔn)規(guī)范進(jìn)行存儲旱爆。

數(shù)據(jù)倉庫 VS 數(shù)據(jù)中臺

數(shù)據(jù)倉庫和傳統(tǒng)的數(shù)據(jù)平臺,其出發(fā)點(diǎn)為一個(gè)支撐性的技術(shù)系統(tǒng)窘茁,即一定要先考慮我具有什么數(shù)據(jù),然后我才能干什么脆烟,因此特別強(qiáng)調(diào)數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理山林;而數(shù)據(jù)中臺的第一出發(fā)點(diǎn)不是數(shù)據(jù)而是業(yè)務(wù),一開始不用看你系統(tǒng)里面有什么數(shù)據(jù)邢羔,而是去解決你的業(yè)務(wù)問題需要什么樣的數(shù)據(jù)服務(wù)驼抹。

在具體的技術(shù)處理環(huán)節(jié),二者也有明顯不同拜鹤,數(shù)據(jù)的預(yù)處理流程正在從傳統(tǒng)的ETL結(jié)構(gòu)向ELT結(jié)構(gòu)轉(zhuǎn)變框冀。傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是ETL結(jié)構(gòu),這是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán)敏簿,即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù)明也,經(jīng)過數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去惯裕。而大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu)温数,其根據(jù)上層的應(yīng)用需求,隨時(shí)從數(shù)據(jù)中臺中抽取想要的原始數(shù)據(jù)進(jìn)行建模分析蜻势。

表3 數(shù)據(jù)倉庫與數(shù)據(jù)中臺的區(qū)別

總結(jié)

根據(jù)以上數(shù)據(jù)平臺撑刺、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺的概念論述和對比握玛,我們進(jìn)行如下總結(jié):

  • 數(shù)據(jù)中臺够傍、數(shù)據(jù)倉庫和數(shù)據(jù)湖沒有直接的關(guān)系;

  • 數(shù)據(jù)中臺挠铲、數(shù)據(jù)平臺冕屯、數(shù)據(jù)倉庫和數(shù)據(jù)湖在某個(gè)維度上為業(yè)務(wù)產(chǎn)生價(jià)值的形式有不同的側(cè)重;

  • 數(shù)據(jù)中臺是企業(yè)級的邏輯概念市殷,體現(xiàn)企業(yè)數(shù)據(jù)向業(yè)務(wù)價(jià)值轉(zhuǎn)化的能力愕撰,為業(yè)務(wù)提供服務(wù)的主要方式是數(shù)據(jù) API;

  • 數(shù)據(jù)倉庫是一個(gè)相對具體的功能概念,是存儲和管理一個(gè)或多個(gè)主題數(shù)據(jù)的集合搞挣,為業(yè)務(wù)提供服務(wù)的方式主要是分析報(bào)表带迟;

  • 數(shù)據(jù)平臺是在大數(shù)據(jù)基礎(chǔ)上出現(xiàn)的融合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)平臺,為業(yè)務(wù)提供服務(wù)的方式主要是直接提供數(shù)據(jù)集囱桨;

  • 數(shù)據(jù)中臺距離業(yè)務(wù)更近仓犬,能夠更快速的響應(yīng)業(yè)務(wù)和應(yīng)用開發(fā)需求,從而為業(yè)務(wù)提供速度更快的服務(wù)舍肠;

  • 數(shù)據(jù)倉庫是為了支持管理決策分析搀继,而數(shù)據(jù)中臺則是將數(shù)據(jù)服務(wù)化之后提供給業(yè)務(wù)系統(tǒng),不僅限于分析型場景翠语,也適用于交易型場景叽躯;

  • 數(shù)據(jù)中臺可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺之上,是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價(jià)值的過程的中間層肌括。

服務(wù)方式總結(jié)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末点骑,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子谍夭,更是在濱河造成了極大的恐慌黑滴,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件紧索,死亡現(xiàn)場離奇詭異袁辈,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)珠漂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門晚缩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人甘磨,你說我怎么就攤上這事橡羞。” “怎么了济舆?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵卿泽,是天一觀的道長。 經(jīng)常有香客問我滋觉,道長签夭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任椎侠,我火速辦了婚禮第租,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘我纪。我一直安慰自己慎宾,他們只是感情好丐吓,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著趟据,像睡著了一般券犁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上汹碱,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天粘衬,我揣著相機(jī)與錄音,去河邊找鬼咳促。 笑死稚新,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的跪腹。 我是一名探鬼主播褂删,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼冲茸!你這毒婦竟也來了笤妙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤噪裕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后股毫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體膳音,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年铃诬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了祭陷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡趣席,死狀恐怖兵志,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情宣肚,我是刑警寧澤想罕,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站霉涨,受9級特大地震影響按价,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜笙瑟,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一楼镐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧往枷,春花似錦框产、人聲如沸凄杯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽戒突。三九已至,卻和暖如春蘸鲸,著一層夾襖步出監(jiān)牢的瞬間妖谴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工酌摇, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留膝舅,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓窑多,卻偏偏與公主長得像仍稀,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子埂息,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353