數(shù)據(jù)湖(Data Lake)系列3-數(shù)據(jù)湖的技術(shù)演化

今天繼續(xù)數(shù)據(jù)湖的話題舀武,主要是梳理一下數(shù)據(jù)湖的技術(shù)演化過程邻辉。在上一講中轿衔,我們了解了數(shù)據(jù)湖的演化歷史微驶,演化本身也是依賴于計算機(jī)技術(shù)的發(fā)展而前行的浪谴。

技術(shù)演化

數(shù)據(jù)管理的早期:數(shù)據(jù)庫

在數(shù)據(jù)管理的早期,關(guān)系數(shù)據(jù)庫是公司用來收集因苹、存儲和分析數(shù)據(jù)的主要方法苟耻。關(guān)系數(shù)據(jù)庫,也稱為關(guān)系數(shù)據(jù)庫管理系統(tǒng) (RDBMS)容燕,為公司提供了一種使用結(jié)構(gòu)化查詢語言 (SQL) 存儲和分析有關(guān)其客戶的高度結(jié)構(gòu)化數(shù)據(jù)的方法梁呈。多年來,關(guān)系型數(shù)據(jù)庫足以滿足企業(yè)的需求:需要存儲的數(shù)據(jù)量較小蘸秘,關(guān)系型數(shù)據(jù)庫簡單可靠官卡。直到今天蝗茁,關(guān)系數(shù)據(jù)庫仍然是存儲不太大的高度結(jié)構(gòu)化數(shù)據(jù)的絕佳選擇。然而寻咒,數(shù)據(jù)的速度和規(guī)模即將爆發(fā)哮翘。

互聯(lián)網(wǎng)的興起和數(shù)據(jù)孤島

隨著互聯(lián)網(wǎng)的興起,公司發(fā)現(xiàn)自己充斥著客戶數(shù)據(jù)毛秘。要存儲所有這些數(shù)據(jù)饭寺,單個數(shù)據(jù)庫已不再足夠。公司通常會建立多個按業(yè)務(wù)線組織的數(shù)據(jù)庫來保存數(shù)據(jù)叫挟。隨著數(shù)據(jù)量的增長和增長艰匙,公司最終可能會擁有數(shù)十個具有不同用戶和目的的斷開連接的數(shù)據(jù)庫。有了更多更好的數(shù)據(jù)抹恳,公司能夠比以往任何時候都更準(zhǔn)確地定位客戶并管理他們的運(yùn)營员凝。但這導(dǎo)致了數(shù)據(jù)孤島:整個組織中分散的、分散的數(shù)據(jù)存儲奋献。由于無法集中和綜合他們的數(shù)據(jù)健霹,許多公司未能將其綜合成可操作的見解。這種痛苦導(dǎo)致了數(shù)據(jù)倉庫的興起瓶蚂。

數(shù)據(jù)倉庫的誕生是為了將公司的結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一在一個屋檐下

如此多的數(shù)據(jù)存儲在不同的源系統(tǒng)中糖埋,公司需要一種方法來集成它們∏哉猓“360 度客戶視圖”的想法成為當(dāng)時的想法瞳别,數(shù)據(jù)倉庫的誕生就是為了滿足這一需求并將整個組織中的不同數(shù)據(jù)庫聯(lián)合起來。

數(shù)據(jù)倉庫作為一種技術(shù)出現(xiàn)钦听,它將組織的關(guān)系數(shù)據(jù)庫集合集中在一個保護(hù)傘下洒试,允許將數(shù)據(jù)作為一個整體進(jìn)行查詢和查看。起初朴上,數(shù)據(jù)倉庫通常運(yùn)行在來自 Teradata 和 Vertica 等供應(yīng)商的昂貴的垒棋、基于本地設(shè)備的硬件上,后來在云中可用痪宰。從 90 年代末開始叼架,數(shù)據(jù)倉庫成為大公司最主要的數(shù)據(jù)架構(gòu)。該技術(shù)的主要優(yōu)點(diǎn)包括:

  • 集成多種數(shù)據(jù)源
  • 為讀取訪問優(yōu)化的數(shù)據(jù)
  • 能夠運(yùn)行快速的即席分析查詢
  • 數(shù)據(jù)審計衣撬、治理和沿襲

數(shù)據(jù)倉庫很好地滿足了他們的目的乖订,但隨著時間的推移,這項技術(shù)的缺點(diǎn)變得明顯具练。

  • 無法存儲非結(jié)構(gòu)化的原始數(shù)據(jù)
  • 昂貴的專有硬件和軟件
  • 由于存儲和計算能力的緊密耦合而難以擴(kuò)展

Apache Hadoop? 和 Spark? 支持非結(jié)構(gòu)化數(shù)據(jù)分析乍构,并為現(xiàn)代數(shù)據(jù)湖奠定基礎(chǔ)

隨著 2000 年代初“大數(shù)據(jù)”的興起,公司發(fā)現(xiàn)他們需要對無法在一臺計算機(jī)上容納的數(shù)據(jù)集進(jìn)行分析扛点。此外哥遮,他們需要分析的數(shù)據(jù)類型并不總是結(jié)構(gòu)整齊——公司也需要利用非結(jié)構(gòu)化數(shù)據(jù)的方法岂丘。為了使大數(shù)據(jù)分析成為可能,并解決對數(shù)據(jù)倉庫成本和供應(yīng)商鎖定的擔(dān)憂眠饮,Apache Hadoop?作為一種開源分布式數(shù)據(jù)處理技術(shù)應(yīng)運(yùn)而生奥帘。

什么是Hadoop?

Apache Hadoop? 是一組用于大數(shù)據(jù)分析的開源軟件仪召,允許使用并行工作的計算機(jī)集群處理大型數(shù)據(jù)集寨蹋。它包括Hadoop MapReduceHadoop 分布式文件系統(tǒng) (HDFS)YARN(又一個資源談判器)扔茅。HDFS 允許將單個數(shù)據(jù)集存儲在許多不同的存儲設(shè)備上已旧,就好像它是單個文件一樣。它與 MapReduce 算法協(xié)同工作咖摹,該算法確定如何將大型計算任務(wù)(如統(tǒng)計計數(shù)或聚合)拆分為可以在計算集群上并行運(yùn)行的小得多的任務(wù)评姨。

Hadoop 的引入是大數(shù)據(jù)分析的一個分水嶺,主要有兩個原因萤晴。首先,這意味著一些公司可以從昂貴的專有數(shù)據(jù)倉庫軟件轉(zhuǎn)向運(yùn)行免費(fèi)和開源 Hadoop 的內(nèi)部計算集群胁后。其次店读,它允許公司以前所未有的方式分析大量非結(jié)構(gòu)化數(shù)據(jù)。在 Hadoop 之前攀芯,擁有數(shù)據(jù)倉庫的公司通常只能分析高度結(jié)構(gòu)化的數(shù)據(jù)屯断,但現(xiàn)在他們可以從更大的數(shù)據(jù)池中提取價值,其中包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)侣诺。一旦公司具備分析原始數(shù)據(jù)的能力殖演,收集和存儲這些數(shù)據(jù)就變得越來越重要——為現(xiàn)代數(shù)據(jù)湖奠定了基礎(chǔ)。

早期的數(shù)據(jù)湖建立在 Hadoop 上

早期基于 Hadoop MapReduce 和 HDFS 構(gòu)建的數(shù)據(jù)湖取得了不同程度的成功年鸳。許多早期的數(shù)據(jù)湖都使用 Apache Hive? 使用戶能夠使用面向 Hadoop 的 SQL 引擎查詢他們的數(shù)據(jù)趴久。一些早期的數(shù)據(jù)湖成功了,而另一些則由于 Hadoop 的復(fù)雜性和其他因素而失敗搔确。直到今天彼棍,許多人仍然將“數(shù)據(jù)湖”一詞與 Hadoop 聯(lián)系在一起,因?yàn)樗堑谝粋€能夠收集和分析大量非結(jié)構(gòu)化數(shù)據(jù)的框架膳算。然而座硕,如今,許多現(xiàn)代數(shù)據(jù)湖架構(gòu)已從本地 Hadoop 轉(zhuǎn)變?yōu)樵谠浦羞\(yùn)行 Spark涕蜂。盡管如此华匾,這些最初的嘗試仍然很重要,因?yàn)檫@些 Hadoop 數(shù)據(jù)湖是現(xiàn)代數(shù)據(jù)湖的先驅(qū)机隙。隨著時間的推移蜘拉,Hadoop 的受歡迎程度有所下降萨西,因?yàn)樗鼛淼膯栴}是很多組織難以解決:如性能慢、有限的安全性诸尽、缺少對Streaming的支持等原杂。

Apache Spark:支持現(xiàn)代數(shù)據(jù)湖的統(tǒng)一分析引擎

Hadoop 推出后不久,Apache Spark被介紹了您机。Spark 將 MapReduce 的想法更進(jìn)一步穿肄,為大數(shù)據(jù)的分布式計算提供了一個強(qiáng)大的通用框架。隨著時間的推移际看,Spark 在數(shù)據(jù)從業(yè)者中越來越受歡迎咸产,主要是因?yàn)樗子谑褂茫诨鶞?zhǔn)測試中表現(xiàn)良好仲闽,并提供了額外的功能脑溢,增加了它的實(shí)用性并擴(kuò)大了它的吸引力。例如赖欣,Spark 的交互模式使數(shù)據(jù)科學(xué)家能夠?qū)嫶蟮臄?shù)據(jù)集進(jìn)行探索性數(shù)據(jù)分析屑彻,而無需花時間在低價值的工作上,例如編寫復(fù)雜的代碼將數(shù)據(jù)轉(zhuǎn)換為可靠的來源顶吮。Spark 還使得大規(guī)模訓(xùn)練機(jī)器學(xué)習(xí)模型社牲、使用 SQL 查詢大數(shù)據(jù)集以及使用 Spark Streaming 快速處理實(shí)時數(shù)據(jù)成為可能。

自推出以來悴了,Spark 的受歡迎程度不斷提高搏恤,并已成為大數(shù)據(jù)處理的事實(shí)上的標(biāo)準(zhǔn),這在很大程度上歸功于社區(qū)成員的忠實(shí)基礎(chǔ)和專門的開源貢獻(xiàn)者湃交。今天熟空,許多現(xiàn)代數(shù)據(jù)湖架構(gòu)使用 Spark 作為處理引擎,使數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家能夠執(zhí)行 ETL搞莺、優(yōu)化數(shù)據(jù)和訓(xùn)練機(jī)器學(xué)習(xí)模型息罗。

參考資料
History and evolution of data lakes

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市腮敌,隨后出現(xiàn)的幾起案子阱当,更是在濱河造成了極大的恐慌,老刑警劉巖糜工,帶你破解...
    沈念sama閱讀 222,104評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件弊添,死亡現(xiàn)場離奇詭異,居然都是意外死亡捌木,警方通過查閱死者的電腦和手機(jī)油坝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人澈圈,你說我怎么就攤上這事彬檀。” “怎么了瞬女?”我有些...
    開封第一講書人閱讀 168,697評論 0 360
  • 文/不壞的土叔 我叫張陵窍帝,是天一觀的道長。 經(jīng)常有香客問我诽偷,道長坤学,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,836評論 1 298
  • 正文 為了忘掉前任报慕,我火速辦了婚禮深浮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘眠冈。我一直安慰自己飞苇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評論 6 397
  • 文/花漫 我一把揭開白布蜗顽。 她就那樣靜靜地躺著布卡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪雇盖。 梳的紋絲不亂的頭發(fā)上羽利,一...
    開封第一講書人閱讀 52,441評論 1 310
  • 那天,我揣著相機(jī)與錄音刊懈,去河邊找鬼。 笑死娃闲,一個胖子當(dāng)著我的面吹牛虚汛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播皇帮,決...
    沈念sama閱讀 40,992評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼卷哩,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了属拾?” 一聲冷哼從身側(cè)響起将谊,我...
    開封第一講書人閱讀 39,899評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎渐白,沒想到半個月后尊浓,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,457評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡纯衍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評論 3 341
  • 正文 我和宋清朗相戀三年栋齿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,664評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡瓦堵,死狀恐怖基协,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情菇用,我是刑警寧澤澜驮,帶...
    沈念sama閱讀 36,346評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站惋鸥,受9級特大地震影響杂穷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜揩慕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評論 3 334
  • 文/蒙蒙 一亭畜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧迎卤,春花似錦拴鸵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽笆载。三九已至姑曙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間趋厉,已是汗流浹背缝龄。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評論 1 272
  • 我被黑心中介騙來泰國打工汰现, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人叔壤。 一個月前我還...
    沈念sama閱讀 49,081評論 3 377
  • 正文 我出身青樓瞎饲,卻偏偏與公主長得像,于是被迫代替她去往敵國和親炼绘。 傳聞我的和親對象是個殘疾皇子嗅战,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評論 2 359

推薦閱讀更多精彩內(nèi)容