大數(shù)據(jù)技術(shù)架構(gòu)學(xué)習(xí)筆記(一)

我當下的工作是大數(shù)據(jù)安全領(lǐng)域。大數(shù)據(jù)和云計算有些類似媳叨,既是技術(shù)糊秆,也是商業(yè)。我想利用十幾篇筆記規(guī)模捉片,對大數(shù)據(jù)的技術(shù)體系進行一個總結(jié)汞舱,同時也希望能作為公司內(nèi)部培訓(xùn)交流所用。

筆記中的不少知識點來自于下面這本書莹规,推薦給大家泌神。

大數(shù)據(jù)技術(shù)體系詳解

第一章:企業(yè)級大數(shù)據(jù)技術(shù)框架

一般情況下欢际,數(shù)據(jù)進入大數(shù)據(jù)平臺后,需要經(jīng)歷如下幾個階段:

  • 數(shù)據(jù)采集
  • 數(shù)據(jù)存儲
  • 資源管理與服務(wù)協(xié)調(diào)
  • 計算引擎
  • 數(shù)據(jù)分析
  • 數(shù)據(jù)可視化
大數(shù)據(jù)平臺層次模型

一窒篱、每個階段都存在特定的要求,也面臨著不同的技術(shù)挑戰(zhàn)。

1. 數(shù)據(jù)采集

數(shù)據(jù)采集層直接跟數(shù)據(jù)源對接括荡,負責(zé)將數(shù)據(jù)源中的數(shù)據(jù)實時或準實時收集起來畸冲。而數(shù)據(jù)源有如下的特點:

  • 分布式:數(shù)據(jù)源通常分布在不同設(shè)備上,通過網(wǎng)絡(luò)進行連接
  • 異構(gòu)性:任何能夠產(chǎn)生數(shù)據(jù)的系統(tǒng)均可以稱為數(shù)據(jù)源算行,如Web服務(wù)器苫耸、數(shù)據(jù)庫褪子、傳感器、手環(huán)呀枢、監(jiān)控攝像頭等
  • 多樣化:數(shù)據(jù)格式多種多樣笼痛,結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)摘刑、非結(jié)構(gòu)化數(shù)據(jù)
  • 多方式:有的數(shù)據(jù)源如同“集裝箱”倘核,將數(shù)據(jù)批量送達紧唱;有的數(shù)據(jù)源如同“水龍頭”,以“流水”的方式將數(shù)據(jù)實時或準實時地將數(shù)據(jù)送達

由于數(shù)據(jù)源存在上述特點蛹锰,良好的數(shù)據(jù)采集系統(tǒng)需要考慮如下因素:

  • 擴展性:能夠靈活適配不同類型的數(shù)據(jù)源绰疤,要能提供高并發(fā)性
  • 可靠性:數(shù)據(jù)在傳輸過程中不能丟失
  • 安全性:對于一些敏感數(shù)據(jù)的采集,要考慮數(shù)據(jù)隱私性保護
  • 低延遲:需要能在較低延遲下將數(shù)據(jù)傳輸?shù)胶蠖舜鎯ο到y(tǒng)中
2. 數(shù)據(jù)存儲

在大數(shù)據(jù)時代癣猾,采集到的海量數(shù)據(jù)既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù)纷宇,如果沿用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(如MySQL)和文件系統(tǒng)(如Linux文件系統(tǒng))像捶,在存儲容量、擴展性及容錯性等方面都存在挑戰(zhàn):

  • 擴展性:大數(shù)據(jù)平臺海量數(shù)據(jù)要求存儲系統(tǒng)本身具備良好的線性擴展能力
  • 容錯性:大數(shù)據(jù)系統(tǒng)天然設(shè)構(gòu)建在廉價機器上释簿,這就要求系統(tǒng)本身就有良好的容錯機制硼莽,確保在機器出現(xiàn)故障時不會導(dǎo)致數(shù)據(jù)丟失
  • 存儲模型:數(shù)據(jù)的多樣性要求數(shù)據(jù)存儲層應(yīng)支持多種數(shù)據(jù)模型
3. 資源管理與服務(wù)協(xié)調(diào)

大數(shù)據(jù)平臺為了解決資源利用率低沉删、運維成本高和數(shù)據(jù)共享困難等問題,將應(yīng)用集中存儲在公共服務(wù)器集群中砖茸,這樣的分布式系統(tǒng)殴穴,會面臨很多共性問題,如leader選舉劲够、服務(wù)命名休傍、分布式隊列磨取、分布式鎖、發(fā)布訂閱功能等凫岖。為了避免重復(fù)開發(fā)逢净,保證程序質(zhì)量歼指,通常會構(gòu)建一個統(tǒng)一的服務(wù)協(xié)調(diào)組件踩身,解決這些分布式系統(tǒng)通用的難題犀农,以便大數(shù)據(jù)業(yè)務(wù)提供者能將精力更多的聚焦在業(yè)務(wù)之上。

4. 計算引擎

實際生產(chǎn)環(huán)境中,針對不同的業(yè)務(wù)場景孟害,對數(shù)據(jù)處理的要求是不同的挪拟。有些場景下,離線谎柄、批量的處理數(shù)據(jù)即可朝巫,對實時性要求不高石景,但要求系統(tǒng)吞吐率高,典型的應(yīng)用是搜索引擎構(gòu)建索引揪荣;有些場景下往史,要對數(shù)據(jù)進行實時分析椎例,要求每條數(shù)據(jù)處理延遲盡可能低,典型的應(yīng)用是廣告系統(tǒng)及信用卡欺詐檢測凰棉。不同類型的計算任務(wù)陌粹,追求的是不同的目標,批處理計算追求的是高吞吐率或舞,而實時計算追求的是低延遲映凳,系統(tǒng)吞吐率和處理延遲的優(yōu)化往往是兩個矛盾的方向。大一統(tǒng)的解決方案已被證明是不現(xiàn)實的仆救。

當前計算引擎的發(fā)展方向是“小而美”矫渔,即為每種場景設(shè)計匹配的計算引擎庙洼,專注解決某一類的問題。而計算引擎也是大數(shù)據(jù)技術(shù)發(fā)展最活躍的地方蚁袭。

總體上可按照對處理時間的要求石咬,將計算引擎分為三類:

  • 批處理引擎:該類計算引擎對時間要求較低碌补,一般處理時間為分鐘到小時級別,甚至天級別镇匀。追求的是高吞吐率袜啃,即單位時間內(nèi)處理的數(shù)據(jù)量盡可能大昆箕,典型的應(yīng)用有搜索引擎索引構(gòu)建拆魏、批量數(shù)據(jù)分析等。
  • 交互式處理引擎:該類計算引擎對時間要求較高只恨,一般要求處理時間為秒級別。這類系統(tǒng)往往需要和人進行交互纵菌,因此會提供類SQL的數(shù)據(jù)交互語言休涤,典型的應(yīng)用有數(shù)據(jù)查詢、參數(shù)化報表生成等序苏。
  • 實時處理引擎:該類計算引擎對時間要求最高杠览,一般處理延遲在秒級以內(nèi)纵势,典型的應(yīng)用有廣告系統(tǒng)钦铁、輿情監(jiān)測等才漆。
5. 數(shù)據(jù)分析

數(shù)據(jù)分析層直接跟用戶或應(yīng)用程序?qū)印榱俗寯?shù)據(jù)分析更加容易黎比,計算引擎會提供如應(yīng)用程序API阅虫、類SQL查詢語言不跟、數(shù)據(jù)挖掘SDK等工具窝革。也就是說,數(shù)據(jù)分析層和計算引擎層往往貼合的較為緊密瘪板,有時也可以將它們看成一層漆诽。對應(yīng)到實際應(yīng)用中锣枝,也往往首先使用批處理/流處理框架對原始海量數(shù)據(jù)進行分析惊橱,產(chǎn)生較小規(guī)模的數(shù)據(jù)集后箭昵,再使用交互式處理工具對該數(shù)據(jù)集進行快速查詢家制,獲取最終結(jié)果。

6. 數(shù)據(jù)可視化

數(shù)據(jù)可視化指的是運用計算機圖形學(xué)和圖像處理技術(shù)觅廓,將數(shù)據(jù)轉(zhuǎn)換為圖像在屏幕上顯示出來涵但,并進行交互處理的理論矮瘟、方法和技術(shù)。數(shù)據(jù)可視化層是直接面向用戶展示結(jié)果的一層劫侧,由于該層直接對接用戶烧栋,是展示大數(shù)據(jù)價值的“門戶”拳球,因此數(shù)據(jù)可視化是極具意義的醇坝。

理解了企業(yè)級大數(shù)據(jù)架構(gòu)中主要的幾個層次后呼猪,再來看看兩個著名的大數(shù)據(jù)技術(shù)棧。

二轴踱、谷歌大數(shù)據(jù)技術(shù)棧

谷歌的大數(shù)據(jù)技術(shù)棧主要分布在數(shù)據(jù)存儲層谚赎、資源管理與服務(wù)協(xié)調(diào)層、計算引擎層雳灵、數(shù)據(jù)分析層中悯辙。谷歌大數(shù)據(jù)技術(shù)棧并未開源,但其背后的思想?yún)s以一篇篇經(jīng)典的論文针贬,對業(yè)界產(chǎn)生深遠的影響桦他。

下圖是谷歌技術(shù)棧的一些核心組件:


谷歌大數(shù)據(jù)技術(shù)棧核心組件
1. GFS

Google File System 是一個分布式文件系統(tǒng)快压,具有良好的容錯性垃瞧、擴展性和可用性皆警。GFS可構(gòu)建在大量普通廉價服務(wù)器上截粗,能夠輕松的進行“Scale out”(橫向擴展)绸罗,相比于傳統(tǒng)的“Scale up”(縱向擴展)方案中的大型機或小型機等,大大降低了成本菊值。

2. BigTable

BigTable 是一個構(gòu)建在 GFS 之上的分布式 NoSQL 數(shù)據(jù)庫育灸,其行數(shù)和列數(shù)可以無限擴展磅崭,彌補了傳統(tǒng)關(guān)系型數(shù)據(jù)庫在 Schema 設(shè)計上的不靈活。

3. Borg

Brog 是一個集群資源管理和調(diào)度系統(tǒng)柔逼,對應(yīng)用程序進行接收愉适、啟動、停止剂买、重啟和監(jiān)控腰湾。Borg 的目的是讓開發(fā)者不必操心資源管理的問題倒槐,專注于應(yīng)用程序業(yè)務(wù)邏輯的實現(xiàn)附井,并輔助應(yīng)用程序做到資源利用率最大化永毅。

4. MapReduce

MapReduce 是一個批處理離線計算框架,采用“分而治之”的思想着逐,將對大規(guī)模數(shù)據(jù)集的操作耸别,分解成Map和Reduce兩個階段县钥,Map階段并行處理輸入數(shù)據(jù)集若贮,產(chǎn)生中間結(jié)果,Reduce階段則通過整合各個節(jié)點的中間結(jié)果蠢沿,得到最終結(jié)果搏予,其本質(zhì)就是一個“任務(wù)的分解與結(jié)果的匯總”的框架弧轧。MapReduce具有高吞吐率、良好的容錯性、擴展性以及易于編程等特點旬牲,廣泛應(yīng)用于構(gòu)建索引原茅、數(shù)據(jù)挖掘、機器學(xué)習(xí)等應(yīng)用中晌区。

5. Dremel

Dremel是一個分布式OLAP(OnLine Analytical Processing)系統(tǒng)朗若,能夠幫助數(shù)據(jù)分析師在秒級處理PB級數(shù)據(jù)昌罩。Dremel在一定程度上彌補了類 MapReduce 系統(tǒng)在交互式查詢方面的不足茎用。

6. FlumeJava

FlumeJava 是一個建立在 MapReduce 之上的 Java 編程庫轨功,提供了一層高級原語以簡化復(fù)雜的 MapReduce 應(yīng)用程序開發(fā),讓使用者能更簡單構(gòu)建數(shù)據(jù)流水線。

7. Tenzing

Tenzing 是建立在 MapReduce 之上的SQL查詢執(zhí)行引擎蒿褂,它可以將用戶編寫的SQL語句轉(zhuǎn)化為 MapReduce 程序啄栓,提交到分布式集群中并行執(zhí)行也祠。

三诈嘿、Hadoop/Spark 開源大數(shù)據(jù)技術(shù)棧

谷歌為業(yè)界貢獻了思想和方法論削葱,但其的大數(shù)據(jù)技術(shù)棧是閉源的析砸。業(yè)界目前主流的大數(shù)據(jù)基礎(chǔ)架構(gòu)和組件首繁,主要圍繞在Hadoop/Spark為核心的開源生態(tài)體系:

Hadoop/Spark大數(shù)據(jù)技術(shù)棧
1. 數(shù)據(jù)收集層:主要由關(guān)系型與非關(guān)系型數(shù)據(jù)收集組件弦疮,以及分布式消息隊列構(gòu)成蜘醋。
  • Sqoop/Canal:關(guān)系型數(shù)據(jù)收集和導(dǎo)入組件堂湖,是連接關(guān)系型數(shù)據(jù)庫和Hadoop(如HDFS)的橋梁无蜂。Sqoop可將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)全量導(dǎo)入Hadoop,反之亦可训桶。Canal則可用于實現(xiàn)數(shù)據(jù)的增量導(dǎo)入舵揭。
  • Flume:非關(guān)系型數(shù)據(jù)收集和導(dǎo)入組件躁锡,主要是流式日志數(shù)據(jù)映之,幾乎可做到實時收集。經(jīng)過濾杠输、聚集處理后加載到Hadoop HDFS等存儲系統(tǒng)蠢甲。
  • Kafka:分布式消息隊列,一般作為數(shù)據(jù)總線使用搞糕。它允許多個數(shù)據(jù)消費者訂閱并獲取感興趣的數(shù)據(jù)。相比于其他消息隊列寞宫,它采用分布式高容錯設(shè)計萧福,更適合大數(shù)據(jù)應(yīng)用場景。消息總線是數(shù)據(jù)傳輸?shù)幕A(chǔ)辈赋,不僅僅應(yīng)用在數(shù)據(jù)收集層中鲫忍,數(shù)據(jù)存儲,計算钥屈,分析等層面悟民,都是 Kafka 的舞臺。
2. 數(shù)據(jù)存儲層:主要由分布式文件系統(tǒng)(面向文件的存儲)和分布式數(shù)據(jù)庫(面向行/列的存儲)構(gòu)成篷就。
  • HDFS:Hadoop DFS,是Google GFS的開源實現(xiàn)竭业,自然繼承了GFS在擴展性和容錯性上的優(yōu)點智润,具有良好的擴展性與容錯性等。
  • HBase:構(gòu)建在HDFS之上的分布式數(shù)據(jù)庫未辆,是Google BigTable的開源實現(xiàn)窟绷,允許用戶存儲結(jié)構(gòu)化與半結(jié)構(gòu)化的數(shù)據(jù),支持行列無限擴展以及數(shù)據(jù)隨機查找與刪除咐柜。
  • Kudu:分布式列式存儲數(shù)據(jù)庫兼蜈,允許用戶存儲結(jié)構(gòu)化數(shù)據(jù),支持行無限擴展以及數(shù)據(jù)隨機查找與更新拙友。
3. 資源管理與服務(wù)協(xié)調(diào)層
  • YARN:統(tǒng)一資源管理與調(diào)度系統(tǒng)为狸,它能夠管理集群中的各種資源(比如CPU和內(nèi)存等),并按照一定的策略分配給上層的各類應(yīng)用遗契。YARN內(nèi)置了多種多租戶資源調(diào)度器辐棒,允許用戶按照隊列的方式組織和管理資源,且每個隊列的調(diào)度機制可獨立定制牍蜂。
  • ZooKeeper:基于簡化的Paxos協(xié)議實現(xiàn)的服務(wù)協(xié)調(diào)系統(tǒng)漾根,允許用戶通過簡單的API實現(xiàn)leader選舉、服務(wù)命名捷兰、分布式隊列與分布式鎖等復(fù)雜的分布式調(diào)度和管理能力。
4. 計算引擎層:包含批處理负敏,交互式處理和流式實時處理三類引擎贡茅。
  • MapReduce/Tez:Hadoop MapReduce是Google MapReduce的開源實現(xiàn),具有良好的擴展性與容錯性,允許用戶通過簡單的API編寫分布式程序顶考。Tez是基于MapReduce開發(fā)的通用DAG(Directed Acyclic Graph的簡稱赁还,有向無環(huán)圖)計算引擎,能夠更加高效地實現(xiàn)復(fù)雜的數(shù)據(jù)處理邏輯驹沿,目前被應(yīng)用在Hive艘策、Pig等數(shù)據(jù)分析。
  • Spark:通用的DAG計算引擎渊季,允許用戶充分利用內(nèi)存進行快速的數(shù)據(jù)挖掘和分析朋蔫。Spark本質(zhì)上屬于批處理計算引擎。
  • Storm / Spark Streaming:分布式流式實時計算引擎却汉,具有良好的容錯性與擴展性驯妄,能夠高效地處理流式數(shù)據(jù),它允許用戶通過簡單的API編寫分布式實時應(yīng)用程序合砂。
  • Impala / Presto:分別由Cloudera和Facebook開源的MPP(MassivelyParallel Processing)系統(tǒng)青扔,允許用戶使用標準SQL處理存儲在Hadoop中的數(shù)據(jù),是典型的交互式處理計算引擎翩伪。它們采用了并行數(shù)據(jù)庫架構(gòu)微猖,內(nèi)置了查詢優(yōu)化器,提升大數(shù)據(jù)平臺交互場景下的處理效率缘屹。
5. 數(shù)據(jù)分析層:提供了各種大數(shù)據(jù)分析工具凛剥。
  • Hive / Pig / SparkSQL:在計算引擎之上構(gòu)建的支持SQL或腳本語言的分析系統(tǒng),大大降低了用戶進行大數(shù)據(jù)分析的門檻囊颅。其中当悔,Hive是基于MapReduce/Tez實現(xiàn)的SQL引擎,Pig是基于MapReduce/Tez實現(xiàn)的工作流引擎踢代,SparkSQL是基于Spark實現(xiàn)的SQL引擎盲憎。
  • Mahout:在計算引擎之上構(gòu)建的機器學(xué)習(xí)庫,實現(xiàn)常用的機器學(xué)習(xí)和數(shù)據(jù)挖掘算法胳挎。其中饼疙,Mahout最初是基于MapReduce實現(xiàn)的,目前正逐步遷移到Spark引擎上慕爬,MLlib是基于Spark實現(xiàn)的窑眯。
  • Apache Beam/Cascading:針對各類計算框架封裝成高級API。Apache Beam統(tǒng)一了批處理和流式處理兩類計算框架医窿,提供了更高級的API方便用戶編寫與具體計算引擎無關(guān)的邏輯代碼磅甩。

四、Lambda Architecture 綜合型大數(shù)據(jù)架構(gòu)

Lambda Architecture(LA)源于Twitter姥卢,是一種大數(shù)據(jù)軟件設(shè)計架構(gòu)卷要,通過結(jié)合批處理和實時處理兩類計算技術(shù)渣聚,在延遲、吞吐量和容錯之間找到平衡點僧叉。LA將數(shù)據(jù)處理流程分解成三層:批處理層奕枝、流式處理層和服務(wù)層。

1. 批處理層

利用分布式批處理計算技術(shù)瓶堕,以批為單位處理數(shù)據(jù)隘道。該層將數(shù)據(jù)流看成只讀的、僅支持追加操作的超大數(shù)據(jù)集郎笆√饭#可以一次性處理大量數(shù)據(jù),引入復(fù)雜的計算邏輯(如機器學(xué)習(xí)中的模型迭代計算题画,歷史庫匹配等)默辨。優(yōu)點是吞吐率高,缺點是處理延遲高苍息,從數(shù)據(jù)產(chǎn)生到最終被處理完成缩幸,通常是分鐘或小時級別。

2. 流式處理層

利用分布式采流式計算技術(shù)竞思,大幅度降低了數(shù)據(jù)處理延遲表谊,通常是毫秒或秒級別。優(yōu)點是數(shù)據(jù)處理延遲低盖喷,缺點是吞吐量低爆办,無法進行復(fù)雜的邏輯計算,得到的結(jié)果往往是近似解课梳。

3. 服務(wù)層

為了整合兩層的計算結(jié)果距辆,LA設(shè)計了引一個服務(wù)層,對外提供了統(tǒng)一的訪問接口暮刃,屏蔽內(nèi)部的批處理和流式處理過程跨算,方便用戶使用。

Lamdba Architecture

一個經(jīng)典的LA應(yīng)用案例是推薦系統(tǒng)椭懊。在互聯(lián)網(wǎng)行業(yè)诸蚕,推薦系統(tǒng)被應(yīng)用在各個領(lǐng)域,包括電子商務(wù)氧猬、視頻背犯、新聞等。推薦系統(tǒng)的設(shè)計目的是根據(jù)用戶的興趣特點和購買行為盅抚,向用戶推薦感興趣的信息和商品漠魏。推薦系統(tǒng)的核心模塊是推薦算法。推薦算法通常會根據(jù)用戶的興趣特點和歷史行為的海量數(shù)據(jù)構(gòu)建推薦模型妄均,預(yù)測用戶可能感興趣的信息和商品柱锹,進而推薦給用戶破讨。

基于LA的推薦系統(tǒng)技術(shù)架構(gòu)中,通過不同采集方式獲取到的數(shù)據(jù)統(tǒng)一流入 Kafka奕纫,再按照不同時間粒度分發(fā)至批處理和流式處理兩個系統(tǒng)中。

老用戶推薦處理

批處理層擁有所有歷史數(shù)據(jù)(通常保存到HDFS/HBase中)烫沙,通常用以實現(xiàn)推薦模型匹层,也就是以最近和歷史的數(shù)據(jù)為輸入,通過特征工程锌蓄、模型構(gòu)建及模型評估等計算環(huán)節(jié)后(通常是基于MapReduce/Spark實現(xiàn))升筏,最終獲得最優(yōu)的模型,并將推薦結(jié)果存儲起來(比如使用Redis)瘸爽,這個過程延遲是比較大的您访,分鐘甚至小時級別。

新用戶推薦處理

為了解決新用戶推薦問題(沒有什么歷史記數(shù)據(jù))剪决,則會引入流式處理引擎灵汪,實時收集用戶有限的實時行為數(shù)據(jù),通過簡單的推薦算法(通掣塘剩基于Storm/Spark Streaming實現(xiàn))享言,快速產(chǎn)生推薦結(jié)果并存儲起來。

推薦系統(tǒng)訪問服務(wù)

為了便于其他系統(tǒng)獲取推薦結(jié)果渗鬼,推薦系統(tǒng)往往通過服務(wù)層對外提供訪問接口览露,比如網(wǎng)站后臺在渲染某個頁面時,可能從推薦系統(tǒng)中獲取對應(yīng)的結(jié)果譬胎。

五差牛、關(guān)于Hadoop/Spark的發(fā)型版

1. Hadoop發(fā)行版
  • Apache Hadoop:社區(qū)原生版本,是其他商業(yè)公司發(fā)行版的基
  • CDH(Cloudera Distributed Hadoop):Cloudera的發(fā)行版堰乔,社區(qū)版開源免費偏化,商業(yè)版閉源收費,是使用最廣泛的發(fā)行版之一浩考。
  • HDP(Hortonworks Data Platform):Hortonworks的發(fā)行版夹孔,社區(qū)版開源免費,商業(yè)版閉源收費析孽。
2. Spark發(fā)行版
  • Apache Spark:社區(qū)原生版本搭伤,是其他商業(yè)公司發(fā)行版的基礎(chǔ)。
  • Databricks Spark:Databricks的發(fā)行版袜瞬,在社區(qū)版本基礎(chǔ)上怜俐,增加安全、審計邓尤、云等方面的支持拍鲤。
  • Hadoop企業(yè)發(fā)行版:各大Hadoop企業(yè)發(fā)行版贴谎,比如HDP和CDH,均內(nèi)置了對Spark的支持季稳。

各個發(fā)行版之間同一系統(tǒng)對外使用方式和接口是完全兼容的擅这,均提供了個性化的運維與管理工具等,不同之處在于它們引入了不同子系統(tǒng)或組件解決問題,比如

  • 交互分析:CDH選擇Impala解決交互式分析問題景鼠,而HDP選擇Hive On Tez
  • 安全方案:CDH引入了Cloudera Navigator和Sentry解決安全問題仲翎,而HDP則使用Ranger和Knox

在線上環(huán)境部署私有Hadoop與Spark集群時,為了避免各個系統(tǒng)之間兼容性問題(比如HBase與Hadoop之間的兼容性)铛漓,建議直接選用商業(yè)公司發(fā)行版溯香。


以上就是第一篇筆記的全部內(nèi)容,對大數(shù)據(jù)技術(shù)架構(gòu)有個初步的理解:

  1. 企業(yè)級大數(shù)據(jù)技術(shù)框架的分層模型:數(shù)據(jù)收集->數(shù)據(jù)存儲層->資源管理與服務(wù)協(xié)調(diào)層->計算引擎層->數(shù)據(jù)分析層->數(shù)據(jù)可視化層
  2. Google大數(shù)據(jù)技術(shù)棧
  3. Hadoop/Spark開源大數(shù)據(jù)技術(shù)棧
  4. LA大數(shù)據(jù)架構(gòu)
  5. 關(guān)于Hadoop/Spark的發(fā)行版

第二篇筆記開始浓恶,將走進Hadoop/Spark的世界玫坛,通過對核心組件的學(xué)習(xí),理解大數(shù)據(jù)平臺的工作機制包晰。

照舊送福利湿镀,祝自己一帆風(fēng)順,@_@

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末伐憾,一起剝皮案震驚了整個濱河市肠骆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌塞耕,老刑警劉巖蚀腿,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異扫外,居然都是意外死亡莉钙,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門筛谚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來磁玉,“玉大人,你說我怎么就攤上這事驾讲∥蒙。” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵吮铭,是天一觀的道長时迫。 經(jīng)常有香客問我,道長谓晌,這世上最難降的妖魔是什么掠拳? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮纸肉,結(jié)果婚禮上溺欧,老公的妹妹穿的比我還像新娘喊熟。我一直安慰自己,他們只是感情好姐刁,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布芥牌。 她就那樣靜靜地躺著,像睡著了一般聂使。 火紅的嫁衣襯著肌膚如雪胳泉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天岩遗,我揣著相機與錄音,去河邊找鬼凤瘦。 笑死宿礁,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的蔬芥。 我是一名探鬼主播梆靖,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼笔诵!你這毒婦竟也來了返吻?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤乎婿,失蹤者是張志新(化名)和其女友劉穎测僵,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體谢翎,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡捍靠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了森逮。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片榨婆。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖褒侧,靈堂內(nèi)的尸體忽然破棺而出良风,到底是詐尸還是另有隱情,我是刑警寧澤闷供,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布烟央,位于F島的核電站,受9級特大地震影響歪脏,放射性物質(zhì)發(fā)生泄漏吊档。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一唾糯、第九天 我趴在偏房一處隱蔽的房頂上張望怠硼。 院中可真熱鬧鬼贱,春花似錦、人聲如沸香璃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽葡秒。三九已至姻乓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間眯牧,已是汗流浹背蹋岩。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留学少,地道東北人剪个。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像版确,于是被迫代替她去往敵國和親扣囊。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345