大數(shù)據(jù)技術(shù)架構(gòu)學(xué)習(xí)筆記（一）

我當下的工作是大數(shù)據(jù)安全領(lǐng)域。大數(shù)據(jù)和云計算有些類似媳叨，既是技術(shù)糊秆，也是商業(yè)。我想利用十幾篇筆記規(guī)模捉片，對大數(shù)據(jù)的技術(shù)體系進行一個總結(jié)汞舱，同時也希望能作為公司內(nèi)部培訓(xùn)交流所用。

筆記中的不少知識點來自于下面這本書莹规，推薦給大家泌神。

大數(shù)據(jù)技術(shù)體系詳解

第一章：企業(yè)級大數(shù)據(jù)技術(shù)框架

一般情況下欢际，數(shù)據(jù)進入大數(shù)據(jù)平臺后，需要經(jīng)歷如下幾個階段：

數(shù)據(jù)采集
數(shù)據(jù)存儲
資源管理與服務(wù)協(xié)調(diào)
計算引擎
數(shù)據(jù)分析
數(shù)據(jù)可視化

大數(shù)據(jù)平臺層次模型

一窒篱、每個階段都存在特定的要求，也面臨著不同的技術(shù)挑戰(zhàn)。

1. 數(shù)據(jù)采集

數(shù)據(jù)采集層直接跟數(shù)據(jù)源對接括荡，負責(zé)將數(shù)據(jù)源中的數(shù)據(jù)實時或準實時收集起來畸冲。而數(shù)據(jù)源有如下的特點：

分布式：數(shù)據(jù)源通常分布在不同設(shè)備上，通過網(wǎng)絡(luò)進行連接
異構(gòu)性：任何能夠產(chǎn)生數(shù)據(jù)的系統(tǒng)均可以稱為數(shù)據(jù)源算行，如Web服務(wù)器苫耸、數(shù)據(jù)庫褪子、傳感器、手環(huán)呀枢、監(jiān)控攝像頭等
多樣化：數(shù)據(jù)格式多種多樣笼痛，結(jié)構(gòu)化數(shù)據(jù)，半結(jié)構(gòu)化數(shù)據(jù)摘刑、非結(jié)構(gòu)化數(shù)據(jù)
多方式：有的數(shù)據(jù)源如同“集裝箱”倘核，將數(shù)據(jù)批量送達紧唱；有的數(shù)據(jù)源如同“水龍頭”，以“流水”的方式將數(shù)據(jù)實時或準實時地將數(shù)據(jù)送達

由于數(shù)據(jù)源存在上述特點蛹锰，良好的數(shù)據(jù)采集系統(tǒng)需要考慮如下因素：

擴展性：能夠靈活適配不同類型的數(shù)據(jù)源绰疤，要能提供高并發(fā)性
可靠性：數(shù)據(jù)在傳輸過程中不能丟失
安全性：對于一些敏感數(shù)據(jù)的采集，要考慮數(shù)據(jù)隱私性保護
低延遲：需要能在較低延遲下將數(shù)據(jù)傳輸?shù)胶蠖舜鎯ο到y(tǒng)中

2. 數(shù)據(jù)存儲

在大數(shù)據(jù)時代癣猾，采集到的海量數(shù)據(jù)既有結(jié)構(gòu)化數(shù)據(jù)，也有非結(jié)構(gòu)化數(shù)據(jù)纷宇，如果沿用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫（如MySQL）和文件系統(tǒng)（如Linux文件系統(tǒng)）像捶，在存儲容量、擴展性及容錯性等方面都存在挑戰(zhàn)：

擴展性：大數(shù)據(jù)平臺海量數(shù)據(jù)要求存儲系統(tǒng)本身具備良好的線性擴展能力
容錯性：大數(shù)據(jù)系統(tǒng)天然設(shè)構(gòu)建在廉價機器上释簿，這就要求系統(tǒng)本身就有良好的容錯機制硼莽，確保在機器出現(xiàn)故障時不會導(dǎo)致數(shù)據(jù)丟失
存儲模型：數(shù)據(jù)的多樣性要求數(shù)據(jù)存儲層應(yīng)支持多種數(shù)據(jù)模型

3. 資源管理與服務(wù)協(xié)調(diào)

大數(shù)據(jù)平臺為了解決資源利用率低沉删、運維成本高和數(shù)據(jù)共享困難等問題，將應(yīng)用集中存儲在公共服務(wù)器集群中砖茸，這樣的分布式系統(tǒng)殴穴，會面臨很多共性問題，如leader選舉劲够、服務(wù)命名休傍、分布式隊列磨取、分布式鎖、發(fā)布訂閱功能等凫岖。為了避免重復(fù)開發(fā)逢净，保證程序質(zhì)量歼指，通常會構(gòu)建一個統(tǒng)一的服務(wù)協(xié)調(diào)組件踩身，解決這些分布式系統(tǒng)通用的難題犀农，以便大數(shù)據(jù)業(yè)務(wù)提供者能將精力更多的聚焦在業(yè)務(wù)之上。

4. 計算引擎

實際生產(chǎn)環(huán)境中，針對不同的業(yè)務(wù)場景孟害，對數(shù)據(jù)處理的要求是不同的挪拟。有些場景下，離線谎柄、批量的處理數(shù)據(jù)即可朝巫，對實時性要求不高石景，但要求系統(tǒng)吞吐率高，典型的應(yīng)用是搜索引擎構(gòu)建索引揪荣；有些場景下往史，要對數(shù)據(jù)進行實時分析椎例，要求每條數(shù)據(jù)處理延遲盡可能低，典型的應(yīng)用是廣告系統(tǒng)及信用卡欺詐檢測凰棉。不同類型的計算任務(wù)陌粹，追求的是不同的目標，批處理計算追求的是高吞吐率或舞，而實時計算追求的是低延遲映凳，系統(tǒng)吞吐率和處理延遲的優(yōu)化往往是兩個矛盾的方向。大一統(tǒng)的解決方案已被證明是不現(xiàn)實的仆救。

當前計算引擎的發(fā)展方向是“小而美”矫渔，即為每種場景設(shè)計匹配的計算引擎庙洼，專注解決某一類的問題。而計算引擎也是大數(shù)據(jù)技術(shù)發(fā)展最活躍的地方蚁袭。

總體上可按照對處理時間的要求石咬，將計算引擎分為三類：

批處理引擎：該類計算引擎對時間要求較低碌补，一般處理時間為分鐘到小時級別，甚至天級別镇匀。追求的是高吞吐率袜啃，即單位時間內(nèi)處理的數(shù)據(jù)量盡可能大昆箕，典型的應(yīng)用有搜索引擎索引構(gòu)建拆魏、批量數(shù)據(jù)分析等。
交互式處理引擎：該類計算引擎對時間要求較高只恨，一般要求處理時間為秒級別。這類系統(tǒng)往往需要和人進行交互纵菌，因此會提供類SQL的數(shù)據(jù)交互語言休涤，典型的應(yīng)用有數(shù)據(jù)查詢、參數(shù)化報表生成等序苏。
實時處理引擎：該類計算引擎對時間要求最高杠览，一般處理延遲在秒級以內(nèi)纵势，典型的應(yīng)用有廣告系統(tǒng)钦铁、輿情監(jiān)測等才漆。

5. 數(shù)據(jù)分析

數(shù)據(jù)分析層直接跟用戶或應(yīng)用程序?qū)印榱俗寯?shù)據(jù)分析更加容易黎比，計算引擎會提供如應(yīng)用程序API阅虫、類SQL查詢語言不跟、數(shù)據(jù)挖掘SDK等工具窝革。也就是說，數(shù)據(jù)分析層和計算引擎層往往貼合的較為緊密瘪板，有時也可以將它們看成一層漆诽。對應(yīng)到實際應(yīng)用中锣枝，也往往首先使用批處理/流處理框架對原始海量數(shù)據(jù)進行分析惊橱，產(chǎn)生較小規(guī)模的數(shù)據(jù)集后箭昵，再使用交互式處理工具對該數(shù)據(jù)集進行快速查詢家制，獲取最終結(jié)果。

6. 數(shù)據(jù)可視化

數(shù)據(jù)可視化指的是運用計算機圖形學(xué)和圖像處理技術(shù)觅廓，將數(shù)據(jù)轉(zhuǎn)換為圖像在屏幕上顯示出來涵但，并進行交互處理的理論矮瘟、方法和技術(shù)。數(shù)據(jù)可視化層是直接面向用戶展示結(jié)果的一層劫侧，由于該層直接對接用戶烧栋，是展示大數(shù)據(jù)價值的“門戶”拳球，因此數(shù)據(jù)可視化是極具意義的醇坝。

理解了企業(yè)級大數(shù)據(jù)架構(gòu)中主要的幾個層次后呼猪，再來看看兩個著名的大數(shù)據(jù)技術(shù)棧。

二轴踱、谷歌大數(shù)據(jù)技術(shù)棧

谷歌的大數(shù)據(jù)技術(shù)棧主要分布在數(shù)據(jù)存儲層谚赎、資源管理與服務(wù)協(xié)調(diào)層、計算引擎層雳灵、數(shù)據(jù)分析層中悯辙。谷歌大數(shù)據(jù)技術(shù)棧并未開源，但其背后的思想?yún)s以一篇篇經(jīng)典的論文针贬，對業(yè)界產(chǎn)生深遠的影響桦他。

下圖是谷歌技術(shù)棧的一些核心組件：

谷歌大數(shù)據(jù)技術(shù)棧核心組件

1. GFS

Google File System 是一個分布式文件系統(tǒng)快压，具有良好的容錯性垃瞧、擴展性和可用性皆警。GFS可構(gòu)建在大量普通廉價服務(wù)器上截粗，能夠輕松的進行“Scale out”（橫向擴展）绸罗，相比于傳統(tǒng)的“Scale up”（縱向擴展）方案中的大型機或小型機等，大大降低了成本菊值。

2. BigTable

BigTable 是一個構(gòu)建在 GFS 之上的分布式 NoSQL 數(shù)據(jù)庫育灸，其行數(shù)和列數(shù)可以無限擴展磅崭，彌補了傳統(tǒng)關(guān)系型數(shù)據(jù)庫在 Schema 設(shè)計上的不靈活。

3. Borg

Brog 是一個集群資源管理和調(diào)度系統(tǒng)柔逼，對應(yīng)用程序進行接收愉适、啟動、停止剂买、重啟和監(jiān)控腰湾。Borg 的目的是讓開發(fā)者不必操心資源管理的問題倒槐，專注于應(yīng)用程序業(yè)務(wù)邏輯的實現(xiàn)附井，并輔助應(yīng)用程序做到資源利用率最大化永毅。

4. MapReduce

MapReduce 是一個批處理離線計算框架，采用“分而治之”的思想着逐，將對大規(guī)模數(shù)據(jù)集的操作耸别，分解成Map和Reduce兩個階段县钥，Map階段并行處理輸入數(shù)據(jù)集若贮，產(chǎn)生中間結(jié)果，Reduce階段則通過整合各個節(jié)點的中間結(jié)果蠢沿，得到最終結(jié)果搏予，其本質(zhì)就是一個“任務(wù)的分解與結(jié)果的匯總”的框架弧轧。MapReduce具有高吞吐率、良好的容錯性、擴展性以及易于編程等特點旬牲，廣泛應(yīng)用于構(gòu)建索引原茅、數(shù)據(jù)挖掘、機器學(xué)習(xí)等應(yīng)用中晌区。

5. Dremel

Dremel是一個分布式OLAP（OnLine Analytical Processing）系統(tǒng)朗若，能夠幫助數(shù)據(jù)分析師在秒級處理PB級數(shù)據(jù)昌罩。Dremel在一定程度上彌補了類 MapReduce 系統(tǒng)在交互式查詢方面的不足茎用。

6. FlumeJava

FlumeJava 是一個建立在 MapReduce 之上的 Java 編程庫轨功，提供了一層高級原語以簡化復(fù)雜的 MapReduce 應(yīng)用程序開發(fā)，讓使用者能更簡單構(gòu)建數(shù)據(jù)流水線。

7. Tenzing

Tenzing 是建立在 MapReduce 之上的SQL查詢執(zhí)行引擎蒿褂，它可以將用戶編寫的SQL語句轉(zhuǎn)化為 MapReduce 程序啄栓，提交到分布式集群中并行執(zhí)行也祠。

三诈嘿、Hadoop/Spark 開源大數(shù)據(jù)技術(shù)棧

谷歌為業(yè)界貢獻了思想和方法論削葱，但其的大數(shù)據(jù)技術(shù)棧是閉源的析砸。業(yè)界目前主流的大數(shù)據(jù)基礎(chǔ)架構(gòu)和組件首繁，主要圍繞在Hadoop/Spark為核心的開源生態(tài)體系：

Hadoop/Spark大數(shù)據(jù)技術(shù)棧

1. 數(shù)據(jù)收集層：主要由關(guān)系型與非關(guān)系型數(shù)據(jù)收集組件弦疮，以及分布式消息隊列構(gòu)成蜘醋。

Sqoop/Canal：關(guān)系型數(shù)據(jù)收集和導(dǎo)入組件堂湖，是連接關(guān)系型數(shù)據(jù)庫和Hadoop（如HDFS）的橋梁无蜂。Sqoop可將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)全量導(dǎo)入Hadoop，反之亦可训桶。Canal則可用于實現(xiàn)數(shù)據(jù)的增量導(dǎo)入舵揭。
Flume：非關(guān)系型數(shù)據(jù)收集和導(dǎo)入組件躁锡，主要是流式日志數(shù)據(jù)映之，幾乎可做到實時收集。經(jīng)過濾杠输、聚集處理后加載到Hadoop HDFS等存儲系統(tǒng)蠢甲。
Kafka：分布式消息隊列，一般作為數(shù)據(jù)總線使用搞糕。它允許多個數(shù)據(jù)消費者訂閱并獲取感興趣的數(shù)據(jù)。相比于其他消息隊列寞宫，它采用分布式高容錯設(shè)計萧福，更適合大數(shù)據(jù)應(yīng)用場景。消息總線是數(shù)據(jù)傳輸?shù)幕A(chǔ)辈赋，不僅僅應(yīng)用在數(shù)據(jù)收集層中鲫忍，數(shù)據(jù)存儲，計算钥屈，分析等層面悟民，都是 Kafka 的舞臺。

2. 數(shù)據(jù)存儲層：主要由分布式文件系統(tǒng)（面向文件的存儲）和分布式數(shù)據(jù)庫（面向行/列的存儲）構(gòu)成篷就。

HDFS：Hadoop DFS，是Google GFS的開源實現(xiàn)竭业，自然繼承了GFS在擴展性和容錯性上的優(yōu)點智润，具有良好的擴展性與容錯性等。
HBase：構(gòu)建在HDFS之上的分布式數(shù)據(jù)庫未辆，是Google BigTable的開源實現(xiàn)窟绷，允許用戶存儲結(jié)構(gòu)化與半結(jié)構(gòu)化的數(shù)據(jù)，支持行列無限擴展以及數(shù)據(jù)隨機查找與刪除咐柜。
Kudu：分布式列式存儲數(shù)據(jù)庫兼蜈，允許用戶存儲結(jié)構(gòu)化數(shù)據(jù)，支持行無限擴展以及數(shù)據(jù)隨機查找與更新拙友。

3. 資源管理與服務(wù)協(xié)調(diào)層

YARN：統(tǒng)一資源管理與調(diào)度系統(tǒng)为狸，它能夠管理集群中的各種資源（比如CPU和內(nèi)存等），并按照一定的策略分配給上層的各類應(yīng)用遗契。YARN內(nèi)置了多種多租戶資源調(diào)度器辐棒，允許用戶按照隊列的方式組織和管理資源，且每個隊列的調(diào)度機制可獨立定制牍蜂。
ZooKeeper：基于簡化的Paxos協(xié)議實現(xiàn)的服務(wù)協(xié)調(diào)系統(tǒng)漾根，允許用戶通過簡單的API實現(xiàn)leader選舉、服務(wù)命名捷兰、分布式隊列與分布式鎖等復(fù)雜的分布式調(diào)度和管理能力。

4. 計算引擎層：包含批處理负敏，交互式處理和流式實時處理三類引擎贡茅。

MapReduce/Tez：Hadoop MapReduce是Google MapReduce的開源實現(xiàn)，具有良好的擴展性與容錯性，允許用戶通過簡單的API編寫分布式程序顶考。Tez是基于MapReduce開發(fā)的通用DAG（Directed Acyclic Graph的簡稱赁还，有向無環(huán)圖）計算引擎，能夠更加高效地實現(xiàn)復(fù)雜的數(shù)據(jù)處理邏輯驹沿，目前被應(yīng)用在Hive艘策、Pig等數(shù)據(jù)分析。
Spark：通用的DAG計算引擎渊季，允許用戶充分利用內(nèi)存進行快速的數(shù)據(jù)挖掘和分析朋蔫。Spark本質(zhì)上屬于批處理計算引擎。
Storm / Spark Streaming：分布式流式實時計算引擎却汉，具有良好的容錯性與擴展性驯妄，能夠高效地處理流式數(shù)據(jù)，它允許用戶通過簡單的API編寫分布式實時應(yīng)用程序合砂。
Impala / Presto：分別由Cloudera和Facebook開源的MPP（MassivelyParallel Processing）系統(tǒng)青扔，允許用戶使用標準SQL處理存儲在Hadoop中的數(shù)據(jù)，是典型的交互式處理計算引擎翩伪。它們采用了并行數(shù)據(jù)庫架構(gòu)微猖，內(nèi)置了查詢優(yōu)化器，提升大數(shù)據(jù)平臺交互場景下的處理效率缘屹。

5. 數(shù)據(jù)分析層：提供了各種大數(shù)據(jù)分析工具凛剥。

Hive / Pig / SparkSQL：在計算引擎之上構(gòu)建的支持SQL或腳本語言的分析系統(tǒng)，大大降低了用戶進行大數(shù)據(jù)分析的門檻囊颅。其中当悔，Hive是基于MapReduce/Tez實現(xiàn)的SQL引擎，Pig是基于MapReduce/Tez實現(xiàn)的工作流引擎踢代，SparkSQL是基于Spark實現(xiàn)的SQL引擎盲憎。
Mahout：在計算引擎之上構(gòu)建的機器學(xué)習(xí)庫，實現(xiàn)常用的機器學(xué)習(xí)和數(shù)據(jù)挖掘算法胳挎。其中饼疙，Mahout最初是基于MapReduce實現(xiàn)的，目前正逐步遷移到Spark引擎上慕爬，MLlib是基于Spark實現(xiàn)的窑眯。
Apache Beam/Cascading：針對各類計算框架封裝成高級API。Apache Beam統(tǒng)一了批處理和流式處理兩類計算框架医窿，提供了更高級的API方便用戶編寫與具體計算引擎無關(guān)的邏輯代碼磅甩。

四、Lambda Architecture 綜合型大數(shù)據(jù)架構(gòu)

Lambda Architecture（LA）源于Twitter姥卢，是一種大數(shù)據(jù)軟件設(shè)計架構(gòu)卷要，通過結(jié)合批處理和實時處理兩類計算技術(shù)渣聚，在延遲、吞吐量和容錯之間找到平衡點僧叉。LA將數(shù)據(jù)處理流程分解成三層：批處理層奕枝、流式處理層和服務(wù)層。

1. 批處理層

利用分布式批處理計算技術(shù)瓶堕，以批為單位處理數(shù)據(jù)隘道。該層將數(shù)據(jù)流看成只讀的、僅支持追加操作的超大數(shù)據(jù)集郎笆√饭＃可以一次性處理大量數(shù)據(jù)，引入復(fù)雜的計算邏輯（如機器學(xué)習(xí)中的模型迭代計算题画，歷史庫匹配等）默辨。優(yōu)點是吞吐率高，缺點是處理延遲高苍息，從數(shù)據(jù)產(chǎn)生到最終被處理完成缩幸，通常是分鐘或小時級別。

2. 流式處理層

利用分布式采流式計算技術(shù)竞思，大幅度降低了數(shù)據(jù)處理延遲表谊，通常是毫秒或秒級別。優(yōu)點是數(shù)據(jù)處理延遲低盖喷，缺點是吞吐量低爆办，無法進行復(fù)雜的邏輯計算，得到的結(jié)果往往是近似解课梳。

3. 服務(wù)層

為了整合兩層的計算結(jié)果距辆，LA設(shè)計了引一個服務(wù)層，對外提供了統(tǒng)一的訪問接口暮刃，屏蔽內(nèi)部的批處理和流式處理過程跨算，方便用戶使用。

Lamdba Architecture

一個經(jīng)典的LA應(yīng)用案例是推薦系統(tǒng)椭懊。在互聯(lián)網(wǎng)行業(yè)诸蚕，推薦系統(tǒng)被應(yīng)用在各個領(lǐng)域，包括電子商務(wù)氧猬、視頻背犯、新聞等。推薦系統(tǒng)的設(shè)計目的是根據(jù)用戶的興趣特點和購買行為盅抚，向用戶推薦感興趣的信息和商品漠魏。推薦系統(tǒng)的核心模塊是推薦算法。推薦算法通常會根據(jù)用戶的興趣特點和歷史行為的海量數(shù)據(jù)構(gòu)建推薦模型妄均，預(yù)測用戶可能感興趣的信息和商品柱锹，進而推薦給用戶破讨。

基于LA的推薦系統(tǒng)技術(shù)架構(gòu)中，通過不同采集方式獲取到的數(shù)據(jù)統(tǒng)一流入 Kafka奕纫，再按照不同時間粒度分發(fā)至批處理和流式處理兩個系統(tǒng)中。

老用戶推薦處理

批處理層擁有所有歷史數(shù)據(jù)（通常保存到HDFS/HBase中）烫沙，通常用以實現(xiàn)推薦模型匹层，也就是以最近和歷史的數(shù)據(jù)為輸入，通過特征工程锌蓄、模型構(gòu)建及模型評估等計算環(huán)節(jié)后（通常是基于MapReduce/Spark實現(xiàn)）升筏，最終獲得最優(yōu)的模型，并將推薦結(jié)果存儲起來（比如使用Redis）瘸爽，這個過程延遲是比較大的您访，分鐘甚至小時級別。

新用戶推薦處理

為了解決新用戶推薦問題（沒有什么歷史記數(shù)據(jù)）剪决，則會引入流式處理引擎灵汪，實時收集用戶有限的實時行為數(shù)據(jù)，通過簡單的推薦算法（通掣塘剩基于Storm/Spark Streaming實現(xiàn)）享言，快速產(chǎn)生推薦結(jié)果并存儲起來。

五差牛、關(guān)于Hadoop/Spark的發(fā)型版

1. Hadoop發(fā)行版

Apache Hadoop：社區(qū)原生版本，是其他商業(yè)公司發(fā)行版的基
CDH（Cloudera Distributed Hadoop）：Cloudera的發(fā)行版堰乔，社區(qū)版開源免費偏化，商業(yè)版閉源收費，是使用最廣泛的發(fā)行版之一浩考。
HDP（Hortonworks Data Platform）：Hortonworks的發(fā)行版夹孔，社區(qū)版開源免費，商業(yè)版閉源收費析孽。

2. Spark發(fā)行版

Apache Spark：社區(qū)原生版本搭伤，是其他商業(yè)公司發(fā)行版的基礎(chǔ)。
Databricks Spark：Databricks的發(fā)行版袜瞬，在社區(qū)版本基礎(chǔ)上怜俐，增加安全、審計邓尤、云等方面的支持拍鲤。
Hadoop企業(yè)發(fā)行版：各大Hadoop企業(yè)發(fā)行版贴谎，比如HDP和CDH，均內(nèi)置了對Spark的支持季稳。

各個發(fā)行版之間同一系統(tǒng)對外使用方式和接口是完全兼容的擅这，均提供了個性化的運維與管理工具等,不同之處在于它們引入了不同子系統(tǒng)或組件解決問題，比如

交互分析：CDH選擇Impala解決交互式分析問題景鼠，而HDP選擇Hive On Tez
安全方案：CDH引入了Cloudera Navigator和Sentry解決安全問題仲翎，而HDP則使用Ranger和Knox

在線上環(huán)境部署私有Hadoop與Spark集群時，為了避免各個系統(tǒng)之間兼容性問題（比如HBase與Hadoop之間的兼容性）铛漓，建議直接選用商業(yè)公司發(fā)行版溯香。

以上就是第一篇筆記的全部內(nèi)容，對大數(shù)據(jù)技術(shù)架構(gòu)有個初步的理解：

企業(yè)級大數(shù)據(jù)技術(shù)框架的分層模型：數(shù)據(jù)收集->數(shù)據(jù)存儲層->資源管理與服務(wù)協(xié)調(diào)層->計算引擎層->數(shù)據(jù)分析層->數(shù)據(jù)可視化層
Google大數(shù)據(jù)技術(shù)棧
Hadoop/Spark開源大數(shù)據(jù)技術(shù)棧
LA大數(shù)據(jù)架構(gòu)
關(guān)于Hadoop/Spark的發(fā)行版

第二篇筆記開始浓恶，將走進Hadoop/Spark的世界玫坛，通過對核心組件的學(xué)習(xí)，理解大數(shù)據(jù)平臺的工作機制包晰。

照舊送福利湿镀，祝自己一帆風(fēng)順，@_@