我當下的工作是大數(shù)據(jù)安全領(lǐng)域。大數(shù)據(jù)和云計算有些類似媳叨,既是技術(shù)糊秆,也是商業(yè)。我想利用十幾篇筆記規(guī)模捉片,對大數(shù)據(jù)的技術(shù)體系進行一個總結(jié)汞舱,同時也希望能作為公司內(nèi)部培訓(xùn)交流所用。
筆記中的不少知識點來自于下面這本書莹规,推薦給大家泌神。
第一章:企業(yè)級大數(shù)據(jù)技術(shù)框架
一般情況下欢际,數(shù)據(jù)進入大數(shù)據(jù)平臺后,需要經(jīng)歷如下幾個階段:
- 數(shù)據(jù)采集
- 數(shù)據(jù)存儲
- 資源管理與服務(wù)協(xié)調(diào)
- 計算引擎
- 數(shù)據(jù)分析
- 數(shù)據(jù)可視化
一窒篱、每個階段都存在特定的要求,也面臨著不同的技術(shù)挑戰(zhàn)。
1. 數(shù)據(jù)采集
數(shù)據(jù)采集層直接跟數(shù)據(jù)源對接括荡,負責(zé)將數(shù)據(jù)源中的數(shù)據(jù)實時或準實時收集起來畸冲。而數(shù)據(jù)源有如下的特點:
- 分布式:數(shù)據(jù)源通常分布在不同設(shè)備上,通過網(wǎng)絡(luò)進行連接
- 異構(gòu)性:任何能夠產(chǎn)生數(shù)據(jù)的系統(tǒng)均可以稱為數(shù)據(jù)源算行,如Web服務(wù)器苫耸、數(shù)據(jù)庫褪子、傳感器、手環(huán)呀枢、監(jiān)控攝像頭等
- 多樣化:數(shù)據(jù)格式多種多樣笼痛,結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)摘刑、非結(jié)構(gòu)化數(shù)據(jù)
- 多方式:有的數(shù)據(jù)源如同“集裝箱”倘核,將數(shù)據(jù)批量送達紧唱;有的數(shù)據(jù)源如同“水龍頭”,以“流水”的方式將數(shù)據(jù)實時或準實時地將數(shù)據(jù)送達
由于數(shù)據(jù)源存在上述特點蛹锰,良好的數(shù)據(jù)采集系統(tǒng)需要考慮如下因素:
- 擴展性:能夠靈活適配不同類型的數(shù)據(jù)源绰疤,要能提供高并發(fā)性
- 可靠性:數(shù)據(jù)在傳輸過程中不能丟失
- 安全性:對于一些敏感數(shù)據(jù)的采集,要考慮數(shù)據(jù)隱私性保護
- 低延遲:需要能在較低延遲下將數(shù)據(jù)傳輸?shù)胶蠖舜鎯ο到y(tǒng)中
2. 數(shù)據(jù)存儲
在大數(shù)據(jù)時代癣猾,采集到的海量數(shù)據(jù)既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù)纷宇,如果沿用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(如MySQL)和文件系統(tǒng)(如Linux文件系統(tǒng))像捶,在存儲容量、擴展性及容錯性等方面都存在挑戰(zhàn):
- 擴展性:大數(shù)據(jù)平臺海量數(shù)據(jù)要求存儲系統(tǒng)本身具備良好的線性擴展能力
- 容錯性:大數(shù)據(jù)系統(tǒng)天然設(shè)構(gòu)建在廉價機器上释簿,這就要求系統(tǒng)本身就有良好的容錯機制硼莽,確保在機器出現(xiàn)故障時不會導(dǎo)致數(shù)據(jù)丟失
- 存儲模型:數(shù)據(jù)的多樣性要求數(shù)據(jù)存儲層應(yīng)支持多種數(shù)據(jù)模型
3. 資源管理與服務(wù)協(xié)調(diào)
大數(shù)據(jù)平臺為了解決資源利用率低沉删、運維成本高和數(shù)據(jù)共享困難等問題,將應(yīng)用集中存儲在公共服務(wù)器集群中砖茸,這樣的分布式系統(tǒng)殴穴,會面臨很多共性問題,如leader選舉劲够、服務(wù)命名休傍、分布式隊列磨取、分布式鎖、發(fā)布訂閱功能等凫岖。為了避免重復(fù)開發(fā)逢净,保證程序質(zhì)量歼指,通常會構(gòu)建一個統(tǒng)一的服務(wù)協(xié)調(diào)組件踩身,解決這些分布式系統(tǒng)通用的難題犀农,以便大數(shù)據(jù)業(yè)務(wù)提供者能將精力更多的聚焦在業(yè)務(wù)之上。
4. 計算引擎
實際生產(chǎn)環(huán)境中,針對不同的業(yè)務(wù)場景孟害,對數(shù)據(jù)處理的要求是不同的挪拟。有些場景下,離線谎柄、批量的處理數(shù)據(jù)即可朝巫,對實時性要求不高石景,但要求系統(tǒng)吞吐率高,典型的應(yīng)用是搜索引擎構(gòu)建索引揪荣;有些場景下往史,要對數(shù)據(jù)進行實時分析椎例,要求每條數(shù)據(jù)處理延遲盡可能低,典型的應(yīng)用是廣告系統(tǒng)及信用卡欺詐檢測凰棉。不同類型的計算任務(wù)陌粹,追求的是不同的目標,批處理計算追求的是高吞吐率或舞,而實時計算追求的是低延遲映凳,系統(tǒng)吞吐率和處理延遲的優(yōu)化往往是兩個矛盾的方向。大一統(tǒng)的解決方案已被證明是不現(xiàn)實的仆救。
當前計算引擎的發(fā)展方向是“小而美”矫渔,即為每種場景設(shè)計匹配的計算引擎庙洼,專注解決某一類的問題。而計算引擎也是大數(shù)據(jù)技術(shù)發(fā)展最活躍的地方蚁袭。
總體上可按照對處理時間的要求石咬,將計算引擎分為三類:
- 批處理引擎:該類計算引擎對時間要求較低碌补,一般處理時間為分鐘到小時級別,甚至天級別镇匀。追求的是高吞吐率袜啃,即單位時間內(nèi)處理的數(shù)據(jù)量盡可能大昆箕,典型的應(yīng)用有搜索引擎索引構(gòu)建拆魏、批量數(shù)據(jù)分析等。
- 交互式處理引擎:該類計算引擎對時間要求較高只恨,一般要求處理時間為秒級別。這類系統(tǒng)往往需要和人進行交互纵菌,因此會提供類SQL的數(shù)據(jù)交互語言休涤,典型的應(yīng)用有數(shù)據(jù)查詢、參數(shù)化報表生成等序苏。
- 實時處理引擎:該類計算引擎對時間要求最高杠览,一般處理延遲在秒級以內(nèi)纵势,典型的應(yīng)用有廣告系統(tǒng)钦铁、輿情監(jiān)測等才漆。
5. 數(shù)據(jù)分析
數(shù)據(jù)分析層直接跟用戶或應(yīng)用程序?qū)印榱俗寯?shù)據(jù)分析更加容易黎比,計算引擎會提供如應(yīng)用程序API阅虫、類SQL查詢語言不跟、數(shù)據(jù)挖掘SDK等工具窝革。也就是說,數(shù)據(jù)分析層和計算引擎層往往貼合的較為緊密瘪板,有時也可以將它們看成一層漆诽。對應(yīng)到實際應(yīng)用中锣枝,也往往首先使用批處理/流處理框架對原始海量數(shù)據(jù)進行分析惊橱,產(chǎn)生較小規(guī)模的數(shù)據(jù)集后箭昵,再使用交互式處理工具對該數(shù)據(jù)集進行快速查詢家制,獲取最終結(jié)果。
6. 數(shù)據(jù)可視化
數(shù)據(jù)可視化指的是運用計算機圖形學(xué)和圖像處理技術(shù)觅廓,將數(shù)據(jù)轉(zhuǎn)換為圖像在屏幕上顯示出來涵但,并進行交互處理的理論矮瘟、方法和技術(shù)。數(shù)據(jù)可視化層是直接面向用戶展示結(jié)果的一層劫侧,由于該層直接對接用戶烧栋,是展示大數(shù)據(jù)價值的“門戶”拳球,因此數(shù)據(jù)可視化是極具意義的醇坝。
理解了企業(yè)級大數(shù)據(jù)架構(gòu)中主要的幾個層次后呼猪,再來看看兩個著名的大數(shù)據(jù)技術(shù)棧。
二轴踱、谷歌大數(shù)據(jù)技術(shù)棧
谷歌的大數(shù)據(jù)技術(shù)棧主要分布在數(shù)據(jù)存儲層谚赎、資源管理與服務(wù)協(xié)調(diào)層、計算引擎層雳灵、數(shù)據(jù)分析層中悯辙。谷歌大數(shù)據(jù)技術(shù)棧并未開源,但其背后的思想?yún)s以一篇篇經(jīng)典的論文针贬,對業(yè)界產(chǎn)生深遠的影響桦他。
下圖是谷歌技術(shù)棧的一些核心組件:
1. GFS
Google File System 是一個分布式文件系統(tǒng)快压,具有良好的容錯性垃瞧、擴展性和可用性皆警。GFS可構(gòu)建在大量普通廉價服務(wù)器上截粗,能夠輕松的進行“Scale out”(橫向擴展)绸罗,相比于傳統(tǒng)的“Scale up”(縱向擴展)方案中的大型機或小型機等,大大降低了成本菊值。
2. BigTable
BigTable 是一個構(gòu)建在 GFS 之上的分布式 NoSQL 數(shù)據(jù)庫育灸,其行數(shù)和列數(shù)可以無限擴展磅崭,彌補了傳統(tǒng)關(guān)系型數(shù)據(jù)庫在 Schema 設(shè)計上的不靈活。
3. Borg
Brog 是一個集群資源管理和調(diào)度系統(tǒng)柔逼,對應(yīng)用程序進行接收愉适、啟動、停止剂买、重啟和監(jiān)控腰湾。Borg 的目的是讓開發(fā)者不必操心資源管理的問題倒槐,專注于應(yīng)用程序業(yè)務(wù)邏輯的實現(xiàn)附井,并輔助應(yīng)用程序做到資源利用率最大化永毅。
4. MapReduce
MapReduce 是一個批處理離線計算框架,采用“分而治之”的思想着逐,將對大規(guī)模數(shù)據(jù)集的操作耸别,分解成Map和Reduce兩個階段县钥,Map階段并行處理輸入數(shù)據(jù)集若贮,產(chǎn)生中間結(jié)果,Reduce階段則通過整合各個節(jié)點的中間結(jié)果蠢沿,得到最終結(jié)果搏予,其本質(zhì)就是一個“任務(wù)的分解與結(jié)果的匯總”的框架弧轧。MapReduce具有高吞吐率、良好的容錯性、擴展性以及易于編程等特點旬牲,廣泛應(yīng)用于構(gòu)建索引原茅、數(shù)據(jù)挖掘、機器學(xué)習(xí)等應(yīng)用中晌区。
5. Dremel
Dremel是一個分布式OLAP(OnLine Analytical Processing)系統(tǒng)朗若,能夠幫助數(shù)據(jù)分析師在秒級處理PB級數(shù)據(jù)昌罩。Dremel在一定程度上彌補了類 MapReduce 系統(tǒng)在交互式查詢方面的不足茎用。
6. FlumeJava
FlumeJava 是一個建立在 MapReduce 之上的 Java 編程庫轨功,提供了一層高級原語以簡化復(fù)雜的 MapReduce 應(yīng)用程序開發(fā),讓使用者能更簡單構(gòu)建數(shù)據(jù)流水線。
7. Tenzing
Tenzing 是建立在 MapReduce 之上的SQL查詢執(zhí)行引擎蒿褂,它可以將用戶編寫的SQL語句轉(zhuǎn)化為 MapReduce 程序啄栓,提交到分布式集群中并行執(zhí)行也祠。
三诈嘿、Hadoop/Spark 開源大數(shù)據(jù)技術(shù)棧
谷歌為業(yè)界貢獻了思想和方法論削葱,但其的大數(shù)據(jù)技術(shù)棧是閉源的析砸。業(yè)界目前主流的大數(shù)據(jù)基礎(chǔ)架構(gòu)和組件首繁,主要圍繞在Hadoop/Spark為核心的開源生態(tài)體系:
1. 數(shù)據(jù)收集層:主要由關(guān)系型與非關(guān)系型數(shù)據(jù)收集組件弦疮,以及分布式消息隊列構(gòu)成蜘醋。
- Sqoop/Canal:關(guān)系型數(shù)據(jù)收集和導(dǎo)入組件堂湖,是連接關(guān)系型數(shù)據(jù)庫和Hadoop(如HDFS)的橋梁无蜂。Sqoop可將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)全量導(dǎo)入Hadoop,反之亦可训桶。Canal則可用于實現(xiàn)數(shù)據(jù)的增量導(dǎo)入舵揭。
- Flume:非關(guān)系型數(shù)據(jù)收集和導(dǎo)入組件躁锡,主要是流式日志數(shù)據(jù)映之,幾乎可做到實時收集。經(jīng)過濾杠输、聚集處理后加載到Hadoop HDFS等存儲系統(tǒng)蠢甲。
- Kafka:分布式消息隊列,一般作為數(shù)據(jù)總線使用搞糕。它允許多個數(shù)據(jù)消費者訂閱并獲取感興趣的數(shù)據(jù)。相比于其他消息隊列寞宫,它采用分布式高容錯設(shè)計萧福,更適合大數(shù)據(jù)應(yīng)用場景。消息總線是數(shù)據(jù)傳輸?shù)幕A(chǔ)辈赋,不僅僅應(yīng)用在數(shù)據(jù)收集層中鲫忍,數(shù)據(jù)存儲,計算钥屈,分析等層面悟民,都是 Kafka 的舞臺。
2. 數(shù)據(jù)存儲層:主要由分布式文件系統(tǒng)(面向文件的存儲)和分布式數(shù)據(jù)庫(面向行/列的存儲)構(gòu)成篷就。
- HDFS:Hadoop DFS,是Google GFS的開源實現(xiàn)竭业,自然繼承了GFS在擴展性和容錯性上的優(yōu)點智润,具有良好的擴展性與容錯性等。
- HBase:構(gòu)建在HDFS之上的分布式數(shù)據(jù)庫未辆,是Google BigTable的開源實現(xiàn)窟绷,允許用戶存儲結(jié)構(gòu)化與半結(jié)構(gòu)化的數(shù)據(jù),支持行列無限擴展以及數(shù)據(jù)隨機查找與刪除咐柜。
- Kudu:分布式列式存儲數(shù)據(jù)庫兼蜈,允許用戶存儲結(jié)構(gòu)化數(shù)據(jù),支持行無限擴展以及數(shù)據(jù)隨機查找與更新拙友。
3. 資源管理與服務(wù)協(xié)調(diào)層
- YARN:統(tǒng)一資源管理與調(diào)度系統(tǒng)为狸,它能夠管理集群中的各種資源(比如CPU和內(nèi)存等),并按照一定的策略分配給上層的各類應(yīng)用遗契。YARN內(nèi)置了多種多租戶資源調(diào)度器辐棒,允許用戶按照隊列的方式組織和管理資源,且每個隊列的調(diào)度機制可獨立定制牍蜂。
- ZooKeeper:基于簡化的Paxos協(xié)議實現(xiàn)的服務(wù)協(xié)調(diào)系統(tǒng)漾根,允許用戶通過簡單的API實現(xiàn)leader選舉、服務(wù)命名捷兰、分布式隊列與分布式鎖等復(fù)雜的分布式調(diào)度和管理能力。
4. 計算引擎層:包含批處理负敏,交互式處理和流式實時處理三類引擎贡茅。
- MapReduce/Tez:Hadoop MapReduce是Google MapReduce的開源實現(xiàn),具有良好的擴展性與容錯性,允許用戶通過簡單的API編寫分布式程序顶考。Tez是基于MapReduce開發(fā)的通用DAG(Directed Acyclic Graph的簡稱赁还,有向無環(huán)圖)計算引擎,能夠更加高效地實現(xiàn)復(fù)雜的數(shù)據(jù)處理邏輯驹沿,目前被應(yīng)用在Hive艘策、Pig等數(shù)據(jù)分析。
- Spark:通用的DAG計算引擎渊季,允許用戶充分利用內(nèi)存進行快速的數(shù)據(jù)挖掘和分析朋蔫。Spark本質(zhì)上屬于批處理計算引擎。
- Storm / Spark Streaming:分布式流式實時計算引擎却汉,具有良好的容錯性與擴展性驯妄,能夠高效地處理流式數(shù)據(jù),它允許用戶通過簡單的API編寫分布式實時應(yīng)用程序合砂。
- Impala / Presto:分別由Cloudera和Facebook開源的MPP(MassivelyParallel Processing)系統(tǒng)青扔,允許用戶使用標準SQL處理存儲在Hadoop中的數(shù)據(jù),是典型的交互式處理計算引擎翩伪。它們采用了并行數(shù)據(jù)庫架構(gòu)微猖,內(nèi)置了查詢優(yōu)化器,提升大數(shù)據(jù)平臺交互場景下的處理效率缘屹。
5. 數(shù)據(jù)分析層:提供了各種大數(shù)據(jù)分析工具凛剥。
- Hive / Pig / SparkSQL:在計算引擎之上構(gòu)建的支持SQL或腳本語言的分析系統(tǒng),大大降低了用戶進行大數(shù)據(jù)分析的門檻囊颅。其中当悔,Hive是基于MapReduce/Tez實現(xiàn)的SQL引擎,Pig是基于MapReduce/Tez實現(xiàn)的工作流引擎踢代,SparkSQL是基于Spark實現(xiàn)的SQL引擎盲憎。
- Mahout:在計算引擎之上構(gòu)建的機器學(xué)習(xí)庫,實現(xiàn)常用的機器學(xué)習(xí)和數(shù)據(jù)挖掘算法胳挎。其中饼疙,Mahout最初是基于MapReduce實現(xiàn)的,目前正逐步遷移到Spark引擎上慕爬,MLlib是基于Spark實現(xiàn)的窑眯。
- Apache Beam/Cascading:針對各類計算框架封裝成高級API。Apache Beam統(tǒng)一了批處理和流式處理兩類計算框架医窿,提供了更高級的API方便用戶編寫與具體計算引擎無關(guān)的邏輯代碼磅甩。
四、Lambda Architecture 綜合型大數(shù)據(jù)架構(gòu)
Lambda Architecture(LA)源于Twitter姥卢,是一種大數(shù)據(jù)軟件設(shè)計架構(gòu)卷要,通過結(jié)合批處理和實時處理兩類計算技術(shù)渣聚,在延遲、吞吐量和容錯之間找到平衡點僧叉。LA將數(shù)據(jù)處理流程分解成三層:批處理層奕枝、流式處理層和服務(wù)層。
1. 批處理層
利用分布式批處理計算技術(shù)瓶堕,以批為單位處理數(shù)據(jù)隘道。該層將數(shù)據(jù)流看成只讀的、僅支持追加操作的超大數(shù)據(jù)集郎笆√饭#可以一次性處理大量數(shù)據(jù),引入復(fù)雜的計算邏輯(如機器學(xué)習(xí)中的模型迭代計算题画,歷史庫匹配等)默辨。優(yōu)點是吞吐率高,缺點是處理延遲高苍息,從數(shù)據(jù)產(chǎn)生到最終被處理完成缩幸,通常是分鐘或小時級別。
2. 流式處理層
利用分布式采流式計算技術(shù)竞思,大幅度降低了數(shù)據(jù)處理延遲表谊,通常是毫秒或秒級別。優(yōu)點是數(shù)據(jù)處理延遲低盖喷,缺點是吞吐量低爆办,無法進行復(fù)雜的邏輯計算,得到的結(jié)果往往是近似解课梳。
3. 服務(wù)層
為了整合兩層的計算結(jié)果距辆,LA設(shè)計了引一個服務(wù)層,對外提供了統(tǒng)一的訪問接口暮刃,屏蔽內(nèi)部的批處理和流式處理過程跨算,方便用戶使用。
一個經(jīng)典的LA應(yīng)用案例是推薦系統(tǒng)椭懊。在互聯(lián)網(wǎng)行業(yè)诸蚕,推薦系統(tǒng)被應(yīng)用在各個領(lǐng)域,包括電子商務(wù)氧猬、視頻背犯、新聞等。推薦系統(tǒng)的設(shè)計目的是根據(jù)用戶的興趣特點和購買行為盅抚,向用戶推薦感興趣的信息和商品漠魏。推薦系統(tǒng)的核心模塊是推薦算法。推薦算法通常會根據(jù)用戶的興趣特點和歷史行為的海量數(shù)據(jù)構(gòu)建推薦模型妄均,預(yù)測用戶可能感興趣的信息和商品柱锹,進而推薦給用戶破讨。
基于LA的推薦系統(tǒng)技術(shù)架構(gòu)中,通過不同采集方式獲取到的數(shù)據(jù)統(tǒng)一流入 Kafka奕纫,再按照不同時間粒度分發(fā)至批處理和流式處理兩個系統(tǒng)中。
老用戶推薦處理
批處理層擁有所有歷史數(shù)據(jù)(通常保存到HDFS/HBase中)烫沙,通常用以實現(xiàn)推薦模型匹层,也就是以最近和歷史的數(shù)據(jù)為輸入,通過特征工程锌蓄、模型構(gòu)建及模型評估等計算環(huán)節(jié)后(通常是基于MapReduce/Spark實現(xiàn))升筏,最終獲得最優(yōu)的模型,并將推薦結(jié)果存儲起來(比如使用Redis)瘸爽,這個過程延遲是比較大的您访,分鐘甚至小時級別。
新用戶推薦處理
為了解決新用戶推薦問題(沒有什么歷史記數(shù)據(jù))剪决,則會引入流式處理引擎灵汪,實時收集用戶有限的實時行為數(shù)據(jù),通過簡單的推薦算法(通掣塘剩基于Storm/Spark Streaming實現(xiàn))享言,快速產(chǎn)生推薦結(jié)果并存儲起來。
推薦系統(tǒng)訪問服務(wù)
為了便于其他系統(tǒng)獲取推薦結(jié)果渗鬼,推薦系統(tǒng)往往通過服務(wù)層對外提供訪問接口览露,比如網(wǎng)站后臺在渲染某個頁面時,可能從推薦系統(tǒng)中獲取對應(yīng)的結(jié)果譬胎。
五差牛、關(guān)于Hadoop/Spark的發(fā)型版
1. Hadoop發(fā)行版
- Apache Hadoop:社區(qū)原生版本,是其他商業(yè)公司發(fā)行版的基
- CDH(Cloudera Distributed Hadoop):Cloudera的發(fā)行版堰乔,社區(qū)版開源免費偏化,商業(yè)版閉源收費,是使用最廣泛的發(fā)行版之一浩考。
- HDP(Hortonworks Data Platform):Hortonworks的發(fā)行版夹孔,社區(qū)版開源免費,商業(yè)版閉源收費析孽。
2. Spark發(fā)行版
- Apache Spark:社區(qū)原生版本搭伤,是其他商業(yè)公司發(fā)行版的基礎(chǔ)。
- Databricks Spark:Databricks的發(fā)行版袜瞬,在社區(qū)版本基礎(chǔ)上怜俐,增加安全、審計邓尤、云等方面的支持拍鲤。
- Hadoop企業(yè)發(fā)行版:各大Hadoop企業(yè)發(fā)行版贴谎,比如HDP和CDH,均內(nèi)置了對Spark的支持季稳。
各個發(fā)行版之間同一系統(tǒng)對外使用方式和接口是完全兼容的擅这,均提供了個性化的運維與管理工具等,不同之處在于它們引入了不同子系統(tǒng)或組件解決問題,比如
- 交互分析:CDH選擇Impala解決交互式分析問題景鼠,而HDP選擇Hive On Tez
- 安全方案:CDH引入了Cloudera Navigator和Sentry解決安全問題仲翎,而HDP則使用Ranger和Knox
在線上環(huán)境部署私有Hadoop與Spark集群時,為了避免各個系統(tǒng)之間兼容性問題(比如HBase與Hadoop之間的兼容性)铛漓,建議直接選用商業(yè)公司發(fā)行版溯香。
以上就是第一篇筆記的全部內(nèi)容,對大數(shù)據(jù)技術(shù)架構(gòu)有個初步的理解:
- 企業(yè)級大數(shù)據(jù)技術(shù)框架的分層模型:數(shù)據(jù)收集->數(shù)據(jù)存儲層->資源管理與服務(wù)協(xié)調(diào)層->計算引擎層->數(shù)據(jù)分析層->數(shù)據(jù)可視化層
- Google大數(shù)據(jù)技術(shù)棧
- Hadoop/Spark開源大數(shù)據(jù)技術(shù)棧
- LA大數(shù)據(jù)架構(gòu)
- 關(guān)于Hadoop/Spark的發(fā)行版
第二篇筆記開始浓恶,將走進Hadoop/Spark的世界玫坛,通過對核心組件的學(xué)習(xí),理解大數(shù)據(jù)平臺的工作機制包晰。
照舊送福利湿镀,祝自己一帆風(fēng)順,@_@