概念
大數(shù)據(jù)時代的數(shù)據(jù)分析任務比傳統(tǒng)的數(shù)據(jù)分析任務要復雜憾儒,因為往往涉及的數(shù)據(jù)量巨大镣丑。通常來講宣谈,我們的筆記本電腦可以同時干很多事兒,而對于大規(guī)模的數(shù)據(jù)處理任務來說肄梨,就不是一臺電腦同時做許多任務了,而是許多電腦同時做一件任務的邏輯關(guān)系挠锥。這就引入了并行計算的概念众羡。
許多電腦同時做一件復雜的任務,涉及很多問題:比如蓖租,
- 這個任務首先要分解成許多子任務
- 然后這些小任務要在這些電腦上面去分配
- 然后這些電腦完成了任務之后反饋的結(jié)果還要匯總
- 同時還要考慮如果這些電腦的故障異常等問題怎么去解決
MapReduce就是這樣的一個編程模型粱侣,一個復雜的任務按照這個抽象的模型去實現(xiàn),就可以有效進行并行計算蓖宦。
在MapReduce中有兩類機器:(1)Master齐婴,負責調(diào)度,相當于工地的工頭稠茂;(2)Worker柠偶,相當于干活的工人情妖。Worker進一步分為兩種:一種是Mapper,另一種叫Reducer
一個例子
其實我們可以從word count這個實例來理解MapReduce诱担。MapReduce大體上分為六個步驟:input, split, map, shuffle, reduce, output毡证。細節(jié)描述如下:
輸入(input):如給定一個文檔,包含如下四行:
Hello Java
Hello C
Hello Java
Hello C++拆分(split):將上述文檔中每一行的內(nèi)容轉(zhuǎn)換為key-value對蔫仙,即:
0 - Hello Java
1 - Hello C
2 – Hello Java
3 - Hello C++映射(map):將拆分之后的內(nèi)容轉(zhuǎn)換成新的key-value對料睛,即:
(Hello , 1)
(Java , 1)
(Hello , 1)
(C , 1)
(Hello , 1)
(Java , 1)
(Hello , 1)
(C++ , 1)派發(fā)(shuffle):將key相同的扔到一起去,即:
(Hello , 1)
(Hello , 1)
(Hello , 1)
(Hello , 1)
(Java , 1)
(Java , 1)
(C , 1)
(C++ , 1)
注意:這一步需要移動數(shù)據(jù)摇邦,原來的數(shù)據(jù)可能在不同的datanode上恤煞,這一步過后,相同key的數(shù)據(jù)會被移動到同一臺機器上施籍。最終居扒,它會返回一個list包含各種k-value對,即:
{ Hello: 1,1,1,1}
{Java: 1,1}
{C: 1}
{C++: 1}縮減(reduce):把同一個key的結(jié)果加在一起法梯。如:
(Hello , 4)
(Java , 2)
(C , 1)
(C++,1)輸出(output): 輸出縮減之后的所有結(jié)果苔货。
Hadoop 生態(tài)圈
Hadoop是一個開發(fā)和運行大規(guī)模數(shù)據(jù)分析程序的軟件平臺,是隸屬Apache的一個用java語言實現(xiàn)的開源軟件框架,在大量普通服務器組成的集群中對海量數(shù)據(jù)進行分布式計算立哑。
HDFS——Hadoop生態(tài)圈的基本組成部分是Hadoop分布式文件系統(tǒng)(HDFS)夜惭。HDFS是一種數(shù)據(jù)分布式保存機制,數(shù)據(jù)被保存在計算機集群上铛绰。HDFS為HBase等系統(tǒng)提供了基礎诈茧。
MapReduce——Hadoop的主要執(zhí)行框架是MapReduce,它是一個分布式捂掰、并行處理的編程模型敢会。MapReduce把任務分為map(映射)階段和reduce(化簡)。開發(fā)人員基于存儲在HDFS中數(shù)據(jù)这嚣,編寫Hadoop的MapReduce任務鸥昏。由于MapReduce工作原理的特性, Hadoop能以并行的方式訪問數(shù)據(jù)姐帚,從而實現(xiàn)快速訪問數(shù)據(jù)吏垮。
Hbase——HBase是一個建立在HDFS之上,面向列的NoSQL數(shù)據(jù)庫罐旗,用于快速讀/寫大量數(shù)據(jù)膳汪。HBase使用Zookeeper進行管理,確保所有組件都正常運行九秀。
Zookeeper——用于Hadoop的分布式協(xié)調(diào)服務遗嗽。Hadoop的許多組件依賴于Zookeeper,它運行在計算機集群上面鼓蜒,用于管理Hadoop操作痹换。
Oozie——Oozie是一個可擴展的工作體系征字,集成于Hadoop的堆棧,用于協(xié)調(diào)多個MapReduce作業(yè)的執(zhí)行晴音。它能夠管理一個復雜的系統(tǒng)柔纵,基于外部事件來執(zhí)行,外部事件包括數(shù)據(jù)的定時和數(shù)據(jù)的產(chǎn)出锤躁。
Pig——它是MapReduce編程的復雜性的抽象搁料。Pig平臺包括運行環(huán)境和用于分析Hadoop數(shù)據(jù)集的腳本語言(Pig Latin)。其編譯器將PigLatin翻譯成MapReduce程序序列系羞。
Hive——Hive類似于SQL高級語言郭计,用于運行基于Hadoop的查詢語句,Hive讓不熟悉MapReduce開發(fā)人員也能編寫數(shù)據(jù)查詢語句椒振,然后這些語句被翻譯為Hadoop上面的MapReduce任務昭伸。像Pig一樣,Hive作為一個抽象層工具澎迎,吸引了很多熟悉SQL而不是Java編程的數(shù)據(jù)分析師庐杨。