MapReduce備忘錄

概念

大數(shù)據(jù)時代的數(shù)據(jù)分析任務比傳統(tǒng)的數(shù)據(jù)分析任務要復雜憾儒,因為往往涉及的數(shù)據(jù)量巨大镣丑。通常來講宣谈,我們的筆記本電腦可以同時干很多事兒,而對于大規(guī)模的數(shù)據(jù)處理任務來說肄梨,就不是一臺電腦同時做許多任務了,而是許多電腦同時做一件任務的邏輯關(guān)系挠锥。這就引入了并行計算的概念众羡。

許多電腦同時做一件復雜的任務,涉及很多問題:比如蓖租,

  • 這個任務首先要分解成許多子任務
  • 然后這些小任務要在這些電腦上面去分配
  • 然后這些電腦完成了任務之后反饋的結(jié)果還要匯總
  • 同時還要考慮如果這些電腦的故障異常等問題怎么去解決

MapReduce就是這樣的一個編程模型粱侣,一個復雜的任務按照這個抽象的模型去實現(xiàn),就可以有效進行并行計算蓖宦。

在MapReduce中有兩類機器:(1)Master齐婴,負責調(diào)度,相當于工地的工頭稠茂;(2)Worker柠偶,相當于干活的工人情妖。Worker進一步分為兩種:一種是Mapper,另一種叫Reducer

image.png

一個例子

其實我們可以從word count這個實例來理解MapReduce诱担。MapReduce大體上分為六個步驟:input, split, map, shuffle, reduce, output毡证。細節(jié)描述如下:

  1. 輸入(input):如給定一個文檔,包含如下四行:
    Hello Java
    Hello C
    Hello Java
    Hello C++

  2. 拆分(split):將上述文檔中每一行的內(nèi)容轉(zhuǎn)換為key-value對蔫仙,即:
    0 - Hello Java
    1 - Hello C
    2 – Hello Java
    3 - Hello C++

  3. 映射(map):將拆分之后的內(nèi)容轉(zhuǎn)換成新的key-value對料睛,即:
    (Hello , 1)
    (Java , 1)
    (Hello , 1)
    (C , 1)
    (Hello , 1)
    (Java , 1)
    (Hello , 1)
    (C++ , 1)

  4. 派發(fā)(shuffle):將key相同的扔到一起去,即:
    (Hello , 1)
    (Hello , 1)
    (Hello , 1)
    (Hello , 1)
    (Java , 1)
    (Java , 1)
    (C , 1)
    (C++ , 1)
    注意:這一步需要移動數(shù)據(jù)摇邦,原來的數(shù)據(jù)可能在不同的datanode上恤煞,這一步過后,相同key的數(shù)據(jù)會被移動到同一臺機器上施籍。最終居扒,它會返回一個list包含各種k-value對,即:
    { Hello: 1,1,1,1}
    {Java: 1,1}
    {C: 1}
    {C++: 1}

  5. 縮減(reduce):把同一個key的結(jié)果加在一起法梯。如:
    (Hello , 4)
    (Java , 2)
    (C , 1)
    (C++,1)

  6. 輸出(output): 輸出縮減之后的所有結(jié)果苔货。

Hadoop 生態(tài)圈

Hadoop是一個開發(fā)和運行大規(guī)模數(shù)據(jù)分析程序的軟件平臺,是隸屬Apache的一個用java語言實現(xiàn)的開源軟件框架,在大量普通服務器組成的集群中對海量數(shù)據(jù)進行分布式計算立哑。

  • HDFS——Hadoop生態(tài)圈的基本組成部分是Hadoop分布式文件系統(tǒng)(HDFS)夜惭。HDFS是一種數(shù)據(jù)分布式保存機制,數(shù)據(jù)被保存在計算機集群上铛绰。HDFS為HBase等系統(tǒng)提供了基礎诈茧。

  • MapReduce——Hadoop的主要執(zhí)行框架是MapReduce,它是一個分布式捂掰、并行處理的編程模型敢会。MapReduce把任務分為map(映射)階段和reduce(化簡)。開發(fā)人員基于存儲在HDFS中數(shù)據(jù)这嚣,編寫Hadoop的MapReduce任務鸥昏。由于MapReduce工作原理的特性, Hadoop能以并行的方式訪問數(shù)據(jù)姐帚,從而實現(xiàn)快速訪問數(shù)據(jù)吏垮。

  • Hbase——HBase是一個建立在HDFS之上,面向列的NoSQL數(shù)據(jù)庫罐旗,用于快速讀/寫大量數(shù)據(jù)膳汪。HBase使用Zookeeper進行管理,確保所有組件都正常運行九秀。

  • Zookeeper——用于Hadoop的分布式協(xié)調(diào)服務遗嗽。Hadoop的許多組件依賴于Zookeeper,它運行在計算機集群上面鼓蜒,用于管理Hadoop操作痹换。

  • Oozie——Oozie是一個可擴展的工作體系征字,集成于Hadoop的堆棧,用于協(xié)調(diào)多個MapReduce作業(yè)的執(zhí)行晴音。它能夠管理一個復雜的系統(tǒng)柔纵,基于外部事件來執(zhí)行,外部事件包括數(shù)據(jù)的定時和數(shù)據(jù)的產(chǎn)出锤躁。

  • Pig——它是MapReduce編程的復雜性的抽象搁料。Pig平臺包括運行環(huán)境和用于分析Hadoop數(shù)據(jù)集的腳本語言(Pig Latin)。其編譯器將PigLatin翻譯成MapReduce程序序列系羞。

  • Hive——Hive類似于SQL高級語言郭计,用于運行基于Hadoop的查詢語句,Hive讓不熟悉MapReduce開發(fā)人員也能編寫數(shù)據(jù)查詢語句椒振,然后這些語句被翻譯為Hadoop上面的MapReduce任務昭伸。像Pig一樣,Hive作為一個抽象層工具澎迎,吸引了很多熟悉SQL而不是Java編程的數(shù)據(jù)分析師庐杨。

參考資料

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市夹供,隨后出現(xiàn)的幾起案子灵份,更是在濱河造成了極大的恐慌,老刑警劉巖哮洽,帶你破解...
    沈念sama閱讀 222,681評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件填渠,死亡現(xiàn)場離奇詭異,居然都是意外死亡鸟辅,警方通過查閱死者的電腦和手機氛什,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來匪凉,“玉大人枪眉,你說我怎么就攤上這事≡俨悖” “怎么了贸铜?”我有些...
    開封第一講書人閱讀 169,421評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長树绩。 經(jīng)常有香客問我,道長隐轩,這世上最難降的妖魔是什么饺饭? 我笑而不...
    開封第一講書人閱讀 60,114評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮职车,結(jié)果婚禮上瘫俊,老公的妹妹穿的比我還像新娘鹊杖。我一直安慰自己,他們只是感情好扛芽,可當我...
    茶點故事閱讀 69,116評論 6 398
  • 文/花漫 我一把揭開白布骂蓖。 她就那樣靜靜地躺著,像睡著了一般川尖。 火紅的嫁衣襯著肌膚如雪登下。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,713評論 1 312
  • 那天叮喳,我揣著相機與錄音被芳,去河邊找鬼。 笑死馍悟,一個胖子當著我的面吹牛畔濒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播锣咒,決...
    沈念sama閱讀 41,170評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼侵状,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了毅整?” 一聲冷哼從身側(cè)響起趣兄,我...
    開封第一講書人閱讀 40,116評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎毛嫉,沒想到半個月后诽俯,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,651評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡承粤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,714評論 3 342
  • 正文 我和宋清朗相戀三年暴区,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辛臊。...
    茶點故事閱讀 40,865評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡仙粱,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出彻舰,到底是詐尸還是另有隱情伐割,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布刃唤,位于F島的核電站隔心,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏尚胞。R本人自食惡果不足惜硬霍,卻給世界環(huán)境...
    茶點故事閱讀 42,211評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望笼裳。 院中可真熱鬧唯卖,春花似錦粱玲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,699評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至橄碾,卻和暖如春卵沉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背堪嫂。 一陣腳步聲響...
    開封第一講書人閱讀 33,814評論 1 274
  • 我被黑心中介騙來泰國打工偎箫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人皆串。 一個月前我還...
    沈念sama閱讀 49,299評論 3 379
  • 正文 我出身青樓淹办,卻偏偏與公主長得像,于是被迫代替她去往敵國和親恶复。 傳聞我的和親對象是個殘疾皇子怜森,可洞房花燭夜當晚...
    茶點故事閱讀 45,870評論 2 361

推薦閱讀更多精彩內(nèi)容