MapReduce備忘錄

概念

大數(shù)據(jù)時代的數(shù)據(jù)分析任務比傳統(tǒng)的數(shù)據(jù)分析任務要復雜憾儒，因為往往涉及的數(shù)據(jù)量巨大镣丑。通常來講宣谈，我們的筆記本電腦可以同時干很多事兒，而對于大規(guī)模的數(shù)據(jù)處理任務來說肄梨，就不是一臺電腦同時做許多任務了，而是許多電腦同時做一件任務的邏輯關(guān)系挠锥。這就引入了并行計算的概念众羡。

許多電腦同時做一件復雜的任務，涉及很多問題：比如蓖租，

這個任務首先要分解成許多子任務
然后這些小任務要在這些電腦上面去分配
然后這些電腦完成了任務之后反饋的結(jié)果還要匯總
同時還要考慮如果這些電腦的故障異常等問題怎么去解決

MapReduce就是這樣的一個編程模型粱侣，一個復雜的任務按照這個抽象的模型去實現(xiàn)，就可以有效進行并行計算蓖宦。

在MapReduce中有兩類機器：（1）Master齐婴，負責調(diào)度，相當于工地的工頭稠茂；（2）Worker柠偶，相當于干活的工人情妖。Worker進一步分為兩種：一種是Mapper，另一種叫Reducer

image.png

一個例子

其實我們可以從word count這個實例來理解MapReduce诱担。MapReduce大體上分為六個步驟：input, split, map, shuffle, reduce, output毡证。細節(jié)描述如下：

輸入(input)：如給定一個文檔，包含如下四行：
Hello Java
Hello C
Hello Java
Hello C++
拆分(split)：將上述文檔中每一行的內(nèi)容轉(zhuǎn)換為key-value對蔫仙，即：
0 - Hello Java
1 - Hello C
2 – Hello Java
3 - Hello C++
映射(map)：將拆分之后的內(nèi)容轉(zhuǎn)換成新的key-value對料睛，即：
(Hello , 1)
(Java , 1)
(Hello , 1)
(C , 1)
(Hello , 1)
(Java , 1)
(Hello , 1)
(C++ , 1)
派發(fā)(shuffle)：將key相同的扔到一起去，即：
(Hello , 1)
(Hello , 1)
(Hello , 1)
(Hello , 1)
(Java , 1)
(Java , 1)
(C , 1)
(C++ , 1)
注意：這一步需要移動數(shù)據(jù)摇邦，原來的數(shù)據(jù)可能在不同的datanode上恤煞，這一步過后，相同key的數(shù)據(jù)會被移動到同一臺機器上施籍。最終居扒，它會返回一個list包含各種k-value對，即：
{ Hello: 1,1,1,1}
{Java: 1,1}
{C: 1}
{C++: 1}
縮減(reduce)：把同一個key的結(jié)果加在一起法梯。如：
(Hello , 4)
(Java , 2)
(C , 1)
(C++,1)
輸出(output): 輸出縮減之后的所有結(jié)果苔货。

Hadoop 生態(tài)圈

Hadoop是一個開發(fā)和運行大規(guī)模數(shù)據(jù)分析程序的軟件平臺,是隸屬Apache的一個用java語言實現(xiàn)的開源軟件框架，在大量普通服務器組成的集群中對海量數(shù)據(jù)進行分布式計算立哑。

HDFS——Hadoop生態(tài)圈的基本組成部分是Hadoop分布式文件系統(tǒng)（HDFS）夜惭。HDFS是一種數(shù)據(jù)分布式保存機制，數(shù)據(jù)被保存在計算機集群上铛绰。HDFS為HBase等系統(tǒng)提供了基礎诈茧。
MapReduce——Hadoop的主要執(zhí)行框架是MapReduce，它是一個分布式捂掰、并行處理的編程模型敢会。MapReduce把任務分為map(映射)階段和reduce(化簡)。開發(fā)人員基于存儲在HDFS中數(shù)據(jù)这嚣，編寫Hadoop的MapReduce任務鸥昏。由于MapReduce工作原理的特性， Hadoop能以并行的方式訪問數(shù)據(jù)姐帚，從而實現(xiàn)快速訪問數(shù)據(jù)吏垮。
Hbase——HBase是一個建立在HDFS之上，面向列的NoSQL數(shù)據(jù)庫罐旗，用于快速讀/寫大量數(shù)據(jù)膳汪。HBase使用Zookeeper進行管理，確保所有組件都正常運行九秀。
Zookeeper——用于Hadoop的分布式協(xié)調(diào)服務遗嗽。Hadoop的許多組件依賴于Zookeeper，它運行在計算機集群上面鼓蜒，用于管理Hadoop操作痹换。
Oozie——Oozie是一個可擴展的工作體系征字，集成于Hadoop的堆棧，用于協(xié)調(diào)多個MapReduce作業(yè)的執(zhí)行晴音。它能夠管理一個復雜的系統(tǒng)柔纵，基于外部事件來執(zhí)行，外部事件包括數(shù)據(jù)的定時和數(shù)據(jù)的產(chǎn)出锤躁。
Pig——它是MapReduce編程的復雜性的抽象搁料。Pig平臺包括運行環(huán)境和用于分析Hadoop數(shù)據(jù)集的腳本語言(Pig Latin)。其編譯器將PigLatin翻譯成MapReduce程序序列系羞。
Hive——Hive類似于SQL高級語言郭计，用于運行基于Hadoop的查詢語句，Hive讓不熟悉MapReduce開發(fā)人員也能編寫數(shù)據(jù)查詢語句椒振，然后這些語句被翻譯為Hadoop上面的MapReduce任務昭伸。像Pig一樣，Hive作為一個抽象層工具澎迎，吸引了很多熟悉SQL而不是Java編程的數(shù)據(jù)分析師庐杨。

參考資料

https://www.zhihu.com/question/23345991/answer/53996060
https://www.zhihu.com/question/23345991/answer/223113502
https://zhuanlan.zhihu.com/p/20953323

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市夹供，隨后出現(xiàn)的幾起案子灵份，更是在濱河造成了極大的恐慌，老刑警劉巖哮洽，帶你破解...
沈念sama閱讀 222,681評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件填渠，死亡現(xiàn)場離奇詭異，居然都是意外死亡鸟辅，警方通過查閱死者的電腦和手機氛什，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,205評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來匪凉，“玉大人枪眉，你說我怎么就攤上這事≡俨悖” “怎么了贸铜？”我有些...
開封第一講書人閱讀 169,421評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長树绩。經(jīng)常有香客問我，道長隐轩，這世上最難降的妖魔是什么饺饭？我笑而不...
開封第一講書人閱讀 60,114評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮职车，結(jié)果婚禮上瘫俊，老公的妹妹穿的比我還像新娘鹊杖。我一直安慰自己，他們只是感情好扛芽，可當我...
茶點故事閱讀 69,116評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布骂蓖。她就那樣靜靜地躺著，像睡著了一般川尖。火紅的嫁衣襯著肌膚如雪登下。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,713評論 1贊 312
城市分裂傳說
那天叮喳，我揣著相機與錄音被芳，去河邊找鬼。笑死馍悟，一個胖子當著我的面吹牛畔濒，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播锣咒，決...
沈念sama閱讀 41,170評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼侵状，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了毅整？” 一聲冷哼從身側(cè)響起趣兄，我...
開封第一講書人閱讀 40,116評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎毛嫉，沒想到半個月后诽俯，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,651評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡承粤，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,714評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年暴区，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辛臊。...
茶點故事閱讀 40,865評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡仙粱，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出彻舰，到底是詐尸還是另有隱情伐割，我是刑警寧澤，帶...
沈念sama閱讀 36,527評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布刃唤，位于F島的核電站隔心，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏尚胞。R本人自食惡果不足惜硬霍，卻給世界環(huán)境...
茶點故事閱讀 42,211評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望笼裳。院中可真熱鬧唯卖，春花似錦粱玲、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,699評論 0贊 25
一樁弒父案抽减，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至橄碾，卻和暖如春卵沉，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背堪嫂。一陣腳步聲響...
開封第一講書人閱讀 33,814評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工偎箫，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人皆串。一個月前我還...
沈念sama閱讀 49,299評論 3贊 379
代替公主和親
正文我出身青樓淹办，卻偏偏與公主長得像，于是被迫代替她去往敵國和親恶复。傳聞我的和親對象是個殘疾皇子怜森，可洞房花燭夜當晚...
茶點故事閱讀 45,870評論 2贊 361

MapReduce備忘錄

概念

一個例子

Hadoop 生態(tài)圈

參考資料

推薦閱讀更多精彩內(nèi)容