一個(gè)簡(jiǎn)明的Mapreduce 原理分析

1. mapreduce 簡(jiǎn)介

mapreduce源自google的一篇文章，將海量數(shù)據(jù)處理的過程拆分為map和reduce。mapreduce 成為了最早的分布式計(jì)算框架，這樣即使不懂的分布式計(jì)算框架的內(nèi)部運(yùn)行機(jī)制的用戶抱完，也可以利用分布式的計(jì)算框架實(shí)現(xiàn)分布式的計(jì)算，并在hadoop上面運(yùn)行刃泡。

1. 設(shè)計(jì)思想

hadoop 文件系統(tǒng) 巧娱，提供了一個(gè)分布式的文件系統(tǒng)，但是hadoop文件系統(tǒng)讀寫的操作都涉及到大量的網(wǎng)絡(luò)的操作烘贴，并不能很好的完成實(shí)時(shí)性比較強(qiáng)的任務(wù)禁添。

但是hadoop可以給上面的應(yīng)用提供一個(gè)很好的支持。比如hadoop文件系統(tǒng)上面可以運(yùn)行mapreduce桨踪。mapreduce是一個(gè)計(jì)算的框架老翘，mapreduce是一個(gè)分布式的計(jì)算框架，這樣mapreduce利用分布式的文件系統(tǒng)锻离，將不同的機(jī)器上完成不同的計(jì)算铺峭，然后就計(jì)算結(jié)果返回。這樣很好的利用了分布式的文件系統(tǒng)纳账。

數(shù)據(jù)分布式的存儲(chǔ)逛薇，然后計(jì)算的時(shí)候，分布式的計(jì)算疏虫，然后將結(jié)果返回永罚。這樣的好處就是不會(huì)涉及到大量的網(wǎng)絡(luò)傳輸數(shù)據(jù)。

不知道在哪里看見一句話卧秘，覺得很好呢袱，記了下來(lái)。大數(shù)據(jù)設(shè)計(jì)的一個(gè)基本的思想是將計(jì)算的任務(wù)推送到數(shù)據(jù)所在的地方翅敌，而不是反過來(lái)羞福。

2. Mapreduce 的架構(gòu)

mrappmaster（管理節(jié)點(diǎn)）
Maptask（多個(gè)）
reducetask（多個(gè)）

mapreduce 的計(jì)算過程，舉一個(gè)例子 wordcount （單詞計(jì)數(shù)的例子）比如說(shuō)有一個(gè)文件蚯涮，文件內(nèi)容：

good better best never it rest 
till good is better and better is best

那么第一步先map治专，map的流程是卖陵，將單詞以空格來(lái)切分，然后建立一個(gè)key-value的map张峰。

得到的結(jié)果是：

good    1
better  1
best    1
never   1
it      1
rest    1
till    1
good    1
is      1
better  1
and     1
better  1
is      1
best    1

上面這個(gè)map的結(jié)果泪蔫，相當(dāng)于給每一個(gè)每一個(gè)單詞都建立一個(gè)字典，key就是單詞本身喘批，value是個(gè)數(shù)撩荣。

第二步是reduce：
reduce是將一致的單詞，發(fā)送個(gè)同一個(gè)reduce節(jié)點(diǎn)饶深。在同一個(gè)reduce節(jié)點(diǎn)上面餐曹，這個(gè)reduce節(jié)點(diǎn)，負(fù)責(zé)將相同的key合并再一起敌厘。

這樣就完成的單詞的計(jì)數(shù)台猴。

image.png

這里存在幾個(gè)問題：

Q1: reduce的方式是將一個(gè)類型的key，送給同一個(gè)節(jié)點(diǎn)额湘。比如說(shuō)卿吐，把good都送給第一個(gè)節(jié)點(diǎn)旁舰。till送給第二個(gè)節(jié)點(diǎn)锋华。那么如果做到這一點(diǎn)呢？

答：使用hash表的方式箭窜，一個(gè)key毯焕，放在hash表里面，就會(huì)產(chǎn)生一個(gè)為一個(gè)code（java 里面的數(shù)據(jù)結(jié)構(gòu)是 hashcode）磺樱，然后再給它取余數(shù)纳猫。比如機(jī)器有四個(gè)節(jié)點(diǎn)，做reduce竹捉，那么就取余4芜辕，這樣計(jì)算的任務(wù)就分給四臺(tái)機(jī)器。這個(gè)就是shuffl機(jī)制块差。（shuffl就是洗牌的意思）（這個(gè)算法其實(shí)就是哈希取模的算法）

Q2: map 執(zhí)行完成之后侵续，中間結(jié)果保存在哪里？
map函數(shù)輸出的中間結(jié)果key/value數(shù)據(jù)在內(nèi)存中進(jìn)行緩存憨闰，然后周期性的寫入磁盤状蜗。每個(gè)map函數(shù)在寫入磁盤之前，通過哈希函數(shù)鹉动，將自己的key/value對(duì)分割成R份轧坎。（R是reduce的個(gè)數(shù) 哈希函數(shù)一般是用key對(duì)r進(jìn)行哈希取模，這樣將map函數(shù)的中間數(shù)據(jù)分割成r份泽示，每一份分給一個(gè)reduce）缸血。當(dāng)某個(gè)reduce任務(wù)的worker接收到master的通知蜜氨，其通過rpc遠(yuǎn)程調(diào)用將map任務(wù)產(chǎn)生的m份屬于自己的文件遠(yuǎn)程拉取到本地。

mapreduce的計(jì)算特點(diǎn)以及不足：
mapreduce的計(jì)算框架的優(yōu)點(diǎn)是捎泻，極強(qiáng)的擴(kuò)展能力记劝，可以在數(shù)千臺(tái)機(jī)器上并發(fā)的執(zhí)行。其次族扰，有很好的容錯(cuò)性厌丑，另外，就是向上的接口簡(jiǎn)潔渔呵。用戶只需要寫map和reduce函數(shù)怒竿，即可完成大規(guī)模數(shù)據(jù)的并行處理。

mapreduce的缺點(diǎn)：
mapreduce并不適合對(duì)實(shí)時(shí)性要求比較高的場(chǎng)景扩氢，比如交互式查詢或者是流式計(jì)算耕驰。另外，也不適合迭代類的計(jì)算（比如機(jī)器學(xué)習(xí)類的應(yīng)用）录豺。

原因：
mapreduce的啟動(dòng)時(shí)間比較長(zhǎng)朦肘，對(duì)于批處理的任務(wù)，這個(gè)問題并不算大双饥。但是對(duì)于實(shí)時(shí)性比較高的任務(wù)媒抠，其啟動(dòng)時(shí)間長(zhǎng)的缺點(diǎn)就很不合適了。

mapreduce一次執(zhí)行的過程里面咏花，往往涉及到多出磁盤讀寫趴生，以及網(wǎng)絡(luò)的傳輸。對(duì)于迭代的任務(wù)昏翰，這樣很好的開銷需要很多次苍匆，明顯降低了效率。

而Storm和Spark棚菊，一個(gè)是流式計(jì)算的框架浸踩，一個(gè)是機(jī)器學(xué)習(xí)的框架。他們更適合解決這類型的任務(wù)统求。

Demo：
一個(gè)利用mapreduce思想單詞計(jì)數(shù)的實(shí)例：http://www.reibang.com/p/59ebf5a36ee5

參考：

google的mapreduce 論文
《hadoop權(quán)威指南》
《hadoop 海量數(shù)據(jù)處理》

最后編輯于：2017.12.06 03:51:30

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末检碗，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子球订，更是在濱河造成了極大的恐慌后裸，老刑警劉巖，帶你破解...
沈念sama閱讀 221,548評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件冒滩，死亡現(xiàn)場(chǎng)離奇詭異微驶，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門因苹，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)苟耻，“玉大人，你說(shuō)我怎么就攤上這事扶檐⌒渍龋” “怎么了？”我有些...
開封第一講書人閱讀 167,990評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵款筑，是天一觀的道長(zhǎng)智蝠。經(jīng)常有香客問我，道長(zhǎng)奈梳，這世上最難降的妖魔是什么杈湾？我笑而不...
開封第一講書人閱讀 59,618評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮攘须，結(jié)果婚禮上漆撞，老公的妹妹穿的比我還像新娘。我一直安慰自己于宙，他們只是感情好浮驳，可當(dāng)我...
茶點(diǎn)故事閱讀 68,618評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著捞魁，像睡著了一般至会。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上署驻，一...
開封第一講書人閱讀 52,246評(píng)論 1贊 308
城市分裂傳說(shuō)
那天奋献，我揣著相機(jī)與錄音，去河邊找鬼旺上。笑死，一個(gè)胖子當(dāng)著我的面吹牛糖埋，可吹牛的內(nèi)容都是我干的宣吱。我是一名探鬼主播，決...
沈念sama閱讀 40,819評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼瞳别，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼征候！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起祟敛，我...
開封第一講書人閱讀 39,725評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤疤坝，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后馆铁，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體跑揉，經(jīng)...
沈念sama閱讀 46,268評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,356評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了历谍。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片现拒。...
茶點(diǎn)故事閱讀 40,488評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖望侈，靈堂內(nèi)的尸體忽然破棺而出印蔬，到底是詐尸還是另有隱情，我是刑警寧澤脱衙，帶...
沈念sama閱讀 36,181評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布侥猬，位于F島的核電站，受9級(jí)特大地震影響捐韩，放射性物質(zhì)發(fā)生泄漏陵究。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,862評(píng)論 3贊 333
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一奥帘、第九天我趴在偏房一處隱蔽的房頂上張望铜邮。院中可真熱鬧，春花似錦寨蹋、人聲如沸松蒜。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評(píng)論 0贊 24
一樁弒父案已旧，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)秸苗。三九已至，卻和暖如春运褪，著一層夾襖步出監(jiān)牢的瞬間惊楼，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,445評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工秸讹，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留檀咙，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,897評(píng)論 3贊 376
代替公主和親
正文我出身青樓璃诀，卻偏偏與公主長(zhǎng)得像弧可，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子劣欢，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,500評(píng)論 2贊 359

一個(gè)簡(jiǎn)明的Mapreduce 原理分析

1. mapreduce 簡(jiǎn)介

1. 設(shè)計(jì)思想

2. Mapreduce 的架構(gòu)

這里存在幾個(gè)問題：

推薦閱讀更多精彩內(nèi)容