一個(gè)簡(jiǎn)明的Mapreduce 原理分析

1. mapreduce 簡(jiǎn)介

mapreduce源自google的一篇文章,將海量數(shù)據(jù)處理的過程拆分為map和reduce。mapreduce 成為了最早的分布式計(jì)算框架,這樣即使不懂的分布式計(jì)算框架的內(nèi)部運(yùn)行機(jī)制的用戶抱完,也可以利用分布式的計(jì)算框架實(shí)現(xiàn)分布式的計(jì)算,并在hadoop上面運(yùn)行刃泡。

1. 設(shè)計(jì)思想

hadoop 文件系統(tǒng) 巧娱,提供了一個(gè)分布式的文件系統(tǒng),但是hadoop文件系統(tǒng)讀寫的操作都涉及到大量的網(wǎng)絡(luò)的操作烘贴,并不能很好的完成實(shí)時(shí)性比較強(qiáng)的任務(wù)禁添。

但是hadoop可以給上面的應(yīng)用提供一個(gè)很好的支持。比如hadoop文件系統(tǒng)上面可以運(yùn)行mapreduce桨踪。mapreduce是一個(gè)計(jì)算的框架老翘,mapreduce是一個(gè)分布式的計(jì)算框架,這樣mapreduce利用分布式的文件系統(tǒng)锻离,將不同的機(jī)器上完成不同的計(jì)算铺峭,然后就計(jì)算結(jié)果返回。這樣很好的利用了分布式的文件系統(tǒng)纳账。

數(shù)據(jù)分布式的存儲(chǔ)逛薇,然后計(jì)算的時(shí)候,分布式的計(jì)算疏虫,然后將結(jié)果返回永罚。這樣的好處就是不會(huì)涉及到大量的網(wǎng)絡(luò)傳輸數(shù)據(jù)。

不知道在哪里看見一句話卧秘,覺得很好呢袱,記了下來(lái)。大數(shù)據(jù)設(shè)計(jì)的一個(gè)基本的思想是將計(jì)算的任務(wù)推送到數(shù)據(jù)所在的地方翅敌,而不是反過來(lái)羞福。

2. Mapreduce 的架構(gòu)

mrappmaster(管理節(jié)點(diǎn))
Maptask(多個(gè))
reducetask(多個(gè))

mapreduce 的計(jì)算過程,舉一個(gè)例子 wordcount (單詞計(jì)數(shù)的例子)比如說(shuō)有一個(gè)文件 蚯涮,文件內(nèi)容:

good better best never it rest 
till good is better and better is best 

那么第一步 先map治专,map的流程是卖陵,將單詞以空格來(lái)切分,然后建立一個(gè)key-value的map张峰。

得到的結(jié)果是:

good    1
better  1
best    1
never   1
it      1
rest    1
till    1
good    1
is      1
better  1
and     1
better  1
is      1
best    1

上面這個(gè)map的結(jié)果泪蔫,相當(dāng)于給每一個(gè)每一個(gè)單詞都建立一個(gè)字典,key就是單詞本身喘批,value是個(gè)數(shù)撩荣。

第二步是reduce:
reduce是將一致的單詞,發(fā)送個(gè)同一個(gè)reduce節(jié)點(diǎn)饶深。在同一個(gè)reduce節(jié)點(diǎn)上面餐曹,這個(gè)reduce節(jié)點(diǎn),負(fù)責(zé)將相同的key合并再一起敌厘。

這樣就完成的單詞的計(jì)數(shù)台猴。


image.png
這里存在幾個(gè)問題:

Q1: reduce的方式是將一個(gè)類型的key,送給同一個(gè)節(jié)點(diǎn)额湘。比如說(shuō)卿吐,把good都送給第一個(gè)節(jié)點(diǎn)旁舰。till送給第二個(gè)節(jié)點(diǎn)锋华。那么如果做到這一點(diǎn)呢?

答:使用hash表的方式箭窜,一個(gè)key毯焕,放在hash表里面,就會(huì)產(chǎn)生一個(gè)為一個(gè)code(java 里面的數(shù)據(jù)結(jié)構(gòu)是 hashcode)磺樱,然后再給它取余數(shù)纳猫。比如機(jī)器有四個(gè)節(jié)點(diǎn),做reduce竹捉,那么就取余4芜辕,這樣計(jì)算的任務(wù)就分給四臺(tái)機(jī)器。這個(gè)就是shuffl機(jī)制块差。(shuffl就是洗牌的意思)(這個(gè)算法其實(shí)就是哈希取模的算法)

Q2: map 執(zhí)行完成之后侵续,中間結(jié)果保存在哪里?
map函數(shù)輸出的中間結(jié)果key/value數(shù)據(jù)在內(nèi)存中進(jìn)行緩存憨闰,然后周期性的寫入磁盤状蜗。每個(gè)map函數(shù)在寫入磁盤之前,通過哈希函數(shù)鹉动,將自己的key/value對(duì)分割成R份轧坎。(R是reduce的個(gè)數(shù) 哈希函數(shù)一般是 用key對(duì)r進(jìn)行哈希取模,這樣將map函數(shù)的中間數(shù)據(jù)分割成r份泽示,每一份分給一個(gè)reduce)缸血。當(dāng)某個(gè)reduce任務(wù)的worker接收到master的通知蜜氨,其通過rpc遠(yuǎn)程調(diào)用 將map任務(wù)產(chǎn)生的m份屬于自己的文件遠(yuǎn)程拉取到本地。

mapreduce的計(jì)算特點(diǎn)以及不足:
mapreduce的計(jì)算框架的優(yōu)點(diǎn)是捎泻,極強(qiáng)的擴(kuò)展能力记劝,可以在數(shù)千臺(tái)機(jī)器上并發(fā)的執(zhí)行。其次族扰,有很好的容錯(cuò)性厌丑,另外,就是向上的接口簡(jiǎn)潔渔呵。用戶只需要寫map和reduce函數(shù)怒竿,即可完成大規(guī)模數(shù)據(jù)的并行處理。

mapreduce的缺點(diǎn):
mapreduce并不適合對(duì)實(shí)時(shí)性要求比較高的場(chǎng)景扩氢,比如交互式查詢或者是流式計(jì)算耕驰。另外,也不適合迭代類的計(jì)算(比如機(jī)器學(xué)習(xí)類的應(yīng)用)录豺。

原因:
mapreduce的啟動(dòng)時(shí)間比較長(zhǎng)朦肘,對(duì)于批處理的任務(wù),這個(gè)問題并不算大双饥。但是對(duì)于實(shí)時(shí)性比較高的任務(wù)媒抠,其啟動(dòng)時(shí)間長(zhǎng)的缺點(diǎn)就很不合適了。

mapreduce一次執(zhí)行的過程里面咏花,往往涉及到多出磁盤讀寫趴生,以及網(wǎng)絡(luò)的傳輸。對(duì)于迭代的任務(wù)昏翰,這樣很好的開銷需要很多次苍匆,明顯降低了效率。

而Storm和Spark棚菊,一個(gè)是流式計(jì)算的框架浸踩,一個(gè)是機(jī)器學(xué)習(xí)的框架。他們更適合解決這類型的任務(wù)统求。

Demo:
一個(gè)利用mapreduce思想單詞計(jì)數(shù)的實(shí)例:http://www.reibang.com/p/59ebf5a36ee5

參考:

  1. google的mapreduce 論文
  2. 《hadoop權(quán)威指南》
  3. 《hadoop 海量數(shù)據(jù)處理》
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末检碗,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子球订,更是在濱河造成了極大的恐慌后裸,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件冒滩,死亡現(xiàn)場(chǎng)離奇詭異微驶,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門因苹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)苟耻,“玉大人,你說(shuō)我怎么就攤上這事扶檐⌒渍龋” “怎么了?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵款筑,是天一觀的道長(zhǎng)智蝠。 經(jīng)常有香客問我,道長(zhǎng)奈梳,這世上最難降的妖魔是什么杈湾? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮攘须,結(jié)果婚禮上漆撞,老公的妹妹穿的比我還像新娘。我一直安慰自己于宙,他們只是感情好浮驳,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著捞魁,像睡著了一般至会。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上署驻,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天奋献,我揣著相機(jī)與錄音,去河邊找鬼旺上。 笑死,一個(gè)胖子當(dāng)著我的面吹牛糖埋,可吹牛的內(nèi)容都是我干的宣吱。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼瞳别,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼征候!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起祟敛,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤疤坝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后馆铁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體跑揉,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了历谍。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片现拒。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖望侈,靈堂內(nèi)的尸體忽然破棺而出印蔬,到底是詐尸還是另有隱情,我是刑警寧澤脱衙,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布侥猬,位于F島的核電站,受9級(jí)特大地震影響捐韩,放射性物質(zhì)發(fā)生泄漏陵究。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一奥帘、第九天 我趴在偏房一處隱蔽的房頂上張望铜邮。 院中可真熱鬧,春花似錦寨蹋、人聲如沸松蒜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)秸苗。三九已至,卻和暖如春运褪,著一層夾襖步出監(jiān)牢的瞬間惊楼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工秸讹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留檀咙,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓璃诀,卻偏偏與公主長(zhǎng)得像弧可,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子劣欢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容