1. mapreduce 簡(jiǎn)介
mapreduce源自google的一篇文章,將海量數(shù)據(jù)處理的過程拆分為map和reduce。mapreduce 成為了最早的分布式計(jì)算框架,這樣即使不懂的分布式計(jì)算框架的內(nèi)部運(yùn)行機(jī)制的用戶抱完,也可以利用分布式的計(jì)算框架實(shí)現(xiàn)分布式的計(jì)算,并在hadoop上面運(yùn)行刃泡。
1. 設(shè)計(jì)思想
hadoop 文件系統(tǒng) 巧娱,提供了一個(gè)分布式的文件系統(tǒng),但是hadoop文件系統(tǒng)讀寫的操作都涉及到大量的網(wǎng)絡(luò)的操作烘贴,并不能很好的完成實(shí)時(shí)性比較強(qiáng)的任務(wù)禁添。
但是hadoop可以給上面的應(yīng)用提供一個(gè)很好的支持。比如hadoop文件系統(tǒng)上面可以運(yùn)行mapreduce桨踪。mapreduce是一個(gè)計(jì)算的框架老翘,mapreduce是一個(gè)分布式的計(jì)算框架,這樣mapreduce利用分布式的文件系統(tǒng)锻离,將不同的機(jī)器上完成不同的計(jì)算铺峭,然后就計(jì)算結(jié)果返回。這樣很好的利用了分布式的文件系統(tǒng)纳账。
數(shù)據(jù)分布式的存儲(chǔ)逛薇,然后計(jì)算的時(shí)候,分布式的計(jì)算疏虫,然后將結(jié)果返回永罚。這樣的好處就是不會(huì)涉及到大量的網(wǎng)絡(luò)傳輸數(shù)據(jù)。
不知道在哪里看見一句話卧秘,覺得很好呢袱,記了下來(lái)。大數(shù)據(jù)設(shè)計(jì)的一個(gè)基本的思想是將計(jì)算的任務(wù)推送到數(shù)據(jù)所在的地方翅敌,而不是反過來(lái)羞福。
2. Mapreduce 的架構(gòu)
mrappmaster(管理節(jié)點(diǎn))
Maptask(多個(gè))
reducetask(多個(gè))
mapreduce 的計(jì)算過程,舉一個(gè)例子 wordcount (單詞計(jì)數(shù)的例子)比如說(shuō)有一個(gè)文件 蚯涮,文件內(nèi)容:
good better best never it rest
till good is better and better is best
那么第一步 先map治专,map的流程是卖陵,將單詞以空格來(lái)切分,然后建立一個(gè)key-value的map张峰。
得到的結(jié)果是:
good 1
better 1
best 1
never 1
it 1
rest 1
till 1
good 1
is 1
better 1
and 1
better 1
is 1
best 1
上面這個(gè)map的結(jié)果泪蔫,相當(dāng)于給每一個(gè)每一個(gè)單詞都建立一個(gè)字典,key就是單詞本身喘批,value是個(gè)數(shù)撩荣。
第二步是reduce:
reduce是將一致的單詞,發(fā)送個(gè)同一個(gè)reduce節(jié)點(diǎn)饶深。在同一個(gè)reduce節(jié)點(diǎn)上面餐曹,這個(gè)reduce節(jié)點(diǎn),負(fù)責(zé)將相同的key合并再一起敌厘。
這樣就完成的單詞的計(jì)數(shù)台猴。
這里存在幾個(gè)問題:
Q1: reduce的方式是將一個(gè)類型的key,送給同一個(gè)節(jié)點(diǎn)额湘。比如說(shuō)卿吐,把good都送給第一個(gè)節(jié)點(diǎn)旁舰。till送給第二個(gè)節(jié)點(diǎn)锋华。那么如果做到這一點(diǎn)呢?
答:使用hash表的方式箭窜,一個(gè)key毯焕,放在hash表里面,就會(huì)產(chǎn)生一個(gè)為一個(gè)code(java 里面的數(shù)據(jù)結(jié)構(gòu)是 hashcode)磺樱,然后再給它取余數(shù)纳猫。比如機(jī)器有四個(gè)節(jié)點(diǎn),做reduce竹捉,那么就取余4芜辕,這樣計(jì)算的任務(wù)就分給四臺(tái)機(jī)器。這個(gè)就是shuffl機(jī)制块差。(shuffl就是洗牌的意思)(這個(gè)算法其實(shí)就是哈希取模的算法)
Q2: map 執(zhí)行完成之后侵续,中間結(jié)果保存在哪里?
map函數(shù)輸出的中間結(jié)果key/value數(shù)據(jù)在內(nèi)存中進(jìn)行緩存憨闰,然后周期性的寫入磁盤状蜗。每個(gè)map函數(shù)在寫入磁盤之前,通過哈希函數(shù)鹉动,將自己的key/value對(duì)分割成R份轧坎。(R是reduce的個(gè)數(shù) 哈希函數(shù)一般是 用key對(duì)r進(jìn)行哈希取模,這樣將map函數(shù)的中間數(shù)據(jù)分割成r份泽示,每一份分給一個(gè)reduce)缸血。當(dāng)某個(gè)reduce任務(wù)的worker接收到master的通知蜜氨,其通過rpc遠(yuǎn)程調(diào)用 將map任務(wù)產(chǎn)生的m份屬于自己的文件遠(yuǎn)程拉取到本地。
mapreduce的計(jì)算特點(diǎn)以及不足:
mapreduce的計(jì)算框架的優(yōu)點(diǎn)是捎泻,極強(qiáng)的擴(kuò)展能力记劝,可以在數(shù)千臺(tái)機(jī)器上并發(fā)的執(zhí)行。其次族扰,有很好的容錯(cuò)性厌丑,另外,就是向上的接口簡(jiǎn)潔渔呵。用戶只需要寫map和reduce函數(shù)怒竿,即可完成大規(guī)模數(shù)據(jù)的并行處理。
mapreduce的缺點(diǎn):
mapreduce并不適合對(duì)實(shí)時(shí)性要求比較高的場(chǎng)景扩氢,比如交互式查詢或者是流式計(jì)算耕驰。另外,也不適合迭代類的計(jì)算(比如機(jī)器學(xué)習(xí)類的應(yīng)用)录豺。
原因:
mapreduce的啟動(dòng)時(shí)間比較長(zhǎng)朦肘,對(duì)于批處理的任務(wù),這個(gè)問題并不算大双饥。但是對(duì)于實(shí)時(shí)性比較高的任務(wù)媒抠,其啟動(dòng)時(shí)間長(zhǎng)的缺點(diǎn)就很不合適了。
mapreduce一次執(zhí)行的過程里面咏花,往往涉及到多出磁盤讀寫趴生,以及網(wǎng)絡(luò)的傳輸。對(duì)于迭代的任務(wù)昏翰,這樣很好的開銷需要很多次苍匆,明顯降低了效率。
而Storm和Spark棚菊,一個(gè)是流式計(jì)算的框架浸踩,一個(gè)是機(jī)器學(xué)習(xí)的框架。他們更適合解決這類型的任務(wù)统求。
Demo:
一個(gè)利用mapreduce思想單詞計(jì)數(shù)的實(shí)例:http://www.reibang.com/p/59ebf5a36ee5
參考:
- google的mapreduce 論文
- 《hadoop權(quán)威指南》
- 《hadoop 海量數(shù)據(jù)處理》