Hadoop 學(xué)習(xí)筆記 05 之 MapReduce 淺析

簡(jiǎn)介:

每一項(xiàng)新技術(shù)都是為了解決某個(gè)痛點(diǎn)恤筛,隨著數(shù)據(jù)量指數(shù)型得增長(zhǎng)箭窜,面對(duì)海量的數(shù)據(jù)技術(shù)济似,雖然存儲(chǔ)用 Hadoop 的 HDFS 文件系統(tǒng)解決猖凛,但沒(méi)初加工的數(shù)據(jù)如同一堆剛從礦場(chǎng)運(yùn)出來(lái)的礦砂赂蠢,價(jià)值度低。

那么該如何處理海量的數(shù)據(jù)呢辨泳,比如分析某個(gè)時(shí)間段訂單量 / 某個(gè)地區(qū)的幾十年的溫度虱岂?為了解決這個(gè)問(wèn)題,不得不介紹 Map reduce 這個(gè)框架菠红。

一 第岖、Mapreduce 簡(jiǎn)單介紹

官話:MapReduce 是一個(gè)分布式計(jì)算模型框架,由兩個(gè)階段組成:Map和Reduce试溯。

主要用于搜索領(lǐng)域蔑滓,解決海量數(shù)據(jù)的計(jì)算問(wèn)題,只需要實(shí)現(xiàn) Map() 和 Reduce() 兩個(gè)函數(shù)即可。

通俗理解:
好比家里一堆家務(wù)活键袱,全部給一個(gè)人做可能一整天都弄不完燎窘,于是分工,老二(Map)負(fù)責(zé)清洗碗筷蹄咖,老幺(Map)負(fù)責(zé)拖地荠耽,于是很快就搞定了;老大負(fù)責(zé)檢查(Reduce 匯總)比藻。這就是MapReduce 把任務(wù)分解再匯總铝量。

二、Mapreduce 工作(流程)原理

我分兩個(gè)版本解讀银亲,第一個(gè)是正式版慢叨,第二個(gè)是故事版

正式版例子

中文版
英文版

粗略的講,MapReduce 的工作流程分為:map task( Map 任務(wù)) 與 reduce task(Reduce 任務(wù))务蝠。

map task:
1拍谐、把一個(gè)(或多個(gè))需要處理的文件(block) 按 spill 切分并啟動(dòng)對(duì)應(yīng) map , 然后輸出到一個(gè)環(huán)形內(nèi)存緩沖區(qū)馏段,用于存儲(chǔ)任務(wù)的輸出轩拨。

當(dāng)內(nèi)存緩沖區(qū)到闕值(0.8)時(shí),會(huì)把內(nèi)容寫(xiě)到磁盤的指定目錄下的新建的一個(gè)溢出寫(xiě)文件院喜。

注意:一個(gè) spill (切片)對(duì)應(yīng)一個(gè) map task亡蓉。,map task 的并發(fā)數(shù)量是由 spill 決定的喷舀。

2砍濒、寫(xiě)磁盤前,要 partition (分區(qū))硫麻,sort (排序)爸邢。如果有 combiner(相同 key 的 map ),combine(合并) 排序后數(shù)據(jù)拿愧。

3 杠河、等最后記錄寫(xiě)完,合并全部溢出寫(xiě)文件為一個(gè)分區(qū)且排序的文件浇辜。

reduce task
1券敌、Reducer 通過(guò) Http 方式得到輸出文件的分區(qū)。

2奢赂、TaskTracker 為分區(qū)文件運(yùn)行 Reduce 任務(wù)陪白。復(fù)制階段把 Map 輸出的復(fù)制到 Reducer 的內(nèi)存或磁盤。一個(gè) Map 任務(wù)完成膳灶,Reduce 就開(kāi)始復(fù)制輸出咱士。

3 立由、排序階段合并 map 輸出,然后走 Reduce 階段序厉。

故事版本
以生活的場(chǎng)景為例子锐膜,一個(gè)餐廳進(jìn)了一批食材(input),不同的廚師去拿(Split)對(duì)應(yīng)的食材切碎(Map)弛房,切碎之后就放到不同的機(jī)器上(烤箱 冷藏柜)(Shuffle 洗牌)道盏,然后顧客來(lái)會(huì)點(diǎn)不同的食物,服務(wù)員會(huì)給他們組裝(Reduce)文捶,最后交給顧客(Output / Finalize)荷逞。

故事版

三 、應(yīng)用場(chǎng)景

Map Reduce 就是一種分治思想粹排,把大問(wèn)題分解成小問(wèn)題种远,各個(gè)擊破,那么應(yīng)用場(chǎng)景呢顽耳?

1坠敷、統(tǒng)計(jì)單詞數(shù)
2、建立倒排索引
3射富、統(tǒng)計(jì)用戶(手機(jī)號(hào)碼)的流量
4膝迎、計(jì)算 URL 的訪問(wèn)頻率
。胰耗。限次。。宪郊。掂恕。。弛槐。。依啰。乎串。

四、思考題:

Combiner / Partitioner 的作用是什么速警,應(yīng)用場(chǎng)景是什么以及 Shuffler 的過(guò)程是怎么樣的叹誉?

微信搜索公眾號(hào)「一起學(xué)大數(shù)據(jù)呀」,里面有更多學(xué)習(xí)資料

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末闷旧,一起剝皮案震驚了整個(gè)濱河市长豁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌忙灼,老刑警劉巖匠襟,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钝侠,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡酸舍,警方通過(guò)查閱死者的電腦和手機(jī)帅韧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)啃勉,“玉大人忽舟,你說(shuō)我怎么就攤上這事』床” “怎么了叮阅?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)泣特。 經(jīng)常有香客問(wèn)我浩姥,道長(zhǎng),這世上最難降的妖魔是什么群扶? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任及刻,我火速辦了婚禮,結(jié)果婚禮上竞阐,老公的妹妹穿的比我還像新娘缴饭。我一直安慰自己,他們只是感情好骆莹,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布颗搂。 她就那樣靜靜地躺著,像睡著了一般幕垦。 火紅的嫁衣襯著肌膚如雪丢氢。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,718評(píng)論 1 305
  • 那天先改,我揣著相機(jī)與錄音疚察,去河邊找鬼。 笑死仇奶,一個(gè)胖子當(dāng)著我的面吹牛貌嫡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播该溯,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼岛抄,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了狈茉?” 一聲冷哼從身側(cè)響起夫椭,我...
    開(kāi)封第一講書(shū)人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎氯庆,沒(méi)想到半個(gè)月后蹭秋,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體扰付,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年感凤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了悯周。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡陪竿,死狀恐怖禽翼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情族跛,我是刑警寧澤闰挡,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站礁哄,受9級(jí)特大地震影響长酗,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜桐绒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一夺脾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧茉继,春花似錦咧叭、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至派撕,卻和暖如春婉弹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背终吼。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工镀赌, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人际跪。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓佩脊,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親垫卤。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355