MapReduce 任務(wù)執(zhí)行過程

MapReduce的執(zhí)行過程主要包含是三個(gè)階段:Map階段、Shuffle階段跋理、Reduce階段


MapReuce 過程分解

Map 階段

  • split: 會(huì)將輸入的大文件 split 成一個(gè) HDFS 的 block屎慢,每個(gè) map 處理一個(gè) block 的數(shù)據(jù)
  • map:對(duì)輸入分片中的每個(gè)鍵值對(duì)調(diào)用map()函數(shù)進(jìn)行運(yùn)算恩急,然后輸出一個(gè)結(jié)果鍵值對(duì)

Partitioner:對(duì) map 的輸出進(jìn)行partition盛垦,即根據(jù)key或value及reduce的數(shù)量來決定當(dāng)前的這對(duì)鍵值對(duì)最終應(yīng)該交由哪個(gè)reduce處理。默認(rèn)是對(duì)key哈希后再以reduce task數(shù)量取模殖演,默認(rèn)的取模方式只是為了避免數(shù)據(jù)傾斜氧秘。這個(gè) partition 過程可以通過指定 partitioner 自定義

  • sort:在溢寫到磁盤之前,使用快排對(duì)緩沖區(qū)數(shù)據(jù)按照partitionIdx, key排序趴久。(每個(gè)partitionIdx表示一個(gè)分區(qū)丸相,一個(gè)分區(qū)對(duì)應(yīng)一個(gè)reduce)

Combiner:如果設(shè)置了Combiner,那么在Sort之后彼棍,還會(huì)對(duì)具有相同key的鍵值對(duì)進(jìn)行合并灭忠,減少溢寫到磁盤的數(shù)據(jù)量膳算。

  • spill: map輸出寫在內(nèi)存中的環(huán)形緩沖區(qū),默認(rèn)當(dāng)緩沖區(qū)滿80%弛作,啟動(dòng)溢寫線程涕蜂,以 round-robin的方式將緩沖的數(shù)據(jù)寫出到 mapreduce.cluster.local.dir 指定的目錄磁盤
  • merge:溢寫可能會(huì)生成多個(gè)文件,這時(shí)需要將多個(gè)文件合并成一個(gè)文件映琳。合并的過程中會(huì)不斷地進(jìn)行 sort & combine 操作机隙,最后合并成了一個(gè)已分區(qū)且已排序的文件

Shuffle階段

廣義上Shuffle階段橫跨Map端和Reduce端,在Map端包括Spill過程萨西,在Reduce端包括copy和merge/sort過程有鹿。通常認(rèn)為Shuffle階段就是將map的輸出作為reduce的輸入的過程

  • Copy:Reduce端啟動(dòng)一些copy線程,通過HTTP方式將map端輸出文件中屬于自己的部分拉取到本地谎脯。Reduce會(huì)從多個(gè)map端拉取數(shù)據(jù)葱跋,并且每個(gè)map的數(shù)據(jù)都是有序的。
  • Merge:Copy過來的數(shù)據(jù)會(huì)先放入內(nèi)存緩沖區(qū)中源梭,這里的緩沖區(qū)比較大娱俺;當(dāng)緩沖區(qū)數(shù)據(jù)量達(dá)到一定閾值時(shí),將數(shù)據(jù)溢寫到磁盤(與map端類似废麻,溢寫過程會(huì)執(zhí)行 sort & combine)荠卷。如果生成了多個(gè)溢寫文件,它們會(huì)被merge成一個(gè)有序的最終文件烛愧。這個(gè)過程也會(huì)不停地執(zhí)行 sort & combine 操作僵朗。

Reduce階段

  • reduce:Shuffle階段最終生成了一個(gè)有序的文件作為Reduce的輸入,對(duì)于該文件中的每一個(gè) <key, [value1,value2...]>調(diào)用reduce()方法屑彻,并將結(jié)果寫到HDFS
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市顶吮,隨后出現(xiàn)的幾起案子社牲,更是在濱河造成了極大的恐慌,老刑警劉巖悴了,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件搏恤,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡湃交,警方通過查閱死者的電腦和手機(jī)熟空,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來搞莺,“玉大人息罗,你說我怎么就攤上這事〔挪祝” “怎么了迈喉?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵绍刮,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我挨摸,道長(zhǎng)孩革,這世上最難降的妖魔是什么种冬? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任蝶溶,我火速辦了婚禮,結(jié)果婚禮上吕粗,老公的妹妹穿的比我還像新娘熔掺。我一直安慰自己饱搏,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布瞬女。 她就那樣靜靜地躺著窍帝,像睡著了一般。 火紅的嫁衣襯著肌膚如雪诽偷。 梳的紋絲不亂的頭發(fā)上坤学,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音报慕,去河邊找鬼深浮。 笑死,一個(gè)胖子當(dāng)著我的面吹牛眠冈,可吹牛的內(nèi)容都是我干的飞苇。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼蜗顽,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼布卡!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起雇盖,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤忿等,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后崔挖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贸街,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年狸相,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了薛匪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡脓鹃,死狀恐怖逸尖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤冷溶,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布渐白,位于F島的核電站,受9級(jí)特大地震影響逞频,放射性物質(zhì)發(fā)生泄漏纯衍。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一苗胀、第九天 我趴在偏房一處隱蔽的房頂上張望襟诸。 院中可真熱鬧,春花似錦基协、人聲如沸歌亲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽陷揪。三九已至,卻和暖如春杂穷,著一層夾襖步出監(jiān)牢的瞬間悍缠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來泰國(guó)打工耐量, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留飞蚓,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓廊蜒,卻偏偏與公主長(zhǎng)得像趴拧,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子山叮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • Shuffle的正常意思是洗牌或弄亂著榴,Hadoop官網(wǎng)提供了下圖來描述該過程: 但是實(shí)際過程比上圖描述的復(fù)雜得多。...
    yannhuang閱讀 728評(píng)論 0 1
  • 原文鏈接 MapReduce的Shuffle過程介紹 Shuffle的本義是洗牌屁倔、混洗兄渺,把一組有一定規(guī)則的數(shù)據(jù)盡量...
    小透明苞谷閱讀 1,666評(píng)論 0 3
  • MapReduce處理流程圖 圖解wordcount的MapReduce 詳解Shffle Shuffle我們可以...
    忘凈空閱讀 2,852評(píng)論 0 3
  • 1 數(shù)據(jù)傾斜調(diào)優(yōu) 1.1 調(diào)優(yōu)概述 有的時(shí)候,我們可能會(huì)遇到大數(shù)據(jù)計(jì)算中一個(gè)最棘手的問題——數(shù)據(jù)傾斜汰现,此時(shí)Spar...
    wisfern閱讀 2,934評(píng)論 0 23
  • Shuffle 過程 上一章里討論了 job 的物理執(zhí)行圖,也討論了流入 RDD 中的 records 是怎么被 ...
    Albert陳凱閱讀 4,103評(píng)論 1 10