MapReduce(四):MapReduce工作流程

2.1 MapReduce詳細(xì)工作流程(一).jpg

2.2 MapReduce詳細(xì)工作流程(二).jpg

注意:

上面的流程是整個(gè)MapReduce最全工作流程,但是Shuffle過程只是從第7步開始到第16步結(jié)束,具體過程詳解如下:

1)準(zhǔn)備一個(gè)文件咏窿,例如ss.txt大小為200M碌秸。

2)上節(jié)學(xué)到,客戶算submit()前旗吁,獲取待處理數(shù)據(jù)的信息踩萎,然后根據(jù)參數(shù)配置,形成一個(gè)個(gè)任務(wù)分配的規(guī)劃很钓。

3)客戶端會(huì)將job.xml香府、xxx.jar、job.xml提交到Y(jié)arn码倦。

4)Yarn開啟Mrappmaster企孩,讀取job.xml文件,計(jì)算出MapTask數(shù)量袁稽,并開啟對(duì)應(yīng)的MapTask勿璃。

5)默認(rèn)用TextInputFormat讀取切片文件,RecorderReader按行讀取文件。

6)InputFormat讀取完數(shù)據(jù)补疑,把數(shù)據(jù)交給自定義mapper歧沪,執(zhí)行邏輯運(yùn)算。


7)MapTask收集我們的map()方法輸出的kv對(duì)莲组,放到環(huán)形緩沖區(qū)中(大小默認(rèn)100M)诊胞。

8)當(dāng)緩沖區(qū)寫到80%后,從內(nèi)存緩沖區(qū)不斷溢出本地磁盤文件锹杈,可能會(huì)溢出多個(gè)文件撵孤。在環(huán)形緩沖區(qū)中,數(shù)據(jù)一開始寫入到不同分區(qū)竭望,分區(qū)內(nèi)文件根據(jù)索引進(jìn)行快排邪码,使得分區(qū)內(nèi)數(shù)據(jù)有序。如果剩余內(nèi)存寫速度大于溢寫速度咬清,那么寫內(nèi)存操作將等待闭专。

9)環(huán)形緩沖區(qū)數(shù)據(jù)溢寫到磁盤(分區(qū)且分區(qū)內(nèi)有序)

10)多個(gè)溢出文件會(huì)被合并成大的溢出文件,將多個(gè)文件的同一個(gè)分區(qū)進(jìn)行歸并排序

11)可以在此 過程進(jìn)行COmbiner合并

10)所有Maptask任務(wù)完成后旧烧,啟動(dòng)相應(yīng)數(shù)量的ReduceTask喻圃,MrAppMaster并告知ReduceTask處理數(shù)據(jù)范圍(數(shù)據(jù)分區(qū))。這里并不是所有任務(wù)完成啟動(dòng)ReduceTask粪滤。

13)Reduce根據(jù)自己的分區(qū)號(hào)斧拍,去各個(gè)MapTask機(jī)器上取相應(yīng)的結(jié)果分區(qū)數(shù)據(jù)

14)將多個(gè)MapTask機(jī)器上結(jié)果分區(qū)數(shù)據(jù)進(jìn)行合并并進(jìn)行歸并排序


15)將數(shù)據(jù)進(jìn)行分組,數(shù)據(jù)向后查杖小,如果后一個(gè)與當(dāng)前key不一致肆汹,則當(dāng)前key和之前數(shù)據(jù)為一組發(fā)送到reducer

16)reducer處理完后,默認(rèn)通過TextOutputFormat寫出結(jié)果數(shù)據(jù)予权。

小結(jié):

  • Shuffle的緩沖區(qū)大小會(huì)影響到MapReduce程序的執(zhí)行效率昂勉,原則上說,緩沖區(qū)越大扫腺,磁盤IO次數(shù)越少岗照,執(zhí)行速度就越快

  • 緩沖區(qū)的大小可以通過參數(shù)調(diào)箏,參數(shù):mapreduce.task.io.sort.mb默認(rèn)100M笆环。

  • 環(huán)形緩沖區(qū)80%后反向?qū)懺苤粒瑫r(shí)將遠(yuǎn)80%內(nèi)存的文件寫到磁盤。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末躁劣,一起剝皮案震驚了整個(gè)濱河市迫吐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌账忘,老刑警劉巖志膀,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件熙宇,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡溉浙,警方通過查閱死者的電腦和手機(jī)烫止,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來戳稽,“玉大人烈拒,你說我怎么就攤上這事」泖ⅲ” “怎么了?”我有些...
    開封第一講書人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵吓妆,是天一觀的道長(zhǎng)赊时。 經(jīng)常有香客問我,道長(zhǎng)行拢,這世上最難降的妖魔是什么祖秒? 我笑而不...
    開封第一講書人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮舟奠,結(jié)果婚禮上竭缝,老公的妹妹穿的比我還像新娘。我一直安慰自己沼瘫,他們只是感情好抬纸,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著耿戚,像睡著了一般湿故。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上膜蛔,一...
    開封第一講書人閱讀 52,441評(píng)論 1 310
  • 那天坛猪,我揣著相機(jī)與錄音,去河邊找鬼皂股。 笑死墅茉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的呜呐。 我是一名探鬼主播就斤,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼蘑辑!你這毒婦竟也來了战转?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤以躯,失蹤者是張志新(化名)和其女友劉穎槐秧,沒想到半個(gè)月后啄踊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡刁标,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年颠通,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片膀懈。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡顿锰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出启搂,到底是詐尸還是另有隱情硼控,我是刑警寧澤,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布胳赌,位于F島的核電站牢撼,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏疑苫。R本人自食惡果不足惜熏版,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望捍掺。 院中可真熱鬧撼短,春花似錦、人聲如沸挺勿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽不瓶。三九已至胜榔,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間湃番,已是汗流浹背夭织。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吠撮,地道東北人尊惰。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像泥兰,于是被迫代替她去往敵國(guó)和親弄屡。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容