MapReduce執(zhí)行流程分析

一眷细、大致流程

這幅圖簡(jiǎn)單的描述了整個(gè)MapReduce的流程拦盹，忽略很多細(xì)節(jié)，只保留核心思想溪椎。
- 1普舆、首先InputData要先上傳到HDFS上面，因?yàn)檎麄€(gè)MapReduce依賴于HDFS校读。
- 2沼侣、InputFormat需要從HDFS上面讀取數(shù)據(jù)，進(jìn)行數(shù)據(jù)處理歉秫，得到一系列data split蛾洛。關(guān)于InputFormat，可以看第二幅圖：
  - InputFormat：MapReduce框架基礎(chǔ)類之一。主要包含兩個(gè)操作：數(shù)據(jù)分隔：Data Splits轧膘，記錄讀取器：Record Reader钞螟。
  - Data Splits：如何將數(shù)據(jù)分片，例如可以規(guī)定多少行為一片谎碍。
  - Record Reader：如何讀取分片中的數(shù)據(jù)鳞滨，比如按行讀取。每讀取一條記錄蟆淀，調(diào)用一次map函數(shù)拯啦。
- 3、InputFormat最終會(huì)得到一系列data split熔任，當(dāng)然data solit會(huì)有很多褒链，而map節(jié)點(diǎn)則要少的多，如何均勻的分配這么多data split疑苔，當(dāng)然還是Hash算法.
- 4碱蒙、當(dāng)data split到達(dá)相應(yīng)的map，map通常是進(jìn)行數(shù)據(jù)加工的地方夯巷，因此我們會(huì)自己定義數(shù)據(jù)加工邏輯，然后以key value的形式進(jìn)行輸出哀墓，框架以制表符\t來區(qū)分key和value趁餐，因此我們經(jīng)常和\t面基╰(°▽°)╯。
- 5篮绰、當(dāng)數(shù)據(jù)以（key后雷，value）的形式從map出來后，由圖一可知吠各，這些鍵值對(duì)會(huì)經(jīng)過一個(gè)稱為shuffle(洗牌)&sort的過程臀突，而在圖二詳細(xì)的描述了這個(gè)過程，圖二的左邊是Mapper階段贾漏，右邊是Reducer階段候学，Mapper階段完成后，會(huì)告訴Reducer來取：
  - shuffle：神奇發(fā)生的地方纵散，性能優(yōu)化大有可為梳码。由圖三可知Shuffle包含多個(gè)過程，其中第一個(gè)是Partitioner（分隔）：
    - Partitioner：決定數(shù)據(jù)由哪個(gè)Reducer處理伍掀，從而分區(qū)掰茶。因?yàn)槲覀兛赡苡卸鄠€(gè)Reducer這是非常有必要的，例如采用hash蜜笤，可以對(duì)key取模濒蒋，決定哪一個(gè)key由哪一個(gè)Reducer來處理。
    - MemoryBuffer：內(nèi)存緩沖區(qū)把兔，每個(gè)map的結(jié)果和partition處理的 key value結(jié)果都保存在緩存中沪伙。
    - Spill：內(nèi)存緩沖區(qū)達(dá)到閾值時(shí)瓮顽，溢寫spill線程鎖住這80M 的緩沖區(qū)，開始將數(shù)據(jù)寫出到本地磁盤中焰坪，然后釋放內(nèi)存趣倾。每次溢寫都生成一個(gè)數(shù)據(jù)文件。溢出的數(shù)據(jù)到磁盤前會(huì)對(duì)數(shù)據(jù)進(jìn)行key排序sort某饰，以及合并combiner儒恋。
      注意，溢出的數(shù)據(jù)到磁盤前會(huì)對(duì)數(shù)據(jù)進(jìn)行key排序sort黔漂，這是框架會(huì)自動(dòng)做的
      發(fā)現(xiàn)相同Reduce的key數(shù)量诫尽，會(huì)拼接到一起，減少 partition的索引數(shù)量炬守。
- 6牧嫉、經(jīng)過Spill的過程，這無疑會(huì)生成許多小文件减途，因此后面還會(huì)有一個(gè)merge on disk酣藻，會(huì)將一個(gè)mapper上面生成的小文件根據(jù)partitions合并成一個(gè)大文件。這在圖二由詳細(xì)的描述鳍置。
- 7辽剧、然后繼續(xù)看圖二，還會(huì)有一個(gè)fetch（取來）的過程税产，這時(shí)Copy phase階段典型操作怕轿，它會(huì)根據(jù)partition，將各個(gè)Mapper上面對(duì)應(yīng)的Reduce應(yīng)該處理的數(shù)據(jù)（key辟拷，value）copy到對(duì)應(yīng)的Reduce撞羽，上圖只給出了一個(gè)Mapper和Reducer。
- 8衫冻、然后還會(huì)有一系列merge和sort诀紊，通過對(duì)key排序，將數(shù)據(jù)整合給Reduce處理隅俘，Reduce處理的過程和Mapper階段類似渡紫，面對(duì)大量數(shù)據(jù)當(dāng)然也會(huì)有：MemoryBuffer，Spill & Sort過程考赛。
- 9惕澎、Reduce：多個(gè)reduce任務(wù)輸出的數(shù)據(jù)都屬于不同的 partition，因此結(jié)果數(shù)據(jù)的key不會(huì)重復(fù)颜骤。合并reduce的輸出文件即可得到最終的結(jié)果唧喉。

注意：

在顧及每個(gè)Mapper和Reducer處理的過程的細(xì)節(jié)的時(shí)候，還要跳出來，以全局的視角（即系統(tǒng)中會(huì)有多個(gè)Mapper和Reducer）觀察思考八孝，為什么設(shè)計(jì)的這么復(fù)雜董朝。

相關(guān)圖示

image.png

最后編輯于：2017.12.09 17:20:49

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市干跛，隨后出現(xiàn)的幾起案子子姜，更是在濱河造成了極大的恐慌，老刑警劉巖楼入，帶你破解...
沈念sama閱讀 218,525評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件哥捕，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡嘉熊，警方通過查閱死者的電腦和手機(jī)遥赚，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,203評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來阐肤，“玉大人凫佛，你說我怎么就攤上這事≡邢В” “怎么了愧薛？”我有些...
開封第一講書人閱讀 164,862評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)衫画。經(jīng)常有香客問我厚满，道長(zhǎng)，這世上最難降的妖魔是什么碧磅？我笑而不...
開封第一講書人閱讀 58,728評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮遵馆，結(jié)果婚禮上鲸郊，老公的妹妹穿的比我還像新娘。我一直安慰自己货邓，他們只是感情好秆撮，可當(dāng)我...
茶點(diǎn)故事閱讀 67,743評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著换况，像睡著了一般职辨。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上戈二，一...
開封第一講書人閱讀 51,590評(píng)論 1贊 305
城市分裂傳說
那天舒裤，我揣著相機(jī)與錄音，去河邊找鬼觉吭。笑死腾供，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播伴鳖，決...
沈念sama閱讀 40,330評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼节值，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了榜聂？” 一聲冷哼從身側(cè)響起搞疗，我...
開封第一講書人閱讀 39,244評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎须肆，沒想到半個(gè)月后匿乃，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,693評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡休吠，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,885評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年扳埂，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瘤礁。...
茶點(diǎn)故事閱讀 40,001評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡阳懂，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出柜思，到底是詐尸還是另有隱情岩调，我是刑警寧澤，帶...
沈念sama閱讀 35,723評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布赡盘，位于F島的核電站号枕，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏陨享。R本人自食惡果不足惜葱淳，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,343評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望抛姑。院中可真熱鬧赞厕，春花似錦、人聲如沸定硝。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,919評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)蔬啡。三九已至诲侮，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間箱蟆，已是汗流浹背沟绪。一陣腳步聲響...
開封第一講書人閱讀 33,042評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留空猜，地道東北人近零。一個(gè)月前我還...
沈念sama閱讀 48,191評(píng)論 3贊 370
代替公主和親
正文我出身青樓诺核，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親久信。傳聞我的和親對(duì)象是個(gè)殘疾皇子窖杀，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,955評(píng)論 2贊 355

MapReduce執(zhí)行流程分析

一眷细、大致流程

注意：

相關(guān)圖示

推薦閱讀更多精彩內(nèi)容