Map Reduce執(zhí)行過程

Map Reduce 執(zhí)行過程是數(shù)倉hql調(diào)優(yōu)所必須熟知的，也是初高級(jí)數(shù)倉工程師面試基本必問的一塊內(nèi)容八千，所以為了面包，鞏固學(xué)習(xí)一下。

Map Reduce 執(zhí)行過程：?map階段 ---> shuffle階段 ---> reduce階段

?map階段

1.分片讀取策添，在進(jìn)行map計(jì)算之前，mapreduce會(huì)根據(jù)輸入文件計(jì)算輸入分片（input split）毫缆，每個(gè)輸入分片（input split）針對(duì)一個(gè)map任務(wù)唯竹，輸入分片（input split）存儲(chǔ)的并非數(shù)據(jù)本身，而是一個(gè)分片長度和一個(gè)記錄數(shù)據(jù)的位置的數(shù)組苦丁，輸入分片（input split）往往和hdfs的block（塊）關(guān)系很密切浸颓，假如我們設(shè)定hdfs的塊的大小是128mb，如果我們輸入有三個(gè)文件旺拉，大小分別是3mb产上、129mb和255mb，那么mapreduce會(huì)把3mb文件分為一個(gè)輸入分片（input split）蛾狗，129mb則是兩個(gè)輸入分片（input split）而255mb也是兩個(gè)輸入分片（input split）蒂秘，那么就會(huì)有5個(gè)map任務(wù)將執(zhí)行，而且每個(gè)map執(zhí)行的數(shù)據(jù)大小不均淘太，這個(gè)也是mapreduce優(yōu)化計(jì)算的一個(gè)關(guān)鍵點(diǎn)姻僧。

2.Map 計(jì)算规丽，主要是將解析出的key/value交給用戶編寫map()函數(shù)處理，并產(chǎn)生一系列新的key/value撇贺。

3.Partition,?對(duì)于map輸出的每一個(gè)鍵值對(duì)赌莺，系統(tǒng)都會(huì)給定一個(gè)partition，partition值默認(rèn)是通過計(jì)算key的hash值后對(duì)Reduce task的數(shù)量取模獲得松嘶。如果一個(gè)鍵值對(duì)的partition值為1艘狭，意味著這個(gè)鍵值對(duì)會(huì)交給第一個(gè)Reducer處理。

4.Collect收集翠订，在用戶編寫map()函數(shù)中巢音，當(dāng)數(shù)據(jù)處理完成后，一般會(huì)調(diào)用OutputCollector.collect()輸出結(jié)果尽超。在該函數(shù)內(nèi)部官撼，它會(huì)將生成的key/value分區(qū)（調(diào)用Partitioner），并寫入一個(gè)環(huán)形內(nèi)存緩沖區(qū)中似谁。

5.Sort, 當(dāng)Spill觸發(fā)后傲绣，SortAndSpill先把Kvbuffer中的數(shù)據(jù)按照partition值和key兩個(gè)關(guān)鍵字升序排序，移動(dòng)的只是索引數(shù)據(jù)巩踏，排序結(jié)果是Kvmeta中數(shù)據(jù)按照partition為單位聚集在一起秃诵，同一partition內(nèi)的按照key有序。

6.Spill階段塞琼，即“溢寫”菠净，當(dāng)環(huán)形緩沖區(qū)滿后，MapReduce會(huì)將數(shù)據(jù)寫到本地磁盤上彪杉，生成一個(gè)臨時(shí)文件毅往。需要注意的是，將數(shù)據(jù)寫入本地磁盤之前在讶，先要對(duì)數(shù)據(jù)進(jìn)行一次本地排序煞抬，并在必要時(shí)對(duì)數(shù)據(jù)進(jìn)行合并霜大、壓縮等操作。

溢寫階段詳情：

步驟1：利用快速排序算法對(duì)緩存區(qū)內(nèi)的數(shù)據(jù)進(jìn)行排序，排序方式是缕贡，先按照分區(qū)編號(hào)partition進(jìn)行排序福稳，然后按照key進(jìn)行排序。這樣途茫，經(jīng)過排序后碟嘴，數(shù)據(jù)以分區(qū)為單位聚集在一起，且同一分區(qū)內(nèi)所有數(shù)據(jù)按照key有序囊卜。

步驟2：按照分區(qū)編號(hào)由小到大依次將每個(gè)分區(qū)中的數(shù)據(jù)寫入任務(wù)工作目錄下的臨時(shí)文件output/spillN.out（N表示當(dāng)前溢寫次數(shù)）中娜扇。如果用戶設(shè)置了Combiner错沃，則寫入文件之前，對(duì)每個(gè)分區(qū)中的數(shù)據(jù)進(jìn)行一次聚集操作雀瓢。

步驟3：將分區(qū)數(shù)據(jù)的元信息寫到內(nèi)存索引數(shù)據(jù)結(jié)構(gòu)SpillRecord中枢析，其中每個(gè)分區(qū)的元信息包括在臨時(shí)文件中的偏移量、壓縮前數(shù)據(jù)大小和壓縮后數(shù)據(jù)大小刃麸。如果當(dāng)前內(nèi)存索引大小超過1MB醒叁，則將內(nèi)存索引寫到文件output/spillN.out.index中。

7.Combine階段,combiner階段是程序員可以選擇的泊业，combiner其實(shí)也是一種reduce操作把沼，Combiner是一個(gè)本地化的reduce操作，它是map運(yùn)算的后續(xù)操作吁伺，主要是在map計(jì)算出中間文件前做一個(gè)簡單的合并重復(fù)key值的操作饮睬，例如我們對(duì)文件里的單詞頻率做統(tǒng)計(jì)，map計(jì)算時(shí)候如果碰到一個(gè)hadoop的單詞就會(huì)記錄為1箱蝠，但是這篇文章里hadoop可能會(huì)出現(xiàn)n多次续捂，那么map輸出文件冗余就會(huì)很多，因此在reduce計(jì)算前對(duì)相同的key做一個(gè)合并操作宦搬，那么文件會(huì)變小牙瓢，這樣就提高了寬帶的傳輸效率，畢竟hadoop計(jì)算力寬帶資源往往是計(jì)算的瓶頸也是最為寶貴的資源间校，但是combiner操作是有風(fēng)險(xiǎn)的矾克，使用它的原則是combiner的輸入不會(huì)影響到reduce計(jì)算的最終輸入，例如：如果計(jì)算只是求總數(shù)憔足，最大值胁附，最小值可以使用combiner，但是做平均值計(jì)算使用combiner的話滓彰，最終的reduce計(jì)算結(jié)果就會(huì)出錯(cuò)控妻。

shuffle 階段

Shuffle過程包含在Map和Reduce兩端，即Map shuffle和Reduce shuffle揭绑。

1.在Map端的shuffle過程是對(duì)Map的結(jié)果進(jìn)行分區(qū)弓候、排序、分割他匪，然后將屬于同一劃分（分區(qū)）的輸出合并在一起并寫在磁盤上菇存，最終得到一個(gè)分區(qū)有序的文件，分區(qū)有序的含義是map輸出的鍵值對(duì)按分區(qū)進(jìn)行排列邦蜜，具有相同partition值的鍵值對(duì)存儲(chǔ)在一起依鸥，每個(gè)分區(qū)里面的鍵值對(duì)又按key值進(jìn)行升序排列（默認(rèn)），其流程大致如下

map shuffle

? ? ?2.在reduce端的shuffle過程悼沈，主要包含復(fù)制Map輸出copy贱迟、排序合并兩個(gè)階段姐扮，Reduce任務(wù)通過HTTP向各個(gè)Map任務(wù)拖取它所需要的數(shù)據(jù)，Copy過來的數(shù)據(jù)會(huì)先放入內(nèi)存緩沖區(qū)中衣吠，如果內(nèi)存緩沖區(qū)中能放得下這次數(shù)據(jù)的話就直接把數(shù)據(jù)寫到內(nèi)存中溶握，即內(nèi)存到內(nèi)存merge。當(dāng)內(nèi)存緩存區(qū)中存儲(chǔ)的Map數(shù)據(jù)占用空間達(dá)到一定程度的時(shí)候蒸播，開始啟動(dòng)內(nèi)存中merge睡榆，把內(nèi)存中的數(shù)據(jù)merge輸出到磁盤上一個(gè)文件中，即內(nèi)存到磁盤merge袍榆。在將buffer中多個(gè)map輸出合并寫入磁盤之前胀屿。Reduce的內(nèi)存緩沖區(qū)可通過mapred.job.shuffle.input.buffer.percent配置，默認(rèn)是JVM的heap size的70%包雀。內(nèi)存到磁盤merge的啟動(dòng)門限可以通過mapred.job.shuffle.merge.percent配置宿崭，默認(rèn)是66%。

????當(dāng)屬于該reducer的map輸出全部拷貝完成才写，則會(huì)在reducer上生成多個(gè)文件（如果拖取的所有map數(shù)據(jù)總量都沒有內(nèi)存緩沖區(qū)大葡兑，則數(shù)據(jù)就只存在于內(nèi)存中），這時(shí)開始執(zhí)行合并操作赞草，即磁盤到磁盤merge讹堤，Map的輸出數(shù)據(jù)已經(jīng)是有序的，Merge進(jìn)行一次合并排序厨疙，所謂Reduce端的sort過程就是這個(gè)合并的過程洲守。一般Reduce是一邊copy一邊sort，即copy和sort兩個(gè)階段是重疊而不是完全分開的沾凄。最終Reduce shuffle過程會(huì)輸出一個(gè)整體有序的數(shù)據(jù)塊

reduce 階段

對(duì)排序后的鍵值對(duì)調(diào)用用戶定義的reduce函數(shù)進(jìn)行處理梗醇，鍵相等的鍵值對(duì)調(diào)用一次reduce方法，每次調(diào)用會(huì)產(chǎn)生零個(gè)或者多個(gè)鍵值對(duì)撒蟀，最后把這些輸出的鍵值對(duì)寫入到HDFS文件中

參考鏈接：https://blog.csdn.net/u014374284/article/details/49205885

最后編輯于：2020.12.02 12:18:33

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末叙谨，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子保屯，更是在濱河造成了極大的恐慌手负，老刑警劉巖，帶你破解...
沈念sama閱讀 222,729評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件配椭，死亡現(xiàn)場離奇詭異虫溜，居然都是意外死亡雹姊，警方通過查閱死者的電腦和手機(jī)股缸，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,226評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來吱雏，“玉大人敦姻，你說我怎么就攤上這事瘾境。” “怎么了镰惦？”我有些...
開封第一講書人閱讀 169,461評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵迷守，是天一觀的道長。經(jīng)常有香客問我旺入，道長兑凿，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,135評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任茵瘾，我火速辦了婚禮礼华，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘拗秘。我一直安慰自己圣絮，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 69,130評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布雕旨。她就那樣靜靜地躺著扮匠，像睡著了一般。火紅的嫁衣襯著肌膚如雪凡涩。梳的紋絲不亂的頭發(fā)上棒搜，一...
開封第一講書人閱讀 52,736評(píng)論 1贊 312
城市分裂傳說
那天，我揣著相機(jī)與錄音活箕，去河邊找鬼帮非。笑死，一個(gè)胖子當(dāng)著我的面吹牛讹蘑，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播座慰，決...
沈念sama閱讀 41,179評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼游盲！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起蛮粮，我...
開封第一講書人閱讀 40,124評(píng)論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤益缎，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后莺奔，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,657評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡令哟，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,723評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年恼琼，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片屏富。...
茶點(diǎn)故事閱讀 40,872評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡晴竞，死狀恐怖狠半，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情神年，我是刑警寧澤，帶...
沈念sama閱讀 36,533評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布衣摩，位于F島的核電站，受9級(jí)特大地震影響艾扮，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜泡嘴，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,213評(píng)論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一逆济、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧奖慌，春花似錦、人聲如沸简僧。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,700評(píng)論 0贊 25
一樁弒父案棉姐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽啦逆。三九已至，卻和暖如春夏志，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,819評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留溉贿，地道東北人。一個(gè)月前我還...
沈念sama閱讀 49,304評(píng)論 3贊 379
代替公主和親
正文我出身青樓九杂，卻偏偏與公主長得像宣蠕，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子抢蚀，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,876評(píng)論 2贊 361

Map Reduce執(zhí)行過程

?map階段

shuffle 階段

reduce 階段

推薦閱讀更多精彩內(nèi)容