MapReduce執(zhí)行流程分析

一眷细、大致流程

  • 這幅圖簡(jiǎn)單的描述了整個(gè)MapReduce的流程拦盹,忽略很多細(xì)節(jié),只保留核心思想溪椎。
    • 1普舆、首先InputData要先上傳到HDFS上面,因?yàn)檎麄€(gè)MapReduce依賴于HDFS校读。
    • 2沼侣、InputFormat需要從HDFS上面讀取數(shù)據(jù),進(jìn)行數(shù)據(jù)處理歉秫,得到一系列data split蛾洛。關(guān)于InputFormat,可以看第二幅圖:
      • InputFormat:MapReduce框架基礎(chǔ)類之一。主要包含兩個(gè)操作:數(shù)據(jù)分隔:Data Splits轧膘,記錄讀取器:Record Reader钞螟。
      • Data Splits:如何將數(shù)據(jù)分片,例如可以規(guī)定多少行為一片谎碍。
      • Record Reader:如何讀取分片中的數(shù)據(jù)鳞滨,比如按行讀取。每讀取一條記錄蟆淀,調(diào)用一次map函數(shù)拯啦。
    • 3、InputFormat最終會(huì)得到一系列data split熔任,當(dāng)然data solit會(huì)有很多褒链,而map節(jié)點(diǎn)則要少的多,如何均勻的分配這么多data split疑苔,當(dāng)然還是Hash算法.
    • 4碱蒙、當(dāng)data split到達(dá)相應(yīng)的map,map通常是進(jìn)行數(shù)據(jù)加工的地方夯巷,因此我們會(huì)自己定義數(shù)據(jù)加工邏輯,然后以key value的形式進(jìn)行輸出哀墓,框架以制表符\t來區(qū)分key和value趁餐,因此我們經(jīng)常和\t面基╰(°▽°)╯。
    • 5篮绰、當(dāng)數(shù)據(jù)以(key后雷,value) 的形式從map出來后,由圖一可知吠各,這些鍵值對(duì)會(huì)經(jīng)過一個(gè)稱為shuffle(洗牌)&sort的過程臀突,而在圖二詳細(xì)的描述了這個(gè)過程,圖二的左邊是Mapper階段贾漏,右邊是Reducer階段候学,Mapper階段完成后,會(huì)告訴Reducer來取
      • shuffle:神奇發(fā)生的地方纵散,性能優(yōu)化大有可為梳码。由圖三可知Shuffle包含多個(gè)過程,其中第一個(gè)是Partitioner(分隔):
        • Partitioner:決定數(shù)據(jù)由哪個(gè)Reducer處理伍掀,從而分區(qū)掰茶。因?yàn)槲覀兛赡苡卸鄠€(gè)Reducer這是非常有必要的,例如采用hash蜜笤,可以對(duì)key取模濒蒋,決定哪一個(gè)key由哪一個(gè)Reducer來處理。
        • MemoryBuffer:內(nèi)存緩沖區(qū)把兔,每個(gè)map的結(jié)果和partition處理的 key value結(jié)果都保存在緩存中 沪伙。
        • Spill:內(nèi)存緩沖區(qū)達(dá)到閾值時(shí)瓮顽,溢寫spill線程鎖住這80M 的緩沖區(qū),開始將數(shù)據(jù)寫出到本地磁盤中焰坪,然后釋放內(nèi)存趣倾。每次溢寫都生成一個(gè)數(shù)據(jù)文件。溢出的數(shù)據(jù)到磁盤前會(huì)對(duì)數(shù)據(jù)進(jìn)行key排序sort某饰,以及合并combiner儒恋。
          注意,溢出的數(shù)據(jù)到磁盤前會(huì)對(duì)數(shù)據(jù)進(jìn)行key排序sort黔漂,這是框架會(huì)自動(dòng)做的

          發(fā)現(xiàn)相同Reduce的key數(shù)量诫尽,會(huì)拼接到一起,減少 partition的索引數(shù)量炬守。
    • 6牧嫉、經(jīng)過Spill的過程,這無疑會(huì)生成許多小文件减途,因此后面還會(huì)有一個(gè)merge on disk酣藻,會(huì)將一個(gè)mapper上面生成的小文件根據(jù)partitions合并成一個(gè)大文件。這在圖二由詳細(xì)的描述鳍置。
    • 7辽剧、然后繼續(xù)看圖二,還會(huì)有一個(gè)fetch(取來)的過程税产,這時(shí)Copy phase階段典型操作怕轿,它會(huì)根據(jù)partition,將各個(gè)Mapper上面對(duì)應(yīng)的Reduce應(yīng)該處理的數(shù)據(jù)(key辟拷,value)copy到對(duì)應(yīng)的Reduce撞羽,上圖只給出了一個(gè)Mapper和Reducer。
    • 8衫冻、然后還會(huì)有一系列merge和sort诀紊,通過對(duì)key排序,將數(shù)據(jù)整合給Reduce處理隅俘,Reduce處理的過程和Mapper階段類似渡紫,面對(duì)大量數(shù)據(jù)當(dāng)然也會(huì)有:MemoryBuffer,Spill & Sort過程考赛。
    • 9惕澎、Reduce: 多個(gè)reduce任務(wù)輸出的數(shù)據(jù)都屬于不同的 partition,因此結(jié)果數(shù)據(jù)的key不會(huì)重復(fù)颜骤。合并reduce的輸出文件即可得到最終的結(jié)果唧喉。

注意:

  • 在顧及每個(gè)Mapper和Reducer處理的過程的細(xì)節(jié)的時(shí)候,還要跳出來,以全局的視角(即系統(tǒng)中會(huì)有多個(gè)Mapper和Reducer)觀察思考八孝,為什么設(shè)計(jì)的這么復(fù)雜董朝。

相關(guān)圖示

image.png
image.png
image.png
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市干跛,隨后出現(xiàn)的幾起案子子姜,更是在濱河造成了極大的恐慌,老刑警劉巖楼入,帶你破解...
    沈念sama閱讀 218,525評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哥捕,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡嘉熊,警方通過查閱死者的電腦和手機(jī)遥赚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來阐肤,“玉大人凫佛,你說我怎么就攤上這事≡邢В” “怎么了愧薛?”我有些...
    開封第一講書人閱讀 164,862評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)衫画。 經(jīng)常有香客問我厚满,道長(zhǎng),這世上最難降的妖魔是什么碧磅? 我笑而不...
    開封第一講書人閱讀 58,728評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮遵馆,結(jié)果婚禮上鲸郊,老公的妹妹穿的比我還像新娘。我一直安慰自己货邓,他們只是感情好秆撮,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,743評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著换况,像睡著了一般职辨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上戈二,一...
    開封第一講書人閱讀 51,590評(píng)論 1 305
  • 那天舒裤,我揣著相機(jī)與錄音,去河邊找鬼觉吭。 笑死腾供,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播伴鳖,決...
    沈念sama閱讀 40,330評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼节值,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了榜聂?” 一聲冷哼從身側(cè)響起搞疗,我...
    開封第一講書人閱讀 39,244評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎须肆,沒想到半個(gè)月后匿乃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,693評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡休吠,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,885評(píng)論 3 336
  • 正文 我和宋清朗相戀三年扳埂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瘤礁。...
    茶點(diǎn)故事閱讀 40,001評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡阳懂,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出柜思,到底是詐尸還是另有隱情岩调,我是刑警寧澤,帶...
    沈念sama閱讀 35,723評(píng)論 5 346
  • 正文 年R本政府宣布赡盘,位于F島的核電站号枕,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏陨享。R本人自食惡果不足惜葱淳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,343評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望抛姑。 院中可真熱鬧赞厕,春花似錦、人聲如沸定硝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蔬啡。三九已至诲侮,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間箱蟆,已是汗流浹背沟绪。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留空猜,地道東北人近零。 一個(gè)月前我還...
    沈念sama閱讀 48,191評(píng)論 3 370
  • 正文 我出身青樓诺核,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親久信。 傳聞我的和親對(duì)象是個(gè)殘疾皇子窖杀,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,955評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容