mapreduce工作流程

https://wenku.baidu.com/view/929678ccf90f76c661371a87.html

一蔼啦、MapReduce架構(gòu)組成

(主從架構(gòu))主要包含4個(gè)主要的組件:

》Client:將編寫的MapReduce程序提交給JobTracker端彼水。在Hadoop內(nèi)部用“作業(yè)”(Job)表示MapReduce程序短蜕,每個(gè)作業(yè)會(huì)被分解成若干個(gè)Map/Reduce任務(wù)(Task)。

》JobTracker:主要負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度豪椿。監(jiān)控所有TaskTracker與作業(yè)的健康狀況波丰。

》TaskTracker:TaskTracker會(huì)周期性地通過(guò)Heartbeat將本節(jié)點(diǎn)上資源的使用情況和任務(wù)的運(yùn)行進(jìn)度匯報(bào)給JobTracker,同時(shí)接收J(rèn)obTracker發(fā)送過(guò)來(lái)的命令并執(zhí)行相應(yīng)的操作(如啟動(dòng)新任務(wù)、殺死任務(wù)等)午磁。TaskTracker使用“slot”等量劃分本節(jié)點(diǎn)上的資源量≌泵牵“slot”代表計(jì)算資源(CPU迅皇、內(nèi)存等)。一個(gè)Task獲取到一個(gè)slot后才有機(jī)會(huì)運(yùn)行,而Hadoop調(diào)度器的作用就是將各個(gè)TaskTracker上的空閑slot分配給Task使用衙熔。slot分為Map slot和Reduce slot兩種,分別供Map Task和Reduce Task使用登颓。TaskTracker通過(guò)slot數(shù)目(可配置參數(shù))限定Task的并發(fā)度。

》Task:(任務(wù))Task分為Map Task和Reduce Task兩種,均由TaskTracker啟動(dòng)红氯。

map task執(zhí)行流程:


reduce task執(zhí)行流程:


二框咙、mapreduce的生命周期:(即作業(yè)提交到運(yùn)行結(jié)束的整個(gè)流程)


一共有5個(gè)步驟:

1咕痛、作業(yè)提交與初始化。JobClient喇嘱。

2茉贡、任務(wù)調(diào)度與監(jiān)控。JobTracker者铜。

3腔丧、任務(wù)運(yùn)行環(huán)境準(zhǔn)備。即TaskTracker啟動(dòng)JVM和資源隔離作烟。

4愉粤、任務(wù)執(zhí)行。TaskTracker為Task準(zhǔn)備好運(yùn)行環(huán)境后,便會(huì)啟動(dòng)Task.

5拿撩、作業(yè)完成衣厘。所有Task執(zhí)行完畢后,整個(gè)作業(yè)執(zhí)行成功.

三、mapreduce編程接口體系結(jié)構(gòu):

mapreduce編程模型接口體系的結(jié)構(gòu)如下圖:

整個(gè)編程模型位于用戶應(yīng)用程序?qū)雍蚆apReduce執(zhí)行層之間压恒。分為兩層:

第一層是最基本的Java API影暴,主要有5個(gè)編程組件:分別是InputFormat、Mapper涎显、Partitioner坤检、Reducer和OutputFormat兴猩。Hadoop自帶了很多直接可用的InputFormat期吓、Partitioner和OutputFormat,大部分情況下,用戶只需編寫Mapper和Reducer即可。

第二層是工具層,位于基本Java API之上,主要是為了方便用戶編寫復(fù)雜的MapReduce程序和利用其他編程語(yǔ)言增加MapReduce計(jì)算平臺(tái)的兼容性而提出來(lái)的倾芝。在該層中,主要提供了4個(gè)編程工具包讨勤。 ? ? ? ? ? ? ??

?JobControl:方便用戶編寫有依賴關(guān)系的作業(yè),這些作業(yè)往往構(gòu)成一個(gè)有向圖,所以通常稱為DAG(Directed Acyclic Graph)作業(yè),如第2章中的樸素貝葉斯分類算法實(shí)現(xiàn)便是4個(gè)有依賴關(guān)系的作業(yè)構(gòu)成的DAG。

?ChainMapper/ChainReducer:方便用戶編寫鏈?zhǔn)阶鳂I(yè),即在Map或者Reduce階段存在多個(gè)Mapper,形式如下:[MAPPER+ REDUCER MAPPER*]

?Hadoop Streaming:方便用戶采用非Java語(yǔ)言編寫作業(yè),允許用戶指定可執(zhí)行文件或者腳本作為Mapper/Reducer晨另。

?Hadoop Pipes:專門為C/C++程序員編寫MapReduce程序提供的工具包潭千。

四、接口介紹:

1借尿、InputFormat接口:

主要用于描述輸入數(shù)據(jù)的格式刨晴。提供以下兩個(gè)功能:

?數(shù)據(jù)切分:按照某個(gè)策略將輸入數(shù)據(jù)切分成若干個(gè)split,以便確定Map Task個(gè)數(shù)以及對(duì)應(yīng)的split。

?為Mapper提供輸入數(shù)據(jù):給定某個(gè)split,能將其解析成一個(gè)個(gè)key/value對(duì)路翻。

2狈癞、OutputFormat接口:

主要用于描述輸出數(shù)據(jù)的格式,它能夠?qū)⒂脩籼峁┑膋ey/value對(duì)寫入特定格式的文件中。

3茂契、Partitioner接口:

對(duì)Mapper產(chǎn)生的中間結(jié)果進(jìn)行分片,以便將同一分組的數(shù)據(jù)交給同一個(gè)Reducer處理,它直接影響Reduce階段的負(fù)載均衡蝶桶。

4、Mapper Reducer:

封裝了應(yīng)用程序的數(shù)據(jù)處理邏輯掉冶。所有存儲(chǔ)在底層分布式文件系統(tǒng)上的數(shù)據(jù)均要解釋成key/value的形式,并交給Mapper/Reducer中的map/reduce函數(shù)處理,產(chǎn)生另外一些key/value真竖。

五脐雪、非Java API的設(shè)計(jì):

1、Hadoop Streaming:

為方便非Java用戶編寫MapReduce程序而設(shè)計(jì)的工具包恢共。它允許用戶將任何可執(zhí)行文件或者腳本作為Mapper/Reducer战秋。

Hadoop Streaming要求用戶編寫的Mapper/Reducer從標(biāo)準(zhǔn)輸入中讀取數(shù)據(jù),并將結(jié)果寫到標(biāo)準(zhǔn)數(shù)據(jù)中,這類似于Linux中的管道機(jī)制。

》實(shí)現(xiàn)原理:

Hadoop Streaming工具包實(shí)際上是一個(gè)使用Java編寫的MapReduce作業(yè)讨韭。當(dāng)用戶使用可執(zhí)行文件或者腳本文件充當(dāng)Mapper或者Reducer時(shí),Java端的Mapper或者Reducer充當(dāng)了wrapper角色,它們將輸入文件中的key和value直接傳遞給可執(zhí)行文件或者腳本文件進(jìn)行處理,并將處理結(jié)果寫入HDFS获询。

六、Task運(yùn)行過(guò)程分析:

當(dāng)我們需要編寫一個(gè)簡(jiǎn)單的mapreduce作業(yè)時(shí)拐袜,只需要實(shí)現(xiàn)map和reduce兩個(gè)函數(shù)即可吉嚣,然后將作業(yè)提交到集群上,Hadoop內(nèi)部會(huì)將這兩個(gè)函數(shù)封裝到Map Task和Reduce Task中蹬铺。為幫助更好的理解兩個(gè)Task的實(shí)現(xiàn)原理尝哆,以下將從內(nèi)部的實(shí)現(xiàn)原理來(lái)深入分析。Map Task:read 甜攀、map 秋泄、collect 、spill 规阀、Combine恒序;Reduce Task:shuffle、merge谁撼、sort歧胁、reduce、write厉碟。

Map Task的執(zhí)行流程:

通過(guò)用戶提供的InputFormat將對(duì)應(yīng)的InputSplit解析成一系列的K/V喊巍,并以此交給map函數(shù)進(jìn)行處理;

然后按照指定的partition對(duì)數(shù)據(jù)進(jìn)行分片箍鼓,確定相應(yīng)的K/V交給哪個(gè)Reduce Task處理崭参;

將數(shù)據(jù)交給用戶定義的combine進(jìn)行本地規(guī)約,最后講處理結(jié)果保存在本地磁盤上款咖。

Reduce Task的執(zhí)行流程:

其輸入來(lái)自各個(gè)Map Task何暮。首先通過(guò)HTTP請(qǐng)求從各個(gè)Map Task上拷貝對(duì)應(yīng)的數(shù)據(jù)分片,拷貝完后以key為關(guān)鍵字對(duì)所有數(shù)據(jù)進(jìn)行排序铐殃,通過(guò)排序海洼,key相同的記錄聚集到一起形成若干分組,然后將每組數(shù)據(jù)交割reduce處理背稼,最后將結(jié)果直接寫入HDFS中贰军。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子词疼,更是在濱河造成了極大的恐慌俯树,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,978評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件贰盗,死亡現(xiàn)場(chǎng)離奇詭異许饿,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)舵盈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門陋率,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人秽晚,你說(shuō)我怎么就攤上這事瓦糟。” “怎么了赴蝇?”我有些...
    開封第一講書人閱讀 156,623評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵菩浙,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我句伶,道長(zhǎng)劲蜻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,324評(píng)論 1 282
  • 正文 為了忘掉前任考余,我火速辦了婚禮先嬉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘楚堤。我一直安慰自己疫蔓,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評(píng)論 5 384
  • 文/花漫 我一把揭開白布钾军。 她就那樣靜靜地躺著鳄袍,像睡著了一般绢要。 火紅的嫁衣襯著肌膚如雪吏恭。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,741評(píng)論 1 289
  • 那天重罪,我揣著相機(jī)與錄音樱哼,去河邊找鬼。 笑死剿配,一個(gè)胖子當(dāng)著我的面吹牛搅幅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播呼胚,決...
    沈念sama閱讀 38,892評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼茄唐,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起沪编,我...
    開封第一講書人閱讀 37,655評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤呼盆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后蚁廓,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體访圃,經(jīng)...
    沈念sama閱讀 44,104評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年相嵌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了腿时。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,569評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡饭宾,死狀恐怖批糟,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情看铆,我是刑警寧澤跃赚,帶...
    沈念sama閱讀 34,254評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站性湿,受9級(jí)特大地震影響纬傲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜肤频,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評(píng)論 3 312
  • 文/蒙蒙 一叹括、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧宵荒,春花似錦汁雷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至暑刃,卻和暖如春厢漩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背岩臣。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工溜嗜, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人架谎。 一個(gè)月前我還...
    沈念sama閱讀 46,260評(píng)論 2 360
  • 正文 我出身青樓炸宵,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親谷扣。 傳聞我的和親對(duì)象是個(gè)殘疾皇子土全,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容