Hadoop分布式計(jì)算架構(gòu)流程分析-Hadoop商業(yè)環(huán)境實(shí)戰(zhàn)

版權(quán)聲明:本套技術(shù)專欄是作者(秦凱新)平時(shí)工作的總結(jié)和升華鸥咖,通過從真實(shí)商業(yè)環(huán)境抽取案例進(jìn)行總結(jié)和分享,并給出商業(yè)應(yīng)用的調(diào)優(yōu)建議和集群環(huán)境容量規(guī)劃等內(nèi)容兄世,請(qǐng)持續(xù)關(guān)注本套博客啼辣。版權(quán)聲明:禁止轉(zhuǎn)載,歡迎學(xué)習(xí)御滩。

1. Hadoop分布式計(jì)算架構(gòu)流程分析

  • 1)在MapReduce程序讀取文件的輸入目錄上存放相應(yīng)的文件鸥拧。
  • 2)客戶端程序在submit()方法執(zhí)行前,獲取待處理的數(shù)據(jù)信息削解,然后根據(jù)集群中參數(shù)的配置形成一個(gè)任務(wù)分配規(guī)劃富弦。
  • 3)客戶端提交job.split、jar包氛驮、job.xml等文件給yarn腕柜,yarn中的resourcemanager啟動(dòng)MRAppMaster。
  • 4)MRAppMaster啟動(dòng)后根據(jù)本次job的描述信息矫废,計(jì)算出需要的maptask實(shí)例數(shù)量盏缤,然后向集群申請(qǐng)機(jī)器啟動(dòng)相應(yīng)數(shù)量的maptask進(jìn)程。
  • 5)maptask利用客戶指定的inputformat來讀取數(shù)據(jù)蓖扑,形成輸入KV對(duì)唉铜。
  • 6)maptask將輸入KV對(duì)傳遞給客戶定義的map()方法,做邏輯運(yùn)算
  • 7)map()運(yùn)算完畢后將KV對(duì)序列化后寫到環(huán)形緩沖區(qū)律杠,環(huán)形緩沖區(qū)默認(rèn)是100M,寫滿80%后潭流,會(huì)根據(jù)Hash(結(jié)合Reduce Task 的數(shù)量柿赊,不會(huì)超過Reduce Task的數(shù)量)溢寫,溢寫過程中使緩存中的KV對(duì)按照K分區(qū)排序后不斷寫到磁盤文件從而形成不同的分區(qū)幻枉,若設(shè)置了本地聚合碰声,則會(huì)合并Combiner多個(gè)溢寫文件為一個(gè)。
  • 9)MRAppMaster監(jiān)控到所有maptask進(jìn)程任務(wù)完成之后熬甫,會(huì)根據(jù)客戶指定的參數(shù)啟動(dòng)相應(yīng)數(shù)- 量的reducetask進(jìn)程胰挑,并告知reducetask進(jìn)程要處理的數(shù)據(jù)分區(qū)。
  • 10)Reducetask進(jìn)程啟動(dòng)之后椿肩,根據(jù)MRAppMaster告知的待處理數(shù)據(jù)所在位置瞻颂,從若干臺(tái)maptask運(yùn)行所在機(jī)器上獲取到若干個(gè)maptask輸出結(jié)果文件,并在本地進(jìn)行重新歸并排序郑象,然后按照相同key的KV為一個(gè)組贡这,調(diào)用客戶定義的reduce()方法進(jìn)行邏輯運(yùn)算。
  • 11)Reducetask運(yùn)算完畢后厂榛,調(diào)用客戶指定的outputformat將結(jié)果數(shù)據(jù)輸出到外部存儲(chǔ)盖矫。

2. Hadoop分布式計(jì)算流程圖

  • 1)分布式的運(yùn)算程序往往需要分成至少2個(gè)階段。
  • 2)第一個(gè)階段的maptask并發(fā)實(shí)例击奶,完全并行運(yùn)行辈双,互不相干。
  • 3)第二個(gè)階段的reduce task并發(fā)實(shí)例互不相干柜砾,但是他們的數(shù)據(jù)依賴于上一個(gè)階段的所有maptask并發(fā)實(shí)例的輸出湃望。
  • 4)MapReduce編程模型只能包含一個(gè)map階段和一個(gè)reduce階段,如果用戶的業(yè)務(wù)邏輯非常復(fù)雜痰驱,那就只能多個(gè)mapreduce程序证芭,串行運(yùn)行。
    如下圖展示了這個(gè)MapReduce過程:


    image
image

3 總結(jié)

秦凱新 于深圳

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末担映,一起剝皮案震驚了整個(gè)濱河市废士,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌另萤,老刑警劉巖湃密,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異四敞,居然都是意外死亡泛源,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門忿危,熙熙樓的掌柜王于貴愁眉苦臉地迎上來达箍,“玉大人,你說我怎么就攤上這事铺厨《忻担” “怎么了硬纤?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)赃磨。 經(jīng)常有香客問我筝家,道長(zhǎng),這世上最難降的妖魔是什么邻辉? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任溪王,我火速辦了婚禮,結(jié)果婚禮上值骇,老公的妹妹穿的比我還像新娘莹菱。我一直安慰自己,他們只是感情好吱瘩,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布道伟。 她就那樣靜靜地躺著,像睡著了一般使碾。 火紅的嫁衣襯著肌膚如雪蜜徽。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天部逮,我揣著相機(jī)與錄音娜汁,去河邊找鬼。 笑死兄朋,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的怜械。 我是一名探鬼主播颅和,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼缕允!你這毒婦竟也來了峡扩?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤障本,失蹤者是張志新(化名)和其女友劉穎教届,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體驾霜,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡案训,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了粪糙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片强霎。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蓉冈,靈堂內(nèi)的尸體忽然破棺而出城舞,到底是詐尸還是另有隱情轩触,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布家夺,位于F島的核電站脱柱,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏拉馋。R本人自食惡果不足惜榨为,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望椅邓。 院中可真熱鬧柠逞,春花似錦、人聲如沸景馁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)合住。三九已至绰精,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間透葛,已是汗流浹背笨使。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留僚害,地道東北人硫椰。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像萨蚕,于是被迫代替她去往敵國(guó)和親靶草。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 團(tuán)隊(duì)共識(shí)共創(chuàng)營(yíng)第一期 第一期作業(yè) 一. 我是我自己岳遥。 我是采油院一名員工 我是爸爸媽媽的二女兒奕翔。 我是公公婆婆的兒...
    放飛自我1閱讀 117評(píng)論 0 0
  • 聲明:本人也是菜鳥一只派继,寫的不好的地方,大佬們指點(diǎn)指點(diǎn)捻艳。 Jonathon's Blog用代碼一路奮戰(zhàn)驾窟。 新搭建了...
    自律更自由閱讀 1,056評(píng)論 0 7
  • 0x01 安裝 0x02 使用 對(duì)于mysql數(shù)據(jù)庫(kù): 其他使用方式
    Hf1dw閱讀 373評(píng)論 0 0
  • 2016年9月5日 因?yàn)樽蛲砘鼐┨恚裉焖饋砭图涌炻?lián)系后溝通會(huì)員讯泣,約見朋友纫普。 雖然好幾個(gè)人不回復(fù)微信,答應(yīng)辦會(huì)...
    徐曉美閱讀 300評(píng)論 0 0
  • 3 戰(zhàn)成釗狂奔間四下辨識(shí)道路,還時(shí)不時(shí)的回頭看看追來的四海殺盟的殺手昨稼,幾個(gè)呼吸間就奔出了上百米节视,來到了一扇門前...
    谷戰(zhàn)閱讀 204評(píng)論 0 1