MapReduce-分布式計(jì)算引擎

MepReduce背景

  • 來源于google的mepreduce克隆版

mepreduce的特點(diǎn)

  • 易于編程
  • 良好的擴(kuò)展性
  • 高容錯(cuò)性
  • 適合pb級(jí)以上的海量數(shù)據(jù)的離線處理

mepreduce應(yīng)用場(chǎng)景

  • 簡(jiǎn)單的搜索統(tǒng)計(jì)
  • 搜索引擎建立索引(mepreduce的初衷)
  • 海量數(shù)據(jù)的查找
  • 復(fù)雜數(shù)據(jù)的算法分析(聚類算法订晌、分類算法虏辫、推薦算法、圖算法等)

mepreduce的缺點(diǎn)

  • 實(shí)時(shí)計(jì)算
  • 流式計(jì)算
  • DAG計(jì)算
    多個(gè)應(yīng)用程序存在依賴關(guān)系锈拨,后一個(gè)應(yīng)用程序的輸入為前一個(gè)應(yīng)用程序的輸出

mepreduce的編程模型(基于wordcount)

image.png
  • input
    輸入一大部分文件,什么都有
  • splitting
    分片砌庄,任務(wù)是把一堆任務(wù)切成小文件
    大任務(wù)切成小任務(wù)
    輸入是一堆小文件
  • mapping
    splitting的小文件每片都交給一個(gè)map來處理
    輸入是一個(gè)key-value的鍵值對(duì)
  • shuffling(混洗)
    1、對(duì)map后的數(shù)據(jù)進(jìn)行混洗
    2奕枢、對(duì)相同的key進(jìn)行合并(把key相同的發(fā)送給同一個(gè)節(jié)點(diǎn))
    3娄昆、混洗的依據(jù)是key的哈希對(duì)reduce的個(gè)數(shù)的模
    4、取完模后還會(huì)進(jìn)行排序(排序后會(huì)使相同的key集中起來缝彬,這樣以便后續(xù)操作)
  • reducer
    對(duì)key的value進(jìn)行統(tǒng)計(jì)萌焰,就可以輸出結(jié)果了
    reducer的數(shù)量用戶自定義
  • result
    結(jié)果輸出

mepreduce的作業(yè)運(yùn)行流程-wordcount

mapreduce將作業(yè)的整個(gè)運(yùn)行過程分為兩個(gè)階段

  • map階段
    map階段由一定數(shù)量的map task組成(一個(gè)map task可以理解為一個(gè)進(jìn)程)
    1、inputFormat(用戶指定)
    2谷浅、mapper(用戶指定邏輯)
    3扒俯、partition(用戶指定)
  • reduce階段
    1、數(shù)據(jù)遠(yuǎn)程拷貝
    2一疯、數(shù)據(jù)按照key排序
    3撼玄、數(shù)據(jù)處理(用戶指定)
    4、數(shù)據(jù)輸出格式(用戶指定)
    不過map和reduce用戶指定 其他的mepreduce有默認(rèn)設(shè)置墩邀,可以自己去自定義

mepeduce的編程模型(數(shù)據(jù)流向)

image.png
  • hdfs上的數(shù)據(jù)根據(jù)block為一個(gè)塊
  • 每個(gè)split的數(shù)據(jù)塊交由mapper來處理
  • partition 負(fù)責(zé)將每個(gè)mapper的結(jié)果輸出到各自的reduce中掌猛,partition根據(jù)key的hash取reduce數(shù)量的模來計(jì)算,patition進(jìn)行分片分開執(zhí)行并輸出本地磁盤眉睹,mapper可能在不同的機(jī)器上執(zhí)行留潦,數(shù)據(jù)輸出在本地磁盤,partition還會(huì)進(jìn)行排序(歸并排序)辣往,mapper階段完成
  • 接下里就是reduce階段兔院,
  • reduce開始就先去取各個(gè)mapper上的數(shù)據(jù),對(duì)mapper完成后的partition的數(shù)據(jù)進(jìn)行拉日鞠鳌(比如一個(gè)mapper機(jī)器上同時(shí)有好幾個(gè)partition執(zhí)行的分片坊萝,reduce1只要編號(hào)為1的分片)--其實(shí)這就是shuffle混洗過程
  • 接下來就開始shuffle排序過程
  • 接下來就是output輸出
  • 結(jié)束

mepreduce 優(yōu)化

  • combiner
    1、其實(shí)可以發(fā)現(xiàn)在mapper階段也是可以進(jìn)行排序來優(yōu)化的,在mapper輸出的時(shí)候進(jìn)行一個(gè)局部合并(這個(gè)過程稱為combiner,通常和reduce的過程是一樣的)
    2十偶、合并之后菩鲜,mapper端的數(shù)據(jù)量減少,處理起來就會(huì)變快
    3惦积、注意combiner的邏輯的可執(zhí)行型接校,比如求平均值就不能用,用個(gè)數(shù)之和就能使用
  • paritioner
    1狮崩、parititioner決定了mapper的結(jié)果由哪一個(gè)reduce處理
    2蛛勉、這個(gè)分區(qū)的過程可以自己處理(根據(jù)ip,域名都是可以的)

mepreduce的架構(gòu)(在yarn基礎(chǔ)上)

image.png

過程:
1、client向yarn提交mepreduce任務(wù)(直接指向的是resourceManager)
2睦柴、resourceManage找一臺(tái)空閑的nodeManager,
3诽凌、在這臺(tái)nodeMenage來啟動(dòng)appMaster
4、appMaster會(huì)向resourceManage申請(qǐng)資源
5坦敌、appMaster申請(qǐng)到資源后會(huì)向nodeManager分配任務(wù)侣诵,并啟動(dòng)起來
存在問題:

  • appMaster失敗
    如果appMaster出現(xiàn)失敗,yarn的resourceManage會(huì)自動(dòng)重新啟動(dòng)狱窘,啟動(dòng)幾次(由用戶指定)如果還是失敗杜顺,則作業(yè)啟動(dòng)失敗
  • map或者reduce失敗
    task周期性的向appMaster定時(shí)心跳,一旦掛掉蘸炸,就會(huì)重啟躬络,重啟固定次數(shù)后還是怪調(diào),就會(huì)重新申請(qǐng)資源
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末幻馁,一起剝皮案震驚了整個(gè)濱河市洗鸵,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌仗嗦,老刑警劉巖膘滨,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異稀拐,居然都是意外死亡火邓,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門德撬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來铲咨,“玉大人,你說我怎么就攤上這事蜓洪∠死眨” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵隆檀,是天一觀的道長(zhǎng)摇天。 經(jīng)常有香客問我粹湃,道長(zhǎng),這世上最難降的妖魔是什么泉坐? 我笑而不...
    開封第一講書人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任为鳄,我火速辦了婚禮,結(jié)果婚禮上腕让,老公的妹妹穿的比我還像新娘孤钦。我一直安慰自己,他們只是感情好纯丸,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開白布偏形。 她就那樣靜靜地躺著,像睡著了一般液南。 火紅的嫁衣襯著肌膚如雪壳猜。 梳的紋絲不亂的頭發(fā)上勾徽,一...
    開封第一講書人閱讀 51,462評(píng)論 1 302
  • 那天滑凉,我揣著相機(jī)與錄音,去河邊找鬼喘帚。 笑死畅姊,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的吹由。 我是一名探鬼主播若未,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼倾鲫!你這毒婦竟也來了粗合?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤乌昔,失蹤者是張志新(化名)和其女友劉穎隙疚,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體磕道,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡供屉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了溺蕉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伶丐。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖疯特,靈堂內(nèi)的尸體忽然破棺而出哗魂,到底是詐尸還是另有隱情,我是刑警寧澤漓雅,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布录别,位于F島的核電站羹与,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏庶灿。R本人自食惡果不足惜纵搁,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望往踢。 院中可真熱鬧腾誉,春花似錦、人聲如沸峻呕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)瘦癌。三九已至猪贪,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間讯私,已是汗流浹背热押。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留斤寇,地道東北人桶癣。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像娘锁,于是被迫代替她去往敵國(guó)和親牙寞。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容