以MapReduce編程五步走為基礎(chǔ)至会,說MapReduce工作原理

MapReduce采用了分而治之的思想用含,MapReduce主要分為兩部分矮慕,一部分是Map——分,一部分是Reduce——合

MapReduce全過程的數(shù)據(jù)都是以鍵值對的形式存在的

首先啄骇,我們假設(shè)我們有一個(gè)文件痴鳄,文件中存了以下內(nèi)容

hive spark hive hbase?

hadoop hive spark?

sqoop flume scala

這里涉及到一個(gè)偏移量(一個(gè)字符或空格為1位)?

第一行的偏移量為0,內(nèi)容為“hive spark hive hbase”?

第二行的偏移量為21缸夹,內(nèi)容為“hadoop hive spark”?

第三行的偏移量為39痪寻,內(nèi)容為“sqoop flume scala”

Map

輸入?

MapReduce處理的數(shù)據(jù)是從HDFS中讀出來的?

以偏移量為key,內(nèi)容value虽惭,則存在:?

(0橡类,“hive spark hive hbase”)?

(21,“hadoop hive spark”)?

(39芽唇,“sqoop flume scala”)

輸出?

將輸入的value中的詞以空格為分割逐個(gè)取出來做key顾画,1做value存起來?

(hive,1)?

(spark匆笤,1)?

(hive亲雪,1)?

(hbase,1)?

(hadoop疚膊,1)?

注意:有多少行义辕,Map就要循環(huán)做幾次

shuffle(之后會(huì)詳細(xì)說,這里簡單解釋)

輸入?

map的輸出

輸出?

相同的key的value進(jìn)行合并?

這里合并不是進(jìn)行累加或別的運(yùn)算寓盗,而是合并到一個(gè)集合中?

(hive灌砖,[1,1,1])?

(spark,[1,1])?

(hbase,[1])?

(hadoop傀蚌,[1])?

基显。。善炫。撩幽。。箩艺。

reduce

輸入?

shuffle的輸出

輸出?

根據(jù)業(yè)務(wù)將value進(jìn)行合并?

例如當(dāng)前的業(yè)務(wù)就會(huì)將value進(jìn)行累加

MapReduce處理數(shù)據(jù)五步走

整個(gè)MapReduce程序窜醉,所有數(shù)據(jù)以(key,value)形式流動(dòng)

第一步:input

正常情況下不需要寫代碼?

僅僅在MapReduce程序運(yùn)行的時(shí)候指定一個(gè)路徑即可

第二步:map(核心)

map(key艺谆,value榨惰,output,context)?

key:每行數(shù)據(jù)的偏移量——基本沒用?

value:每行數(shù)據(jù)的內(nèi)容——真正需要處理的內(nèi)容

第三步:shuffle

不需要寫代碼

第四步:reduce(核心)

reduce(key静汤,value琅催,output居凶,context)?

key:業(yè)務(wù)需求中的key?

value:要聚合的值

第五步:output

正常情況下不需要寫代碼?

僅僅在MapReduce程序運(yùn)行的時(shí)候指定一個(gè)路徑即可


工作原理

想學(xué)習(xí)大數(shù)據(jù)或者想學(xué)習(xí)大數(shù)據(jù)的朋友,我整理了一套大數(shù)據(jù)的學(xué)習(xí)視頻免費(fèi)分享給大家藤抡,從入門到實(shí)戰(zhàn)都有侠碧,大家可以加微信:Lxiao_28獲取,還可以入微信群交流2颉(備注領(lǐng)取資料弄兜,真實(shí)有效哦)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末嫁佳,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子谷暮,更是在濱河造成了極大的恐慌蒿往,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件湿弦,死亡現(xiàn)場離奇詭異瓤漏,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)颊埃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進(jìn)店門蔬充,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人班利,你說我怎么就攤上這事饥漫。” “怎么了罗标?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵庸队,是天一觀的道長。 經(jīng)常有香客問我闯割,道長彻消,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任宙拉,我火速辦了婚禮宾尚,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘谢澈。我一直安慰自己煌贴,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布锥忿。 她就那樣靜靜地躺著崔步,像睡著了一般。 火紅的嫁衣襯著肌膚如雪缎谷。 梳的紋絲不亂的頭發(fā)上井濒,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天灶似,我揣著相機(jī)與錄音,去河邊找鬼瑞你。 笑死酪惭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的者甲。 我是一名探鬼主播春感,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼虏缸!你這毒婦竟也來了鲫懒?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤刽辙,失蹤者是張志新(化名)和其女友劉穎窥岩,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宰缤,經(jīng)...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡颂翼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了慨灭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片朦乏。...
    茶點(diǎn)故事閱讀 40,127評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖氧骤,靈堂內(nèi)的尸體忽然破棺而出呻疹,到底是詐尸還是另有隱情,我是刑警寧澤筹陵,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布诲宇,位于F島的核電站,受9級特大地震影響惶翻,放射性物質(zhì)發(fā)生泄漏姑蓝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一吕粗、第九天 我趴在偏房一處隱蔽的房頂上張望纺荧。 院中可真熱鬧,春花似錦颅筋、人聲如沸宙暇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽占贫。三九已至,卻和暖如春先口,著一層夾襖步出監(jiān)牢的瞬間型奥,已是汗流浹背瞳收。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留厢汹,地道東北人螟深。 一個(gè)月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像烫葬,于是被迫代替她去往敵國和親界弧。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內(nèi)容