MapReduce模型講解

本篇文章是總結(jié)官方文檔給出的MapReduce編程模型
Input and Output types of a MapReduce job:
(input)<k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce -> <k3, v3>(output)

MapReduce 講解
新的MapReduce使用 mapreduce包下的類進(jìn)行mapreduce job的編寫

  1. Mapper
    應(yīng)用通過使用 Counter來報告統(tǒng)計數(shù)據(jù)

    與給定輸出鍵相關(guān)的所有中間值由框架分組,并傳遞到 Reducer來確定最終的輸出岸梨。用戶可以通過指定Comparator 來控制分組,
    設(shè)置如下: job.setGroupingComparatorClass(Class)

    Mapper的輸出經(jīng)過排好序后分區(qū)到每一個Reducer⌒判眨總共的分區(qū)數(shù)量是與reducer的個數(shù)是相同的从绘。用戶可以控制哪一個key去哪一個Reducer通過實現(xiàn)一個通用的 Partitioner

    用戶可以選擇一個特定的 combiner游昼,通過如下設(shè)置: Job.setCombinerClass(Class), 通過執(zhí)行中間輸出的本地聚合,將會有效的降低從Mapper到Reducer的數(shù)據(jù)輸出贵涵。

    這些中間值,輸出排序總是被簡單的格式化恰画。程序可以控制宾茂,這些中間值的輸出可以被 compressed 并且這個編碼格式可以在Configuration中控制。

    Maps數(shù)量的控制拴还,基本上一個hdfs的block分配一個mapper跨晴, 但是可以控制Mapper的數(shù)量,通過如下配置: Configuration.set(MRJobConfig.NUM_MAPS, int)

2 Reducer
在Job中設(shè)置 Reducer的實現(xiàn)類片林,通過如下設(shè)置:Job.setReducerClass(Class)
設(shè)置Reducer的數(shù)量端盆,通過如下設(shè)置: Job.setNumReduceTasks(int)

Reducer有三個主要的階段: shuffle, sort 和 reduce
shuffle
reducer的輸入是mapper中排好序的輸出费封,在這個階段焕妙,框架抓取所有mapper的輸出的相關(guān)分區(qū),通過HTTP
sort
在此階段弓摘,框架將key進(jìn)行分組(不同的mapper可能輸出相同的key)
shuffle和sort同時發(fā)生焚鹊,當(dāng)mapper輸出被獲取時,他們被合并為 key, list<>
reduce
在這個階段韧献,調(diào)用reduce方法寺旺。 典型的會輸出到文件系統(tǒng),通過 context.write(WritableComparable, Writable).
應(yīng)用將會使用 Counter(計數(shù)器) 進(jìn)行統(tǒng)計
輸出的數(shù)據(jù)是不排序的势决。

可以將 Reducer的數(shù)量設(shè)置為0
在這種情況下阻塑,mapper的task將會直接將結(jié)果寫入到文件系統(tǒng)中。

Partitioner
Partitioner 控制這些key(map-outputs)是如何進(jìn)行分區(qū)的, 一般來說果复,會對key調(diào)用hash函數(shù)來進(jìn)行分區(qū)陈莽。。分區(qū)的數(shù)量是和reduce的數(shù)量是相同的。
HashPartitioner是默認(rèn)的分區(qū)類

Job Configuration
Job 代表了一個 MapReduce任務(wù)的配置
Job 一般用來配置 Mapper類走搁,combiner独柑,Partitioner, Reducer, InputFormat, OutputFormat.
用戶也可以使用 Configuration.set(String, String)/Configuration.get(String)來設(shè)置/獲取屬性參數(shù)在應(yīng)用中需要用的到的。

當(dāng)有大量的數(shù)據(jù)需要設(shè)置/獲取時私植,通過DistributeCache來進(jìn)行設(shè)置大量的只讀數(shù)據(jù)忌栅。

JOb Input
InputFormat 描述了輸入的規(guī)范在一個Mapreduce Job中
TextInputFormat是默認(rèn)的InputFormat

InputSplit
InputSplit 表示這個一個mapper的被處理的數(shù)據(jù)。
RecordReader
RecordReader 用來在InputSplit中讀<key, value>

Job Output
OutputFormat 描述了在一個Mapreduce中輸出的規(guī)范
TextOutputFormat是默認(rèn)的OutputFormat

OutputCommitter
OutputCommitter 描述了在MapReduce 任務(wù)中如何提交 task的輸出
RecordWriter
RecordWrite將輸出<key, value> 寫入到輸出文件中
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末曲稼,一起剝皮案震驚了整個濱河市索绪,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌贫悄,老刑警劉巖瑞驱,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異窄坦,居然都是意外死亡唤反,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門鸭津,熙熙樓的掌柜王于貴愁眉苦臉地迎上來彤侍,“玉大人,你說我怎么就攤上這事逆趋≌到祝” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵父泳,是天一觀的道長般哼。 經(jīng)常有香客問我,道長惠窄,這世上最難降的妖魔是什么蒸眠? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮杆融,結(jié)果婚禮上楞卡,老公的妹妹穿的比我還像新娘。我一直安慰自己脾歇,他們只是感情好蒋腮,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著藕各,像睡著了一般池摧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上激况,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天作彤,我揣著相機與錄音膘魄,去河邊找鬼。 笑死竭讳,一個胖子當(dāng)著我的面吹牛创葡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播绢慢,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼灿渴,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了胰舆?” 一聲冷哼從身側(cè)響起骚露,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎思瘟,沒想到半個月后荸百,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體闻伶,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡滨攻,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蓝翰。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片光绕。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖畜份,靈堂內(nèi)的尸體忽然破棺而出诞帐,到底是詐尸還是另有隱情,我是刑警寧澤爆雹,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布停蕉,位于F島的核電站,受9級特大地震影響钙态,放射性物質(zhì)發(fā)生泄漏慧起。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一册倒、第九天 我趴在偏房一處隱蔽的房頂上張望蚓挤。 院中可真熱鬧,春花似錦驻子、人聲如沸灿意。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缤剧。三九已至,卻和暖如春域慷,著一層夾襖步出監(jiān)牢的瞬間荒辕,已是汗流浹背司顿。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留兄纺,地道東北人大溜。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像估脆,于是被迫代替她去往敵國和親钦奋。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容