3.MapReduce框架原理 1- inputformat

image.png

1.工作流程

  • 簡述版:inputformat ->mapTask ->reduceTask ->outoutputformat
  • 詳細版:inputformat->map(sort ) -> reduce(copy sort reduce) -> outoutputformat

2.inputformat 數(shù)據(jù)輸入

  • 切塊:數(shù)據(jù)在儲存在HDFS上時皱埠,物理上先進行,按照blocksize進行切塊

  • 切片: 數(shù)據(jù)在計算的時候黄鳍,讀取過程,把文件按照按照塊的大小進行去劃分窃款,這樣做是為了防止跨機器去讀取數(shù)據(jù)(并不會在磁盤上將其切分成片進行存儲课兄。數(shù)據(jù)切片是MapReduce程序計算輸入數(shù)據(jù)的單位)

  • 切片對應(yīng)的注意點: 1每一個切片都對應(yīng)著一個MapTask,
    2.默認(rèn)切片的大小就是一個塊的大小
    3.默認(rèn)情況下,切片只針對一個文件的本身晨继,不考慮數(shù)據(jù)的整體

3.inputFormat結(jié)構(gòu)體系(源碼解析)

  • fileInputFormat inputformat的子實現(xiàn)烟阐,實現(xiàn)切片邏輯
  • textInputformat fileInputFormat的子實現(xiàn)類,實現(xiàn)讀取數(shù)據(jù)的邏輯
  • --getSplits() 負責(zé)對文件的切片

  • --createRecordReader() 負責(zé)創(chuàng)建一個RecordReader來進行數(shù)據(jù)讀取

  • FileInputFormat 負責(zé)切片

FileInputFormat .png
  • TextInputFormat負責(zé)讀取


    TextInputFormat.png
  • CombineTextInputFormat切片機制(專門用來處理小文件的)
    框架默認(rèn)的TextInputFormat切片機制是對任務(wù)按文件規(guī)劃切片紊扬,不管文件多小蜒茄,都會是一個單獨的切片,都會交給一個MapTask餐屎,這樣如果有大量小文件檀葛,就會產(chǎn)生大量的MapTask,處理效率極其低下腹缩。
    image.png

4.Partitiner 分區(qū)

  • 默認(rèn)分區(qū)
    根據(jù)當(dāng)前key的hashcode值和 ReduceTask的數(shù)量取余 得出分區(qū)編號
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  • 自定義分區(qū)
    ReduceTask的數(shù)量決定分區(qū)的數(shù)量屿聋。
    以手機號流量統(tǒng)計案例為例 (5個分區(qū))
    -- 設(shè)置的 ReduceTaskNum > 5 -->不會報錯,也不影響分區(qū)操作庆聘,但是會多出來一個空分區(qū)文件胜臊。
    -- < ReduceTaskNum < 5 會報錯,不符合邏輯
    -- ReduceTaskNum = 1伙判,走默認(rèn)規(guī)則象对,就不會走定義的規(guī)則。


    image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宴抚,一起剝皮案震驚了整個濱河市勒魔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌菇曲,老刑警劉巖冠绢,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異常潮,居然都是意外死亡弟胀,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門喊式,熙熙樓的掌柜王于貴愁眉苦臉地迎上來孵户,“玉大人,你說我怎么就攤上這事岔留∠目蓿” “怎么了?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵献联,是天一觀的道長竖配。 經(jīng)常有香客問我何址,道長,這世上最難降的妖魔是什么进胯? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任用爪,我火速辦了婚禮,結(jié)果婚禮上龄减,老公的妹妹穿的比我還像新娘项钮。我一直安慰自己班眯,他們只是感情好希停,可當(dāng)我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著署隘,像睡著了一般宠能。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上磁餐,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天违崇,我揣著相機與錄音,去河邊找鬼诊霹。 笑死羞延,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的脾还。 我是一名探鬼主播伴箩,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼鄙漏!你這毒婦竟也來了嗤谚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤怔蚌,失蹤者是張志新(化名)和其女友劉穎巩步,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體桦踊,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡椅野,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了籍胯。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片竟闪。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖芒炼,靈堂內(nèi)的尸體忽然破棺而出瘫怜,到底是詐尸還是另有隱情,我是刑警寧澤本刽,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布鲸湃,位于F島的核電站赠涮,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏暗挑。R本人自食惡果不足惜笋除,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望炸裆。 院中可真熱鬧垃它,春花似錦、人聲如沸烹看。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽惯殊。三九已至酱吝,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間土思,已是汗流浹背务热。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留己儒,地道東北人崎岂。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像闪湾,于是被迫代替她去往敵國和親冲甘。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)切片和MapTask并行度決定機制 1)一個Job的Map階段并行度由客戶端在提交Job時的切片數(shù)決定 2)每...
    bullion閱讀 791評論 0 1
  • 3.1 MapReduce工作流程 1)流程示意圖 2)流程詳解 上面的流程是整個mapreduce最全工作流程响谓,...
    碼農(nóng)GG閱讀 260評論 0 0
  • MapReduce工作流程 流程圖如下 解釋上面的流程是整個mapreduce最全工作流程娘纷,但是shuffle過程...
    ZFH__ZJ閱讀 559評論 0 3
  • InputFormat數(shù)據(jù)輸入 切片與MapTask并行度決定機制 問題引出MapTask的并行度決定Map階段的...
    Groundhog閱讀 195評論 0 0
  • 16宿命:用概率思維提高你的勝算 以前的我是風(fēng)險厭惡者嫁审,不喜歡去冒險,但是人生放棄了冒險赖晶,也就放棄了無數(shù)的可能律适。 ...
    yichen大刀閱讀 6,050評論 0 4