select a., b. from a join b on a.id = b.id
interview: 描述如何使用MapReduce來實現(xiàn)join的功能
考察點:
1)MapReduce執(zhí)行流程
2)JOIN的底層執(zhí)行過程
3)JOIN的多種實現(xiàn)方式:ReduceJoin(shuffle)匆帚、MapJoin(沒有reduce风宁,即沒有Shuffle)
resume:
1)最新的項目是寫在最前面的
2)寫的東西一定要真正會的
- 從你寫的東西開始面起,然后逐步擴展 ====> 你的技能/技術的一個功能鏈條
ReduceJoin:
數(shù)據(jù)通過Mapper加載過來悔捶,然后經(jīng)過shuffle階段皂岔,在Reduce端完成真正的join操作
dept: dname蹋笼、deptno
emp: empno、ename躁垛、sal剖毯、deptno
Question1: Mapper的泛型里面有幾個參數(shù),各是什么意思
Question2: map方法有幾個參數(shù)教馆,各是什么意思
Question3: 為什么字符串拼接不要使用 +
Question3: Mapper 或者Reducer的生命周期的方法有哪些
有些數(shù)據(jù)比較小逊谋,是否真的有必要全部進行shuffle呢?
shuffle事整個大數(shù)據(jù)處理過程中非常耗時土铺、非常損耗性能的地方
能規(guī)避shuffle的地方就不要使用shuffle