Hadoop實現join的幾種方法【大數據開發(fā)面試】

今天分享一下大數據開發(fā)的熱點問題

問題分析

本題主要是考察學員對mapreduce的熟悉程度

核心答案講解

(1)reduce side join

reduce side join是一種最簡單的join方式膨桥,其主要思想如下:

在map階段虽填,map函數同時讀取兩個文件File1和File2搔谴,為了區(qū)分兩種來源的key/value數據對,對每條數據打一個標簽 (tag)墨坚,比如:tag=0表示來自文件File1,tag=2表示來自文件File2于宙。即:map階段的主要任務是對不同文件中的數據打標簽扛稽。

在reduce階段吁峻,reduce函數獲取key相同的來自File1和File2文件的value list, 然后對于同一個key在张,對File1和File2中的數據進行join(笛卡爾乘積)用含。即:reduce階段進行實際的連接操作。

(2)map side join

之所以存在reduce side join帮匾,是因為在map階段不能獲取所有需要的join字段啄骇,即:同一個key對應的字段可能位于不同map中。Reduce side join是非常低效的瘟斜,因為shuffle階段要進行大量的數據傳輸缸夹。

Map side join是針對以下場景進行的優(yōu)化:兩個待連接表中,有一個表非常大哼转,而另一個表非常小明未,以至于小表可以直接存放到內存中。這樣壹蔓,我們可以將小表復制多 份,讓每個map task內存中存在一份(比如存放到hash table中)猫态,然后只掃描大表:對于大表中的每一條記錄key/value佣蓉,在hash table中查找是否有相同的key的記錄披摄,如果有,則連接后輸出即可勇凭。

(3)SemiJoin

SemiJoin疚膊,也叫半連接,是從分布式數據庫中借鑒過來的方法虾标。它的產生動機是:對于reduce side join寓盗,跨機器的數據傳輸量非常大,這成了join操作的一個瓶頸璧函,如果能夠在map端過濾掉不會參加join操作的數據傀蚌,則可以大大節(jié)省網絡IO。

實現方法很簡單:選取一個小表蘸吓,假設是File1善炫,將其參與join的key抽取出來,保存到文件File3中库继,File3文件一般很小箩艺,可以放到 內存中。在map階段宪萄,使用DistributedCache將File3復制到各個TaskTracker上艺谆,然后將File2中不在File3中的 key對應的記錄過濾掉,剩下的reduce階段的工作與reduce side join相同拜英。

問題擴展

map的join是將一個數據集的數據放入Map集合中擂涛,將集合在setup放入到緩存中,所以涉及DistributedCache聊记,因為涉及在內存撒妈,所以放入緩存的數據集樣本要小,否則不適用排监,所以這個業(yè)務場景比較少狰右。

reduce的join將需要join的數據集都作為map的輸入,在map的邏輯中對數據進行標記舆床,reduce中對數據進行合并棋蚌,需要自定義數據類型。分享一些相關的Hadoop教程

Hadoop的大數據

Hadoop集成Kerberos安全技術

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末挨队,一起剝皮案震驚了整個濱河市谷暮,隨后出現的幾起案子,更是在濱河造成了極大的恐慌盛垦,老刑警劉巖湿弦,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異腾夯,居然都是意外死亡颊埃,警方通過查閱死者的電腦和手機蔬充,發(fā)現死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來班利,“玉大人饥漫,你說我怎么就攤上這事÷薇辏” “怎么了庸队?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長闯割。 經常有香客問我彻消,道長,這世上最難降的妖魔是什么纽谒? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任证膨,我火速辦了婚禮,結果婚禮上鼓黔,老公的妹妹穿的比我還像新娘央勒。我一直安慰自己,他們只是感情好澳化,可當我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布崔步。 她就那樣靜靜地躺著,像睡著了一般缎谷。 火紅的嫁衣襯著肌膚如雪井濒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天列林,我揣著相機與錄音瑞你,去河邊找鬼。 笑死希痴,一個胖子當著我的面吹牛者甲,可吹牛的內容都是我干的。 我是一名探鬼主播砌创,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼虏缸,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了嫩实?” 一聲冷哼從身側響起刽辙,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎甲献,沒想到半個月后宰缤,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年撵溃,在試婚紗的時候發(fā)現自己被綠了疚鲤。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锥累。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡缘挑,死狀恐怖,靈堂內的尸體忽然破棺而出桶略,到底是詐尸還是另有隱情语淘,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布际歼,位于F島的核電站惶翻,受9級特大地震影響,放射性物質發(fā)生泄漏鹅心。R本人自食惡果不足惜吕粗,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望旭愧。 院中可真熱鬧颅筋,春花似錦、人聲如沸输枯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽桃熄。三九已至先口,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間瞳收,已是汗流浹背碉京。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留螟深,地道東北人谐宙。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像血崭,于是被迫代替她去往敵國和親卧惜。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內容