第十章 計(jì)算層優(yōu)化之?dāng)?shù)據(jù)傾斜

在MapReduce執(zhí)行的過程中陈惰,會(huì)把任務(wù)的原始數(shù)據(jù)分片到多個(gè)Task中執(zhí)行北专。想象以下場(chǎng)景禀挫,當(dāng)任務(wù)的多數(shù)Task都在短時(shí)間內(nèi)完成,只有個(gè)別Task執(zhí)行的時(shí)間特別長(zhǎng)拓颓,從而拖慢了整個(gè)任務(wù)的執(zhí)行速度语婴,浪費(fèi)了資源。表現(xiàn)形式就是任務(wù)進(jìn)度卡在99%驶睦,這種現(xiàn)象就是數(shù)據(jù)傾斜砰左。

MapReduce流程:

① 文件分片,一個(gè)分片交由一個(gè)map task執(zhí)行

② map task首先把數(shù)據(jù)從磁盤讀入內(nèi)存環(huán)形緩沖區(qū)场航,在緩沖區(qū)快滿時(shí)觸發(fā)spil缠导,將數(shù)據(jù)溢寫到磁盤多個(gè)文件中,默認(rèn)根據(jù)key的hash值進(jìn)行分區(qū)溉痢,寫入每個(gè)文件前會(huì)進(jìn)行排序僻造。

③ map端會(huì)進(jìn)行部分聚合操作憋他,減少數(shù)據(jù)傳輸中的網(wǎng)絡(luò)消耗

④ reduce節(jié)點(diǎn)從不同map節(jié)點(diǎn)拉取自己需要處理的數(shù)據(jù)

⑤ 在ruduce節(jié)點(diǎn)上把文件合并成一個(gè)輸入reduce task,執(zhí)行任務(wù)


Map傾斜:

1)導(dǎo)致map端數(shù)據(jù)傾斜的原因:

① 輸入文件小文件過多嫡意,導(dǎo)致數(shù)據(jù)分布不均勻举瑰,從而產(chǎn)生數(shù)據(jù)傾斜

② map task做聚合時(shí),某個(gè)key特別多蔬螟,從而產(chǎn)生數(shù)據(jù)傾斜

2)解決map端數(shù)據(jù)傾斜方案:

針對(duì)情況①此迅,首先上游對(duì)文件進(jìn)行合并,然后通過配置參數(shù)修改map task個(gè)數(shù)旧巾、每個(gè)map task處理的數(shù)據(jù)量耸序。

針對(duì)情況②,使用distribute by rand()將map端分發(fā)的數(shù)據(jù)重新按照隨機(jī)值進(jìn)行一次再分發(fā)鲁猩,使得map task的輸入數(shù)據(jù)分布更加均勻

3)解決map端數(shù)據(jù)傾斜核心:

① 讓map task輸入數(shù)據(jù)分布均勻

② 查找導(dǎo)致map變慢的操作

③ 考慮這些操作是否必須發(fā)生再map階段


Join傾斜:

1)join數(shù)據(jù)傾斜的場(chǎng)景:

① join的兩張表坎怪,其中有一張數(shù)據(jù)量很小

② join的兩張表數(shù)據(jù)量都很大,表中存在大量空值

③ join的兩張表數(shù)據(jù)量都很大廓握,由于數(shù)據(jù)本身分布不均勻?qū)е聝A斜

2)join數(shù)據(jù)傾斜解決方案

針對(duì)場(chǎng)景①搅窿,使用mapjoin的方式,mapjoin的原理是把小表存入每一個(gè)map節(jié)點(diǎn)的內(nèi)存中隙券,順序掃描另一張表在map端完成join男应,避免因分發(fā)key不均勻而導(dǎo)致的數(shù)據(jù)傾斜。

針對(duì)場(chǎng)景②娱仔,表中的空值聚合導(dǎo)致數(shù)據(jù)傾斜沐飘,可以使用coalesce(列,隨機(jī)值)將空值處理成隨機(jī)值牲迫,因?yàn)榭罩店P(guān)聯(lián)不上所以處理成隨機(jī)值不會(huì)影響結(jié)果

針對(duì)場(chǎng)景③耐朴,數(shù)據(jù)傾斜是由熱點(diǎn)數(shù)據(jù)導(dǎo)致,首先將熱點(diǎn)數(shù)據(jù)和非熱點(diǎn)數(shù)據(jù)分別處理盹憎,非熱點(diǎn)數(shù)據(jù)正常join筛峭,對(duì)于熱點(diǎn)數(shù)據(jù)根據(jù)情況特殊處理(核心思想是平均數(shù)據(jù)量),最后把兩部分?jǐn)?shù)據(jù)聯(lián)合在一起



?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末陪每,一起剝皮案震驚了整個(gè)濱河市影晓,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌奶稠,老刑警劉巖俯艰,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捡遍,死亡現(xiàn)場(chǎng)離奇詭異锌订,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)画株,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門辆飘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來啦辐,“玉大人,你說我怎么就攤上這事蜈项∏酃兀” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵紧卒,是天一觀的道長(zhǎng)侥衬。 經(jīng)常有香客問我,道長(zhǎng)跑芳,這世上最難降的妖魔是什么轴总? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮博个,結(jié)果婚禮上怀樟,老公的妹妹穿的比我還像新娘。我一直安慰自己盆佣,他們只是感情好往堡,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著共耍,像睡著了一般虑灰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上征堪,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天瘩缆,我揣著相機(jī)與錄音,去河邊找鬼佃蚜。 笑死庸娱,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的谐算。 我是一名探鬼主播熟尉,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼洲脂!你這毒婦竟也來了斤儿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤恐锦,失蹤者是張志新(化名)和其女友劉穎往果,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體一铅,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡陕贮,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了潘飘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肮之。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡掉缺,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出戈擒,到底是詐尸還是另有隱情眶明,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布筐高,位于F島的核電站搜囱,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏柑土。R本人自食惡果不足惜犬辰,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望冰单。 院中可真熱鬧幌缝,春花似錦、人聲如沸诫欠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)荒叼。三九已至轿偎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間被廓,已是汗流浹背坏晦。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留嫁乘,地道東北人昆婿。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蜓斧,于是被迫代替她去往敵國(guó)和親仓蛆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容