數(shù)據(jù)傾斜及處理

1.1操作:

1.2原因:

1)仗岖、key分布不均勻
2)李丰、業(yè)務(wù)數(shù)據(jù)本身的特性
3)惩系、建表時考慮不周
4)舵揭、某些SQL語句本身就有數(shù)據(jù)傾斜

1.3表現(xiàn):

任務(wù)進(jìn)度長時間維持在99%(或100%)讹挎,查看任務(wù)監(jiān)控頁面校赤,發(fā)現(xiàn)只有少量(1個或幾個)reduce子任務(wù)未完成。因為其處理的數(shù)據(jù)量和其他reduce差異過大筒溃。

單一reduce的記錄數(shù)與平均記錄數(shù)差異過大马篮,通常可能達(dá)到3倍甚至更多怜奖。 最長時長遠(yuǎn)大于平均時長浑测。

2數(shù)據(jù)傾斜的解決方案

SQL語句調(diào)節(jié):

如何Join:

關(guān)于驅(qū)動表的選取,選用join key分布最均勻的表作為驅(qū)動表
做好列裁剪和filter操作歪玲,以達(dá)到兩表做join的時候迁央,數(shù)據(jù)量相對變小的效果掷匠。

大小表Join:

使用map join讓小的維度表(1000條以下的記錄條數(shù)) 先進(jìn)內(nèi)存。在map端完成reduce.

大表Join大表:

把空值的key變成一個字符串加上隨機數(shù)岖圈,把傾斜的數(shù)據(jù)分到不同的reduce上讹语,由于null值關(guān)聯(lián)不上,處理后并不影響最終結(jié)果幅狮。

count distinct大量相同特殊值

count distinct時募强,將值為空的情況單獨處理,如果是計算count distinct崇摄,可以不用處理擎值,直接過濾,在最后結(jié)果中加1逐抑。如果還有其他計算鸠儿,需要進(jìn)行g(shù)roup by,可以先將值為空的記錄單獨處理厕氨,再和其他計算結(jié)果進(jìn)行union进每。

group by維度過小:

采用sum() group by的方式來替換count(distinct)完成計算命斧。

特殊情況特殊處理:

在業(yè)務(wù)邏輯優(yōu)化效果的不大情況下田晚,有些時候是可以將傾斜的數(shù)據(jù)單獨拿出來處理。最后union回去国葬。

3典型的業(yè)務(wù)場景

3.1空值產(chǎn)生的

場景:如日志中贤徒,常會有信息丟失的問題,比如日志中的 user_id汇四,如果取其中的 user_id 和 用戶表中的user_id 關(guān)聯(lián)接奈,會碰到數(shù)據(jù)傾斜的問題。

解決方法****1****: user_id為空的不參與關(guān)聯(lián)(篩選&加限制)

select * 
from log a
  join users b 
    on a.user_id is not null  and a.user_id = b.user_id

union all

select * 
from log a
where a.user_id is null;

解決方法****2 ****:賦與空值分新的key值

select *
  from log a
  left outer join users b
    on case when a.user_id is null then concat(‘hive’,rand() ) else a.user_id end = b.user_id;

結(jié)論:方法2比方法1效率更好通孽,不但io少了序宦,而且作業(yè)數(shù)也少了。解決方法1中 log讀取兩次背苦,jobs是2互捌。解決方法2 job數(shù)是1 。這個優(yōu)化適合無效 id (比如 -99 , ’’, null 等) 產(chǎn)生的傾斜問題行剂。把空值的 key 變成一個字符串加上隨機數(shù)秕噪,就能把傾斜的數(shù)據(jù)分到不同的reduce上 ,解決數(shù)據(jù)傾斜問題。

3.2不同數(shù)據(jù)類型關(guān)聯(lián)

場景:用戶表中user_id字段為int硼讽,log表中user_id字段既有string類型也有int類型巢价。當(dāng)按照user_id進(jìn)行兩個表的Join操作時,默認(rèn)的Hash操作會按int型的id來進(jìn)行分配,這樣會導(dǎo)致所有string類型id的記錄都分配到一個Reducer中壤躲。

解決方法:把數(shù)字類型轉(zhuǎn)換成字符串類型

select * from users a
  left outer join logs b
  on a.usr_id = cast(b.user_id as string)

3.3小表不小不大城菊,怎么用 map join 解決傾斜問題

使用 map join 解決小表(記錄數(shù)少)關(guān)聯(lián)大表的數(shù)據(jù)傾斜問題,這個方法使用的頻率非常高碉克,但如果小表很大凌唬,大到map join會出現(xiàn)bug或異常,這時就需要特別的處理漏麦。 以下例子:

select * from log a
  left outer join users b
  on a.user_id = b.user_id;

users 表有 600w+ 的記錄客税,把 users 分發(fā)到所有的 map 上也是個不小的開銷,而且 map join 不支持這么大的小表撕贞。如果用普通的 join更耻,又會碰到數(shù)據(jù)傾斜的問題。

解決方法:

select /*+mapjoin(x)*/* from log a
  left outer join (
    select  /*+mapjoin(c)*/d.*
      from ( 
        select distinct user_id from log ) c
          join users d on c.user_id = d.user_id
    ) x
  on a.user_id = b.user_id;

假如捏膨,log里user_id有上百萬個秧均,這就又回到原來map join問題。所幸号涯,每日的會員uv不會太多目胡,有交易的會員不會太多,有點擊的會員不會太多链快,有傭金的會員不會太多等等誉己。所以這個方法能解決很多場景下的數(shù)據(jù)傾斜問題。

4其他

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末域蜗,一起剝皮案震驚了整個濱河市巨双,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌地消,老刑警劉巖炉峰,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件畏妖,死亡現(xiàn)場離奇詭異脉执,居然都是意外死亡,警方通過查閱死者的電腦和手機戒劫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門半夷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人迅细,你說我怎么就攤上這事巫橄。” “怎么了茵典?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵湘换,是天一觀的道長。 經(jīng)常有香客問我,道長彩倚,這世上最難降的妖魔是什么筹我? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮帆离,結(jié)果婚禮上蔬蕊,老公的妹妹穿的比我還像新娘。我一直安慰自己哥谷,他們只是感情好岸夯,可當(dāng)我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著们妥,像睡著了一般猜扮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上监婶,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天破镰,我揣著相機與錄音,去河邊找鬼压储。 笑死鲜漩,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的集惋。 我是一名探鬼主播孕似,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼刮刑!你這毒婦竟也來了喉祭?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤雷绢,失蹤者是張志新(化名)和其女友劉穎泛烙,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翘紊,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡蔽氨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了帆疟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鹉究。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖踪宠,靈堂內(nèi)的尸體忽然破棺而出自赔,到底是詐尸還是另有隱情,我是刑警寧澤柳琢,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布绍妨,位于F島的核電站润脸,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏他去。R本人自食惡果不足惜津函,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望孤页。 院中可真熱鬧尔苦,春花似錦、人聲如沸行施。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蛾号。三九已至稠项,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鲜结,已是汗流浹背展运。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留精刷,地道東北人拗胜。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像怒允,于是被迫代替她去往敵國和親埂软。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容