Spark(四十一)數(shù)據(jù)傾斜解決方案之sample采樣傾斜key進(jìn)行兩次join

一、背景

這個(gè)方案的實(shí)現(xiàn)思路,跟大家解析一下:其實(shí)關(guān)鍵之處在于邑彪,將發(fā)生數(shù)據(jù)傾斜的key,單獨(dú)拉出來(lái)惯裕,放到一個(gè)RDD中去;就用這個(gè)原本會(huì)傾斜的key RDD跟其他RDD绣硝,單獨(dú)去join一下蜻势,這個(gè)時(shí)候,key對(duì)應(yīng)的數(shù)據(jù)鹉胖,可能就會(huì)分散到多個(gè)task中去進(jìn)行join操作握玛。

就不至于說(shuō)是,這個(gè)key跟之前其他的key混合在一個(gè)RDD中時(shí)甫菠,肯定是會(huì)導(dǎo)致一個(gè)key對(duì)應(yīng)的所有數(shù)據(jù)挠铲,都到一個(gè)task中去,就會(huì)導(dǎo)致數(shù)據(jù)傾斜淑蔚。

二市殷、流程圖解

image.png

image.png

這種方案什么時(shí)候適合使用?

1刹衫、優(yōu)先對(duì)于join醋寝,肯定是希望能夠采用上一講講的,reduce join轉(zhuǎn)換map join带迟。兩個(gè)RDD數(shù)據(jù)都比較大音羞,那么就不要那么搞了。

2仓犬、針對(duì)你的RDD的數(shù)據(jù)嗅绰,你可以自己把它轉(zhuǎn)換成一個(gè)中間表搀继,或者是直接用countByKey()的方式,你可以看一下這個(gè)RDD各個(gè)key對(duì)應(yīng)的數(shù)據(jù)量财边;此時(shí)如果你發(fā)現(xiàn)整個(gè)RDD就一個(gè),或者少數(shù)幾個(gè)key点骑,是對(duì)應(yīng)的數(shù)據(jù)量特別多;盡量建議憨募,比如就是一個(gè)key對(duì)應(yīng)的數(shù)據(jù)量特別多。

3袁辈、此時(shí)可以采用咱們的這種方案菜谣,單拉出來(lái)那個(gè)最多的key;單獨(dú)進(jìn)行join甘磨,盡可能地將key分散到各個(gè)task上去進(jìn)行join操作眯停。

什么時(shí)候不適用呢莺债?

4签夭、如果一個(gè)RDD中,導(dǎo)致數(shù)據(jù)傾斜的key措拇,特別多慎宾;那么此時(shí),最好還是不要這樣了券犁;還是使用我們最后一個(gè)方案汹碱,終極的join數(shù)據(jù)傾斜的解決方案咳促。

三、進(jìn)一步優(yōu)化

就是說(shuō)褂删,咱們單拉出來(lái)了尺迂,一個(gè)或者少數(shù)幾個(gè)可能會(huì)產(chǎn)生數(shù)據(jù)傾斜的key,然后還可以進(jìn)行更加優(yōu)化的一個(gè)操作蹲盘;

對(duì)于那個(gè)key膳音,從另外一個(gè)要join的表中,也過(guò)濾出來(lái)一份數(shù)據(jù)苍凛,比如可能就只有一條數(shù)據(jù)醇蝴。userid2infoRDD,一個(gè)userid key悠栓,就對(duì)應(yīng)一條數(shù)據(jù)惭适。

然后呢,采取對(duì)那個(gè)只有一條數(shù)據(jù)的RDD往枷,進(jìn)行flatMap操作凄杯,打上100個(gè)隨機(jī)數(shù),作為前綴墓臭,返回100條數(shù)據(jù)窿锉。

單獨(dú)拉出來(lái)的可能產(chǎn)生數(shù)據(jù)傾斜的RDD膝舅,給每一條數(shù)據(jù),都打上一個(gè)100以?xún)?nèi)的隨機(jī)數(shù)洼滚,作為前綴技潘。

再去進(jìn)行join享幽,是不是性能就更好了“诿梗肯定可以將數(shù)據(jù)進(jìn)行打散,去進(jìn)行join搭盾。join完以后婉支,可以執(zhí)行map操作向挖,去將之前打上的隨機(jī)數(shù),給去掉,然后再和另外一個(gè)普通RDD join以后的結(jié)果幕侠,進(jìn)行union操作晤硕。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末舞箍,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子占拍,更是在濱河造成了極大的恐慌捎迫,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,888評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異彰导,居然都是意外死亡位谋,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人鸟款,你說(shuō)我怎么就攤上這事茂卦〉攘” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,386評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)泥畅。 經(jīng)常有香客問(wèn)我位仁,道長(zhǎng),這世上最難降的妖魔是什么钧嘶? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,726評(píng)論 1 297
  • 正文 為了忘掉前任有决,我火速辦了婚禮轿亮,結(jié)果婚禮上我注,老公的妹妹穿的比我還像新娘。我一直安慰自己励七,他們只是感情好奔缠,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布校哎。 她就那樣靜靜地躺著,像睡著了一般单起。 火紅的嫁衣襯著肌膚如雪劣坊。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,337評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音康二,去河邊找鬼沫勿。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的洽故。 我是一名探鬼主播盗誊,決...
    沈念sama閱讀 40,902評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼哈踱,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了刀诬?” 一聲冷哼從身側(cè)響起陕壹,我...
    開(kāi)封第一講書(shū)人閱讀 39,807評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤糠馆,失蹤者是張志新(化名)和其女友劉穎怎憋,沒(méi)想到半個(gè)月后九昧,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體铸鹰,經(jīng)...
    沈念sama閱讀 46,349評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡掉奄,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評(píng)論 3 340
  • 正文 我和宋清朗相戀三年姓建,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了缤苫。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片活玲。...
    茶點(diǎn)故事閱讀 40,567評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡舒憾,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出丁溅,到底是詐尸還是另有隱情探遵,我是刑警寧澤,帶...
    沈念sama閱讀 36,242評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站藏雏,受9級(jí)特大地震影響掘殴,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蚤告,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評(píng)論 3 334
  • 文/蒙蒙 一杜恰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧舔涎,春花似錦逗爹、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,420評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)斑胜。三九已至,卻和暖如春掺炭,著一層夾襖步出監(jiān)牢的瞬間凭戴,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,531評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工吧享, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人钞它。 一個(gè)月前我還...
    沈念sama閱讀 48,995評(píng)論 3 377
  • 正文 我出身青樓遭垛,卻偏偏與公主長(zhǎng)得像操灿,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子庶喜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容