sparks 中數(shù)據(jù)傾斜的大坑

這兩天弄訓(xùn)練數(shù)據(jù)的時(shí)候碰到了一個(gè)大坑
本來數(shù)據(jù)集就比較大巾表，在劃訓(xùn)練樣本的時(shí)候纵寝，訓(xùn)練樣本的分布就出現(xiàn)了不均勻的情況（有的parition多绸狐，有的少）谣妻，主要的癥狀體現(xiàn)在200個(gè)parition的dataframe，前面190個(gè)task都run的飛快芬骄，剩下10個(gè)task猾愿，處理的一個(gè)比一個(gè)慢。點(diǎn)開每個(gè)task的input data size账阻，就會發(fā)現(xiàn)很多parition都是空的匪蟀，或者只有幾KB，在run的task中宰僧，input data一個(gè)大過一個(gè)。
這是典型的數(shù)據(jù)傾斜現(xiàn)象观挎，不及時(shí)處理簡直后患無窮琴儿。
常規(guī)的做法，對dataframe進(jìn)行“撒鹽”處理：就是append上一列column嘁捷，賦值為隨機(jī)數(shù)造成，然后按照這個(gè)隨機(jī)數(shù)做聚合操作，能大大降低數(shù)據(jù)傾斜的發(fā)生雄嚣。
第二是由于數(shù)據(jù)量本來就多晒屎，解決了數(shù)據(jù)傾斜的問題后，在后續(xù)的處理當(dāng)中缓升，頻繁出現(xiàn)了分布式集群中worker節(jié)點(diǎn)失聯(lián)的情況鼓鲁。一般這樣是由于每個(gè)節(jié)點(diǎn)的worker計(jì)算量太大，導(dǎo)致超時(shí)了港谊，或者是因?yàn)楣?jié)點(diǎn)OOM了骇吭，導(dǎo)致節(jié)點(diǎn)掛掉了。
這個(gè)可以看下spark UI歧寺，看看機(jī)器的metric都有沒啥問題燥狰。如果是計(jì)算量太大導(dǎo)致的超時(shí)，并不建議修改spark的timeout和heartbeat時(shí)間斜筐，理論上應(yīng)該是有更elegant的方法可以避免超時(shí)的問題龙致。
我后續(xù)的操作應(yīng)該就是每個(gè)worker的計(jì)算量太大了，因?yàn)閒unction要操作的數(shù)據(jù)量都比較大顷链，這樣很容易造成超時(shí)目代，也很容易導(dǎo)致，即使做了shuffle，已然數(shù)據(jù)分配不均像啼。所以這次的教訓(xùn)就是俘闯，盡量讓dataframe的function（udf）每次操作的數(shù)據(jù)量少，這樣才能最大程度利用分布式忽冻。還有就是如果數(shù)據(jù)量大真朗，操作復(fù)雜的話，要及時(shí)觸發(fā)action操作僧诚，不然到后面計(jì)算圖就特別大了遮婶，算起來老慢了。

所以作此總結(jié)：

及時(shí)觸發(fā)action湖笨，避免后面某次一次性觸發(fā)前面厚重的計(jì)算圖
根據(jù)機(jī)器旗扑，及時(shí)提高計(jì)算并行度（通過設(shè)置spark的參數(shù)，或者通過repartition增加df parition的數(shù)量慈省，和core總數(shù)相同）
手動shuffle（撒鹽
udf應(yīng)該盡可能處理少量的數(shù)據(jù)臀防，和簡單的邏輯

最后編輯于：2021.01.11 18:57:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市边败，隨后出現(xiàn)的幾起案子袱衷，更是在濱河造成了極大的恐慌，老刑警劉巖笑窜，帶你破解...
沈念sama閱讀 219,188評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件致燥，死亡現(xiàn)場離奇詭異，居然都是意外死亡排截，警方通過查閱死者的電腦和手機(jī)嫌蚤，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,464評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來断傲，“玉大人脱吱，你說我怎么就攤上這事∪险郑” “怎么了急凰？”我有些...
開封第一講書人閱讀 165,562評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長猜年。經(jīng)常有香客問我抡锈，道長，這世上最難降的妖魔是什么乔外？我笑而不...
開封第一講書人閱讀 58,893評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任床三，我火速辦了婚禮，結(jié)果婚禮上杨幼，老公的妹妹穿的比我還像新娘撇簿。我一直安慰自己聂渊，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,917評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布四瘫。她就那樣靜靜地躺著汉嗽，像睡著了一般。火紅的嫁衣襯著肌膚如雪找蜜。梳的紋絲不亂的頭發(fā)上饼暑，一...
開封第一講書人閱讀 51,708評論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音洗做，去河邊找鬼弓叛。笑死，一個(gè)胖子當(dāng)著我的面吹牛诚纸，可吹牛的內(nèi)容都是我干的撰筷。我是一名探鬼主播，決...
沈念sama閱讀 40,430評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼畦徘，長吁一口氣：“原來是場噩夢啊……” “哼毕籽！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起井辆，我...
開封第一講書人閱讀 39,342評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤影钉，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后掘剪，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,801評論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡奈虾，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,976評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年夺谁，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肉微。...
茶點(diǎn)故事閱讀 40,115評論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡匾鸥，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出碉纳，到底是詐尸還是另有隱情勿负，我是刑警寧澤，帶...
沈念sama閱讀 35,804評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布劳曹，位于F島的核電站奴愉，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏铁孵。R本人自食惡果不足惜锭硼，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,458評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蜕劝。院中可真熱鬧檀头，春花似錦轰异、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,008評論 0贊 22
一樁弒父案搭独，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至廊镜，卻和暖如春牙肝，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背期升。一陣腳步聲響...
開封第一講書人閱讀 33,135評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工惊奇，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人播赁。一個(gè)月前我還...
沈念sama閱讀 48,365評論 3贊 373
代替公主和親
正文我出身青樓颂郎，卻偏偏與公主長得像，于是被迫代替她去往敵國和親容为。傳聞我的和親對象是個(gè)殘疾皇子乓序，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,055評論 2贊 355

sparks 中數(shù)據(jù)傾斜的大坑

推薦閱讀更多精彩內(nèi)容