sparks 中數(shù)據(jù)傾斜的大坑

這兩天弄訓(xùn)練數(shù)據(jù)的時(shí)候碰到了一個(gè)大坑
本來數(shù)據(jù)集就比較大巾表,在劃訓(xùn)練樣本的時(shí)候纵寝,訓(xùn)練樣本的分布就出現(xiàn)了不均勻的情況(有的parition多绸狐,有的少)谣妻,主要的癥狀體現(xiàn)在200個(gè)parition的dataframe,前面190個(gè)task都run的飛快芬骄,剩下10個(gè)task猾愿,處理的一個(gè)比一個(gè)慢。點(diǎn)開每個(gè)task的input data size账阻,就會發(fā)現(xiàn)很多parition都是空的匪蟀,或者只有幾KB,在run的task中宰僧,input data一個(gè)大過一個(gè)。
這是典型的數(shù)據(jù)傾斜現(xiàn)象观挎,不及時(shí)處理簡直后患無窮琴儿。
常規(guī)的做法,對dataframe進(jìn)行“撒鹽”處理:就是append上一列column嘁捷,賦值為隨機(jī)數(shù)造成,然后按照這個(gè)隨機(jī)數(shù)做聚合操作,能大大降低數(shù)據(jù)傾斜的發(fā)生雄嚣。
第二是由于數(shù)據(jù)量本來就多晒屎,解決了數(shù)據(jù)傾斜的問題后,在后續(xù)的處理當(dāng)中缓升,頻繁出現(xiàn)了分布式集群中worker節(jié)點(diǎn)失聯(lián)的情況鼓鲁。一般這樣是由于每個(gè)節(jié)點(diǎn)的worker計(jì)算量太大,導(dǎo)致超時(shí)了港谊,或者是因?yàn)楣?jié)點(diǎn)OOM了骇吭,導(dǎo)致節(jié)點(diǎn)掛掉了。
這個(gè)可以看下spark UI歧寺,看看機(jī)器的metric都有沒啥問題燥狰。如果是計(jì)算量太大導(dǎo)致的超時(shí),并不建議修改spark的timeout和heartbeat時(shí)間斜筐,理論上應(yīng)該是有更elegant的方法可以避免超時(shí)的問題龙致。
我后續(xù)的操作應(yīng)該就是每個(gè)worker的計(jì)算量太大了,因?yàn)閒unction要操作的數(shù)據(jù)量都比較大顷链,這樣很容易造成超時(shí)目代,也很容易導(dǎo)致,即使做了shuffle,已然數(shù)據(jù)分配不均像啼。所以這次的教訓(xùn)就是俘闯,盡量讓dataframe的function(udf)每次操作的數(shù)據(jù)量少,這樣才能最大程度利用分布式忽冻。還有就是如果數(shù)據(jù)量大真朗,操作復(fù)雜的話,要及時(shí)觸發(fā)action操作僧诚,不然到后面計(jì)算圖就特別大了遮婶,算起來老慢了。

所以作此總結(jié):

  1. 及時(shí)觸發(fā)action湖笨,避免后面某次一次性觸發(fā)前面厚重的計(jì)算圖
  2. 根據(jù)機(jī)器旗扑,及時(shí)提高計(jì)算并行度(通過設(shè)置spark的參數(shù),或者通過repartition增加df parition的數(shù)量慈省,和core總數(shù)相同)
  3. 手動shuffle(撒鹽
  4. udf應(yīng)該盡可能處理少量的數(shù)據(jù)臀防,和簡單的邏輯
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市边败,隨后出現(xiàn)的幾起案子袱衷,更是在濱河造成了極大的恐慌,老刑警劉巖笑窜,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件致燥,死亡現(xiàn)場離奇詭異,居然都是意外死亡排截,警方通過查閱死者的電腦和手機(jī)嫌蚤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來断傲,“玉大人脱吱,你說我怎么就攤上這事∪险郑” “怎么了急凰?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長猜年。 經(jīng)常有香客問我抡锈,道長,這世上最難降的妖魔是什么乔外? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任床三,我火速辦了婚禮,結(jié)果婚禮上杨幼,老公的妹妹穿的比我還像新娘撇簿。我一直安慰自己聂渊,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布四瘫。 她就那樣靜靜地躺著汉嗽,像睡著了一般。 火紅的嫁衣襯著肌膚如雪找蜜。 梳的紋絲不亂的頭發(fā)上饼暑,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天,我揣著相機(jī)與錄音洗做,去河邊找鬼弓叛。 笑死,一個(gè)胖子當(dāng)著我的面吹牛诚纸,可吹牛的內(nèi)容都是我干的撰筷。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼畦徘,長吁一口氣:“原來是場噩夢啊……” “哼毕籽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起井辆,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤影钉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后掘剪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡奈虾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年夺谁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肉微。...
    茶點(diǎn)故事閱讀 40,115評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡匾鸥,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出碉纳,到底是詐尸還是另有隱情勿负,我是刑警寧澤,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布劳曹,位于F島的核電站奴愉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏铁孵。R本人自食惡果不足惜锭硼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蜕劝。 院中可真熱鬧檀头,春花似錦轰异、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至廊镜,卻和暖如春牙肝,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背期升。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工惊奇, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人播赁。 一個(gè)月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓颂郎,卻偏偏與公主長得像,于是被迫代替她去往敵國和親容为。 傳聞我的和親對象是個(gè)殘疾皇子乓序,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容