大表join小表书妻,并且是left join ,出現(xiàn)大量的null key 導(dǎo)致并行度減小脓恕,并且task數(shù)據(jù)有些較大。
解決辦法:
1受啥、使用join做个,把null的數(shù)據(jù)篩選出來,處理完成之后和不為null 的數(shù)據(jù)union腔呜,結(jié)果從14分鐘提升到4分鐘
2叁温、spark dataframe 廣播小表,使用org.apache.spark.sql.functions.broadcast()廣播小表核畴,再和小表join膝但。結(jié)果從14分鐘提升到2分鐘30秒。
感覺篇文章不錯: