聲明:所有文章只作為學(xué)習(xí)筆記用狸棍,轉(zhuǎn)載非原創(chuàng)
分區(qū)表創(chuàng)建和刪除
http://www.reibang.com/p/69efe36d068b
#數(shù)據(jù)傾斜的問題
https://www.cnblogs.com/wang3680/p/11636550.html
將reduce join 轉(zhuǎn)為map join-----一般用于直接sql查詢的場景
什么是MapJoin?
MapJoin顧名思義,就是在Map階段進(jìn)行表之間的連接斯稳。
# 傾斜場景
若進(jìn)行 word count 的文本有100G,其中 80G 全部是 “aaa” 剩下 20G 是其余單詞,那就會形成 80G 的數(shù)據(jù)量交給一個 reduce 進(jìn)行相加,其余 20G 根據(jù) key 不同分散到不同 reduce 進(jìn)行相加的情況丹喻。如此就造成了數(shù)據(jù)傾斜,臨床反應(yīng)就是 reduce 跑到 99%然后一直在原地等著 那80G 的reduce 跑完翁都。
#原理
在進(jìn)行shuffle的時候碍论,必須將各個節(jié)點(diǎn)上相同的Key拉取到某個節(jié)點(diǎn)上的一個task來進(jìn)行處理,比如按照key進(jìn)行聚合或者join操作柄慰。如果某個key對應(yīng)的數(shù)據(jù)量特別大的話平挑,會發(fā)生數(shù)據(jù)傾斜魔种。
#hive
hive中的hiveconf與hivevar區(qū)別以及其作用域
https://blog.csdn.net/dax1n/article/details/80822755