Hive出現(xiàn)數(shù)據(jù)傾斜的原因:
1)、key分布不均勻
2)、業(yè)務(wù)數(shù)據(jù)本身的特性
3)、建表時考慮不周
4)棵帽、某些SQL語句本身就有數(shù)據(jù)傾斜
Hive出現(xiàn)數(shù)據(jù)傾斜的表現(xiàn):
任務(wù)進(jìn)度長時間維持在99%(或100%),查看任務(wù)監(jiān)控頁面渣玲,發(fā)現(xiàn)只有少量(1個或幾個)reduce子任務(wù)未完成逗概。因?yàn)槠涮幚淼臄?shù)據(jù)量和其他reduce差異過大。
單一reduce的記錄數(shù)與平均記錄數(shù)差異過大忘衍,通秤馍唬可能達(dá)到3倍甚至更多。最長時長遠(yuǎn)大于平均時長淑履。
Hive:sort by和order by的區(qū)別:
Order by全局排序
sort by是分組有序隶垮,全局無序藻雪,一般用法是distribute + sort by
刪除目錄下的所有類似名稱數(shù)據(jù):
drwxr-xr-x3 root root 4096 Nov 15 03:16 '2016-11-14'
drwxr-xr-x3 root root 4096 Nov 16 04:55 '2016-11-15'
drwxr-xr-x3 root root 4096 Nov 17 03:19 '2016-11-16'
drwxr-xr-x3 root root 4096 Nov 18 08:51 '2016-11-17'
drwxr-xr-x 19 root root 4096 Nov 18 08:56gdpv
drwxr-xr-x 19 root root 4096 Nov 18 08:54gdvod
drwxr-xr-x 19 root root 4096 Nov 18 08:40pvlog
[root@hive-m dataftp]# rm -rf \'2016-11-*