Hive之order by杉编、sort by、distribute by和cluster by

hive中order by,sort by, distribute by, cluster by作用以及用法

原文：hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by

Hive中的order by跟傳統(tǒng)的sql語言中的order by作用是一樣的咆霜，會對查詢的結果做一次全局排序邓馒，所以說，只有hive的sql中制定了order by所有的數(shù)據(jù)都會到同一個reducer進行處理（不管有多少map蛾坯，也不管文件有多少的block只會啟動一個reducer）光酣。但是對于大量數(shù)據(jù)這將會消耗很長的時間去執(zhí)行。

這里跟傳統(tǒng)的sql還有一點區(qū)別：如果指定了hive.mapred.mode=strict（默認值是nonstrict）,這時就必須指定limit來限制輸出條數(shù)脉课，原因是：所有的數(shù)據(jù)都會在同一個reducer端進行救军，數(shù)據(jù)量大的情況下可能不能出結果，那么在這樣的嚴格模式下倘零，必須指定輸出的條數(shù)唱遭。

2. sort by

Hive中指定了sort by，那么在每個reducer端都會做排序呈驶，也就是說保證了局部有序（每個reducer出來的數(shù)據(jù)是有序的拷泽，但是不能保證所有的數(shù)據(jù)是有序的，除非只有一個reducer）袖瞻，好處是：執(zhí)行了局部排序之后可以為接下去的全局排序提高不少的效率（其實就是做一次歸并排序就可以做到全局排序了）司致。

3. distribute by和sort by一起使用

ditribute by是控制map的輸出在reducer是如何劃分的，舉個例子聋迎，我們有一張表蚌吸，mid是指這個store所屬的商戶，money是這個商戶的盈利砌庄，name是這個store的名字:

mid	money	name
AA	15.0	商店1
AA	20.0	商店2
BB	22.0	商店3
CC	44.0	商店4

執(zhí)行hive語句：

select mid, money, name from store distribute by mid sort by mid asc, money asc

我們所有的mid相同的數(shù)據(jù)會被送到同一個reducer去處理，這就是因為指定了distribute by mid奕枢，這樣的話就可以統(tǒng)計出每個商戶中各個商店盈利的排序了（這個肯定是全局有序的娄昆，因為相同的商戶會放到同一個reducer去處理）。這里需要注意的是distribute by必須要寫在sort by之前缝彬。

4. cluster by

cluster by的功能就是distribute by和sort by相結合萌焰，如下2個語句是等價的：

select mid, money, name from store cluster by mid  

select mid, money, name from store distribute by mid sort by mid  

如果需要獲得與3中語句一樣的效果：
select mid, money, name from store cluster by mid sort by money

注意被cluster by指定的列只能是降序，不能指定asc和desc谷浅。

最后編輯于：2018.08.02 17:47:54

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末扒俯，一起剝皮案震驚了整個濱河市奶卓，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌撼玄，老刑警劉巖夺姑，帶你破解...
沈念sama閱讀 206,482評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異掌猛，居然都是意外死亡盏浙，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,377評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門荔茬，熙熙樓的掌柜王于貴愁眉苦臉地迎上來废膘，“玉大人，你說我怎么就攤上這事慕蔚∝せ疲” “怎么了？”我有些...
開封第一講書人閱讀 152,762評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵孔飒，是天一觀的道長灌闺。經常有香客問我，道長十偶，這世上最難降的妖魔是什么菩鲜？我笑而不...
開封第一講書人閱讀 55,273評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮惦积，結果婚禮上接校，老公的妹妹穿的比我還像新娘。我一直安慰自己狮崩，他們只是感情好蛛勉，可當我...
茶點故事閱讀 64,289評論 5贊 373
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著睦柴，像睡著了一般诽凌。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上坦敌，一...
開封第一講書人閱讀 49,046評論 1贊 285
城市分裂傳說
那天侣诵，我揣著相機與錄音，去河邊找鬼狱窘。笑死杜顺，一個胖子當著我的面吹牛，可吹牛的內容都是我干的蘸炸。我是一名探鬼主播躬络，決...
沈念sama閱讀 38,351評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼搭儒！你這毒婦竟也來了穷当？” 一聲冷哼從身側響起提茁，我...
開封第一講書人閱讀 36,988評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎馁菜，沒想到半個月后茴扁，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經...
沈念sama閱讀 43,476評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡火邓，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,948評論 2贊 324
?白月光啟示錄
正文我和宋清朗相戀三年丹弱，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铲咨。...
茶點故事閱讀 38,064評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡躲胳，死狀恐怖，靈堂內的尸體忽然破棺而出纤勒，到底是詐尸還是另有隱情坯苹，我是刑警寧澤，帶...
沈念sama閱讀 33,712評論 4贊 323
?日本核電站爆炸內幕
正文年R本政府宣布摇天，位于F島的核電站粹湃，受9級特大地震影響，放射性物質發(fā)生泄漏泉坐。R本人自食惡果不足惜为鳄，卻給世界環(huán)境...
茶點故事閱讀 39,261評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望腕让。院中可真熱鬧孤钦，春花似錦、人聲如沸纯丸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,264評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽觉鼻。三九已至俊扭，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間坠陈，已是汗流浹背萨惑。一陣腳步聲響...
開封第一講書人閱讀 31,486評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留仇矾，地道東北人咒钟。一個月前我還...
沈念sama閱讀 45,511評論 2贊 354
代替公主和親
正文我出身青樓，卻偏偏與公主長得像若未，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子倾鲫，可洞房花燭夜當晚...
茶點故事閱讀 42,802評論 2贊 345

Hive之order by、sort by、distribute by和cluster by