Hive碎碎念（3）：order by，sort by檬姥，distribute by曾我，cluster by的區(qū)別

轉(zhuǎn)載請(qǐng)?jiān)谖恼缕鹗继幾⒚鞒鎏帲x謝健民。

一：order by

order by會(huì)對(duì)輸入做全局排序抒巢，因此只有一個(gè)Reducer(多個(gè)Reducer無法保證全局有序)，然而只有一個(gè)Reducer秉犹，會(huì)導(dǎo)致當(dāng)輸入規(guī)模較大時(shí)虐秦，消耗較長的計(jì)算時(shí)間平酿。

二：sort by

sort by不是全局排序，其在數(shù)據(jù)進(jìn)入reducer前完成排序悦陋，因此蜈彼，如果用sort by進(jìn)行排序，并且設(shè)置mapred.reduce.tasks>1俺驶，則sort by只會(huì)保證每個(gè)reducer的輸出有序幸逆，并不保證全局有序。sort by不同于order by暮现，它不受hive.mapred.mode屬性的影響还绘，sort by的數(shù)據(jù)只能保證在同一個(gè)reduce中的數(shù)據(jù)可以按指定字段排序。使用sort by你可以指定執(zhí)行的reduce個(gè)數(shù)(通過set mapred.reduce.tasks=n來指定)栖袋，對(duì)輸出的數(shù)據(jù)再執(zhí)行歸并排序拍顷，即可得到全部結(jié)果。

三：distribute by

distribute by是控制在map端如何拆分?jǐn)?shù)據(jù)給reduce端的塘幅。hive會(huì)根據(jù)distribute by后面列昔案，對(duì)應(yīng)reduce的個(gè)數(shù)進(jìn)行分發(fā)，默認(rèn)是采用hash算法电媳。sort by為每個(gè)reduce產(chǎn)生一個(gè)排序文件踏揣。在有些情況下，你需要控制某個(gè)特定行應(yīng)該到哪個(gè)reducer匾乓，這通常是為了進(jìn)行后續(xù)的聚集操作捞稿。distribute by剛好可以做這件事。因此拼缝，distribute by經(jīng)常和sort by配合使用娱局。

注：Distribute by和sort by的使用場(chǎng)景

1.Map輸出的文件大小不均。

2.Reduce輸出文件大小不均咧七。

3.小文件過多衰齐。

4.文件超大。

四：cluster by

cluster by除了具有distribute by的功能外還兼具sort by的功能猪叙。但是排序只能是倒敘排序娇斩，不能指定排序規(guī)則為ASC或者DESC仁卷。

最后編輯于：2019.04.26 16:14:32

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末穴翩，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子锦积，更是在濱河造成了極大的恐慌芒帕，老刑警劉巖，帶你破解...
沈念sama閱讀 207,113評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件丰介，死亡現(xiàn)場(chǎng)離奇詭異背蟆，居然都是意外死亡鉴分，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評(píng)論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門带膀，熙熙樓的掌柜王于貴愁眉苦臉地迎上來志珍，“玉大人，你說我怎么就攤上這事垛叨÷着矗” “怎么了？”我有些...
開封第一講書人閱讀 153,340評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵嗽元，是天一觀的道長敛纲。經(jīng)常有香客問我，道長剂癌，這世上最難降的妖魔是什么淤翔？我笑而不...
開封第一講書人閱讀 55,449評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮佩谷，結(jié)果婚禮上旁壮，老公的妹妹穿的比我還像新娘。我一直安慰自己琳要，他們只是感情好寡具，可當(dāng)我...
茶點(diǎn)故事閱讀 64,445評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著稚补，像睡著了一般童叠。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上课幕，一...
開封第一講書人閱讀 49,166評(píng)論 1贊 284
城市分裂傳說
那天厦坛，我揣著相機(jī)與錄音，去河邊找鬼乍惊。笑死杜秸，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的润绎。我是一名探鬼主播撬碟，決...
沈念sama閱讀 38,442評(píng)論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼莉撇！你這毒婦竟也來了呢蛤？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,105評(píng)論 0贊 261
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤棍郎，失蹤者是張志新（化名）和其女友劉穎其障，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體涂佃，經(jīng)...
沈念sama閱讀 43,601評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡励翼，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,066評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年蜈敢，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片汽抚。...
茶點(diǎn)故事閱讀 38,161評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡抓狭，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出造烁，到底是詐尸還是另有隱情辐宾，我是刑警寧澤，帶...
沈念sama閱讀 33,792評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布膨蛮，位于F島的核電站叠纹，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏敞葛。R本人自食惡果不足惜誉察，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,351評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望惹谐。院中可真熱鬧持偏，春花似錦、人聲如沸氨肌。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,352評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽怎囚。三九已至卿叽，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間恳守，已是汗流浹背考婴。一陣腳步聲響...
開封第一講書人閱讀 31,584評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留催烘，地道東北人沥阱。一個(gè)月前我還...
沈念sama閱讀 45,618評(píng)論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長得像伊群，于是被迫代替她去往敵國和親考杉。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,916評(píng)論 2贊 344

Hive碎碎念（3）：order by，sort by倦逐，distribute by譬正，cluster by的區(qū)別