hive中使用標(biāo)準(zhǔn)sql實(shí)現(xiàn)分組內(nèi)排序 - 數(shù)據(jù)庫(kù)其他綜合 - 紅黑聯(lián)盟 http://www.2cto.com/database/201305/210816.html
hive中使用標(biāo)準(zhǔn)sql實(shí)現(xiàn)分組內(nèi)排序
在hive中掂碱,想要實(shí)現(xiàn)分組內(nèi)排序拜轨,一般都是自己寫(xiě)udf實(shí)現(xiàn)oracle中分析函數(shù)row_number() over(partition)的功能,如果不使用自定義udf,僅使用標(biāo)準(zhǔn)sql實(shí)現(xiàn)的話上祈,毫無(wú)性能可言,僅做實(shí)驗(yàn)而已廊镜。
Hive.分組排序和TOP - 辰采星 - 博客頻道 - CSDN.NET http://blog.csdn.net/mashroomxl/article/details/23864685
HQL作為類(lèi)SQL的查詢(xún)分析語(yǔ)言即碗,到目前為止,應(yīng)該也還未能達(dá)到其它流行的SQL(如Transact-SQL, MySQL)實(shí)現(xiàn)那樣完善搞疗。而在公司的生產(chǎn)環(huán)境中嗓蘑,我想應(yīng)該也不會(huì)緊貼Hive版本更新的步伐须肆,始終部署最新版的Hive;可能會(huì)滯后一兩個(gè)大版本神馬的桩皿;畢竟豌汇,雖然開(kāi)源工具的透明性是一大利好,但與閉源的商業(yè)工具相比泄隔,在可用性等問(wèn)題上的保障性還是略弱拒贱。
使用HQL進(jìn)行離線分析用戶(hù)數(shù)據(jù)時(shí),就算已經(jīng)過(guò)聚合處理佛嬉,但我們也可能只對(duì)那些突出的量化指標(biāo)或者這些指標(biāo)的增量變化感興趣逻澳,所以對(duì)聚合數(shù)據(jù)排序(按某列降序?增序暖呕?)成為很基本的需要斜做,這在HQL這樣尚未成熟的語(yǔ)言中,結(jié)合orderby, limit子句可以毫無(wú)鴨梨地完成湾揽。
然而瓤逼,即使我們可以把多個(gè)字段放入order by子句中,并指定各個(gè)字段的升降順序库物,如:
[sql] view plain copy
print?
order by fieldA desc, fieldB [asc], fieldC desc
但排序操作始終是全局的霸旗,我們有時(shí)候想要的卻是分組排序,即按fieldA排序以后艳狐,然后針對(duì)fieldA的每個(gè)值所對(duì)應(yīng)的fieldB和(或)fieldC排序定硝,而不是像order by那樣,針對(duì)所有fieldA的值對(duì)fieldB和(或)fieldC排序毫目。
為了滿(mǎn)足這個(gè)需要蔬啡,Transact-SQL提供了over, partition by句和 row_number()函數(shù),而Hive也在0.11中引入over, partition by子句和rank函數(shù)镀虐,以此提供方便的窗口分析(分組分析)功能箱蟆。
那對(duì)于0.11版之前的Hive,我們可以實(shí)現(xiàn)分組排序嗎刮便?答案是肯定的空猜,只是看起來(lái)沒(méi)那么直接。
要實(shí)現(xiàn)這個(gè)需求恨旱,就需要請(qǐng)出distribute by, sort by這兩個(gè)重要角色了辈毯,distribute by能夠執(zhí)行我們需要的分組功能,再結(jié)合Hive查詢(xún)的MapReduce Job特性搜贤,sort by又可以在分組內(nèi)進(jìn)行局部排序谆沃。
當(dāng)然,如果只有它們仪芒,我們只能得到排序后的一堆數(shù)據(jù)唁影,但是無(wú)法知道每一條數(shù)據(jù)的名次耕陷,這就要自己編寫(xiě)UDF函數(shù),來(lái)確定和返回名次了据沈,這個(gè)函數(shù)貌似在網(wǎng)絡(luò)上流傳甚廣: