Hive應(yīng)用 | 高階函數(shù)

1葱峡、窗口函數(shù)

常用到的Hive窗口函數(shù)具體有:row_number()砚哗、rank()砰奕、dense_rank() 這三個(gè)窗口函數(shù)蛛芥,具體區(qū)別主要有:

  • row_number:不管排名是否有相同的军援,都按照順序1仅淑,2胸哥,3…..n

  • rank:排名相同的名次一樣涯竟,同一排名有幾個(gè)空厌,后面排名就會(huì)跳過幾次

  • dense_rank:排名相同的名次一樣庐船,且后面名次不跳躍

1)row_number()

代碼如下所示:

SELECT user_id,
       order_id,
       row_number() OVER(PARTITION BY user_id order by order_id DESC) as rn
FROM access_cdm.dwd_trade_order_goods_dd_f
WHERE dt = '2021-08-25' AND user_id IN(7822416, 66440,10386724, 2613996)
LIMIT 100;

結(jié)果展示如下:

image

2)rank()

代碼如下所示:

SELECT user_id,
       order_id,
       rank() OVER(PARTITION BY user_id order by order_id DESC) as rn
FROM access_cdm.dwd_trade_order_goods_dd_f
WHERE dt = '2021-08-25' AND user_id IN(7822416, 66440,10386724, 2613996)
LIMIT 100;

查詢結(jié)果如下:

image

3)dense_rank()

代碼如下所示:

SELECT user_id,
       order_id,
       dense_rank() OVER(PARTITION BY user_id order by order_id DESC) as rn
FROM access_cdm.dwd_trade_order_goods_dd_f
WHERE dt = '2021-08-25' AND user_id IN(7822416, 66440,10386724, 2613996)
LIMIT 100;

查詢結(jié)果如下:

image

2醉鳖、排序函數(shù)

(1)order by

hive中的 order by 會(huì)對(duì)查詢結(jié)果集執(zhí)行一次全局排序,這也就是說所有的數(shù)據(jù)都通過一個(gè)reduce進(jìn)行處理的過程哮内,對(duì)于大數(shù)據(jù)集,這個(gè)過程將消耗很大的時(shí)間來執(zhí)行北发。

(2)sort by

hive中的 sort by 也就是執(zhí)行一個(gè)局部排序過程纹因。這可以保證每個(gè)reduce的輸出數(shù)據(jù)都是有序的(但并非全局有序)琳拨。這樣就可以提高后面進(jìn)行的全局排序的效率瞭恰。用戶可以指定任意期望進(jìn)行排序的字段狱庇,并可以在該字段后面加上asc關(guān)鍵字(默認(rèn))表示升序惊畏,desc關(guān)鍵字是降序排列密任。

在使用 sort by 之前,需要先設(shè)置 reduce 的數(shù)量 > 1浪讳,才會(huì)做局部排序缰盏,如果reduce數(shù)量是1,作用與 order by 一樣口猜,全局排序。

(3)distribute by

distribute by 控制 map 的輸出在 reducer 中是如何劃分的济炎,mapReduce job中傳輸?shù)乃袛?shù)據(jù)都是按照鍵-值對(duì)的方式進(jìn)行組織的川抡,因此hive在將用戶的查詢語句轉(zhuǎn)換成mapReduce job時(shí)冻辩,其必須在內(nèi)部使用這個(gè)功能拆祈。默認(rèn)情況下恨闪,MapReduce計(jì)算框架會(huì)依據(jù)map輸入的鍵計(jì)算相應(yīng)的哈希值放坏,然后按照得到的哈希值將鍵-值對(duì)均勻分發(fā)到多個(gè)reducer中去咙咽。

(4)cluster by

cluster by 除了 distribute by 的功能外淤年,還會(huì)對(duì)該字段進(jìn)行排序钧敞,所以 cluster by = distribute by + sort by麸粮。但是排序只能是倒敘排列溉苛,不能指定排序規(guī)則為ASC或者DESC弄诲。

3愚战、行列轉(zhuǎn)換函數(shù)

(1)lateral view explain

Lateral view 其實(shí)就是用來和像類似于explode這種UDTF函數(shù)聯(lián)用的齐遵。lateral view 會(huì)將UDTF生成的結(jié)果放到一個(gè)虛擬表中寂玲,然后這個(gè)虛擬表會(huì)和輸入行即每個(gè)game_id 進(jìn)行join 來達(dá)到連接UDTF外的select字段的目的梗摇。

lateral view explode 函數(shù)舉例如下:

SELECT game_id, user_id
FROM test_table AS t
lateral view explode(split(user_ids, ',')) sn_table AS user_id
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市伶授,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌糜烹,老刑警劉巖违诗,帶你破解...
    沈念sama閱讀 216,591評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件景图,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)亮蒋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來慎玖,“玉大人,你說我怎么就攤上這事趁怔∈酰” “怎么了润努?”我有些...
    開封第一講書人閱讀 162,823評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)铺浇。 經(jīng)常有香客問我痢畜,道長(zhǎng)鳍侣,這世上最難降的妖魔是什么丁稀? 我笑而不...
    開封第一講書人閱讀 58,204評(píng)論 1 292
  • 正文 為了忘掉前任倚聚,我火速辦了婚禮,結(jié)果婚禮上惑折,老公的妹妹穿的比我還像新娘授账。我一直安慰自己唬复,他們只是感情好矗积,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,228評(píng)論 6 388
  • 文/花漫 我一把揭開白布敞咧。 她就那樣靜靜地躺著,像睡著了一般休建。 火紅的嫁衣襯著肌膚如雪乍恐。 梳的紋絲不亂的頭發(fā)上测砂,一...
    開封第一講書人閱讀 51,190評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音砌些,去河邊找鬼呜投。 笑死,一個(gè)胖子當(dāng)著我的面吹牛仑荐,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播粘招,決...
    沈念sama閱讀 40,078評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼洒扎!你這毒婦竟也來了辑甜?” 一聲冷哼從身側(cè)響起袍冷,我...
    開封第一講書人閱讀 38,923評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎难裆,沒想到半個(gè)月后子檀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乃戈,經(jīng)...
    沈念sama閱讀 45,334評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,550評(píng)論 2 333
  • 正文 我和宋清朗相戀三年症虑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谍憔。...
    茶點(diǎn)故事閱讀 39,727評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖习贫,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情千元,我是刑警寧澤,帶...
    沈念sama閱讀 35,428評(píng)論 5 343
  • 正文 年R本政府宣布幸海,位于F島的核電站,受9級(jí)特大地震影響物独,放射性物質(zhì)發(fā)生泄漏袜硫。R本人自食惡果不足惜挡篓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,022評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧秽澳,春花似錦、人聲如沸肝集。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽所刀。三九已至捞挥,卻和暖如春浮创,著一層夾襖步出監(jiān)牢的瞬間砌函,已是汗流浹背斩披。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工讹俊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留垦沉,地道東北人仍劈。 一個(gè)月前我還...
    沈念sama閱讀 47,734評(píng)論 2 368
  • 正文 我出身青樓厕倍,卻偏偏與公主長(zhǎng)得像贩疙,于是被迫代替她去往敵國(guó)和親讹弯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子这溅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,619評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • hive函數(shù): 1、根據(jù)指定條件返回結(jié)果:case when then else end as 2悲靴、基本類型轉(zhuǎn)換:...
    冷月回首閱讀 3,107評(píng)論 0 0
  • 查詢語句語法: 1 基本查詢(Select…From) 1.1 全表和特定列查詢 1.2 列別名 1.3 算術(shù)運(yùn)算...
    Rex_2013閱讀 548評(píng)論 0 0
  • 一、Hive基本概念 Hive 是基于 Hadoop 的一個(gè)數(shù)據(jù)倉庫工具对竣,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表庇楞,并提...
    CJ21閱讀 1,735評(píng)論 0 13
  • 此篇內(nèi)容:hive自定義函數(shù)UDF否纬、UDTF吕晌,壓縮存儲(chǔ)方式临燃,hive優(yōu)化睛驳、hive實(shí)際編程基本涵蓋了hive基礎(chǔ)及...
    大數(shù)據(jù)階梯之路閱讀 810評(píng)論 0 4
  • https://nino-laiqiu.github.io/2020/11/14/Hive-principle-r...
    冰菓_閱讀 513評(píng)論 0 0