我的Hive學(xué)習(xí)之旅


row number

作用 : 返回這個Partition下的當(dāng)前Row號败晴,根據(jù)排序字段生成,無重復(fù)鼓黔。

語法 :row_number() over (partition by 字段a order by 計算項b desc ) rank

select seasonid, episodeid , 
row_number() over(partition by seasonid order by episodeid asc) as rank 
from tutor.dw_season_live_information a 
where dt = date_sub(current_date,1) limit 100

內(nèi)置rank分析函數(shù)區(qū)別 :

  • row_number:不管排名是否有相同的佑笋,都按照順序1,2丁寄,3…..n
  • rank:排名相同的名次一樣,同一排名有幾個泊愧,后面排名就會跳過幾次
  • dense_rank:排名相同的名次一樣伊磺,且后面名次不跳躍

with cube & grouping sets & rollup

主要用于不能用簡單group by語句處理需求的情況

grouping sets : 其后面跟括號里指定了零個或多個分組變量的聚合,然后產(chǎn)生這個維度下的聚合結(jié)果删咱,再將每個結(jié)果UNION到一起屑埋,其實也就是相當(dāng)于

select a,sum(xx) form table1 … group  by a 
union 
select b,sum(xx) form table1 … group  by b
union 
select sum(xx) form table1 …  group  by a,b 
union 
...

這個意思

用法:

select ga, gb, sum(val) from table
group by ga, gb
GROUPING SETS ((ga), (gb), ()); 

with cube : 對變量進行有/無的組合,如果有三個對象腋腮,就會產(chǎn)生2^3 = 8種聚合情況
用法 :

eg :
     cube (a,b,c) 
     equal 
     grouping sets( (a,b,c), (a,b), (a,c), (a),(b,c), (b), (c),  () )

rollup : 是cube的子集雀彼,以最左側(cè)的維度為主,從該維度進行層級聚合
用法 :

eg  : 
     rollup(a,b,c)
     equal 
     grouping sets( (a,b,c),(a,b),(a),() )

regexp_extract

字符串正則表達式解析函數(shù)

用法 :

eg : 
   select regexp_extract(  'yfd-mkt-0207juzhanYY05-grp-123', 'yfd-mkt-([^\\-]+)-.*', 1) as keyfrom_type;    — res : 0207juzhanYY05

0 : 表示把整個正則表達式對應(yīng)的結(jié)果全部返回
1 :表示返回表達式中第一個()對應(yīng)的結(jié)果
依次類推...  

相關(guān)函數(shù) : regexp_replace()


get_json_object

作用 : 從復(fù)雜json對象中提取元素
‘$’表示對Root對象

eg : get_json_object(t.info,’$.xx')

時間處理 :

一種思路 : 可以把時間轉(zhuǎn)化為一個整數(shù)即寡,經(jīng)過處理之后徊哑,再轉(zhuǎn)化為日期格式。

常見hive時間轉(zhuǎn)換函數(shù)

  • from_unixtime : 日期函數(shù)UNIX時間戳轉(zhuǎn)日期函數(shù): from_unixtime語法: from_unixtime(bigint unixtime[, string format]),可以是識別到月
  • unix_timestamp(string date, string pattern) : 指定格式日期轉(zhuǎn)UNIX時間戳函數(shù)聪富,可以識別到月
hive>   select unix_timestamp('20111207 13:01:03','yyyyMMdd HH:mm:ss');
1323234063
hive> select unix_timestamp('2011-12-07 13:05','yyyy-MM-dd HH:mm');
1323234300
hive> select unix_timestamp('2011-12','yyyy-MM');
1322668800

  • date_format :
hive> select date_format('2015-04-08', 'y');
2015
hive> select date_format('2015-04-08', 'yyyy');
2015
hive> select date_format('2015-04-08', 'yyyy-MM');
2015-04
hive> select date_format('2015-04-08 10:10:01', 'yyyy-MM');
2015-04
hive> select date_format('2015-04-08', 'yyyy-MM-dd');
2015-04-08

  • to_date
hive>   select to_date('2011-12-08 10:03:01');
2011-12-08
hive> select to_date('2011-12-08');
2011-12-08
hive> select to_date('2011-12');
NULL

  • date_sub | date_add

窗口函數(shù) :

待更新...

lag, first_value, last_value , lead

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末莺丑,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子墩蔓,更是在濱河造成了極大的恐慌梢莽,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件奸披,死亡現(xiàn)場離奇詭異昏名,居然都是意外死亡,警方通過查閱死者的電腦和手機阵面,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門轻局,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人样刷,你說我怎么就攤上這事仑扑。” “怎么了置鼻?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵镇饮,是天一觀的道長。 經(jīng)常有香客問我箕母,道長储藐,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任嘶是,我火速辦了婚禮邑茄,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘俊啼。我一直安慰自己肺缕,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布授帕。 她就那樣靜靜地躺著同木,像睡著了一般。 火紅的嫁衣襯著肌膚如雪跛十。 梳的紋絲不亂的頭發(fā)上彤路,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天,我揣著相機與錄音芥映,去河邊找鬼洲尊。 笑死远豺,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的坞嘀。 我是一名探鬼主播躯护,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼丽涩!你這毒婦竟也來了棺滞?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤矢渊,失蹤者是張志新(化名)和其女友劉穎继准,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體矮男,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡移必,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了毡鉴。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片避凝。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖眨补,靈堂內(nèi)的尸體忽然破棺而出管削,到底是詐尸還是另有隱情,我是刑警寧澤撑螺,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布含思,位于F島的核電站,受9級特大地震影響甘晤,放射性物質(zhì)發(fā)生泄漏含潘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一线婚、第九天 我趴在偏房一處隱蔽的房頂上張望遏弱。 院中可真熱鬧,春花似錦塞弊、人聲如沸漱逸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽饰抒。三九已至,卻和暖如春诀黍,著一層夾襖步出監(jiān)牢的瞬間袋坑,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工眯勾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留枣宫,地道東北人婆誓。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像也颤,于是被迫代替她去往敵國和親洋幻。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容

  • pyspark.sql module Module context Spark SQL和DataFrames中的重...
    盜夢者_56f2閱讀 5,436評論 0 19
  • 分析函數(shù)歇拆,也稱為窗口函數(shù)鞋屈,通常被認(rèn)為僅對數(shù)據(jù)倉庫SQL有用范咨。使用分析函數(shù)的查詢故觅,基于對數(shù)據(jù)行的分組來計算總量值。與...
    貓貓_tomluo閱讀 3,325評論 3 18
  • 第二課:仍然模擬麗芳老師思維導(dǎo)圖渠啊,這次的過程中有以下幾點收獲: 1输吏、不像之前那么慌亂,不知如何去做替蛉,第一次的小白過...
    佩玉ing閱讀 200評論 3 1
  • (稻盛哲學(xué)學(xué)習(xí)會)打卡第39天 姓名:汪何炯 部門:品控部 組別:待定 【知~學(xué)習(xí)】 誦讀《活法》第二章 不在現(xiàn)場...
    汪何炯閱讀 183評論 0 2
  • 最近腦子亂的很,作息上的不規(guī)律镣煮,鍛煉上的不規(guī)律姐霍,一切都不受控制。都說越自律越自由典唇,你看镊折,這還差好大一截呢。 早上六...
    小魚記事錄閱讀 166評論 0 0