HIVE SQL高頻相似函數(shù)

一轴咱、排序函數(shù)

數(shù)據(jù)分析中实苞,排序的需求場景基礎(chǔ)且常見吉拳,如計算消費(fèi)金額TOP100的客戶等质帅,為此首先介紹基于效率優(yōu)化和場景應(yīng)用不同的三種排序函數(shù)。

Order by

order by語句用于對查詢結(jié)果集執(zhí)行全局排序,所有數(shù)據(jù)集中在一個reduce中進(jìn)行處理煤惩,默認(rèn)按照升序排序(ASC)嫉嘀,可以使用關(guān)鍵字DESC進(jìn)行降序排序;

在hive中使用order by的時候會受到mapred.mode屬性的約束魄揉,默認(rèn)為nonstrict模式剪侮;如果在strict模式下使用order by,必須使用limit關(guān)鍵字洛退,因為執(zhí)行order by的時候只能啟動單個reduce瓣俯,如果排序的結(jié)果集過大,那么執(zhí)行時間會非常漫長從而引起報錯兵怯。

語法:

select *

from order_tb

order by amt desc

-- limit 10


sort by

sort by在每個reduce中對數(shù)據(jù)進(jìn)行內(nèi)部排序彩匕,屬于局部排序∶角可以通過設(shè)置屬性mapred.reduce.tasks指定執(zhí)行的reduce個數(shù)驼仪,對輸出的數(shù)據(jù)再執(zhí)行歸并排序得到全部結(jié)果,如果設(shè)置的reduce個數(shù)為1的話袜漩,那么sort

by 語句和order by語句輸出結(jié)果一致绪爸。

語法:

select *

from order_tb

sort by amt


distribute by

distribute by會根據(jù)指定字段的值,將記錄分發(fā)到不同的reduce中宙攻,但是每個reduce中的數(shù)據(jù)并不是有序的奠货。默認(rèn)對指定列取hash值,然后hash值對reduce的個數(shù)取模座掘,模數(shù)相同的記錄進(jìn)入同一個reduce中递惋。通常,將distribute by和sort by連用雹顺,針對數(shù)據(jù)進(jìn)行指定劃分排序。

語法:

select *

from order_tb

distribute by year

sort by amt


二廊遍、窗口排序函數(shù)

互聯(lián)網(wǎng)面試中嬉愧,經(jīng)常會向面試者提出計算客戶連續(xù)登錄天數(shù)之類的問題,這時就需要靈活應(yīng)用窗口函數(shù)喉前,以下三種窗口排序函數(shù)也是必知基礎(chǔ)没酣。

Row_number()

rank()

Dense_rank()

語法:Row_number()/rank()/Dense_rank()? OVER ( PARTITION BY COL1? ORDER BY COL2 )

三個函數(shù)語法和功能一致,都需要和over()一起使用卵迂,函數(shù)將首先根據(jù)PARTITION BY后面的字段進(jìn)行分組裕便,在分組內(nèi)部根據(jù)ORDER BY后面的字段進(jìn)行排序,最終輸出每組內(nèi)部排序后的順序編號见咒,其中order by必須存在偿衰,PARTITION BY可以不設(shè)置。三者的不同體現(xiàn)在計算結(jié)果:

Row_number()?:為不重復(fù)連續(xù)排序,即1下翎、2缤言、3、4视事、…

rank():為可重復(fù)跳躍排序胆萧,即1、2俐东、2跌穗、4、…

Dense_rank() :為可重復(fù)連續(xù)排序虏辫,即1蚌吸、2、2乒裆、3套利、…

三、類型轉(zhuǎn)換函數(shù)

當(dāng)把時間作為分區(qū)字段鹤耍,通常會用字符串'20201202'記錄時間肉迫,再進(jìn)行日期運(yùn)算的時候就需要進(jìn)行類型轉(zhuǎn)換,介紹兩種將字符串轉(zhuǎn)換為日期的函數(shù):

cast(expr AS type)

將表達(dá)式expr轉(zhuǎn)換為指定type類型稿黄,是一種較為常見的類型轉(zhuǎn)換函數(shù)喊衫,如:cast('0123' as int) ;

需要注意的是杆怕,當(dāng)使用cast將字符串轉(zhuǎn)換為日期格式族购,字符串必須滿足yyyy-MM-dd格式,需嚴(yán)格使用如下格式才能實現(xiàn)日期轉(zhuǎn)換:Cast('2020-12-02'

as date) :輸出:2020-12-02

to_date(date_str, format)

將字符串格式的date_str轉(zhuǎn)換為指定的日期格式陵珍,也可以使用此日期專用函數(shù)實現(xiàn)類型轉(zhuǎn)換寝杖,即:to_date('20201202','yyyyMMdd'):輸出:2020-12-02

四、條件選擇函數(shù)

數(shù)據(jù)處理階段互纯,經(jīng)常需要對缺失值進(jìn)行處理瑟幕,尤其是表join時需注意空缺值的出現(xiàn)。以下2個函數(shù)簡潔方便:

ifnull(expr1, expr2)

如果表達(dá)式expr1為Null留潦,返回expr2只盹,否則返回expr1。特別適合用于空缺值的填充兔院,如:ifnull(amt , 0) 殖卑;

if(expr1, expr2, expr3)

如果表達(dá)式expr1成立,返回expr2坊萝,否則返回expr3孵稽。特別適合空缺值處理與邏輯判斷许起,如:if(id is not null, 1,0) ;

五、聚合計數(shù)函數(shù)

搭建完底層寬表肛冶,針對各種維度進(jìn)行匯總分析街氢,有時會用到聚合函數(shù):count(),返回一組值的計數(shù)值睦袖。通常有三種不同的統(tǒng)計方式:

count(*):統(tǒng)計所有行數(shù)珊肃,不會忽略為null的值;

count(1):用1代表代碼行進(jìn)行統(tǒng)計馅笙,等同于統(tǒng)計所有行數(shù)伦乔;

count(col):統(tǒng)計指定列的行數(shù),忽略值為null的行董习;

簡而言之烈和,count(*)與count(1)執(zhí)行結(jié)果相同,效率有所差異皿淋;count(col)與其結(jié)果不同招刹;

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市窝趣,隨后出現(xiàn)的幾起案子疯暑,更是在濱河造成了極大的恐慌,老刑警劉巖哑舒,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妇拯,死亡現(xiàn)場離奇詭異,居然都是意外死亡洗鸵,警方通過查閱死者的電腦和手機(jī)越锈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來膘滨,“玉大人甘凭,你說我怎么就攤上這事』鸬耍” “怎么了丹弱?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長贡翘。 經(jīng)常有香客問我蹈矮,道長砰逻,這世上最難降的妖魔是什么鸣驱? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮蝠咆,結(jié)果婚禮上踊东,老公的妹妹穿的比我還像新娘北滥。我一直安慰自己,他們只是感情好闸翅,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布再芋。 她就那樣靜靜地躺著,像睡著了一般坚冀。 火紅的嫁衣襯著肌膚如雪济赎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天记某,我揣著相機(jī)與錄音司训,去河邊找鬼。 笑死液南,一個胖子當(dāng)著我的面吹牛壳猜,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播滑凉,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼统扳,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了畅姊?” 一聲冷哼從身側(cè)響起咒钟,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎涡匀,沒想到半個月后盯腌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡陨瘩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年腕够,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片舌劳。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡帚湘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出甚淡,到底是詐尸還是另有隱情大诸,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布贯卦,位于F島的核電站资柔,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏撵割。R本人自食惡果不足惜贿堰,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望啡彬。 院中可真熱鬧羹与,春花似錦故硅、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至腾誉,卻和暖如春徘层,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背利职。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工惑灵, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人眼耀。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓英支,卻偏偏與公主長得像,于是被迫代替她去往敵國和親哮伟。 傳聞我的和親對象是個殘疾皇子干花,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 一、Aggregate--聚合類 1楞黄、avg(col)--返回某一列的平均值 2池凄、count([DISTINCT]...
    任嘉平生愿閱讀 3,348評論 0 1
  • MySQL的函數(shù) 在MySQL中,為了提高代碼重用性和隱藏實現(xiàn)細(xì)節(jié)鬼廓,MySQL提供了很多函數(shù)肿仑。函數(shù)可以理解為別人封...
    AdRainty閱讀 230評論 0 2
  • (1)Oracle正則匹配使用 PS:這條SQL可以通過正則匹對查詢一下,表A的字段a是否有非數(shù)字的數(shù)據(jù)碎税,有時候數(shù)...
    vpike閱讀 404評論 0 0
  • Oracle SQL基本操作 Oracle數(shù)據(jù)庫基本操作 1.概述 Oracle數(shù)據(jù)庫客戶端一般需要安裝在服務(wù)器上...
    橫豎撇捺啊閱讀 527評論 0 1
  • 數(shù)字函數(shù) 1. 轉(zhuǎn)換 絕對值:ABS(number) 舍入微更大的最近整數(shù)值:CEILING (number) 更...
    MonsFinn閱讀 437評論 0 0