Hive函數(shù)

Hive函數(shù)

函數(shù)分類

  • cli命令
    • 顯示當(dāng)前對(duì)話有多少函數(shù)可用 show functions;
    • 顯示函數(shù)的表述信息 desc function concat;
    • 顯示函數(shù)的擴(kuò)展描述信息 desc function extended concat;
  • 簡單函數(shù)
  • 特殊函數(shù)
    • 窗口函數(shù)
      • 應(yīng)用場景
        • 用于分區(qū)排序
        • 動(dòng)態(tài)Group by
        • Top N
        • 累計(jì)計(jì)算
        • 層次查詢
      • Windowing function
        • lead
        • lag
        • FIRST_VALUE
        • LAST_VALUE
    • 分析函數(shù)
      • THE OVER clause
        • COUNT
        • SUM
        • MIN
        • MAX
        • AVG
      • Analytics functions
        • RANK
        • ROW_NUIMBER
        • DENSE_RANK
        • CUME_DIST
        • PERCENT_RANK
        • NTILE
    • 混合函數(shù)
      • java_method(class,method[,arg1[,arg2...]])
      • reflect(class,method[,arg1[,arg2...]])
      • hash(a1[,a2])
    • UDTF
      • 表函數(shù)
        • lateralView:LATERAL VIEW udtf(expression) tableAlias AS columnAlias(',',columnAlias)* fromClause:FROM baseTable(lateralView)*
      • 例子
        • explode函數(shù) :行展開為列

內(nèi)置函數(shù)

正則表達(dá)式

  • 使用正則表達(dá)式的函數(shù)
  • A LIKE B莉撇,字符"_"表示任意單個(gè)字符吴叶,而字符"%"表示任意數(shù)量的字符
  • A RLIKE B
    • select 1 from dual where 'footbar' rlike ^f.*r$;
  • regexp_replace(string A,string B,string C)
    • select regexp_replace('footbar','oo|ar','') from dual;(return 'fb')
  • regexp_extract(string subject,string pattern,int index)
    • select regexp_extract('foothebar','foo(.*?)(bar)',1) from winfunc;

自定義函數(shù)

UDF

  • UDF-用戶自定義函數(shù)(user defined function)
    • 針對(duì)單條記錄
  • 創(chuàng)建函數(shù)
    • 自定義一個(gè)java類
    • 繼承UDF類
    • 重寫evaluate方法
    • 打jar包
    • hive執(zhí)行add jar
      • add jar /home/jar/function.jar
    • hive執(zhí)行創(chuàng)建模板函數(shù)
      • create temporary function bigthan as 'com.udf.udftest';
    • hql中使用

UDAF

  • UDAF用戶自定義聚合函數(shù)
    • user defined aggregation function
    • 針對(duì)記錄集合
  • 開發(fā)通用UDAF有兩個(gè)步驟
    • 第一個(gè)是編寫resolver類涮毫,resolver負(fù)責(zé)類型檢查,操作符重載。
    • 第二個(gè)是編寫evaluator類,evaluator真正實(shí)現(xiàn)UDAF的邏輯
  • 通常來說,頂層UDAF類繼承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2,里面編寫嵌套類evaluator實(shí)現(xiàn)UDAF的邏輯
  • 實(shí)現(xiàn)resolver
    • resolver通常繼承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2逢渔,但是更建議繼承AbstractGenericUDAFResolver,隔離將來hive接口的變化则涯。GenericUDResolver和GenericUDResolver2接口的區(qū)別是复局,后面的允許evaluator實(shí)現(xiàn)可以訪問更多的信息,例如DISTINCT限定符粟判,通配符FUNCTION(*)亿昏。
  • 實(shí)現(xiàn)evaluator
    • 所有evaluators必須繼承抽象類org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator。子類必須實(shí)現(xiàn)它的一些抽象方法档礁,實(shí)現(xiàn)UDAF的邏輯角钩。
  • Mode
    • 這個(gè)類比較重要,它表示了udaf在mapreduce的各個(gè)階段,理解Mode的含義递礼,就可以理解了hive的UDAF的運(yùn)行流程
    • public static enum Mode{
      PARTIAL1惨险,
      PARTIAL2,
      FINAL脊髓,
      COMPLETE
      };
    • PARTIAL1:這個(gè)是mapreduce的map階段:從原始數(shù)據(jù)到部分?jǐn)?shù)據(jù)聚合辫愉,將會(huì)調(diào)用iterate()和terminatePartial()
    • PARTIAL2:這個(gè)是mapreduce的map端的Combiner階段,負(fù)責(zé)在map端合并map的數(shù)據(jù)将硝;從部分?jǐn)?shù)據(jù)聚合到部分?jǐn)?shù)據(jù)聚合恭朗,將會(huì)調(diào)用merge()和terminatePartial()
    • FINAL:mapreduce的reduce階段:從部分?jǐn)?shù)據(jù)的聚合到完全聚合,將會(huì)調(diào)用merge()和terminate()
    • COMPLETE:如果出現(xiàn)了這個(gè)階段依疼,表示mapreduce只有map痰腮,沒有reduce,所有map端就直接出結(jié)果了律罢;從原始數(shù)據(jù)直接到完全聚合膀值,將會(huì)調(diào)用iterate()和terminate()
  • 永久函數(shù)
    • 如果希望在hive 中自定義一個(gè)函數(shù),且能永久使用误辑,則修改源碼添加相應(yīng)的函數(shù)類沧踏,然后在修改ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java類,添加相應(yīng)的注冊(cè)函數(shù)代碼巾钉。registerUDF("parse_url",UDFParseUrl.class.false);
    • 寫一個(gè)hql文件悦冀,hive -i 'file'
    • 新建hiverc文件
      • jar包放到安裝目錄下或者指定目錄下
      • $HOME/.hiverc
      • 把初始化語句加載到文件中
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市睛琳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌踏烙,老刑警劉巖师骗,帶你破解...
    沈念sama閱讀 221,198評(píng)論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異讨惩,居然都是意外死亡辟癌,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門荐捻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來黍少,“玉大人,你說我怎么就攤上這事处面〕е茫” “怎么了?”我有些...
    開封第一講書人閱讀 167,643評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵魂角,是天一觀的道長昵济。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么访忿? 我笑而不...
    開封第一講書人閱讀 59,495評(píng)論 1 296
  • 正文 為了忘掉前任瞧栗,我火速辦了婚禮,結(jié)果婚禮上海铆,老公的妹妹穿的比我還像新娘迹恐。我一直安慰自己,他們只是感情好卧斟,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評(píng)論 6 397
  • 文/花漫 我一把揭開白布殴边。 她就那樣靜靜地躺著,像睡著了一般唆涝。 火紅的嫁衣襯著肌膚如雪找都。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,156評(píng)論 1 308
  • 那天廊酣,我揣著相機(jī)與錄音能耻,去河邊找鬼。 笑死亡驰,一個(gè)胖子當(dāng)著我的面吹牛晓猛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播凡辱,決...
    沈念sama閱讀 40,743評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼戒职,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了透乾?” 一聲冷哼從身側(cè)響起洪燥,我...
    開封第一講書人閱讀 39,659評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎乳乌,沒想到半個(gè)月后捧韵,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,200評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡汉操,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評(píng)論 3 340
  • 正文 我和宋清朗相戀三年再来,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片磷瘤。...
    茶點(diǎn)故事閱讀 40,424評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡芒篷,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出采缚,到底是詐尸還是另有隱情针炉,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評(píng)論 5 349
  • 正文 年R本政府宣布扳抽,位于F島的核電站糊识,受9級(jí)特大地震影響绩社,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赂苗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評(píng)論 3 333
  • 文/蒙蒙 一愉耙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拌滋,春花似錦朴沿、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至昌犹,卻和暖如春坚芜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背斜姥。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評(píng)論 1 271
  • 我被黑心中介騙來泰國打工鸿竖, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人铸敏。 一個(gè)月前我還...
    沈念sama閱讀 48,798評(píng)論 3 376
  • 正文 我出身青樓缚忧,卻偏偏與公主長得像,于是被迫代替她去往敵國和親杈笔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子闪水,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容