2021-04-26

1. Hive總結(jié)-常用函數(shù)

學(xué)習書目:https://zhuanlan.zhihu.com/p/82601425

1.1. 基礎(chǔ)無腦型:

1.1.1. 字符串長度函數(shù):length

hive> select length('abced') from dual;          5

1.1.2. 字符串反轉(zhuǎn)函數(shù):reverse

hive> select reverse('abcedfg') from dual;        gfdecba

1.1.3. 字符串轉(zhuǎn)大寫函數(shù):upper,ucase

hive> select ucase('abCd') from dual;    ABCD

1.1.4. 字符串連接函數(shù):concat。

hive> select concat('abc','def') from dual;        abcdef

支持任意個輸入字符串

1.1.5. 字符串轉(zhuǎn)小寫函數(shù):lower,lcase

hive> select lcase('abCd') from dual;        abcd

1.1.6. 去空格函數(shù):trim田轧;

hive> select trim(' abc ') from dual;        abc

說明:去除字符串兩邊的空格

hive> select ltrim(' abc ') from dual;        abc
1.1.6.1. 左邊去空格函數(shù):ltrim尚镰;
hive> select rtrim(' abc ') from dual;        abc
1.1.6.2. 右邊去空格函數(shù):rtrim

帶分隔符字符串連接函數(shù):concat_ws

hive> select concat_ws(',','abc','def','gh') from dual;        abc,def,gh

1.1.7. 空格字符串函數(shù):space

說明:返回長度為n的空字符串

hive> select space(10) from dual;hive> select length(space(10)) from dual;        10

1.1.8. 重復(fù)字符串函數(shù):repeat

hive> select repeat('abc',5) from dual;        abcabcabcabcabc

1.2. 查找替換截取

1.2.1. 字符串截取函數(shù):substr,substring

hive> select substr('abcde',3) from dual;        cdehive> select substring('abcde',3) from dual;        cdehive>  select substr('abcde',-1) from dual;         e

說明:返回字符串A從start位置到結(jié)尾的字符串

1.2.2. 字符串截取函數(shù):substr,substring

hive> select substr('abcde',3,2) from dual;        cdhive> select substring('abcde',3,2) from dual;        cdhive>select substring('abcde',-2,2) from dual;        de

說明:返回字符串A從start位置開始爹橱,長度為len的字符串

1.2.3. 正則表達式替換函數(shù):regexp_replace

hive> select regexp_replace('foobar', 'oo|ar', '') from dual;        fbhive> select regexp_replace(split(labels,'\\.')[0], '\\.|\\{|\\}|\\"', '') as labels;

(此處使用了轉(zhuǎn)移字符:雙,)

說明:將字符串A中的符合java正則表達式B的部分替換為C。注意,在有些情況下要使用轉(zhuǎn)義字符\,類似oracle中的regexp_replace函數(shù)声登。

1.2.4. 正則表達式解析函數(shù):regexp_extract

hive> select regexp_extract('foothebar', 'foo(.*?)(bar)', 1) from dual;          thehive> select regexp_extract('foothebar', 'foo(.*?)(bar)', 2) from dual;         barhive> select regexp_extract('foothebar', 'foo(.*?)(bar)', 0) from dual;        foothebarhive> select regexp_extract('中國abc123!','[\\u4e00-\\u9fa5]+',0) from dual; //實用:只匹配中文hive> select regexp_replace('中國abc123','[\\u4e00-\\u9fa5]+','') from dual; //實用:去掉中文

語法: regexp_extract(string subject, string pattern, int index)

返回值: string

說明:將字符串subject按照pattern正則表達式的規(guī)則拆分格遭,返回index指定的字符哈街。

第三個參數(shù):

0 是顯示與之匹配的整個字符串

1 是顯示第一個括號里面的

2 是顯示第二個括號里面的字段

注意,在有些情況下要使用轉(zhuǎn)義字符拒迅,等號要用雙豎線轉(zhuǎn)義骚秦,這是java正則表達式的規(guī)則。

1.3. 字符串內(nèi)容解析

1.3.1. URL解析函數(shù):parse_url

語法: parse_url(string urlString, string partToExtract [, string keyToExtract])

返回值: string

說明:返回URL中指定的部分璧微。partToExtract的有效值為:HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, and USERINFO.

hive> select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST') from dual;        facebook.comhive> select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'QUERY', 'k1') from dual;        v1

1.3.2. json解析函數(shù):get_json_object

語法: get_json_object(string json_string, string path)

返回值: string

說明:解析json的字符串json_string,返回path指定的內(nèi)容作箍。如果輸入的json字符串無效,那么返回NULL前硫。

hive>select  get_json_object('{"nation":"china"}','$.nation') from dual;china

1.3.3. 首字符ascii函數(shù):ascii 胞得;返回值: int

hive> select ascii('abcde') from dual;        97

說明:返回字符串str第一個字符的ascii碼

1.3.4. 左補足函數(shù):lpad(常用來不足長度不足的字符串,然后進行截取

hive> select lpad('abc',10,'td') from dual;tdtdtdtabc
1.3.4.1. 右補足函數(shù):rpad
hive> select rpad('abc',10,'td') from dual;        abctdtdtdt

1.3.5. 分割字符串函數(shù): split屹电,跟底層MR中的split方法功能一樣阶剑。返回值: array

hive> select split('abtcdtef','t') from dual;        ["ab","cd","ef"]

1.3.6. 集合查找函數(shù): find_in_set ;返回值: int

說明: 返回str在strlist第一次出現(xiàn)的位置危号,strlist是用逗號分割的字符串牧愁。如果沒有找該str字符,則返回0

hive> select find_in_set('ab','ef,ab,de') from dual;        2hive> select find_in_set('at','ef,ab,de') from dual;        0

1.3.7. 在一個字符串中搜索指定的字符,返回發(fā)現(xiàn)指定的字符的位置: INSTR(string C1,string C2,int I,int J)外莲;

sql hive> select instr("abcde",'b') from dual; 2

1.3.8. 使用兩個分隔符將文本拆分為鍵值對:str_to_map(text[, delimiter1, delimiter2]) 返回:map

Delimiter1將文本分成K-V對猪半,Delimiter2分割每個K-V對。對于delimiter1默認分隔符是',',對于delimiter2默認分隔符是'='

sql hive> select str_to_map('aaa:123&bbb:456', '&', ':') from dual; {"bbb":"456","aaa":"123"}

1.4. 時間函數(shù)

1.4.1. unix_timestamp() 返回當前時間戳办龄。另外烘绽,current_timestamp() 也有同樣作用。

hive> select unix_timestamp();1568552090hive> select unix_timestamp('2020-01-01 01:01:01');1577811661hive> select unix_timestamp('2020-01-01','yyyy-MM-dd');1577808000

1.4.2. from_unixtime(int/bigint timestamp)

返回 timestamp 時間戳對應(yīng)的日期俐填,格式為 yyyy-MM-dd HH:mm:ss安接。
hive> select from_unixtime(1577811661);2020-01-01 01:01:01hive> select from_unixtime(1577811661,'yyyy/MM/dd HH');2020/01/01 01

1.4.3.current_date() ,當前日期時間

hive> select current_date();2021-04-25hive> select current_timestamp();2021-04-25 16:56:49.274hive> select unix_timestamp();1619341037hive> select from_unixtime(unix_timestamp(),'yyyy-MM-dd');2021-04-25hive> select from_unixtime(unix_timestamp(),'yyyyMMdd');20210425hive> select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:dd:ss');2021-04-25 17:25:51

1.4.4. date_add()

hive> select date_sub(from_unixtime(unix_timestamp(),'yyyy-MM-dd'),1);2021-04-24hive> select date_add(current_date,-1);2021-04-24

1.4.5. date_format()

時間戳<互轉(zhuǎn)>日期:from_unixtime(), to_unix_timestamp
hive> select from_unixtime(1517725479,'yyyy-MM-dd HH:dd:ss');2018-02-04 14:04:39hive> select to_unix_timestamp('2017-01-01 12:12:12','yyyy-MM-dd HH:dd:ss');1484193612

date_format 輸出標準時間格式:

select from_unixtime(unix_timestamp());hive> select to_date('2017-01-01 12:12:12');2017-01-01hive> select date_format(current_timestamp(),'yyyy-MM-dd HH:mm:ss');2021-04-25 17:21:26hive> select date_format(current_date(),'yyyyMMdd');20210425

utc時間轉(zhuǎn)換:

hive> select to_utc_timestamp(current_timestamp(),8);2021-04-25 17:22:52.29hive> select from_utc_timestamp(current_timestamp(),8);
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末英融,一起剝皮案震驚了整個濱河市盏檐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌驶悟,老刑警劉巖胡野,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異痕鳍,居然都是意外死亡硫豆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進店門笼呆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來熊响,“玉大人,你說我怎么就攤上這事诗赌『骨眩” “怎么了?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵铭若,是天一觀的道長洪碳。 經(jīng)常有香客問我,道長叼屠,這世上最難降的妖魔是什么瞳腌? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮环鲤,結(jié)果婚禮上纯趋,老公的妹妹穿的比我還像新娘。我一直安慰自己冷离,他們只是感情好,可當我...
    茶點故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布纯命。 她就那樣靜靜地躺著西剥,像睡著了一般。 火紅的嫁衣襯著肌膚如雪亿汞。 梳的紋絲不亂的頭發(fā)上瞭空,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天,我揣著相機與錄音,去河邊找鬼咆畏。 笑死南捂,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的旧找。 我是一名探鬼主播溺健,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼钮蛛!你這毒婦竟也來了鞭缭?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤魏颓,失蹤者是張志新(化名)和其女友劉穎岭辣,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體甸饱,經(jīng)...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡沦童,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了叹话。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片搞动。...
    茶點故事閱讀 38,039評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖渣刷,靈堂內(nèi)的尸體忽然破棺而出鹦肿,到底是詐尸還是另有隱情,我是刑警寧澤辅柴,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布箩溃,位于F島的核電站,受9級特大地震影響碌嘀,放射性物質(zhì)發(fā)生泄漏涣旨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一股冗、第九天 我趴在偏房一處隱蔽的房頂上張望霹陡。 院中可真熱鬧,春花似錦止状、人聲如沸烹棉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽浆洗。三九已至,卻和暖如春集峦,著一層夾襖步出監(jiān)牢的瞬間伏社,已是汗流浹背抠刺。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留摘昌,地道東北人速妖。 一個月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像聪黎,于是被迫代替她去往敵國和親罕容。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內(nèi)容