hive解析、處理復(fù)雜類型Map堰乔、Array多糠、Json

鏈表.jpg

Hive中Map類型的操作

map的結(jié)構(gòu)

創(chuàng)建map的表

create table temp_db.map_test(
   id int comment "源數(shù)據(jù)主鍵id"
  ,smap map<string,string> comment "string型map"
  ,imap map<string,int> comment "int型map"
  );

map的存儲(chǔ)形式：key-value，如：{“張三”浩考，23夹孔，“性別“,"male"}

插入map數(shù)據(jù)

insert into temp_db.map_test(id,smap,imap) 
select 12,map('姓名','張三') as pp,map('年齡',23,'性別',1) as dd;

insert into temp_db.map_test(id,smap,imap)
select 14,map('地址','安徽') as dd,map('年級(jí)',3);

-- 注意，這里的map引用使用"()",有時(shí)候會(huì)錯(cuò)誤寫成"{}";此外析孽，對(duì)于key-value值來說搭伤，是沒有特定的限制的。key可以有多個(gè)袜瞬。如上"姓名","地址"

查詢map中的數(shù)據(jù)

-- ***[key]
select smap['姓名'] as arg1,imap['年齡'] as age
from temp_db.map_test;

刪除map數(shù)據(jù)

別搞笑了怜俐，hive不支持刪除操作〉擞龋可以使用insert overwrite拍鲤。同理，也不支持修改

map的一些操作函數(shù)

key鍵查詢

-- map_keys(colName)  結(jié)果是一個(gè)Array,如果希望提取汞扎，則使用[index],如map_keys(smap)[0]
-- hive和prest的index起點(diǎn)存在差異,hive從0開始季稳，presto從1開始【我測(cè)試的環(huán)境是這樣的】
select map_keys(smap) as smap_keys,map_keys(imap) as imap_keys
from temp_db.map_test;

value值查詢

-- map_values(colname)
select map_values(smap) as s_values,map_values(imap) as i_values
from temp_db.map_test;

鍵值對(duì)查詢

-- size(colName),返回對(duì)應(yīng)列有多少個(gè)key-value
select size(imap) as pair_cnt
from temp_db.map_test;

map類型數(shù)據(jù)的加工

將map列拆分為key、value列

-- smap中只存在單個(gè)key-value的情況澈魄，所有l(wèi)ateral之后景鼠，數(shù)據(jù)有單列變成雙列。但是行數(shù)沒有變化
select id,skey,svalue
from temp_db.map_test
lateral view explode(smap) tb as skey,svalue;

-- imap中 存在多個(gè)鍵值對(duì)痹扇。這頓操作之后铛漓，行數(shù)會(huì)增加
select id,ikey,ivalue
from temp_db.map_test
lateral view explode(imap) tb as ikey,ivalue;

Array操作

Array的結(jié)構(gòu)

創(chuàng)建Array表

create table temp_db.array_test
(
 id int comment '源數(shù)據(jù)主鍵id'
,year_arr array<string> comment '數(shù)組記錄，年份'
,score_arr array<string> comment '數(shù)組記錄鲫构，分?jǐn)?shù)'
);

插入數(shù)據(jù)

insert into  temp_db.array_test (id,year_arr,score_arr)
select 12,array('1991','1990','1989'),array('56','20','23')
;

查詢

-- 注意事項(xiàng)浓恶，如果數(shù)組越界了，則報(bào)錯(cuò)结笨。
select id,year_arr[1],year_arr[2]
from temp_db.array_test

Array的一些操作

是否包含某個(gè)值(array_contains()),Boolean型(true/false包晰，where條件中比較合適)
```
select *
from temp_db.array_test
where array_contains(year_arr,'1990');
```

拆成單條多行記錄

select col1
from temp_db.array_test
lateral view explode(year_arr) tb as col1

Json的操作

在處理日志數(shù)據(jù)時(shí)昂秃，會(huì)遇到j(luò)son格式的數(shù)據(jù)。那么杜窄，在hive中如何處理它呢肠骆？

一般情況下，json數(shù)據(jù)會(huì)以string類型塞耕，字符串格式進(jìn)行存儲(chǔ)蚀腿。

創(chuàng)建案例

create table temp_db.json_test
(id int comment '源數(shù)據(jù)庫(kù)id主鍵',
 str string comment '日志字符串');

insert into temp_db.json_test(id,str)
values (1,'{"name":"孫先生","carrer":"大數(shù)據(jù)開發(fā)工程師","dream":["開個(gè)便利店","去外面逛一逛","看本好書"],"friend":{
       "friend_1":"MM",
       "friend_2":"NN",
       "friend_3":"BB",
       "friend_4":"VV"
       }
        }');
insert into temp_db.json_test(id,str)
values (2,'{"name":"唐女士","carrer":"退休農(nóng)民","dream":["兒子聽話","帶孫子"],"friend":{
       "friend_1":"CC"
       }
      }');

json_tuple提取數(shù)據(jù)

-- 提取一級(jí)格式下的數(shù)據(jù)
select name 
from temp_db.json_test 
lateral view json_tuple(str,'name') tb as name;

-- 提取二級(jí)格式下的數(shù)據(jù)(如好友1)
select good_friend_1
from temp_db.json_test
lateral view json_tuple(str,'friend') dd as good_friend
lateral view json_tuple(good_friend,'好友1') tb as good_friend_1;

-- 提取標(biāo)簽中所有的內(nèi)容(沒有的標(biāo)簽，返回null)
select good_friend_1,good_friend_2,good_friend_3
from temp_db.json_test
lateral view json_tuple(str,'friend') dd as good_friend
lateral view json_tuple(good_friend,'好友1','好友2','好友3') tb as good_friend_1,good_friend_2,good_friend_3;

-- 提取Array
select dream_col
from temp_db.json_test
lateral view  json_tuple(str,'dream') dd as dreaming
lateral view explode(dreaming) tb as dream_col

get_json_object提取指定的json元素內(nèi)容(使用"$"的方式,"."表示對(duì)象,"[]"引用數(shù)組)

-- 獲取標(biāo)簽對(duì)象
select get_json_object(str,'$.name') as name
from temp_db.json_test;

-- 獲取標(biāo)簽中的數(shù)組元素
select get_json_object(str,'$.dream[0]') as good_friend
from temp_db.json_test;

-- 獲取多層中的對(duì)象
select get_json_object(str,'$.friend.friend_1') as good_friend
from temp_db.json_test;

json_tuple與get_json_object都是hive自帶的UDF扫外。json_tuple 相對(duì)于 get_json_object 的優(yōu)勢(shì)就是一次可以解析多個(gè) Json 字段莉钙。有興趣可以參考如何在 Apache Hive 中解析 Json 數(shù)組這篇文章，其中也說了通過自行開發(fā)UDF來實(shí)現(xiàn)相關(guān)的功能筛谚。

最后編輯于：2019.06.20 19:40:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末磁玉，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子驾讲，更是在濱河造成了極大的恐慌蚊伞，老刑警劉巖，帶你破解...
沈念sama閱讀 211,042評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件吮铭，死亡現(xiàn)場(chǎng)離奇詭異时迫，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)谓晌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,996評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門掠拳，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人纸肉，你說我怎么就攤上這事溺欧。” “怎么了柏肪？”我有些...
開封第一講書人閱讀 156,674評(píng)論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵姐刁，是天一觀的道長(zhǎng)。經(jīng)常有香客問我预吆，道長(zhǎng)龙填，這世上最難降的妖魔是什么胳泉？我笑而不...
開封第一講書人閱讀 56,340評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任拐叉，我火速辦了婚禮，結(jié)果婚禮上扇商，老公的妹妹穿的比我還像新娘凤瘦。我一直安慰自己，他們只是感情好案铺，可當(dāng)我...
茶點(diǎn)故事閱讀 65,404評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布蔬芥。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪笔诵。梳的紋絲不亂的頭發(fā)上返吻，一...
開封第一講書人閱讀 49,749評(píng)論 1贊 289
城市分裂傳說
那天，我揣著相機(jī)與錄音乎婿，去河邊找鬼测僵。笑死，一個(gè)胖子當(dāng)著我的面吹牛谢翎，可吹牛的內(nèi)容都是我干的捍靠。我是一名探鬼主播，決...
沈念sama閱讀 38,902評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼森逮，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼榨婆！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起褒侧，我...
開封第一講書人閱讀 37,662評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤良风，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后闷供，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拖吼，經(jīng)...
沈念sama閱讀 44,110評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,451評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年这吻，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吊档。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,577評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡唾糯，死狀恐怖怠硼，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情移怯，我是刑警寧澤香璃，帶...
沈念sama閱讀 34,258評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站舟误，受9級(jí)特大地震影響葡秒，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜嵌溢，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,848評(píng)論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一眯牧、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧赖草，春花似錦学少、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,726評(píng)論 0贊 21
一樁弒父案版确，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)扣囊。三九已至，卻和暖如春绒疗，著一層夾襖步出監(jiān)牢的瞬間侵歇，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,952評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來泰國(guó)打工吓蘑，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盒至，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,271評(píng)論 2贊 360
代替公主和親
正文我出身青樓士修，卻偏偏與公主長(zhǎng)得像枷遂，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子棋嘲，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,452評(píng)論 2贊 348