hive解析、處理復(fù)雜類型Map堰乔、Array多糠、Json

鏈表.jpg

Hive中Map類型的操作

map的結(jié)構(gòu)

  • 創(chuàng)建map的表

    create table temp_db.map_test(
       id int comment "源數(shù)據(jù)主鍵id"
      ,smap map<string,string> comment "string型map"
      ,imap map<string,int> comment "int型map"
      );
    

    map的存儲(chǔ)形式:key-value,如:{“張三”浩考,23夹孔,“性別“,"male"}

  • 插入map數(shù)據(jù)

    insert into temp_db.map_test(id,smap,imap) 
    select 12,map('姓名','張三') as pp,map('年齡',23,'性別',1) as dd;
    
    insert into temp_db.map_test(id,smap,imap)
    select 14,map('地址','安徽') as dd,map('年級(jí)',3);
    
    -- 注意,這里的map引用使用"()",有時(shí)候會(huì)錯(cuò)誤寫成"{}";此外析孽,對(duì)于key-value值來說搭伤,是沒有特定的限制的。key可以有多個(gè)袜瞬。如上"姓名","地址"
    
  • 查詢map中的數(shù)據(jù)

    -- ***[key]
    select smap['姓名'] as arg1,imap['年齡'] as age
    from temp_db.map_test;
    
  • 刪除map數(shù)據(jù)

    別搞笑了怜俐,hive不支持刪除操作〉擞龋可以使用insert overwrite拍鲤。同理,也不支持修改

map的一些操作函數(shù)

  • key鍵查詢

    -- map_keys(colName)  結(jié)果是一個(gè)Array,如果希望提取汞扎,則使用[index],如map_keys(smap)[0]
    -- hive和prest的index起點(diǎn)存在差異,hive從0開始季稳,presto從1開始【我測(cè)試的環(huán)境是這樣的】
    select map_keys(smap) as smap_keys,map_keys(imap) as imap_keys
    from temp_db.map_test;
    
  • value值查詢

    -- map_values(colname)
    select map_values(smap) as s_values,map_values(imap) as i_values
    from temp_db.map_test;
    
    
  • 鍵值對(duì)查詢

    -- size(colName),返回對(duì)應(yīng)列有多少個(gè)key-value
    select size(imap) as pair_cnt
    from temp_db.map_test;
    

map類型數(shù)據(jù)的加工

  • 將map列拆分為key、value列

    -- smap中只存在單個(gè)key-value的情況澈魄,所有l(wèi)ateral之后景鼠,數(shù)據(jù)有單列變成雙列。但是行數(shù)沒有變化
    select id,skey,svalue
    from temp_db.map_test
    lateral view explode(smap) tb as skey,svalue;
    
    -- imap中 存在多個(gè)鍵值對(duì)痹扇。這頓操作之后铛漓,行數(shù)會(huì)增加
    select id,ikey,ivalue
    from temp_db.map_test
    lateral view explode(imap) tb as ikey,ivalue;
    

Array操作

Array的結(jié)構(gòu)

  • 創(chuàng)建Array表

    create table temp_db.array_test
    (
     id int comment '源數(shù)據(jù)主鍵id'
    ,year_arr array<string> comment '數(shù)組記錄,年份'
    ,score_arr array<string> comment '數(shù)組記錄鲫构,分?jǐn)?shù)'
    );
    
  • 插入數(shù)據(jù)

    insert into  temp_db.array_test (id,year_arr,score_arr)
    select 12,array('1991','1990','1989'),array('56','20','23')
    ;
    
  • 查詢

    -- 注意事項(xiàng)浓恶,如果數(shù)組越界了,則報(bào)錯(cuò)结笨。
    select id,year_arr[1],year_arr[2]
    from temp_db.array_test
    

Array的一些操作

  • 是否包含某個(gè)值(array_contains()),Boolean型(true/false包晰,where條件中比較合適)

    select *
    from temp_db.array_test
    where array_contains(year_arr,'1990');
    
  • 拆成單條多行記錄

    select col1
    from temp_db.array_test
    lateral view explode(year_arr) tb as col1
    

Json的操作

在處理日志數(shù)據(jù)時(shí)昂秃,會(huì)遇到j(luò)son格式的數(shù)據(jù)。那么杜窄,在hive中如何處理它呢肠骆?

一般情況下,json數(shù)據(jù)會(huì)以string類型塞耕,字符串格式進(jìn)行存儲(chǔ)蚀腿。

  • 創(chuàng)建案例

    create table temp_db.json_test
    (id int comment '源數(shù)據(jù)庫(kù)id主鍵',
     str string comment '日志字符串');
    
    insert into temp_db.json_test(id,str)
    values (1,'{"name":"孫先生","carrer":"大數(shù)據(jù)開發(fā)工程師","dream":["開個(gè)便利店","去外面逛一逛","看本好書"],"friend":{
           "friend_1":"MM",
           "friend_2":"NN",
           "friend_3":"BB",
           "friend_4":"VV"
           }
            }');
    insert into temp_db.json_test(id,str)
    values (2,'{"name":"唐女士","carrer":"退休農(nóng)民","dream":["兒子聽話","帶孫子"],"friend":{
           "friend_1":"CC"
           }
          }');
           
    
  • json_tuple提取數(shù)據(jù)

    -- 提取一級(jí)格式下的數(shù)據(jù)
    select name 
    from temp_db.json_test 
    lateral view json_tuple(str,'name') tb as name;
    
    -- 提取二級(jí)格式下的數(shù)據(jù)(如好友1)
    select good_friend_1
    from temp_db.json_test
    lateral view json_tuple(str,'friend') dd as good_friend
    lateral view json_tuple(good_friend,'好友1') tb as good_friend_1;
    
    -- 提取標(biāo)簽中所有的內(nèi)容(沒有的標(biāo)簽,返回null)
    select good_friend_1,good_friend_2,good_friend_3
    from temp_db.json_test
    lateral view json_tuple(str,'friend') dd as good_friend
    lateral view json_tuple(good_friend,'好友1','好友2','好友3') tb as good_friend_1,good_friend_2,good_friend_3;
    
    -- 提取Array
    select dream_col
    from temp_db.json_test
    lateral view  json_tuple(str,'dream') dd as dreaming
    lateral view explode(dreaming) tb as dream_col
    
  • get_json_object提取指定的json元素內(nèi)容(使用"$"的方式,"."表示對(duì)象,"[]"引用數(shù)組)

    -- 獲取標(biāo)簽對(duì)象
    select get_json_object(str,'$.name') as name
    from temp_db.json_test;
    
    -- 獲取標(biāo)簽中的數(shù)組元素
    select get_json_object(str,'$.dream[0]') as good_friend
    from temp_db.json_test;
    
    -- 獲取多層中的對(duì)象
    select get_json_object(str,'$.friend.friend_1') as good_friend
    from temp_db.json_test;
    

json_tuple與get_json_object都是hive自帶的UDF扫外。json_tuple 相對(duì)于 get_json_object 的優(yōu)勢(shì)就是一次可以解析多個(gè) Json 字段莉钙。有興趣可以參考如何在 Apache Hive 中解析 Json 數(shù)組這篇文章,其中也說了通過自行開發(fā)UDF來實(shí)現(xiàn)相關(guān)的功能筛谚。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末磁玉,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子驾讲,更是在濱河造成了極大的恐慌蚊伞,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吮铭,死亡現(xiàn)場(chǎng)離奇詭異时迫,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)谓晌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門掠拳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人纸肉,你說我怎么就攤上這事溺欧。” “怎么了柏肪?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵姐刁,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我预吆,道長(zhǎng)龙填,這世上最難降的妖魔是什么胳泉? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任拐叉,我火速辦了婚禮,結(jié)果婚禮上扇商,老公的妹妹穿的比我還像新娘凤瘦。我一直安慰自己,他們只是感情好案铺,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布蔬芥。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪笔诵。 梳的紋絲不亂的頭發(fā)上返吻,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音乎婿,去河邊找鬼测僵。 笑死,一個(gè)胖子當(dāng)著我的面吹牛谢翎,可吹牛的內(nèi)容都是我干的捍靠。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼森逮,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼榨婆!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起褒侧,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤良风,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后闷供,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拖吼,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年这吻,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吊档。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡唾糯,死狀恐怖怠硼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情移怯,我是刑警寧澤香璃,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站舟误,受9級(jí)特大地震影響葡秒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜嵌溢,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一眯牧、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧赖草,春花似錦学少、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)扣囊。三九已至,卻和暖如春绒疗,著一層夾襖步出監(jiān)牢的瞬間侵歇,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來泰國(guó)打工吓蘑, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盒至,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓士修,卻偏偏與公主長(zhǎng)得像枷遂,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子棋嘲,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348