Hive解析json數組

在使用Hive搭建數據倉庫,處理數據時敌买,同傳統(tǒng)數倉的結構化數據不同藤乙,我們經常會遇到一些非結構化的數據猜揪,json格式的字符串就是常見的一種類型惭墓。
對于簡單的json字符串坛梁,Hive提供了get_json_object函數用來提取字符串中的相應信息,但如果遇到如下樣式的json字符串數組

[{"disttype":"直線","placeid":'abcdef',"place":"距景點A直線xxx米 · xx山風景區(qū)外","motivateinfo":"","labels":"游玩|休閑|"},
{"disttype":"直線","placeid":'hijklmn',"place":"距景點A直線xxy米 · xx山風景區(qū)外","motivateinfo":"","labels":"低價|親子|"}]

此時就需要explode函數來處理這種情況腊凶;
下面先上代碼划咐,然后再分步講解:

select m.d,j.info,get_json_object(j.info,'$.placeid') hotelid,
       get_json_object(j.info,'$.labels') tag
  from (select d,split(regexp_replace(regexp_extract(
                                              '[{"disttype":"直線","placeid":'abcdef',"place":"距景點A直線xxx米 · xx山風景區(qū)外","motivateinfo":"","labels":"游玩|休閑|"},
{"disttype":"直線","placeid":'hijklmn',"place":"距景點A直線xxy米 · xx山風景區(qū)外","motivateinfo":"","labels":"低價|親子|"}]',
                             '\\}\\,\\{','\\}\\|\\|\\{'),
                    '\\|\\|') info_array
          from table) m  
 lateral view explode(info_array) j as info;

說明:

  • explode函數要求參數必須是array或者map類型拴念,所以需要先把字符串轉成array
  • regexp_extract('xxx','^\[(.+)\]$',1) 這里是把需要解析的json數組去除左右中括號,需要注意的是這里的中括號需要兩個轉義字符\[褐缠。
  • regexp_replace('xxx','\}\,\{', '\}\|\|\{') 把json數組的逗號分隔符變成兩根豎線||政鼠,可以自定義分隔符只要不在json數組項出現就可以。
  • 使用split函數返回的數組队魏,分隔符為上面定義好的公般。
  • lateral view explode處理3中返回的數組
  • 然后就可以使用get_json_object或者json_tuple來一條條處理json數據了
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市胡桨,隨后出現的幾起案子官帘,更是在濱河造成了極大的恐慌,老刑警劉巖昧谊,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件刽虹,死亡現場離奇詭異,居然都是意外死亡呢诬,警方通過查閱死者的電腦和手機涌哲,發(fā)現死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來尚镰,“玉大人阀圾,你說我怎么就攤上這事」钒Γ” “怎么了稍刀?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長敞曹。 經常有香客問我账月,道長,這世上最難降的妖魔是什么澳迫? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任局齿,我火速辦了婚禮,結果婚禮上橄登,老公的妹妹穿的比我還像新娘抓歼。我一直安慰自己,他們只是感情好拢锹,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布谣妻。 她就那樣靜靜地躺著,像睡著了一般卒稳。 火紅的嫁衣襯著肌膚如雪蹋半。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天充坑,我揣著相機與錄音减江,去河邊找鬼染突。 笑死,一個胖子當著我的面吹牛辈灼,可吹牛的內容都是我干的份企。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼巡莹,長吁一口氣:“原來是場噩夢啊……” “哼司志!你這毒婦竟也來了?” 一聲冷哼從身側響起降宅,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤俐芯,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后钉鸯,有當地人在樹林里發(fā)現了一具尸體吧史,經...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年唠雕,在試婚紗的時候發(fā)現自己被綠了贸营。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡岩睁,死狀恐怖钞脂,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情捕儒,我是刑警寧澤冰啃,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站刘莹,受9級特大地震影響阎毅,放射性物質發(fā)生泄漏。R本人自食惡果不足惜点弯,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一扇调、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧抢肛,春花似錦狼钮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至福稳,卻和暖如春涎拉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工曼库, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留区岗,地道東北人略板。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓毁枯,卻偏偏與公主長得像,于是被迫代替她去往敵國和親叮称。 傳聞我的和親對象是個殘疾皇子种玛,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內容