hive替代mongo成為數(shù)據(jù)倉庫

背景:

DMP項目數(shù)據(jù)每秒寫入數(shù)據(jù)量達(dá)到20-30M(峰值),可持續(xù)2個小時左右拐纱,mongo性能原因趾盐,查詢效率很低。故考慮用hive替換DMP的mongo倉庫救鲤。

周一:線上環(huán)境搭建hive久窟,調(diào)試
遇到坑:由于要和mongo整合本缠,需要額外幾個jar包斥扛,放入$hive/lib和$hadoop/share/hadoop/yarn/lib下
mongo-hadoop-core
mongo-hadoop-hive
mongo-java-driver
json-serde

周二:從DMP的mongo庫全量導(dǎo)出結(jié)果集。
遇到坑:
1)運維導(dǎo)出Mongo結(jié)果集合速度奇慢丹锹,預(yù)計花費2-3天時間稀颁。
考慮不從mongo結(jié)果庫導(dǎo)出,而從DMP的spark程序修改入手卷仑,將寫入mongo的前一步改為寫入hdfs峻村。重跑DMP項目麸折,并且由于前期已經(jīng)有臨時數(shù)據(jù)锡凝,直接讀取再做處理,大約耗時1.5hour垢啼。

2)RDD轉(zhuǎn)化為json數(shù)據(jù)
采用jackson包

<dependency>
            <groupId>com.fasterxml.jackson.core</groupId>
            <artifactId>jackson-core</artifactId>
            <version>2.4.4</version>
</dependency>

//將K,V對寫入java.util.HashMap中,V若是array,將其轉(zhuǎn)為java.util.ArrayList結(jié)構(gòu)


val mapper = new ObjectMapper()
val maps = new util.HashMap[String,java.lang.Object]()
maps.put("uuid",s._1)
//RDD遍歷,將k,v對裝入map窜锯。(maps.put方法)
s._2.foreach(v =>
          {
            //自定義函數(shù) K,V對裝入map
            FormatUser(maps,titlesets,v)
          })
val jstring = mapper.writeValueAsString(maps)
//jstring直接打印即是json字符串

3)導(dǎo)入hive,創(chuàng)建外部表
mongo數(shù)據(jù)并不是太規(guī)范芭析,有149個key字段
hive創(chuàng)建表格:

create external table if not exists user_profile_dmp_all(
uuid STRING,
isreg INT,
isalive INT,
ispaid INT,
isintent INT,
province ARRAY<STRING>,
city ARRAY<STRING>,
online_m INT,
online_pc INT,
online_o INT,
os_win INT,
os_linux INT,
os_mac INT,
os_ios INT,
os_android INT,
os_o INT,
activity INT,
xf_last_time INT,
xf_ut_news INT,
xf_ut_house INT,
xf_ut_regv INT,
xf_ut_paid INT,
xf_ut_act INT,
xf_ubt_91 INT,
xf_ubt_yche INT,
xf_ubt_im INT,
xf_ubt_400 INT,
xf_ubt_ejq INT,
xf_ubt_kft INT,
xf_hp_a INT,
xf_hp_b INT,
xf_hp_c INT,
xf_hp_d INT,
xf_hp_e INT,
xf_hp_f INT,
xf_hp_g INT,
xf_hp_h INT,
xf_hp_i INT,
xf_province ARRAY<STRING>,
xf_city ARRAY<STRING>,
xf_district ARRAY<STRING>,
xf_bt_1 INT,
xf_bt_2 INT,
xf_bt_3 INT,
xf_bt_4 INT,
xf_bt_5 INT,
xf_bt_6 INT,
xf_bt_7 INT,
xf_bt_8 INT,
xf_bt_9 INT,
xf_bt_10 INT,
xf_bt_11 INT,
xf_bt_12 INT,
xf_op_1 INT,
xf_op_2 INT,
xf_op_3 INT,
xf_op_4 INT,
xf_op_5 INT,
xf_ht_1 INT,
xf_ht_2 INT,
xf_ht_3 INT,
xf_ht_4 INT,
xf_ht_5 INT,
xf_ht_6 INT,
xf_ht_7 INT,
xf_ht_8 INT,
xf_ht_9 INT,
xf_ht_10 INT,
xf_ht_11 INT,
xf_ht_12 INT,
xf_fitment_1 INT,
xf_fitment_2 INT,
xf_fitment_3 INT,
xf_fitment_4 INT,
xf_fitment_5 INT,
xf_dt_1 INT,
xf_dt_2 INT,
xf_dt_3 INT,
xf_dt_4 INT,
e_last_time INT,
e_ut_news INT,
e_ut_house INT,
e_ut_reg INT,
e_ut_paid INT,
e_ut_act INT,
e_ubt_im INT,
e_ubt_400 INT,
e_ubt_kft INT,
e_tt_lease INT,
e_tt_sale INT,
e_hp_a INT,
e_hp_b INT,
e_hp_c INT,
e_hp_d INT,
e_hp_e INT,
e_hp_f INT,
e_hp_g INT,
e_hp_h INT,
e_area_a INT,
e_area_b INT,
e_area_c INT,
e_area_d INT,
e_area_e INT,
e_area_f INT,
e_area_g INT,
e_area_h INT,
e_province ARRAY<STRING>,
e_city ARRAY<STRING>,
e_district ARRAY<STRING>,
e_room_0 INT,
e_room_1 INT,
e_room_2 INT,
e_room_3 INT,
e_room_4 INT,
e_room_5 INT,
e_room_6 INT,
e_hall_1 INT,
e_hall_2 INT,
e_hall_3 INT,
e_hall_4 INT,
e_balcony_1 INT,
e_balcony_2 INT,
e_balcony_3 INT,
e_toilet_1 INT,
e_toilet_2 INT,
e_toilet_3 INT,
e_toilet_4 INT,
e_propertype_1 INT,
e_propertype_2 INT,
e_propertype_3 INT,
e_propertype_4 INT,
e_propertype_5 INT,
e_propertype_6 INT,
e_propertype_7 INT,
e_propertype_8 INT,
e_propertype_9 INT,
e_fitment_1 INT,
e_fitment_2 INT,
e_fitment_3 INT,
e_deliverdate_1 INT,
e_deliverdate_2 INT,
e_deliverdate_3 INT,
e_deliverdate_4 INT,
e_deliverdate_5 INT,
ju_last_time INT,
ju_ut_reg INT,
ju_ut_act INT,
ju_ut_paid INT,
ju_ubt_order INT
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
STORED AS TEXTFILE
location '/WareHouse/HiveSource/DMP/user_profile/';

一定要創(chuàng)建外部表锚扎,以防不小心刪除。

4)測試查詢性能
js端查詢


{250B9EF2-6712-40EE-407E-8043026F4064}.png

hive語句:
select count(1) from user_profile_dmp_all where (online_m = 1 or online_pc = 1 or online_o = 1) and (os_win = 1 or os_linux = 1 or os_mac = 1 or os_ios = 1 or os_android = 1);

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末馁启,一起剝皮案震驚了整個濱河市驾孔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌惯疙,老刑警劉巖翠勉,帶你破解...
    沈念sama閱讀 211,496評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異霉颠,居然都是意外死亡对碌,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,187評論 3 385
  • 文/潘曉璐 我一進(jìn)店門蒿偎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來朽们,“玉大人怀读,你說我怎么就攤上這事∑锿眩” “怎么了菜枷?”我有些...
    開封第一講書人閱讀 157,091評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長叁丧。 經(jīng)常有香客問我犁跪,道長,這世上最難降的妖魔是什么歹袁? 我笑而不...
    開封第一講書人閱讀 56,458評論 1 283
  • 正文 為了忘掉前任坷衍,我火速辦了婚禮,結(jié)果婚禮上条舔,老公的妹妹穿的比我還像新娘枫耳。我一直安慰自己,他們只是感情好孟抗,可當(dāng)我...
    茶點故事閱讀 65,542評論 6 385
  • 文/花漫 我一把揭開白布迁杨。 她就那樣靜靜地躺著凄硼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪狐史。 梳的紋絲不亂的頭發(fā)上说墨,一...
    開封第一講書人閱讀 49,802評論 1 290
  • 那天尼斧,我揣著相機(jī)與錄音,去河邊找鬼棺棵。 笑死,一個胖子當(dāng)著我的面吹牛母怜,可吹牛的內(nèi)容都是我干的棒动。 我是一名探鬼主播,決...
    沈念sama閱讀 38,945評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼缕陕,長吁一口氣:“原來是場噩夢啊……” “哼疙挺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起铐然,我...
    開封第一講書人閱讀 37,709評論 0 266
  • 序言:老撾萬榮一對情侶失蹤搀暑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后桐罕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體桂敛,經(jīng)...
    沈念sama閱讀 44,158評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,502評論 2 327
  • 正文 我和宋清朗相戀三年薪伏,在試婚紗的時候發(fā)現(xiàn)自己被綠了嫁怀。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潦牛。...
    茶點故事閱讀 38,637評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡挡育,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出橡淆,到底是詐尸還是另有隱情母赵,我是刑警寧澤,帶...
    沈念sama閱讀 34,300評論 4 329
  • 正文 年R本政府宣布师倔,位于F島的核電站周蹭,受9級特大地震影響疲恢,放射性物質(zhì)發(fā)生泄漏瓷胧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,911評論 3 313
  • 文/蒙蒙 一杂数、第九天 我趴在偏房一處隱蔽的房頂上張望揍移。 院中可真熱鬧,春花似錦羊精、人聲如沸囚玫。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,744評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽铃在。三九已至,卻和暖如春定铜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背帘皿。 一陣腳步聲響...
    開封第一講書人閱讀 31,982評論 1 266
  • 我被黑心中介騙來泰國打工鹰溜, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人曹动。 一個月前我還...
    沈念sama閱讀 46,344評論 2 360
  • 正文 我出身青樓墓陈,卻偏偏與公主長得像,于是被迫代替她去往敵國和親贡必。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,500評論 2 348

推薦閱讀更多精彩內(nèi)容