借助hive快速導(dǎo)數(shù)據(jù)到hbase(01)

需求:解析XML文件驰后,寫入到hbase(xml文件格式為GBK蜂绎,spark讀進(jìn)來會亂碼)
痛點:普通的寫入太慢太耗費時間

1.spark解決讀取GBK亂碼問題

object ParseXml {
def main(args: Array[String]): Unit = {
//構(gòu)建sparksession
val spark = SparkSession.builder.master("local[*]").appName("Parse_xml").getOrCreate()
// 格式轉(zhuǎn)換
val data_DS: RDD[String] = spark.sparkContext.hadoopFile("/Users/Desktop/2017003_2010-2019/2018-2019", classOf[TextInputFormat],
classOf[LongWritable], classOf[Text]).map(
pair => new String(pair._2.getBytes, 0, pair.2.getLength, "GBK"))
import spark.implicits.

data_DS.toDF().createOrReplaceTempView("categ_entry")
//SHENQINGH,FEIYONGZLMC,JIAOFEIJE,JIAOFEISJ,JIAOFEIRXM,PIAOJUDM,SHOUJUH
spark.sql("select * from categ_entry").write.csv("data/data_csv_2")
spark.close()
}
}

2.解析XML輸出為csv文件

object ParseXml2 {
def main(args: Array[String]): Unit = {
//構(gòu)建sparksession
// val spark: SparkSession = SparkSession.builder().appName("ConfigFictoryDemo").master("local[2]").getOrCreate()
val spark = SparkSession.builder.master("local[*]")
//.config("spark.debug.maxToStringFields", "100")
.appName("Parse_xml").getOrCreate()
val sc = spark.sparkContext
val df = spark.read
.format("com.databricks.spark.xml")
.option("SHENQINGH", "FEIYONGZLMC")
.load("data/data_csv_2")
//注冊表
df.toDF().createOrReplaceTempView("categ_entry")
//SHENQINGH,FEIYONGZLMC,JIAOFEIJE,JIAOFEISJ,JIAOFEIRXM,PIAOJUDM,SHOUJUH
spark.sql("select SHENQINGH,FEIYONGZLMC,JIAOFEIJE,JIAOFEISJ,JIAOFEIRXM,PIAOJUDM,SHOUJUH from categ_entry").write.csv("data/result_2")
spark.close()
}
}

數(shù)據(jù)格式

2014208081375,實用,180.0,20150630,蕪湖,,47526269
2014208081375,新型,150.0,20141231,蕪湖,,41375489
2014208081375,實用,180.0,20151224,蕪湖,,49007979

3.load到hive表(hive支持load整個文件夾下的數(shù)據(jù))

load data local inpath "/na/20200513/hive/result" into table hive_info_paid_20200513;

4.Hbase反映射為Hbase表

CREATE TABLE ods_hive_patent_info_paid_20200513(
key string comment "hbase rowkey",
SHENQINGH string comment "申請?zhí)?,
JIAOFEISJ string comment "繳費時間",
JIAOFEIJE string comment "繳費金額",
FEIYONGZLMC string comment "費用ZLMC",
JIAOFEIRXM string comment "繳費RXM",
unit string ,
recNum string ,
currency string,
num string
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf:SHENQINGH,cf:JIAOFEISJ,cf:JIAOFEIJE,cf:FEIYONGZLMC,cf:JIAOFEIRXM,cf:unit,cf:recNum,cf:currency,cf:num")
TBLPROPERTIES("hbase.table.name" = "process_fee_20200513");

(此處我創(chuàng)建的是hive內(nèi)部表沧卢,在hive drop掉此表,hbase中的表也會被刪除蜓耻,根據(jù)個人情況可創(chuàng)建外部表存哲,此處不再贅述)

至此完美將一億條數(shù)存到Hbase表

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市翩剪,隨后出現(xiàn)的幾起案子乳怎,更是在濱河造成了極大的恐慌,老刑警劉巖前弯,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件舞肆,死亡現(xiàn)場離奇詭異,居然都是意外死亡博杖,警方通過查閱死者的電腦和手機(jī)椿胯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來剃根,“玉大人哩盲,你說我怎么就攤上這事”纷恚” “怎么了廉油?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長苗傅。 經(jīng)常有香客問我抒线,道長,這世上最難降的妖魔是什么渣慕? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任嘶炭,我火速辦了婚禮抱慌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘眨猎。我一直安慰自己抑进,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布睡陪。 她就那樣靜靜地躺著寺渗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪兰迫。 梳的紋絲不亂的頭發(fā)上信殊,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天,我揣著相機(jī)與錄音汁果,去河邊找鬼鸡号。 笑死,一個胖子當(dāng)著我的面吹牛须鼎,可吹牛的內(nèi)容都是我干的鲸伴。 我是一名探鬼主播,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼晋控,長吁一口氣:“原來是場噩夢啊……” “哼汞窗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起赡译,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤仲吏,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蝌焚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體裹唆,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年只洒,在試婚紗的時候發(fā)現(xiàn)自己被綠了许帐。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡毕谴,死狀恐怖成畦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情涝开,我是刑警寧澤循帐,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站舀武,受9級特大地震影響夏醉,放射性物質(zhì)發(fā)生泄漏微驶。R本人自食惡果不足惜残邀,卻給世界環(huán)境...
    茶點故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望跛梗。 院中可真熱鬧,春花似錦柿顶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至聂薪,卻和暖如春家乘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背藏澳。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工仁锯, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人翔悠。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓业崖,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蓄愁。 傳聞我的和親對象是個殘疾皇子双炕,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,543評論 2 349