1 Kafka 1.1 Kafka Source 1.2 Kafka Sink 2 RabbitMQ 2.1 RabbitMQ Source 2...
需求:快速解析一個(gè)文件夾下的所有xml(10年的數(shù)據(jù),大概一千萬個(gè)xml)遇到的坑:xml里面有dtd叉存,必須這個(gè)文件存在咐刨,不然會報(bào)錯(cuò)處理思路:重...
最近解析了一個(gè)超大的xml,之間遇到很多坑定鸟,有寫Java程序而涉、spark程序,最后用Python處理的:Java联予、spark啼县、python處理X...
上一篇咱們講了通過hive映射為hbase表導(dǎo)數(shù)據(jù),這兒我么再講一下通過hive沸久,使用hbase原生jar生成hfile再bulkload到hb...
需求:解析XML文件季眷,寫入到hbase(xml文件格式為GBK,spark讀進(jìn)來會亂碼)痛點(diǎn):普通的寫入太慢太耗費(fèi)時(shí)間 1.spark解決讀取G...
/********************************** 數(shù)據(jù)去重 ***************************...
記錄一下曾經(jīng)走過的一些坑卷胯,一定要注意operator狀態(tài)之前盡量不要用keyby Flink提供了Exactly once特性子刮,是依賴于帶有ba...
話不多說直接上代碼 /*********************************** 寫數(shù)據(jù)到ElasticSearch *****...