Anaconda與Python版本對(duì)應(yīng)關(guān)系表 https://docs.anaconda.com/anaconda/packages/oldpkglists/[https:/...
Anaconda與Python版本對(duì)應(yīng)關(guān)系表 https://docs.anaconda.com/anaconda/packages/oldpkglists/[https:/...
1 Kafka 1.1 Kafka Source 1.2 Kafka Sink 2 RabbitMQ 2.1 RabbitMQ Source 2.2 RabbitMQ Sin...
需求:快速解析一個(gè)文件夾下的所有xml(10年的數(shù)據(jù)饵溅,大概一千萬(wàn)個(gè)xml)遇到的坑:xml里面有dtd糙捺,必須這個(gè)文件存在朝巫,不然會(huì)報(bào)錯(cuò)處理思路:重寫原有的方法 語(yǔ)言對(duì)比:Jav...
最近解析了一個(gè)超大的xml连躏,之間遇到很多坑剩岳,有寫Java程序、spark程序入热,最后用Python處理的:Java拍棕、spark晓铆、python處理XML速度對(duì)比:Python>s...
上一篇咱們講了通過(guò)hive映射為hbase表導(dǎo)數(shù)據(jù),這兒我么再講一下通過(guò)hive绰播,使用hbase原生jar生成hfile再bulkload到hbase骄噪,可以做到hive解偶 ...
需求:解析XML文件,寫入到hbase(xml文件格式為GBK蠢箩,spark讀進(jìn)來(lái)會(huì)亂碼)痛點(diǎn):普通的寫入太慢太耗費(fèi)時(shí)間 1.spark解決讀取GBK亂碼問(wèn)題 object P...
/********************************** 數(shù)據(jù)去重 **************************************/ /*...
庫(kù)名稱簡(jiǎn)介 Chardet 字符編碼探測(cè)器潮峦,可以自動(dòng)檢測(cè)文本囱皿、網(wǎng)頁(yè)、xml的編碼忱嘹。 colorama 主要用來(lái)給文本添加各種顏色嘱腥,并且非常簡(jiǎn)單易用。 Prettytable ...
Flink 1.10 同時(shí)還標(biāo)志著對(duì) Blink[1] 的整合宣告完成医寿,隨著對(duì) Hive 的生產(chǎn)級(jí)別集成及對(duì) TPC-DS 的全面覆蓋,F(xiàn)link 在增強(qiáng)流式 SQL 處理能...
記錄一下曾經(jīng)走過(guò)的一些坑蘑斧,一定要注意operator狀態(tài)之前盡量不要用keyby Flink提供了Exactly once特性靖秩,是依賴于帶有barrier的分布式快照+可部分...
話不多說(shuō)直接上代碼 /*********************************** 寫數(shù)據(jù)到ElasticSearch ********************...
Prologue 數(shù)據(jù)去重(data deduplication)是我們大數(shù)據(jù)攻城獅司空見(jiàn)慣的問(wèn)題了。除了統(tǒng)計(jì)UV等傳統(tǒng)用法之外竖瘾,去重的意義更在于消除不可靠數(shù)據(jù)源產(chǎn)生的臟數(shù)據(jù)...
前言 最近正在將一些原本用Spark Streaming實(shí)現(xiàn)的流計(jì)算任務(wù)遷移到Flink沟突,最簡(jiǎn)單也是最有代表性的就是實(shí)時(shí)點(diǎn)擊量(PV)統(tǒng)計(jì)。除了PV之外捕传,我們還希望同時(shí)將內(nèi)容...