0o青團(tuán)o0

IP屬地：甘肅

Spark小文件異步合并工具類
簡介由于Spark應(yīng)用寫數(shù)據(jù)到Hive表時委乌，容易因?yàn)閟huffle數(shù)過多導(dǎo)致生成過多小文件甚垦，影響集群存儲利用率肖抱；故需要一個能避免讀寫沖突的小文...

0.1 937 0 1
Structured Streaming自定義MySQLSink-威力增強(qiáng)版
之前使用過foreach單條處理的MySQLSink赢底，可能導(dǎo)致連續(xù)開關(guān)連接茫藏，性能較差碴裙，故通過prepareStatement的addBatch批...

298 0 0

Spark 應(yīng)用監(jiān)控告警和自動重啟
Spark on yarn 執(zhí)行流計(jì)算時稠炬，如果流掛了沮趣，沒有提醒會導(dǎo)致實(shí)時指標(biāo)計(jì)算停滯屯烦，為了保證流的7/24運(yùn)行，需要有一個能監(jiān)控Spark on...

0.4 1540 0 4
Spark讀Kudu時報認(rèn)證問題
報錯:WARN TaskSetManager: Lost task 3.0 in stage 17.0 (TID 2071, node135.b...

1130 3 0
StructuredStreaming寫入Kudu時數(shù)據(jù)少于Mysql
問題-通過SQL在Impala和Mysql從庫分別統(tǒng)計(jì)已經(jīng)同步的表數(shù)據(jù)時房铭，發(fā)現(xiàn)同一天的數(shù)據(jù)量不相同驻龟，進(jìn)而發(fā)現(xiàn)Impala讀取kudu的時間列時為...

614 0 0
StructuredStreaming的CheckPoint里面的Delta文件太多如何合并？文件目錄數(shù)是否由shuffle數(shù)決定缸匪？
問題-Delta文件是狀態(tài)文件不能簡單合并翁狐，否則可能導(dǎo)致狀態(tài)無法恢復(fù)。狀態(tài)文件多凌蔬，主要是流和流join導(dǎo)致露懒。根本原因-Spark的CheckPo...

364 0 0
Structured Streaming自定義MySQLSink
1.foreachBatchspark2.4以后可以直接使用foreachBatch調(diào)用sparksql支持的jdbc批量寫mysql,如下： ...

0.1 1012 1 1