什么是小文件 Spark官方的推薦文檔中,parquet格式的文件的推薦大小是128M哟楷,小于該值的文件均可以稱為小文件故响。但在實(shí)際工作中霎苗,小文件的...
前幾日在MySQL執(zhí)行一條update語句時報錯河爹,報錯信息如下: 通過搜索查到有很多類似的報錯例子植捎,區(qū)別只是在于有的是3072 bytes,有的...
我們在通過Canal把MySQL的Binlog數(shù)據(jù)發(fā)送到MQ(kafak/rocketmq)時贩挣,需要關(guān)注mq的順序性問題剂碴。Binlog本身是有序...
現(xiàn)狀 使用DataX從生產(chǎn)DB拉取數(shù)據(jù)時把将,正常的業(yè)務(wù)場景我們都是通過增量拉取做Merge的方式來限制抽取的數(shù)據(jù)量,但存在以下幾種情況需要做大數(shù)據(jù)...
在建設(shè)實(shí)時數(shù)倉的過程中忆矛,用到了Mysql存放增量的結(jié)果數(shù)據(jù)察蹲,所以需要定時清理歷史數(shù)據(jù),為了避免影響的線上的實(shí)時數(shù)據(jù)寫入催训,采用了按照最后更改時間洽议,...
周末的時候在家收到了工作的告警通知,遠(yuǎn)程登錄后發(fā)現(xiàn)是自運(yùn)維的CK集群硬盤空間不足漫拭,通過命令查看各個目錄的大小亚兄,確定是Zookeeper的日志及s...
Hive Join common join如果不指定MapJoin或者不符合MapJoin的條件,那么Hive解析器會將Join操作轉(zhuǎn)換成Com...
轉(zhuǎn)載文章采驻,原文鏈接[http://www.reibang.com/p/f219d207d853] 1. 查看CPU 1.1 查看CPU個數(shù) 1...
近期在自建數(shù)據(jù)分析平臺的時候审胚,遇到了事實(shí)表包含兩個業(yè)務(wù)時間語義的問題,結(jié)合數(shù)倉事實(shí)表建設(shè)方面的方法論礼旅,整理記錄一些自己的想法膳叨。事實(shí)表的通常可以劃...