什么是小文件 Spark官方的推薦文檔中抛人,parquet格式的文件的推薦大小是128M闸溃,小于該值的文件均可以稱為小文件宰衙。但在實際工作中境蔼,小文件的...
前幾日在MySQL執(zhí)行一條update語句時報錯魔慷,報錯信息如下: 通過搜索查到有很多類似的報錯例子咬清,區(qū)別只是在于有的是3072 bytes,有的...
我們在通過Canal把MySQL的Binlog數(shù)據(jù)發(fā)送到MQ(kafak/rocketmq)時捐凭,需要關(guān)注mq的順序性問題记舆。Binlog本身是有序...
現(xiàn)狀 使用DataX從生產(chǎn)DB拉取數(shù)據(jù)時鸽捻,正常的業(yè)務(wù)場景我們都是通過增量拉取做Merge的方式來限制抽取的數(shù)據(jù)量,但存在以下幾種情況需要做大數(shù)據(jù)...
在建設(shè)實時數(shù)倉的過程中泽腮,用到了Mysql存放增量的結(jié)果數(shù)據(jù)御蒲,所以需要定時清理歷史數(shù)據(jù),為了避免影響的線上的實時數(shù)據(jù)寫入诊赊,采用了按照最后更改時間厚满,...
周末的時候在家收到了工作的告警通知,遠(yuǎn)程登錄后發(fā)現(xiàn)是自運維的CK集群硬盤空間不足碧磅,通過命令查看各個目錄的大小碘箍,確定是Zookeeper的日志及s...
Hive Join common join如果不指定MapJoin或者不符合MapJoin的條件,那么Hive解析器會將Join操作轉(zhuǎn)換成Com...
轉(zhuǎn)載文章鲸郊,原文鏈接[http://www.reibang.com/p/f219d207d853] 1. 查看CPU 1.1 查看CPU個數(shù) 1...
近期在自建數(shù)據(jù)分析平臺的時候丰榴,遇到了事實表包含兩個業(yè)務(wù)時間語義的問題,結(jié)合數(shù)倉事實表建設(shè)方面的方法論秆撮,整理記錄一些自己的想法四濒。事實表的通常可以劃...