什么是小文件 Spark官方的推薦文檔中,parquet格式的文件的推薦大小是128M虑乖,小于該值的文件均可以稱為小文件塔粒。但在實際工作中,小文件的定義不是這么絕對例获,可能存在文件...
什么是小文件 Spark官方的推薦文檔中,parquet格式的文件的推薦大小是128M虑乖,小于該值的文件均可以稱為小文件塔粒。但在實際工作中,小文件的定義不是這么絕對例获,可能存在文件...
前幾日在MySQL執(zhí)行一條update語句時報錯,報錯信息如下: 通過搜索查到有很多類似的報錯例子,區(qū)別只是在于有的是3072 bytes,有的是768bytes鲸郊,于是總結了...
我們在通過Canal把MySQL的Binlog數(shù)據(jù)發(fā)送到MQ(kafak/rocketmq)時,需要關注mq的順序性問題货邓。Binlog本身是有序的秆撮,寫入到mq之后如何保障順序...
利用clickhouse中的toStartOf*()函數(shù)职辨,將時間歸屬到相同點,然后利用分組統(tǒng)計即可复隆。 toStartOf*()函數(shù): toStartOfInterval() ...
現(xiàn)狀 使用DataX從生產(chǎn)DB拉取數(shù)據(jù)時拨匆,正常的業(yè)務場景我們都是通過增量拉取做Merge的方式來限制抽取的數(shù)據(jù)量,但存在以下幾種情況需要做大數(shù)據(jù)量的同步: 大表全量初始化 生...
在建設實時數(shù)倉的過程中挽拂,用到了Mysql存放增量的結果數(shù)據(jù)惭每,所以需要定時清理歷史數(shù)據(jù),為了避免影響的線上的實時數(shù)據(jù)寫入亏栈,采用了按照最后更改時間台腥,分段刪除的方法。對應的存儲過程如下:
周末的時候在家收到了工作的告警通知绒北,遠程登錄后發(fā)現(xiàn)是自運維的CK集群硬盤空間不足黎侈,通過命令查看各個目錄的大小,確定是Zookeeper的日志及snapshot占用了絕大部分空...
前言 忙亂的1月馬上就要過去了,連續(xù)20多天沒更新瘤礁,還是寫點什么找找狀態(tài)比較好阳懂。 最近我們服務ClickHouse集群的ZooKeeper znode數(shù)量一度突破了300萬,...
轉載文章柜思,原文鏈接[http://www.reibang.com/p/f219d207d853] 1. 查看CPU 1.1 查看CPU個數(shù) 1.2 查看CPU核數(shù) 1.3...
近期在自建數(shù)據(jù)分析平臺的時候,遇到了事實表包含兩個業(yè)務時間語義的問題赡盘,結合數(shù)倉事實表建設方面的方法論,整理記錄一些自己的想法亡脑。事實表的通扯槌危可以劃分為如下三類: 事務事實表 周...
背景 工作中遇到一個需求,需要按天劃分窗口霉咨,并且每隔固定時間段觸發(fā)一次窗口計算蛙紫,時間語義為ProcessingTime。在測試過程中發(fā)現(xiàn)途戒,使用ContinuousProces...
先上一張官方給出的1.10版本的內存模型圖示: 然后再貼一張現(xiàn)在正在運行的flink任務與TaskManager內存有關的參數(shù)信息: 現(xiàn)在開始看圖說話:從啟動參數(shù)配置上坑傅,我們...
更多大數(shù)據(jù)技術干貨酥诽,歡迎關注“大數(shù)據(jù)技術進階”微信公眾號。 Shuffle簡介 Shuffle的本意是洗牌肮帐、混洗的意思,把一組有規(guī)則的數(shù)據(jù)盡量打亂成無規(guī)則的數(shù)據(jù)边器。而在MapR...
http://blog.csdn.net/yu616568/article/details/51868447背景隨著大數(shù)據(jù)時代的到來,越來越多的數(shù)據(jù)流向了Hadoop生態(tài)圈恒界,...