背景介紹 在交互式分析場(chǎng)景下柴淘,很多時(shí)候除了固定字段之外们妥,還會(huì)有一些動(dòng)態(tài)字段的需求管嬉。比如糠悼,在游戲場(chǎng)景下功氨,需要?jiǎng)討B(tài)存儲(chǔ)用戶(hù)每個(gè)游戲的play時(shí)長(zhǎng)痊末。 ...
ReplicatedMergeTree是ClickHouse最常用的表引擎之一檀蹋,該引擎和MergeTree一樣都繼承自MergeTreeData...
因?yàn)楣ぷ髦杏玫絚alcite做SQL query engine绪钥,所以對(duì)calcite的源代碼做了一些研究灿里,其中VolcanoPlanner是非常...
在maintain我們的daily spark jobs時(shí),發(fā)現(xiàn)有的時(shí)候一些spark jobs在insert數(shù)據(jù)到hive table時(shí)會(huì)在所...
本文基于spark streaming通過(guò)direct mode訪問(wèn)kafka的場(chǎng)景程腹,從源碼出發(fā)分析spark streaming如何實(shí)現(xiàn)數(shù)據(jù)讀...
本文討論跟執(zhí)行內(nèi)存密切相關(guān)的一個(gè)組件:TaskMemoryManager(下文簡(jiǎn)稱(chēng)TMM)。TMM是tungsten內(nèi)存管理機(jī)制的核心實(shí)現(xiàn)類(lèi)(t...
漫談Spark內(nèi)存管理(一)有提到問(wèn)題:“ Spark中用到內(nèi)存的地方有哪些色鸳?存儲(chǔ)內(nèi)存主要消耗在哪些地方?執(zhí)行內(nèi)存主要消耗在哪些地方见转?”命雀。本文就...
Spark的join操作可能觸發(fā)shuffle操作斩箫。shuffle操作要經(jīng)過(guò)磁盤(pán)IO吏砂,網(wǎng)絡(luò)傳輸,對(duì)性能影響比較大乘客。本文聊一聊Spark的join...
在漫談Spark內(nèi)存管理(一)中,概述了Spark內(nèi)存管理做的事情易核,并著重對(duì)unroll memory的概念做了解釋及分析匈织。本文繼續(xù)討論Spar...