Java內(nèi)存模型 Java 虛擬機(jī)在執(zhí)行 Java 程序的過程中會(huì)把它所管理的內(nèi)存劃分為若干個(gè)不同的數(shù)據(jù)區(qū)域闰蛔。這些區(qū)域都有各自的用途彪标,以及創(chuàng)建和...
在工作中使用hive比較多鞍匾,也寫了很多HiveQL镰矿。這里從三個(gè)方面對(duì) Hive 常用的一些性能優(yōu)化進(jìn)行了總結(jié)喊递。 表設(shè)計(jì)層面優(yōu)化 利用分區(qū)表優(yōu)化 ...
什么是RDD袭艺? RDD是Spark中的數(shù)據(jù)抽象庸诱,全稱彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)。RDD可以...
Redis 支持哪幾種數(shù)據(jù)類型? string:最基本的數(shù)據(jù)類型粗卜,二進(jìn)制安全的字符串屋确,最大512M list:按照添加順序保持順序的 字符串列表...
Zookeeper是什么 Zookeeper是一個(gè)分布式的,開源的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個(gè)開源的實(shí)現(xiàn)攻臀,是Hado...
實(shí)時(shí)計(jì)算的三種語義 At-most-once:最多一次焕数。每條數(shù)據(jù)記錄最多被處理一次,也就是說數(shù)據(jù)會(huì)有丟失(沒被處理掉)的可能茵烈。 At-least...
什么是ETL ETL用來描述對(duì)原始數(shù)據(jù)從抽取百匆、清洗轉(zhuǎn)換和加載的過程。ETL按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值呜投,是將數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(D...
Spark應(yīng)用Yarn-Client模式運(yùn)行架構(gòu)原理解析 Spark Yarn Client向Yarn的ResourceManager申請(qǐng)啟動(dòng)A...