Spark - 專題

投稿

Spark

收錄了88篇文章 · 6人關(guān)注

Spark 數(shù)據(jù)抽象彈性分布式數(shù)據(jù)集RDD（Resilient Distributed Dataset）
實現(xiàn)思想與MR實現(xiàn)思想一致分而治之的思想,在Spark計算引擎中晌该，思想與MapReduce一樣朝群，但是將輸入數(shù)據(jù)怯晕、處理數(shù)據(jù)和輸出數(shù)據(jù)封裝抽象...

0.7 Eqo 0 1
spark 一些概念記錄
主要的component standalone模式下： Master+work 的組網(wǎng)模式吧凉，master可以配置HA踏志，可以通過 zookeepe...

0.2 NazgulSun 0 1

Spark Shuffle
Spark 內(nèi)存管理和消費模型 Spark Shuffle 過程 Spark Shuffle OOM 可能性分析一忍级、Spark 內(nèi)存管理和消費...

0.1 坨坨的大數(shù)據(jù) 0 1
spark 內(nèi)存管理
1. spark 內(nèi)存用不好是怎樣的情況朴肺？ storage（緩存）已經(jīng)存儲在磁盤上窖剑，說明預(yù)留給緩存的內(nèi)存偏少在一個stage 執(zhí)行的若干個...

0.1 坨坨的大數(shù)據(jù) 0 1
Spark架構(gòu)模式與Flink的對比
Spark架構(gòu)模式與Flink的對比 Spark和Flink都屬于流批一體的分布式計算引擎。Flink屬于流處理框架橡疼，通過流來模擬批，Spark...

1.2 Tim在路上 0 8
SparkConf 配置與傳播
在spark分布式程序中历帚，sparkConf 主要起著Spark程序進行資源配置，性能調(diào)優(yōu)谱煤，功能開關(guān)，參數(shù)傳遞的能力刘离。在Spark的Driver...

4.3 Tim在路上 0 4
八種解決 Spark 數(shù)據(jù)傾斜的方法
一野来、什么是數(shù)據(jù)傾斜對 Spark/Hadoop 這樣的分布式大數(shù)據(jù)系統(tǒng)來講曼氛，數(shù)據(jù)量大并不可怕，可怕的是數(shù)據(jù)傾斜徽级。對于分布式系統(tǒng)而言彩掐，理想情況...

0.1 坨坨的大數(shù)據(jù) 0 1

Spark[四]——Spark并行度
Spark并行度指在Spark作業(yè)中朴下，各個Stage中task的數(shù)量苦蒿，也就代表了Spark作業(yè)在各個階段的并行度。合理設(shè)置并行度可以從以下幾個方...

小段DSH12138 0 0
5W字總結(jié)Spark（三）(建議收藏)
八、Spark 數(shù)據(jù)傾斜詳見：八種解決 Spark 數(shù)據(jù)傾斜的方法http://www.reibang.com/p/a917c9969cf...

2.3 坨坨的大數(shù)據(jù) 0 7
Zeppelin Spark SQL Hive 查詢不一致問題
Zeppelin SparkSQL Hive 查詢不一致問題 1. 問題 Zeppelin Spark sql 查詢出的數(shù)據(jù)量與 hive 不一...

六層樓那么高 0 1