1. spark 內(nèi)存用不好是怎樣的情況亮蒋? storage(緩存) 已經(jīng)存儲(chǔ)在磁盤上,說明 預(yù)留給緩存的內(nèi)存偏少 在一個(gè)stage 執(zhí)行的若干個(gè)task中衷蜓, 甚至是 shuf...
1. spark 內(nèi)存用不好是怎樣的情況亮蒋? storage(緩存) 已經(jīng)存儲(chǔ)在磁盤上,說明 預(yù)留給緩存的內(nèi)存偏少 在一個(gè)stage 執(zhí)行的若干個(gè)task中衷蜓, 甚至是 shuf...
經(jīng)典面試題兩種方式 方式一 1.按照key對(duì)數(shù)據(jù)進(jìn)行聚合(groupByKey)2.將value轉(zhuǎn)換為數(shù)組唯灵,利用scala的sortBy或者sortWith進(jìn)行排序(mapV...
Spark 內(nèi)存管理和消費(fèi)模型 Spark Shuffle 過程 Spark Shuffle OOM 可能性分析 一、Spark 內(nèi)存管理和消費(fèi)模型 過往文章:spark內(nèi)存...
1. 小文件合并綜述 1.1 小文件表現(xiàn) 不論是Hive還是Spark SQL在使用過程中都可能會(huì)遇到小文件過多的問題。小文件過多最直接的表現(xiàn)是任務(wù)執(zhí)行時(shí)間長,查看Spark...
1. RDD 詳解 RDD 是一個(gè)數(shù)據(jù)集的表示倚聚,不僅表示了數(shù)據(jù)集,還表示了這個(gè)數(shù)據(jù)集從哪來凿可,如何計(jì)算,主要屬性包括: 分區(qū)列表 計(jì)算函數(shù) 依賴關(guān)系 分區(qū)函數(shù)(默認(rèn)是 hash...
Spark Core 關(guān)于RDD你需要知道的 RDD 是 Spark 提供的最重要的抽象概念授账,它是一種有容錯(cuò)機(jī)制的特殊數(shù)據(jù)集合枯跑,可以分布在集群的結(jié)點(diǎn)上,以函數(shù)式操作集合的方式...
1. 摘要 主題:在這篇文章中可以找到一些簡單的示例說明Spark在讀取存儲(chǔ)在 Parquet 中的分區(qū)表時(shí)的重要特性敛助,尤其是性能調(diào)優(yōu)。涵蓋的主要主題是: ?分區(qū)修剪?列投影...
Spark Streaming是核心Spark API的一個(gè)擴(kuò)展屋确,它并不會(huì)像Storm那樣一次一個(gè)地處理數(shù)據(jù)流纳击,而是在處理前按時(shí)間間隔預(yù)先將其切分為一段一段的批處理作業(yè)续扔。Sp...
數(shù)據(jù)湖的基本特征 可以從數(shù)據(jù)和計(jì)算兩個(gè)層面進(jìn)一步分析數(shù)據(jù)湖應(yīng)該具備哪些特征。在數(shù)據(jù)方面: “保真性”焕数。數(shù)據(jù)湖中對(duì)于業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都會(huì)存儲(chǔ)一份“一模一樣”的完整拷貝纱昧。與數(shù)據(jù)倉...