坨坨的大數(shù)據(jù)

發(fā)簡信

坨坨的大數(shù)據(jù)

1
關(guān)注
278
粉絲
95
文章
224047

字?jǐn)?shù)
420

收獲喜歡
82

總資產(chǎn)

IP屬地：廣東

坨坨的大數(shù)據(jù)

spark 內(nèi)存管理
1. spark 內(nèi)存用不好是怎樣的情況亮蒋？ storage（緩存）已經(jīng)存儲(chǔ)在磁盤上，說明預(yù)留給緩存的內(nèi)存偏少在一個(gè)stage 執(zhí)行的若干個(gè)task中衷蜓，甚至是 shuf...

827 0 1
坨坨的大數(shù)據(jù)

Spark - 實(shí)現(xiàn)TopN
經(jīng)典面試題兩種方式方式一 1.按照key對(duì)數(shù)據(jù)進(jìn)行聚合（groupByKey）2.將value轉(zhuǎn)換為數(shù)組唯灵，利用scala的sortBy或者sortWith進(jìn)行排序（mapV...

839 0 1
坨坨的大數(shù)據(jù)

Spark Shuffle
Spark 內(nèi)存管理和消費(fèi)模型 Spark Shuffle 過程 Spark Shuffle OOM 可能性分析一、Spark 內(nèi)存管理和消費(fèi)模型過往文章：spark內(nèi)存...

272 0 1
坨坨的大數(shù)據(jù)

Spark 處理小文件
1. 小文件合并綜述 1.1 小文件表現(xiàn) 不論是Hive還是Spark SQL在使用過程中都可能會(huì)遇到小文件過多的問題。小文件過多最直接的表現(xiàn)是任務(wù)執(zhí)行時(shí)間長，查看Spark...

5423 1 5
坨坨的大數(shù)據(jù)

Spark之RDD超詳細(xì)總結(jié)（三）
1. RDD 詳解 RDD 是一個(gè)數(shù)據(jù)集的表示倚聚，不僅表示了數(shù)據(jù)集，還表示了這個(gè)數(shù)據(jù)集從哪來凿可，如何計(jì)算，主要屬性包括：分區(qū)列表計(jì)算函數(shù) 依賴關(guān)系分區(qū)函數(shù)(默認(rèn)是 hash...

561 0 2
坨坨的大數(shù)據(jù)

【Spark重點(diǎn)難點(diǎn)】你從未深入理解的RDD和關(guān)鍵角色
Spark Core 關(guān)于RDD你需要知道的 RDD 是 Spark 提供的最重要的抽象概念授账，它是一種有容錯(cuò)機(jī)制的特殊數(shù)據(jù)集合枯跑，可以分布在集群的結(jié)點(diǎn)上，以函數(shù)式操作集合的方式...

346 0 1
坨坨的大數(shù)據(jù)

Spark對(duì)Parquet表的查詢優(yōu)化知多少白热？
1. 摘要主題：在這篇文章中可以找到一些簡單的示例說明Spark在讀取存儲(chǔ)在 Parquet 中的分區(qū)表時(shí)的重要特性敛助，尤其是性能調(diào)優(yōu)。涵蓋的主要主題是： ?分區(qū)修剪?列投影...

1184 0 2
坨坨的大數(shù)據(jù)

Spark Streaming
Spark Streaming是核心Spark API的一個(gè)擴(kuò)展屋确，它并不會(huì)像Storm那樣一次一個(gè)地處理數(shù)據(jù)流纳击，而是在處理前按時(shí)間間隔預(yù)先將其切分為一段一段的批處理作業(yè)续扔。Sp...

351 0 2
大數(shù)據(jù)學(xué)習(xí)

數(shù)據(jù)湖的基本特征
數(shù)據(jù)湖的基本特征可以從數(shù)據(jù)和計(jì)算兩個(gè)層面進(jìn)一步分析數(shù)據(jù)湖應(yīng)該具備哪些特征。在數(shù)據(jù)方面： “保真性”焕数。數(shù)據(jù)湖中對(duì)于業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都會(huì)存儲(chǔ)一份“一模一樣”的完整拷貝纱昧。與數(shù)據(jù)倉...

781 0 1