
一. 編程模型 二. 組件簡(jiǎn)介 三. 作業(yè)執(zhí)行 四. 內(nèi)存管理 五. 存儲(chǔ)原理 六. shuffle 七. 性能調(diào)優(yōu) 八. 知識(shí)腦圖 一. 編程...
Spark UI 一級(jí)入口 Executors Executors Tab 的主要內(nèi)容如下夹纫,主要包含“Summary”和“Executors”兩...
1. RDD 之痛:優(yōu)化空間受限 RDD 的核心痛點(diǎn)是優(yōu)化空間有限笼踩,它指的是 RDD 高階算子中封裝的函數(shù)對(duì)于 Spark 來說完全透明在孝,因此 ...
1. 應(yīng)用開發(fā)的原則 原則一:坐享其成我們應(yīng)該盡可能地充分利用 Spark 為我們提供的“性能紅利”视译,如鎢絲計(jì)劃院水、AQE蕊唐、SQL functio...
1. 彈性分布式數(shù)據(jù)集 單機(jī)思維屋摔,factDF是一個(gè)大數(shù)據(jù)集,每次foreach都會(huì)調(diào)用createInstance導(dǎo)致這個(gè)數(shù)據(jù)集被多次掃描 R...
現(xiàn)象與原理 『不患多而患不均』替梨,這是分布式環(huán)境下最大的問題钓试。在進(jìn)行 shuffle 的時(shí)候,不同的key對(duì)應(yīng)的數(shù)據(jù)量不同導(dǎo)致不同task處理的數(shù)...
排查步驟 在日志中搜索track,點(diǎn)擊網(wǎng)址到stage 按duration排序查找出時(shí)間最長(zhǎng)的那個(gè)stage 點(diǎn)擊logs中的stderr,查看...
目錄 Spark-相關(guān)概念MapReduce和Spark對(duì)比Spark-rddSpark-shuffle分析Spark-閉包/線程安全Spark...
ERROR TransportResponseHandler:Still have 1 requests outstanding when co...