Spark性能優(yōu)化概述
Spark是基于內(nèi)存的大數(shù)據(jù)計算尼荆,需要進行性能優(yōu)化原因是CPU、內(nèi)存矢门、網(wǎng)絡(luò)帶寬出現(xiàn)了瓶頸膝迎。如果網(wǎng)絡(luò)傳輸和通信導(dǎo)致性能出現(xiàn)瓶頸粥帚,那么要加大網(wǎng)絡(luò)帶寬是必要的,如果內(nèi)存導(dǎo)致性能出現(xiàn)瓶頸限次,難以處理10億以上的數(shù)據(jù)量進行計算芒涡,除了加大內(nèi)存,還需要對內(nèi)存的使用進行性能優(yōu)化卖漫,使用一些性能技術(shù)調(diào)優(yōu)拖陆。Spark性能優(yōu)化,主要是對內(nèi)存進行性能優(yōu)化懊亡。
Spark性能優(yōu)化技術(shù)點
1、診斷內(nèi)存的消耗
2乎串、使用Kryo高性能序列化類庫
3店枣、優(yōu)化數(shù)據(jù)結(jié)構(gòu)
4、多次使用的RDD進行持久化 與Checkpoint
5叹誉、使用序列化的持久化級別
6鸯两、Java虛擬機垃圾回收調(diào)優(yōu)
7、數(shù)據(jù)本地化
8长豁、提高并行度
9钧唐、 廣播共享數(shù)據(jù)
10、合理使用的reduceByKey和groupByKey
11匠襟、Shuffle的調(diào)優(yōu)
Spark性能優(yōu)化的重要性
Spark最大的優(yōu)點钝侠,其實也是它最大的問題该园。Spark基于內(nèi)存的計算模型,Spark的速度可達到了hadoop的MapReduce與Hive查詢引擎幾倍帅韧、幾十倍里初、最大的甚至上百倍。但是基于內(nèi)存的計算模型忽舟,導(dǎo)致它經(jīng)常出現(xiàn)各種OOM(內(nèi)存溢出)双妨、內(nèi)部異常等問題。其穩(wěn)定性叮阅,不如Hadoop刁品。但基于上述的性能優(yōu)化技術(shù)點進行調(diào)優(yōu)后,對大數(shù)據(jù)方面計算浩姥,既可計算速度快挑随,又可達到穩(wěn)定性。
有需要關(guān)于這方面知識的可以私信加我的v及刻。大量免費的視頻資料供你學(xué)習(xí)镀裤。