![240](https://cdn2.jianshu.io/assets/default_avatar/8-a356878e44b45ab268a3b0bbaaadeeb7.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
通過對spark core的核心概念學習,可以更好的了解spark的運行機制和生命周期 基本概念: Application: spark應用程...
操作場景 SQL語句轉(zhuǎn)化為具體執(zhí)行計劃是由SQL查詢編譯器決定的,同一個SQL語句可以轉(zhuǎn)化成多種物理執(zhí)行計劃,如何指導編譯器選擇效率最高的執(zhí)行計...
使用 mapPartitions,按每個分區(qū)計算結(jié)果 如果每條記錄的開銷太大,例: rdd.map{x=>conn=getDBConn;conn...
操作場景 Spark onYARN模式下动知,有Driver、ApplicationMaster、Executor三種進程蚣常。在任務調(diào)度和運行...
操作場景 對于Spark應用來說,資源是影響Spark應用執(zhí)行效率的一個重要因素痊银。當一個長期運行的服務(比如JDBCServer)抵蚊,若分...
操作場景 Spark系統(tǒng)在運行含shuffle過程的應用時,Executor進程除了運行task曼验,還要負責寫shuffle數(shù)據(jù)泌射,給其他E...
操作場景 Broadcast(廣播)可以把數(shù)據(jù)集合分發(fā)到每一個節(jié)點上,Spark任務在執(zhí)行過程中要使用這個數(shù)據(jù)集合時鬓照,就會在本地查找Broadc...
操作場景 并行度控制任務的數(shù)量熔酷,影響shuffle操作后數(shù)據(jù)被切分成的塊數(shù)。調(diào)整并行度讓任務的數(shù)量和每個任務處理的數(shù)據(jù)與機器的處理能力達...
操作場景 Spark是內(nèi)存計算框架豺裆,計算過程中內(nèi)存不夠?qū)park的執(zhí)行效率影響很大拒秘。可以通過監(jiān)控GC(Garbage Collecti...