這篇文章主要介紹 spark 的相關名詞概念理盆,和作業(yè)的執(zhí)行流程,任務分配凑阶,希望通過這篇文章可以幫助大家對 spark 有一個更深層次的的理解猿规。
名詞解釋:
1. Standalone模式下存在的角色。
Client:客戶端進程宙橱,負責提交作業(yè)到Master姨俩。
Master:Standalone模式中主控節(jié)點蘸拔,負責接收Client提交的作業(yè),管理Worker环葵,并命令Worker啟動Driver和Executor调窍。
Worker:Standalone模式中slave節(jié)點上的守護進程,負責管理本節(jié)點的資源张遭,定期向Master匯報心跳邓萨,接收Master的命令,啟動Driver和Executor菊卷。
Driver: 一個Spark作業(yè)運行時包括一個Driver進程缔恳,也是作業(yè)的主進程,負責作業(yè)的解析洁闰、生成Stage并調度Task到Executor上歉甚。包括DAGScheduler,TaskScheduler扑眉。
Executor:即真正執(zhí)行作業(yè)的地方纸泄,一個集群一般包含多個Executor,每個Executor接收Driver的命令Launch Task腰素,一個Executor可以執(zhí)行一到多個Task刃滓。
2.作業(yè)相關的名詞解釋
Job: 在用戶程序中, 每次調用Action函數(shù)都會產(chǎn)生一個新的job, 也就是說一個Action都會生成一個job.
Stage:一個Spark作業(yè)一般包含一到多個Stage。
Task:一個Stage包含一到多個Task耸弄,通過多個Task實現(xiàn)并行運行的功能咧虎。
DAGScheduler: 實現(xiàn)將Spark作業(yè)分解成一到多個Stage,每個Stage根據(jù)RDD的Partition個數(shù)決定Task的個數(shù)计呈,然后生成相應的Task set放到TaskScheduler中砰诵。
TaskScheduler:實現(xiàn)Task分配到Executor上執(zhí)行。
3捌显、spark 根據(jù) job 劃分 stage 的過程
構建RDD之間的依賴關系. 具體來說依賴有寬窄之分, 如果子RDD中的每個分區(qū)依賴常數(shù)個父RDD中的分區(qū), 我們把這種依賴叫做窄依賴; 如果子RDD中的每個數(shù)據(jù)分片依賴父RDD的所有分片, 我們把這種依賴叫做寬依賴.
在這兒我們在引入一個新的詞匯lineage
, 在spark中每個RDD都攜帶自己的lineage. 而lineage就是通過RDD之間的依賴來表示的.
wide-narrow-dependency
我們通過這幅圖可以大概看一下寬窄依賴到底是這么回事. 圖中矩形框圍住的部分是RDD, 實心小矩形是Partition.
接下來我們看一下Spark是如何構建DAG的. 當用戶調用Action函數(shù)時, 調度器會逆向的遍歷該RDD的lineage, 每個stage會嘗試盡可能多包含那些連續(xù)的窄依賴. 如果當前的Stage向上回溯的過程中遇到了寬依賴, 則當前Stage結束, 一個新的Stage被構建. 第二個Stage是第一個Stage的parent. 還有一種情況也會結束當前Stage, 那就是那個partition已經(jīng)被計算出來, 換存在內存中, 這種情況下我們就不必作多余的計算了.
簡單的說就是遇到寬依賴, 就生成新的Stage. 寬依賴會觸發(fā)shuffle. 我們來看上邊代碼的visit函數(shù): 拿到RDD的所有的dependency, 如果是窄依賴那么繼續(xù)查找依賴的RDD的parent; 如果是寬依賴, 則調用getShuffleMapStage把生成的Stage加到當前stage的parents中. 該函數(shù)執(zhí)行完畢, 則整個DAG就構建完成.
兩種方式的作業(yè)運行原理
Driver運行在Worker上
通過org.apache.spark.deploy.Client類執(zhí)行作業(yè)茁彭,作業(yè)運行命令如下:
./bin/spark-class org.apache.spark.deploy.Client launch spark://host:port file:///jar_url org.apache.spark.examples.SparkPi spark://host:port
作業(yè)執(zhí)行流如圖1所示。
作業(yè)執(zhí)行流程描述:
客戶端提交作業(yè)給Master
Master讓一個Worker啟動Driver扶歪,即SchedulerBackend理肺。Worker創(chuàng)建一個DriverRunner線程,DriverRunner啟動SchedulerBackend進程善镰。
另外Master還會讓其余Worker啟動Exeuctor妹萨,即ExecutorBackend。Worker創(chuàng)建一個ExecutorRunner線程炫欺,ExecutorRunner會啟動ExecutorBackend進程乎完。
ExecutorBackend啟動后會向Driver的SchedulerBackend注冊。SchedulerBackend進程中包含DAGScheduler品洛,它會根據(jù)用戶程序树姨,生成執(zhí)行計劃摩桶,并調度執(zhí)行。對于每個stage的task帽揪,都會被存放到TaskScheduler中硝清,ExecutorBackend向SchedulerBackend匯報的時候把TaskScheduler中的task調度到ExecutorBackend執(zhí)行。
所有stage都完成后作業(yè)結束转晰。
Driver運行在客戶端
直接執(zhí)行Spark作業(yè)芦拿,作業(yè)運行命令如下(示例):
./bin/run-example org.apache.spark.examples.SparkPi spark://host:port
作業(yè)執(zhí)行流如圖2所示。
圖2
作業(yè)執(zhí)行流程描述:
客戶端啟動后直接運行用戶程序挽霉,啟動Driver相關的工作:DAGScheduler和BlockManagerMaster等防嗡。
客戶端的Driver向Master注冊。
Master還會讓Worker啟動Exeuctor侠坎。Worker創(chuàng)建一個ExecutorRunner線程蚁趁,ExecutorRunner會啟動ExecutorBackend進程。
ExecutorBackend啟動后會向Driver的SchedulerBackend注冊实胸。Driver的DAGScheduler解析作業(yè)并生成相應的Stage他嫡,每個Stage包含的Task通過TaskScheduler分配給Executor執(zhí)行。
-
所有stage都完成后作業(yè)結束庐完。
基于Yarn的Spark架構與作業(yè)執(zhí)行流程
這里Spark AppMaster相當于Standalone模式下的SchedulerBackend钢属,Executor相當于standalone的ExecutorBackend,spark AppMaster中包括DAGScheduler和YarnClusterScheduler门躯。
Spark on Yarn的執(zhí)行流程可以參考http://www.csdn.net/article/2013-12-04/2817706--YARN spark on Yarn部分淆党。
這里主要介紹一下Spark ApplicationMaster的主要工作。代碼參考Apache Spark 0.9.0版本ApplicationMaster.scala中的run()方法讶凉。
步驟如下: 設置環(huán)境變量spark.local.dir和spark.ui.port染乌。NodeManager啟動ApplicationMaster的時候會傳遞LOCAL_DIRS(YARN_LOCAL_DIRS)變量,這個變量會被設置為spark.local.dir的值懂讯。后續(xù)臨時文件會存放在此目錄下荷憋。
獲取NodeManager傳遞給ApplicationMaster的appAttemptId。
創(chuàng)建AMRMClient褐望,即ApplicationMaster與ResourceManager的通信連接勒庄。
啟動用戶程序,startUserClass()瘫里,使用一個線程通過發(fā)射調用用戶程序的main方法实蔽。這時候,用戶程序中會初始化SparkContext减宣,它包含DAGScheduler和TaskScheduler盐须。
向ResourceManager注冊。
向ResourceManager申請containers漆腌,它根據(jù)輸入數(shù)據(jù)和請求的資源贼邓,調度Executor到相應的NodeManager上,這里的調度算法會考慮輸入數(shù)據(jù)的locality闷尿。