Spark原理 | 任務(wù)執(zhí)行流程

Spark任務(wù)從提交到執(zhí)行完成有很多步驟戏罢,整體上可以劃分為三個階段:

  • 應(yīng)用的提交烁兰;

  • 執(zhí)行環(huán)境的準備减响;

  • 任務(wù)的調(diào)度和執(zhí)行靖诗。

Spark任務(wù)執(zhí)行流程

一、執(zhí)行流程概述

Spark有多種不同的運行模式支示,在不同模式下這三個階段的執(zhí)行流程也不太相同刊橘。

以on yarn模式為例,Spark應(yīng)用提交shell命令如下:

$SPARK_HOME/bin/spark-submit \
 --class org.apache.spark.examples.SparkPi \
 --master yarn \
 --deploy-mode client \
 $SPARK_HOME/examples/jars/spark-examples*.jar

Spark應(yīng)用執(zhí)行過程可以劃分如下三個階段:

第一步:應(yīng)用的提交

  • Driver端:

  • 解析參數(shù)颂鸿,驗證參數(shù)合法性

  • 檢查和準備依賴jar包

  • 確定運行的主類促绵,也就是應(yīng)用的入口

  • Executor端:未創(chuàng)建

第二步:執(zhí)行環(huán)境的準備

  • Driver端:

  • 進入應(yīng)用的main函數(shù),開始執(zhí)行

  • 首先創(chuàng)建SparkContext對象,在創(chuàng)建時會執(zhí)行

  • 初始化各個服務(wù)模塊和通信的RPC環(huán)境

  • 向cluster manager申請資源

  • Executor端:

  • 在Worker節(jié)點啟動Executor

  • 初始化Executor败晴,啟動各個服務(wù)模塊

  • 連接到Driver端浓冒,匯報Executor的狀態(tài)

第三步:任務(wù)的調(diào)度和執(zhí)行

  • Driver端:

  • 執(zhí)行處理任務(wù)代碼

  • Job分解為Stage,并將Stage劃分為Task

  • 提交Task到Executor端

  • 接受Executor端的狀態(tài)和結(jié)果信息

  • Executor端:

  • 啟動TaskRunner線程位衩,執(zhí)行接收到的Task

  • 向Driver端匯報執(zhí)行狀態(tài)

  • 向Driver端返回執(zhí)行結(jié)果

二裆蒸、執(zhí)行流程詳解

以如下代碼為例,講解Spark應(yīng)用執(zhí)行的各個階段糖驴。

# HelloWorld.scala

import scala.math.random
import org.apache.spark.sql.SparkSession

object HelloWorld {
  def main(args: Array[String]) {
        val spark = SparkSession.builder.appName("HelloWorld").getOrCreate()
        val rdd = spark.sparkContext.parallelize(Seq("Hello", "World"))
        rdd.collect()
    }
}

1僚祷、第一階段:應(yīng)用的提交

這個階段主要在Driver端完成,主要目標是:準備依賴jar包并確定Spark應(yīng)用的執(zhí)行主類贮缕。具體的任務(wù)包括:

  1. 解析任務(wù)提交的參數(shù)辙谜,并對參數(shù)進行解析和保存。

  2. 準備任務(wù)啟動參數(shù)制定的依賴文件或者程序包感昼。

  3. 根據(jù)Spark應(yīng)用的執(zhí)行模式和應(yīng)用的編寫語言装哆,來確定執(zhí)行的主類名稱。

  4. 實例化執(zhí)行主類定嗓,生成SparkApplication對象蜕琴,并調(diào)用SparkApplication.start()函數(shù)來運行Spark應(yīng)用(如果是Java/Scala代碼則執(zhí)行Spark應(yīng)用中的main函數(shù))。

注意:第1階段完成時宵溅,Driver端并沒有向資源管理平臺申請任何資源凌简,也沒有啟動任何Spark內(nèi)部的服務(wù)。

2恃逻、第二階段:執(zhí)行環(huán)境的準備

通過第1階段雏搂,已經(jīng)找到了運行在Driver端的Spark應(yīng)用的執(zhí)行主類,并創(chuàng)建了SparkApplication對象:app寇损。此時凸郑,在app.start()函數(shù)中會直接調(diào)用主類的main函數(shù)開始執(zhí)行應(yīng)用,從而進入第2階段矛市。

第二階段主要目標是:創(chuàng)建SparkSession(包括SparkContext和SparkEnv)芙沥,完成資源的申請和Executor的創(chuàng)建。第2階段完成后Task的執(zhí)行環(huán)境就準備好了浊吏。

也就是說而昨,第2階段不僅會在Driver端進行初始化,而且還要準備好Executor卿捎。這一階段的任務(wù)主要是在Driver端執(zhí)行創(chuàng)建SparkSession的代碼來完成配紫,也就是執(zhí)行下面一行代碼:

val spark = SparkSession.builder.appName("HelloWorld").getOrCreate()

第二階段的Driver端主要完成以下步驟:

  • 創(chuàng)建SparkContext和SparkEnv對象,在創(chuàng)建這兩個對象時午阵,向Cluster Manager申請資源躺孝,啟動各個服務(wù)模塊享扔,并對服務(wù)模塊進行初始化。
  • 這些服務(wù)模塊包括:DAG調(diào)度服務(wù)植袍,任務(wù)調(diào)度服務(wù)惧眠,shuffle服務(wù),文件傳輸服務(wù)于个,數(shù)據(jù)塊管理服務(wù)氛魁,內(nèi)存管理服務(wù)等。

第2階段的Executor端主要完成以下步驟:

  • Driver端向Cluster Manager申請資源厅篓,若是Yarn模式會在NodeManager上創(chuàng)建ApplicationMaster秀存,并由ApplicationMaster向Cluster Manager來申請資源,并啟動Container羽氮,在Container中啟動Executor或链。
  • 在啟動Executor時向Driver端注冊BlockManager服務(wù),并創(chuàng)建心跳服務(wù)RPC環(huán)境档押,通過該RPC環(huán)境向Driver匯報Executor的狀態(tài)信息澳盐。

第二階段執(zhí)行完成后的Spark集群狀態(tài)如下:

Spark集群狀態(tài)

3、第三階段:任務(wù)的調(diào)度和執(zhí)行

通過第2階段已經(jīng)完成了Task執(zhí)行環(huán)境的初始化令宿,此時叼耙,在Driver端已經(jīng)完成了SparkContext和SparkEnv的創(chuàng)建,資源已經(jīng)申請到了粒没,并且已經(jīng)啟動了Executor筛婉。

這一階段會執(zhí)行接下來的數(shù)據(jù)處理的代碼:

val rdd = spark.sparkContext.parallelize(Seq("Hello", "World"))
rdd.collect()

第3階段Driver端主要完成以下步驟:

  • 執(zhí)行Spark的處理代碼,當執(zhí)行map操作時革娄,生成新的RDD倾贰;

  • 當執(zhí)行Action操作時冕碟,觸發(fā)Job的提交拦惋,此時會執(zhí)行以下步驟:

  • 根據(jù)RDD的血緣,把Job劃分成相互依賴的Stage安寺;

  • 把每個Stage拆分成一個或多個Task厕妖;

  • 把這些Task提交給已經(jīng)創(chuàng)建好的Executor去執(zhí)行;

  • 獲取Executor的執(zhí)行狀態(tài)信息挑庶,直到Executor完成所有Task的執(zhí)行言秸;

  • 獲取執(zhí)行結(jié)果和最終的執(zhí)行狀態(tài)。

參考資料

  1. Spark Scheduler 內(nèi)部原理剖析
  2. 如何理解Spark應(yīng)用的執(zhí)行過程
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末迎捺,一起剝皮案震驚了整個濱河市举畸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌凳枝,老刑警劉巖抄沮,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件跋核,死亡現(xiàn)場離奇詭異,居然都是意外死亡叛买,警方通過查閱死者的電腦和手機砂代,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來率挣,“玉大人刻伊,你說我怎么就攤上這事〗饭Γ” “怎么了捶箱?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長动漾。 經(jīng)常有香客問我讼呢,道長,這世上最難降的妖魔是什么谦炬? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任悦屏,我火速辦了婚禮,結(jié)果婚禮上键思,老公的妹妹穿的比我還像新娘础爬。我一直安慰自己,他們只是感情好吼鳞,可當我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布看蚜。 她就那樣靜靜地躺著,像睡著了一般赔桌。 火紅的嫁衣襯著肌膚如雪供炎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天疾党,我揣著相機與錄音音诫,去河邊找鬼。 笑死雪位,一個胖子當著我的面吹牛竭钝,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播雹洗,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼香罐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了时肿?” 一聲冷哼從身側(cè)響起庇茫,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎螃成,沒想到半個月后旦签,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體啥容,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年顷霹,在試婚紗的時候發(fā)現(xiàn)自己被綠了咪惠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡淋淀,死狀恐怖遥昧,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情朵纷,我是刑警寧澤炭臭,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站袍辞,受9級特大地震影響鞋仍,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜搅吁,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一威创、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧谎懦,春花似錦肚豺、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至享甸,卻和暖如春截碴,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蛉威。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工日丹, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瓷翻。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓聚凹,卻偏偏與公主長得像割坠,于是被迫代替她去往敵國和親齐帚。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容