3.1 Spark應(yīng)用執(zhí)行機(jī)制分析
下面對(duì)Spark Application的基本概念和執(zhí)行機(jī)制進(jìn)行深入介紹嘹裂。
3.1.1 Spark應(yīng)用的基本概念
Spark應(yīng)用(Application)是用戶提交的應(yīng)用程序寡痰。Spark運(yùn)行模式分為:Local拇砰、Standalone啊研、YARN货邓、Mesos等怎茫。根據(jù)Spark Application的Driver Program是否在集群中運(yùn)行诊杆,Spark應(yīng)用的運(yùn)行方式又可以分為Cluster模式和Client模式捉腥。
下面介紹Spark應(yīng)用涉及的一些基本概念:
1)SparkContext:Spark應(yīng)用程序的入口氓拼,負(fù)責(zé)調(diào)度各個(gè)運(yùn)算資源,協(xié)調(diào)各個(gè)Worker Node上的Executor抵碟。
2)Driver Program:運(yùn)行Application的main()函數(shù)并創(chuàng)建SparkContext桃漾。
3)RDD:前面已經(jīng)講過(guò),RDD是Spark的核心數(shù)據(jù)結(jié)構(gòu)拟逮,可以通過(guò)一系列算子進(jìn)行操作撬统。當(dāng)RDD遇到Action算子時(shí),將之前的所有算子形成一個(gè)有向無(wú)環(huán)圖(DAG)敦迄。再在Spark中轉(zhuǎn)化為Job(Job的概念在后面講述)恋追,提交到集群執(zhí)行粒竖。一個(gè)App中可以包含多個(gè)Job。
4)Worker Node:集群中任何可以運(yùn)行Application代碼的節(jié)點(diǎn)几于,運(yùn)行一個(gè)或多個(gè)Executor進(jìn)程蕊苗。
5)Executor:為Application運(yùn)行在Worker Node上的一個(gè)進(jìn)程,該進(jìn)程負(fù)責(zé)運(yùn)行Task沿彭,并且負(fù)責(zé)將數(shù)據(jù)存在內(nèi)存或者磁盤(pán)上朽砰。每個(gè)Application都會(huì)申請(qǐng)各自的Executor來(lái)處理任務(wù)。
下面介紹Spark應(yīng)用(Application)執(zhí)行過(guò)程中各個(gè)組件的概念:
1)Task(任務(wù)):RDD中的一個(gè)分區(qū)對(duì)應(yīng)一個(gè)Task, Task是單個(gè)分區(qū)上最小的處理流程單元
2)TaskSet(任務(wù)集):一組關(guān)聯(lián)的喉刘,但相互之間沒(méi)有Shuffle依賴關(guān)系的Task集合瞧柔。
3)Stage(調(diào)度階段):一個(gè)TaskSet對(duì)應(yīng)的調(diào)度階段。每個(gè)Job會(huì)根據(jù)RDD的寬依賴關(guān)系被切分很多Stage睦裳,每個(gè)Stage都包含一個(gè)TaskSet造锅。
4)Job(作業(yè)):由Action算子觸發(fā)生成的由一個(gè)或多個(gè)Stage組成的計(jì)算作業(yè)。
5)Application:用戶編寫(xiě)的Spark的應(yīng)用程序廉邑,由一個(gè)或多個(gè)Job組成哥蔚。提交到Spark之后,Spark為Application分配資源蛛蒙,將程序轉(zhuǎn)換并執(zhí)行糙箍。
6)DAGScheduler:根據(jù)Job構(gòu)建基于Stage的DAG,并提交Stage給TaskScheduler牵祟。
7)TaskScheduler:將Taskset提交給Worker Node集群運(yùn)行并返回結(jié)果深夯。
以上基本概念之間的關(guān)系如圖3-1所示。
[插圖]
圖3-1 Spark基本概念之間的關(guān)系
3.1.2 Spark應(yīng)用執(zhí)行機(jī)制概要
Spark Application從提交后到在Worker Node執(zhí)行诺苹,期間經(jīng)歷了一系列變換咕晋,具體過(guò)程如圖3-2所示。
[插圖]
圖3-2 Spark執(zhí)行流程
如圖3-2所示收奔,前面講過(guò)掌呜,當(dāng)RDD遇見(jiàn)Action算子之后,觸發(fā)Job提交筹淫。提交后的Job在Spark中形成了RDD DAG有向無(wú)環(huán)圖(Directed Acyclic Graph)站辉。RDD DAG經(jīng)過(guò)DAG Scheduler調(diào)度之后呢撞,根據(jù)RDD依賴關(guān)系被切分為一系列的Stage损姜。每個(gè)Stage包含一組task集合,再經(jīng)過(guò)Task Scheduler之后殊霞,task被分配到Worker節(jié)點(diǎn)上的Executor線程池執(zhí)行摧阅。如前文所述,RDD中的每一個(gè)邏輯分區(qū)對(duì)應(yīng)一個(gè)物理的數(shù)據(jù)塊绷蹲,同時(shí)每個(gè)分區(qū)對(duì)應(yīng)一個(gè)Task棒卷,因此Task也有自己對(duì)應(yīng)的物理數(shù)據(jù)塊顾孽,使用用戶定義的函數(shù)來(lái)處理。Spark出于節(jié)約內(nèi)存的考慮比规,采用了延遲執(zhí)行的策略若厚,如前文所述,只有Action算子才可以觸發(fā)整個(gè)操作序列的執(zhí)行蜒什。另外测秸,Spark對(duì)于中間計(jì)算結(jié)果也不會(huì)重新分配內(nèi)存,而是在同一個(gè)數(shù)據(jù)塊上流水線操作灾常。
Spark使用BlockManager管理數(shù)據(jù)塊霎冯,在內(nèi)存或者磁盤(pán)進(jìn)行存儲(chǔ),如果數(shù)據(jù)不在本節(jié)點(diǎn)钞瀑,則還可以通過(guò)遠(yuǎn)端節(jié)點(diǎn)復(fù)制到本機(jī)進(jìn)行計(jì)算沈撞。在計(jì)算時(shí),Spark會(huì)在具體執(zhí)行計(jì)算的Worker節(jié)點(diǎn)的Executor中創(chuàng)建線程池雕什,Executor將需要執(zhí)行的任務(wù)通過(guò)線程池來(lái)并發(fā)執(zhí)行缠俺。
3.1.3 應(yīng)用提交與執(zhí)行
Spark使用Driver進(jìn)程負(fù)責(zé)應(yīng)用的解析、切分Stage并調(diào)度Task到Executor執(zhí)行贷岸,包含DAGScheduler等重要對(duì)象晋修。Driver進(jìn)程的運(yùn)行地點(diǎn)有如下兩種:
1)Driver進(jìn)程運(yùn)行在Client端,對(duì)應(yīng)用進(jìn)行管理監(jiān)控凰盔。
2)Master節(jié)點(diǎn)指定某個(gè)Worker節(jié)點(diǎn)啟動(dòng)Driver進(jìn)程墓卦,負(fù)責(zé)監(jiān)控整個(gè)應(yīng)用的執(zhí)行。
針對(duì)這兩種情況户敬,應(yīng)用提交及執(zhí)行過(guò)程分別如下:
- Driver運(yùn)行在Client
用戶啟動(dòng)Client端落剪,在Client端啟動(dòng)Driver進(jìn)程。在Driver中啟動(dòng)或?qū)嵗疍AGS-cheduler等組件尿庐。
1)Driver向Master注冊(cè)忠怖。
2)Worker向Master注冊(cè),Master通過(guò)指令讓W(xué)orker啟動(dòng)Executor抄瑟。
3)Worker通過(guò)創(chuàng)建ExecutorRunner線程凡泣,進(jìn)而ExecutorRunner線程啟動(dòng)Executor-Backend進(jìn)程。
4)ExecutorBackend啟動(dòng)后皮假,向Client端Driver進(jìn)程內(nèi)的SchedulerBackend注冊(cè)鞋拟,因此Driver進(jìn)程就可以發(fā)現(xiàn)計(jì)算資源。
5)Driver的DAGScheduler解析應(yīng)用中的RDD DAG并生成相應(yīng)的Stage惹资,每個(gè)Stage包含的TaskSet通過(guò)TaskScheduler分配給Executor贺纲。在Executor內(nèi)部啟動(dòng)線程池并行化執(zhí)行Task。
- Driver運(yùn)行在Worker節(jié)點(diǎn)
用戶啟動(dòng)客戶端褪测,客戶端提交應(yīng)用程序給Master猴誊。
1)Master調(diào)度應(yīng)用潦刃,指定一個(gè)Worker節(jié)點(diǎn)啟動(dòng)Driver,即Scheduler-Backend懈叹。
2)Worker接收到Master命令后創(chuàng)建DriverRunner線程乖杠,在DriverRunner線程內(nèi)創(chuàng)建SchedulerBackend進(jìn)程。Driver充當(dāng)整個(gè)作業(yè)的主控進(jìn)程澄成。
3)Master指定其他Worker節(jié)點(diǎn)啟動(dòng)Exeuctor滑黔,此處流程和上面相似,Worker創(chuàng)建ExecutorRunner線程环揽,啟動(dòng)ExecutorBackend進(jìn)程略荡。
4)ExecutorBackend啟動(dòng)后,向Driver的SchedulerBackend注冊(cè)歉胶,這樣Driver獲取了計(jì)算資源就可以調(diào)度和將任務(wù)分發(fā)到計(jì)算節(jié)點(diǎn)執(zhí)行汛兜。
SchedulerBackend進(jìn)程中包含DAGScheduler,它會(huì)根據(jù)RDD的DAG切分Stage通今,生成TaskSet粥谬,并調(diào)度和分發(fā)Task到Executor。對(duì)于每個(gè)Stage的TaskSet辫塌,都會(huì)被存放到TaskScheduler中漏策。TaskScheduler將任務(wù)分發(fā)到Executor,執(zhí)行多線程并行任務(wù)臼氨。圖3-3為Spark應(yīng)用的提交與執(zhí)行示意圖掺喻。
[插圖]
圖3-3 Spark應(yīng)用的提交與執(zhí)行