3.1 Spark應(yīng)用執(zhí)行機(jī)制分析

3.1 Spark應(yīng)用執(zhí)行機(jī)制分析

下面對(duì)Spark Application的基本概念和執(zhí)行機(jī)制進(jìn)行深入介紹嘹裂。

3.1.1 Spark應(yīng)用的基本概念

Spark應(yīng)用(Application)是用戶提交的應(yīng)用程序寡痰。Spark運(yùn)行模式分為:Local拇砰、Standalone啊研、YARN货邓、Mesos等怎茫。根據(jù)Spark Application的Driver Program是否在集群中運(yùn)行诊杆,Spark應(yīng)用的運(yùn)行方式又可以分為Cluster模式和Client模式捉腥。

下面介紹Spark應(yīng)用涉及的一些基本概念:

1)SparkContext:Spark應(yīng)用程序的入口氓拼,負(fù)責(zé)調(diào)度各個(gè)運(yùn)算資源,協(xié)調(diào)各個(gè)Worker Node上的Executor抵碟。

2)Driver Program:運(yùn)行Application的main()函數(shù)并創(chuàng)建SparkContext桃漾。

3)RDD:前面已經(jīng)講過(guò),RDD是Spark的核心數(shù)據(jù)結(jié)構(gòu)拟逮,可以通過(guò)一系列算子進(jìn)行操作撬统。當(dāng)RDD遇到Action算子時(shí),將之前的所有算子形成一個(gè)有向無(wú)環(huán)圖(DAG)敦迄。再在Spark中轉(zhuǎn)化為Job(Job的概念在后面講述)恋追,提交到集群執(zhí)行粒竖。一個(gè)App中可以包含多個(gè)Job。

4)Worker Node:集群中任何可以運(yùn)行Application代碼的節(jié)點(diǎn)几于,運(yùn)行一個(gè)或多個(gè)Executor進(jìn)程蕊苗。

5)Executor:為Application運(yùn)行在Worker Node上的一個(gè)進(jìn)程,該進(jìn)程負(fù)責(zé)運(yùn)行Task沿彭,并且負(fù)責(zé)將數(shù)據(jù)存在內(nèi)存或者磁盤(pán)上朽砰。每個(gè)Application都會(huì)申請(qǐng)各自的Executor來(lái)處理任務(wù)。

下面介紹Spark應(yīng)用(Application)執(zhí)行過(guò)程中各個(gè)組件的概念:

1)Task(任務(wù)):RDD中的一個(gè)分區(qū)對(duì)應(yīng)一個(gè)Task, Task是單個(gè)分區(qū)上最小的處理流程單元

2)TaskSet(任務(wù)集):一組關(guān)聯(lián)的喉刘,但相互之間沒(méi)有Shuffle依賴關(guān)系的Task集合瞧柔。

3)Stage(調(diào)度階段):一個(gè)TaskSet對(duì)應(yīng)的調(diào)度階段。每個(gè)Job會(huì)根據(jù)RDD的寬依賴關(guān)系被切分很多Stage睦裳,每個(gè)Stage都包含一個(gè)TaskSet造锅。

4)Job(作業(yè)):由Action算子觸發(fā)生成的由一個(gè)或多個(gè)Stage組成的計(jì)算作業(yè)。

5)Application:用戶編寫(xiě)的Spark的應(yīng)用程序廉邑,由一個(gè)或多個(gè)Job組成哥蔚。提交到Spark之后,Spark為Application分配資源蛛蒙,將程序轉(zhuǎn)換并執(zhí)行糙箍。

6)DAGScheduler:根據(jù)Job構(gòu)建基于Stage的DAG,并提交Stage給TaskScheduler牵祟。

7)TaskScheduler:將Taskset提交給Worker Node集群運(yùn)行并返回結(jié)果深夯。

以上基本概念之間的關(guān)系如圖3-1所示。

[插圖]

圖3-1 Spark基本概念之間的關(guān)系

3.1.2 Spark應(yīng)用執(zhí)行機(jī)制概要

Spark Application從提交后到在Worker Node執(zhí)行诺苹,期間經(jīng)歷了一系列變換咕晋,具體過(guò)程如圖3-2所示。

[插圖]

圖3-2 Spark執(zhí)行流程

如圖3-2所示收奔,前面講過(guò)掌呜,當(dāng)RDD遇見(jiàn)Action算子之后,觸發(fā)Job提交筹淫。提交后的Job在Spark中形成了RDD DAG有向無(wú)環(huán)圖(Directed Acyclic Graph)站辉。RDD DAG經(jīng)過(guò)DAG Scheduler調(diào)度之后呢撞,根據(jù)RDD依賴關(guān)系被切分為一系列的Stage损姜。每個(gè)Stage包含一組task集合,再經(jīng)過(guò)Task Scheduler之后殊霞,task被分配到Worker節(jié)點(diǎn)上的Executor線程池執(zhí)行摧阅。如前文所述,RDD中的每一個(gè)邏輯分區(qū)對(duì)應(yīng)一個(gè)物理的數(shù)據(jù)塊绷蹲,同時(shí)每個(gè)分區(qū)對(duì)應(yīng)一個(gè)Task棒卷,因此Task也有自己對(duì)應(yīng)的物理數(shù)據(jù)塊顾孽,使用用戶定義的函數(shù)來(lái)處理。Spark出于節(jié)約內(nèi)存的考慮比规,采用了延遲執(zhí)行的策略若厚,如前文所述,只有Action算子才可以觸發(fā)整個(gè)操作序列的執(zhí)行蜒什。另外测秸,Spark對(duì)于中間計(jì)算結(jié)果也不會(huì)重新分配內(nèi)存,而是在同一個(gè)數(shù)據(jù)塊上流水線操作灾常。

Spark使用BlockManager管理數(shù)據(jù)塊霎冯,在內(nèi)存或者磁盤(pán)進(jìn)行存儲(chǔ),如果數(shù)據(jù)不在本節(jié)點(diǎn)钞瀑,則還可以通過(guò)遠(yuǎn)端節(jié)點(diǎn)復(fù)制到本機(jī)進(jìn)行計(jì)算沈撞。在計(jì)算時(shí),Spark會(huì)在具體執(zhí)行計(jì)算的Worker節(jié)點(diǎn)的Executor中創(chuàng)建線程池雕什,Executor將需要執(zhí)行的任務(wù)通過(guò)線程池來(lái)并發(fā)執(zhí)行缠俺。

3.1.3 應(yīng)用提交與執(zhí)行

Spark使用Driver進(jìn)程負(fù)責(zé)應(yīng)用的解析、切分Stage并調(diào)度Task到Executor執(zhí)行贷岸,包含DAGScheduler等重要對(duì)象晋修。Driver進(jìn)程的運(yùn)行地點(diǎn)有如下兩種:

1)Driver進(jìn)程運(yùn)行在Client端,對(duì)應(yīng)用進(jìn)行管理監(jiān)控凰盔。

2)Master節(jié)點(diǎn)指定某個(gè)Worker節(jié)點(diǎn)啟動(dòng)Driver進(jìn)程墓卦,負(fù)責(zé)監(jiān)控整個(gè)應(yīng)用的執(zhí)行。

針對(duì)這兩種情況户敬,應(yīng)用提交及執(zhí)行過(guò)程分別如下:

  1. Driver運(yùn)行在Client

用戶啟動(dòng)Client端落剪,在Client端啟動(dòng)Driver進(jìn)程。在Driver中啟動(dòng)或?qū)嵗疍AGS-cheduler等組件尿庐。

1)Driver向Master注冊(cè)忠怖。

2)Worker向Master注冊(cè),Master通過(guò)指令讓W(xué)orker啟動(dòng)Executor抄瑟。

3)Worker通過(guò)創(chuàng)建ExecutorRunner線程凡泣,進(jìn)而ExecutorRunner線程啟動(dòng)Executor-Backend進(jìn)程。

4)ExecutorBackend啟動(dòng)后皮假,向Client端Driver進(jìn)程內(nèi)的SchedulerBackend注冊(cè)鞋拟,因此Driver進(jìn)程就可以發(fā)現(xiàn)計(jì)算資源。

5)Driver的DAGScheduler解析應(yīng)用中的RDD DAG并生成相應(yīng)的Stage惹资,每個(gè)Stage包含的TaskSet通過(guò)TaskScheduler分配給Executor贺纲。在Executor內(nèi)部啟動(dòng)線程池并行化執(zhí)行Task。

  1. Driver運(yùn)行在Worker節(jié)點(diǎn)

用戶啟動(dòng)客戶端褪测,客戶端提交應(yīng)用程序給Master猴誊。

1)Master調(diào)度應(yīng)用潦刃,指定一個(gè)Worker節(jié)點(diǎn)啟動(dòng)Driver,即Scheduler-Backend懈叹。

2)Worker接收到Master命令后創(chuàng)建DriverRunner線程乖杠,在DriverRunner線程內(nèi)創(chuàng)建SchedulerBackend進(jìn)程。Driver充當(dāng)整個(gè)作業(yè)的主控進(jìn)程澄成。

3)Master指定其他Worker節(jié)點(diǎn)啟動(dòng)Exeuctor滑黔,此處流程和上面相似,Worker創(chuàng)建ExecutorRunner線程环揽,啟動(dòng)ExecutorBackend進(jìn)程略荡。

4)ExecutorBackend啟動(dòng)后,向Driver的SchedulerBackend注冊(cè)歉胶,這樣Driver獲取了計(jì)算資源就可以調(diào)度和將任務(wù)分發(fā)到計(jì)算節(jié)點(diǎn)執(zhí)行汛兜。

SchedulerBackend進(jìn)程中包含DAGScheduler,它會(huì)根據(jù)RDD的DAG切分Stage通今,生成TaskSet粥谬,并調(diào)度和分發(fā)Task到Executor。對(duì)于每個(gè)Stage的TaskSet辫塌,都會(huì)被存放到TaskScheduler中漏策。TaskScheduler將任務(wù)分發(fā)到Executor,執(zhí)行多線程并行任務(wù)臼氨。圖3-3為Spark應(yīng)用的提交與執(zhí)行示意圖掺喻。

[插圖]

圖3-3 Spark應(yīng)用的提交與執(zhí)行

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市储矩,隨后出現(xiàn)的幾起案子感耙,更是在濱河造成了極大的恐慌,老刑警劉巖持隧,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件即硼,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡屡拨,警方通過(guò)查閱死者的電腦和手機(jī)只酥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)呀狼,“玉大人裂允,你說(shuō)我怎么就攤上這事≡剩” “怎么了叫胖?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)她奥。 經(jīng)常有香客問(wèn)我瓮增,道長(zhǎng),這世上最難降的妖魔是什么哩俭? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任绷跑,我火速辦了婚禮,結(jié)果婚禮上凡资,老公的妹妹穿的比我還像新娘砸捏。我一直安慰自己,他們只是感情好隙赁,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布垦藏。 她就那樣靜靜地躺著,像睡著了一般伞访。 火紅的嫁衣襯著肌膚如雪掂骏。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,036評(píng)論 1 285
  • 那天厚掷,我揣著相機(jī)與錄音弟灼,去河邊找鬼。 笑死冒黑,一個(gè)胖子當(dāng)著我的面吹牛田绑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播抡爹,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼掩驱,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了冬竟?” 一聲冷哼從身側(cè)響起昙篙,我...
    開(kāi)封第一講書(shū)人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎诱咏,沒(méi)想到半個(gè)月后苔可,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡袋狞,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年焚辅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片苟鸯。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡同蜻,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出早处,到底是詐尸還是另有隱情湾蔓,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布砌梆,位于F島的核電站默责,受9級(jí)特大地震影響贬循,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜桃序,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一杖虾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧媒熊,春花似錦奇适、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至柠衅,卻和暖如春皮仁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背茄茁。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工魂贬, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人裙顽。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓付燥,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親愈犹。 傳聞我的和親對(duì)象是個(gè)殘疾皇子键科,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容