Spark--spark工作模式詳解(local/standalone/yarn)

Spark 運行模式分類

本地模式飞袋；
standalone模式暮蹂；
spark on yarn 模式粹断，又分未yarn-client和yarn-cluster；
spark on mesos 模式（暫時沒有了解）

本地模式-local

Spark不一定非要跑在hadoop集群所刀，可以在本地衙荐，起多個線程的方式來指定。將Spark應(yīng)用以多線程的方式直接運行在本地浮创，一般都是為了方便調(diào)試忧吟，本地模式分三類

local：只啟動一個executor
local[k]:啟動k個executor
local[*]：啟動跟cpu數(shù)目相同的executor

注意：
Spark單機運行，一般用于開發(fā)測試斩披。

Local模式又稱為本地模式溜族，運行該模式非常簡單讹俊，只需要把Spark的安裝包解壓后，改一些常用的配置即可使用煌抒，而不用啟動Spark的Master仍劈、Worker守護進程( 只有集群的Standalone方式時，才需要這兩個角色)寡壮，也不用啟動Hadoop的各服務(wù)（除非你要用到HDFS）贩疙，這是和其他模式的區(qū)別。
這個SparkSubmit進程又當?shù)黾取⒂之攱屨饨Γ仁强蛻籼峤蝗蝿?wù)的Client進程、又是Spark的driver程序坏挠、還充當著Spark執(zhí)行Task的Executor角色芍躏。

standalone模式

構(gòu)建一個由Master+Slave構(gòu)成的Spark集群，Spark運行在集群中降狠。分布式部署集群对竣，自帶完整的服務(wù)，資源管理和任務(wù)監(jiān)控是Spark自己監(jiān)控榜配，這個模式也是其他模式的基礎(chǔ)否纬。
和單機運行的模式不同，這里必須在執(zhí)行應(yīng)用程序前蛋褥，先啟動Spark的Master和Worker守護進程临燃。不用啟動Hadoop服務(wù)，除非你用到了HDFS的內(nèi)容烙心；

spark-standalone模式.png
standalone模式角色說明
- Master進程做為cluster manager膜廊，用來對應(yīng)用程序申請的資源進行管理；
- SparkSubmit 做為Client端和運行driver程序淫茵；
- CoarseGrainedExecutorBackend 用來并發(fā)執(zhí)行應(yīng)用程序爪瓜；
Driver運行的位置
- Standalone模式是Spark實現(xiàn)的資源調(diào)度框架，其主要的節(jié)點有Client節(jié)點匙瘪、Master節(jié)點和Worker節(jié)點铆铆。其中Driver既可以運行在Master節(jié)點上中，也可以運行在本地Client端丹喻。
- 當用spark-shell交互式工具提交Spark的Job時薄货，Driver在Master節(jié)點上運行；
- 當使用spark-submit工具提交Job或者在Eclips碍论、IDEA等開發(fā)平臺上使用”new SparkConf.setManager(“spark://master:7077”)”方式運行Spark任務(wù)時谅猾，Driver是運行在本地Client端上的。
standalone運行流程
- 1.SparkContext連接到Master鳍悠，向Master注冊并申請資源（CPU Core 和Memory）赊瞬；
- 2.Master根據(jù)SparkContext的資源申請要求和Worker心跳周期內(nèi)報告的信息決定在哪個Worker上分配資源先煎，然后在該Worker上獲取資源，然后啟動StandaloneExecutorBackend巧涧；
- 3.StandaloneExecutorBackend向SparkContext注冊薯蝎；
- 4.SparkContext將Applicaiton代碼發(fā)送給StandaloneExecutorBackend；并且SparkContext解析Applicaiton代碼谤绳，構(gòu)建DAG圖占锯，并提交給DAG Scheduler分解成Stage（當碰到Action操作時，就會催生Job缩筛；每個Job中含有1個或多個Stage消略，Stage一般在獲取外部數(shù)據(jù)和shuffle之前產(chǎn)生），DAG Scheduler將TaskSet提交給Task Scheduler瞎抛，Task Scheduler負責將Task分配到相應(yīng)的Worker艺演，最后提交給StandaloneExecutorBackend執(zhí)行；
- 5.StandaloneExecutorBackend會建立Executor線程池桐臊，開始執(zhí)行Task胎撤，并向SparkContext報告，直至Task完成断凶。
- 6.所有Task完成后伤提，SparkContext向Master注銷，釋放資源认烁。

Spark on Yarn模式

Spark客戶端直接連接Yarn肿男。不需要額外構(gòu)建Spark集群。分布式部署集群却嗡，資源和任務(wù)監(jiān)控交給yarn管理舶沛，但是目前僅支持粗粒度資源分配方式，包含cluster和client運行模式窗价，cluster適合生產(chǎn)如庭，driver運行在集群子節(jié)點，具有容錯功能舌镶，client適合調(diào)試，dirver運行在客戶端豪娜。

Spark on yarn client模式

Spark-yarn-client.png

Driver運行位置
- Driver 在本地運行餐胀，并沒有在nodemanager上，在nodemanager上啟動的applicationMaster僅僅是一個ExecutorLanucher瘤载，功能十分有限否灾。
運行流程
- (1).Spark Yarn Client向YARN的ResourceManager發(fā)送請求，申請啟動Application Master鸣奔。同時在SparkContext初始化中將創(chuàng)建DAGScheduler和TASKScheduler等墨技，由于我們選擇的是Yarn-Client模式惩阶，程序會選擇YarnClientClusterScheduler和YarnClientSchedulerBackend喇闸；
- (2).ResourceManager收到請求后愉粤，在集群中選擇一個NodeManager，為該應(yīng)用程序分配第一個Container褥紫，要求它在這個Container中啟動應(yīng)用程序的ApplicationMaster（實際啟動的是ExecutorLanucher崭别，功能十分有限）冬筒，與YARN-Cluster區(qū)別的是在該ApplicationMaster不運行SparkContext，只與SparkContext進行聯(lián)系進行資源的分派的ExecutorLanucher茅主；
- (3).Client中的SparkContext初始化完畢后舞痰，與ApplicationMaster建立通訊，向ResourceManager注冊诀姚，根據(jù)任務(wù)信息向ResourceManager申請資源（Container）响牛；
- (4).一旦ApplicationMaster申請到資源（也就是Container）后，便與對應(yīng)的NodeManager通信赫段，要求它在獲得的Container中啟動啟動CoarseGrainedExecutorBackend呀打，CoarseGrainedExecutorBackend啟動后會向Client中的SparkContext注冊并申請Task；
- (5).Client中的SparkContext分配Task給CoarseGrainedExecutorBackend執(zhí)行瑞佩，CoarseGrainedExecutorBackend運行Task并向Driver匯報運行的狀態(tài)和進度聚磺，以讓Client隨時掌握各個任務(wù)的運行狀態(tài)，從而可以在任務(wù)失敗時重新啟動任務(wù)炬丸；
- (6).應(yīng)用程序運行完成后瘫寝，Client的SparkContext向ResourceManager申請注銷并關(guān)閉自己；

spark on yarn cluster模式

Spark-yarn-cluster.png

Driver 運行位置
- Driver運行在nodemanager上
運行流程
- (1). Spark Yarn Client向YARN中resourcemanager提交應(yīng)用程序稠炬，包括ApplicationMaster程序焕阿、啟動ApplicationMaster的命令、需要在Executor中運行的程序等首启；
- (2). ResourceManager收到請求后暮屡，在集群中選擇一個NodeManager，為該應(yīng)用程序分配第一個Container毅桃，要求它在這個Container中啟動應(yīng)用程序的ApplicationMaster(相當于Driver客戶端)褒纲，其中ApplicationMaster進行SparkContext等的初始化；
- (3). ApplicationMaster向ResourceManager注冊钥飞，這樣用戶可以直接通過ResourceManage查看應(yīng)用程序的運行狀態(tài)莺掠，然后它將采用輪詢的方式通過RPC協(xié)議為各個任務(wù)申請資源，并監(jiān)控它們的運行狀態(tài)直到運行結(jié)束读宙；
- (4). 一旦ApplicationMaster申請到資源（也就是Container）后彻秆，便與對應(yīng)的NodeManager通信，要求它在獲得的Container中啟動啟動CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend啟動后會向ApplicationMaster中的SparkContext注冊并申請Task唇兑。這一點和Standalone模式一樣酒朵，只不過SparkContext在Spark Application中初始化時，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler進行任務(wù)的調(diào)度扎附，其中YarnClusterScheduler只是對TaskSchedulerImpl的一個簡單包裝蔫耽，增加了對Executor的等待邏輯等；
- (5). ApplicationMaster中的SparkContext分配Task給CoarseGrainedExecutorBackend執(zhí)行帕棉，CoarseGrainedExecutorBackend運行Task并向ApplicationMaster匯報運行的狀態(tài)和進度针肥，以讓ApplicationMaster隨時掌握各個任務(wù)的運行狀態(tài)，從而可以在任務(wù)失敗時重新啟動任務(wù)香伴；
- (6). 應(yīng)用程序運行完成后慰枕，ApplicationMaster向ResourceManager申請注銷并關(guān)閉自己。

Spark on yarn client與Spark on yarn Cluster之間的區(qū)別

yarn-client：
- 用于測試即纲，因為driver運行在本地客戶端具帮，負責調(diào)度application，會與yarn集群產(chǎn)生超大量的網(wǎng)絡(luò)通信低斋。好處是直接執(zhí)行時蜂厅，本地可以看到所有的log，方便調(diào)試膊畴。
- Application Master僅僅向YARN請求Executor掘猿，Client會和請求的Container通信來調(diào)度他們工作，也就是說Client不能離開唇跨。
yarn-cluster：
- 生產(chǎn)環(huán)境使用稠通，因為driver運行在nodemanager上，缺點在于調(diào)試不方便买猖，本地用spark-submit提價以后改橘，看不到log，只能通過yarn application-logs application_id這種命令查看玉控，很麻煩
- Driver運行在AM(Application Master)中飞主，它負責向YARN申請資源，并監(jiān)督作業(yè)的運行狀況高诺。當用戶提交了作業(yè)之后碌识，就可以關(guān)掉Client，作業(yè)會繼續(xù)在YARN上運行虱而，因而YARN-Cluster模式不適合運行交互類型的作業(yè)筏餐；
總結(jié)
- 理解YARN-Client和YARN-Cluster深層次的區(qū)別之前先清楚一個概念：Application Master。在YARN中薛窥，每個Application實例都有一個ApplicationMaster進程胖烛，它是Application啟動的第一個容器。它負責和ResourceManager打交道并請求資源诅迷，獲取資源之后告訴NodeManager為其啟動Container佩番。從深層次的含義講YARN-Cluster和YARN-Client模式的區(qū)別其實就是ApplicationMaster進程的區(qū)別。

最后編輯于：2019.05.12 15:39:29

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末罢杉，一起剝皮案震驚了整個濱河市趟畏，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌滩租，老刑警劉巖赋秀，帶你破解...
沈念sama閱讀 211,265評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異律想，居然都是意外死亡猎莲，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,078評論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門技即，熙熙樓的掌柜王于貴愁眉苦臉地迎上來著洼，“玉大人，你說我怎么就攤上這事而叼∩眢裕” “怎么了？”我有些...
開封第一講書人閱讀 156,852評論 0贊 347
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵葵陵，是天一觀的道長液荸。經(jīng)常有香客問我，道長脱篙，這世上最難降的妖魔是什么娇钱？我笑而不...
開封第一講書人閱讀 56,408評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮涡尘，結(jié)果婚禮上忍弛，老公的妹妹穿的比我還像新娘。我一直安慰自己考抄，他們只是感情好细疚，可當我...
茶點故事閱讀 65,445評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著川梅，像睡著了一般疯兼。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上贫途，一...
開封第一講書人閱讀 49,772評論 1贊 290
城市分裂傳說
那天吧彪，我揣著相機與錄音，去河邊找鬼丢早。笑死姨裸，一個胖子當著我的面吹牛秧倾，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播傀缩，決...
沈念sama閱讀 38,921評論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼那先，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了赡艰？” 一聲冷哼從身側(cè)響起售淡，我...
開封第一講書人閱讀 37,688評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎慷垮，沒想到半個月后揖闸，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,130評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡料身，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,467評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年汤纸，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芹血。...
茶點故事閱讀 38,617評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蹲嚣，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出祟牲，到底是詐尸還是另有隱情隙畜，我是刑警寧澤，帶...
沈念sama閱讀 34,276評論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布说贝，位于F島的核電站议惰，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏乡恕。R本人自食惡果不足惜言询，卻給世界環(huán)境...
茶點故事閱讀 39,882評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望傲宜。院中可真熱鬧运杭，春花似錦、人聲如沸函卒。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,740評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽报嵌。三九已至虱咧，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間锚国，已是汗流浹背腕巡。一陣腳步聲響...
開封第一講書人閱讀 31,967評論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留血筑，地道東北人绘沉。一個月前我還...
沈念sama閱讀 46,315評論 2贊 360
代替公主和親
正文我出身青樓煎楣，卻偏偏與公主長得像，于是被迫代替她去往敵國和親车伞。傳聞我的和親對象是個殘疾皇子转质，可洞房花燭夜當晚...
茶點故事閱讀 43,486評論 2贊 348