spark術(shù)語

常用術(shù)語:


  • Application:Appliction都是指用戶編寫的Spark應(yīng)用程序箱沦,其中包括一個Driver功能的代碼和分布在集群中多個節(jié)點上運行的Executor代碼

  • Driver:Spark中的Driver即運行上述Application的main函數(shù)并創(chuàng)建SparkContext茧痒,創(chuàng)建SparkContext的目的是為了準備Spark應(yīng)用程序的運行環(huán)境,在Spark中有SparkContext負責(zé)與ClusterManager通信掖鱼,進行資源申請、任務(wù)的分配和監(jiān)控等援制,當(dāng)Executor部分運行完畢后戏挡,Driver同時負責(zé)將SparkContext關(guān)閉,通常用SparkContext代表Driver

  • Executor: 某個Application運行在worker節(jié)點上的一個進程晨仑, 該進程負責(zé)運行某些Task褐墅, 并且負責(zé)將數(shù)據(jù)存到內(nèi)存或磁盤上拆檬,每個Application都有各自獨立的一批Executor, 在Spark on Yarn模式下妥凳,其進程名稱為CoarseGrainedExecutor Backend竟贯。一個CoarseGrainedExecutor Backend有且僅有一個Executor對象, 負責(zé)將Task包裝成taskRunner,并從線程池中抽取一個空閑線程運行Task逝钥, 這個每一個CoarseGrainedExecutor Backend能并行運行Task的數(shù)量取決與分配給它的cpu個數(shù)

  • Cluter Manager:指的是在集群上獲取資源的外部服務(wù)屑那。目前有三種類型

  1. Standalon : spark原生的資源管理,由Master負責(zé)資源的分配
  2. Apache Mesos:與hadoop MR兼容性良好的一種資源調(diào)度框架
  3. Hadoop Yarn: 主要是指Yarn中的ResourceManager
  • Worker: 集群中任何可以運行Application代碼的節(jié)點艘款,在Standalone模式中指的是通過slave文件配置的Worker節(jié)點持际,在Spark on Yarn模式下就是NodeManager節(jié)點

  • Task: 被送到某個Executor上的工作單元,和hadoopMR中的MapTask與ReduceTask概念一樣哗咆,是運行Application的基本單位蜘欲,多個Task組成一個Stage,而Task的調(diào)度和管理等是由TaskScheduler負責(zé)

  • Job: 包含多個Task組成的并行計算晌柬,往往由Spark Action觸發(fā)生成姥份, 一個Application中往往會產(chǎn)生多個Job

  • Stage: 每個Job會被拆分成多組Task, 作為一個TaskSet空繁, 其名稱為Stage殿衰,Stage的劃分和調(diào)度是有DAGScheduler來負責(zé)的,Stage分:非最終的Stage(Shuffle Map Stage)和最終的Stage(Result Stage)兩種盛泡,Stage的邊界就是發(fā)生shuffle的地方

  • DAGScheduler: 根據(jù)Job構(gòu)建基于Stage的DAG(Directed Acyclic Graph有向無環(huán)圖)闷祥,并提交Stage給TaskScheduler。 其劃分Stage的依據(jù)是RDD之間的依賴的關(guān)系找出開銷最小的調(diào)度方法傲诵,如下圖

  • image
  • TASKSedulter: 將TaskSET提交給worker運行凯砍,每個Executor運行什么Task就是在此處分配的. TaskScheduler維護所有TaskSet,當(dāng)Executor向Driver發(fā)生心跳時拴竹,TaskScheduler會根據(jù)資源剩余情況分配相應(yīng)的Task悟衩。另外TaskScheduler還維護著所有Task的運行標簽,重試失敗的Task栓拜。下圖展示了TaskScheduler的作用

  • image
  • 在不同運行模式中任務(wù)調(diào)度器具體為:

  1. Spark on Standalone模式為TaskScheduler
  2. YARN-Client模式為YarnClientClusterScheduler
  3. YARN-Cluster模式為YarnClusterScheduler
  • 將這些術(shù)語串起來的運行層次圖如下:
  • image
  • Job=多個stage座泳,Stage=多個同種task, Task分為ShuffleMapTask和ResultTask,RDD依賴分為寬依賴(Wide Dependency /Shuffle Dependency)和窄依賴(Narrow Dependency)
  • 窄依賴:子RDD的每個分區(qū)依賴于常數(shù)個父分區(qū)(即與數(shù)據(jù)規(guī)模無關(guān))幕与,允許父分區(qū)以流水線的方式找到子分區(qū)挑势,map產(chǎn)生窄依賴

  • 寬依賴:子RDD的每個分區(qū)依賴于所有父RDD分區(qū);類似于MR的shuffle過程啦鸣;Join產(chǎn)生寬依賴(除非父RDD被哈希分區(qū))

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末潮饱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子诫给,更是在濱河造成了極大的恐慌香拉,老刑警劉巖啦扬,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異凫碌,居然都是意外死亡扑毡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門证鸥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來僚楞,“玉大人勤晚,你說我怎么就攤上這事枉层。” “怎么了赐写?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵鸟蜡,是天一觀的道長。 經(jīng)常有香客問我挺邀,道長揉忘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任端铛,我火速辦了婚禮泣矛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘禾蚕。我一直安慰自己您朽,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布换淆。 她就那樣靜靜地躺著哗总,像睡著了一般。 火紅的嫁衣襯著肌膚如雪倍试。 梳的紋絲不亂的頭發(fā)上讯屈,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天,我揣著相機與錄音县习,去河邊找鬼涮母。 笑死,一個胖子當(dāng)著我的面吹牛躁愿,可吹牛的內(nèi)容都是我干的叛本。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼攘已,長吁一口氣:“原來是場噩夢啊……” “哼炮赦!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起样勃,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤吠勘,失蹤者是張志新(化名)和其女友劉穎性芬,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體剧防,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡植锉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了峭拘。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片俊庇。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖鸡挠,靈堂內(nèi)的尸體忽然破棺而出辉饱,到底是詐尸還是另有隱情,我是刑警寧澤拣展,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布彭沼,位于F島的核電站,受9級特大地震影響备埃,放射性物質(zhì)發(fā)生泄漏姓惑。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一按脚、第九天 我趴在偏房一處隱蔽的房頂上張望于毙。 院中可真熱鬧,春花似錦辅搬、人聲如沸唯沮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽烂翰。三九已至,卻和暖如春蚤氏,著一層夾襖步出監(jiān)牢的瞬間甘耿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工竿滨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留佳恬,地道東北人。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓于游,卻偏偏與公主長得像毁葱,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子贰剥,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容