spark工作原理和介紹

https://zhuanlan.zhihu.com/p/34436165
https://zhuanlan.zhihu.com/p/70424613

1.介紹

Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎烙无。是Hadoop MapReduce的通用并行框架羊壹,Spark,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)赤屋;但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中罢缸,從而不再需要讀寫HDFS漱竖,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法随静。

2.Spark 系統(tǒng)架構(gòu)

image.png

3.Spark基本概念

1.RDD:是彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset)的簡稱蹈垢,是分布式內(nèi)存的一個(gè)抽象概念慷吊,提供了一種高度受限的共享內(nèi)存模型。
2.DAG:是Directed Acyclic Graph(有向無環(huán)圖)的簡稱曹抬,反映RDD之間的依賴關(guān)系罢浇。如果一個(gè)有向圖無法從某個(gè)頂點(diǎn)出發(fā)經(jīng)過若干條邊回到該點(diǎn),則這個(gè)圖是一個(gè)有向無環(huán)圖(DAG圖)沐祷。
3.Driver Program:控制程序嚷闭,負(fù)責(zé)為Application構(gòu)建DAG圖。
4.Cluster Manager:集群資源管理中心赖临,負(fù)責(zé)分配計(jì)算資源胞锰。
5.Worker Node:工作節(jié)點(diǎn),負(fù)責(zé)完成具體計(jì)算兢榨。
6.Executor:是運(yùn)行在工作節(jié)點(diǎn)(Worker Node)上的一個(gè)進(jìn)程嗅榕,負(fù)責(zé)運(yùn)行Task,并為應(yīng)用程序存儲數(shù)據(jù)吵聪。
7.Application:用戶編寫的Spark應(yīng)用程序凌那,一個(gè)Application包含多個(gè)Job。
8.Job:作業(yè)吟逝,一個(gè)Job包含多個(gè)RDD及作用于相應(yīng)RDD上的各種操作帽蝶。
9.Stage:階段,是作業(yè)的基本調(diào)度單位块攒,一個(gè)作業(yè)會分為多組任務(wù)励稳,每組任務(wù)被稱為“階段”佃乘。
10.Task:任務(wù),運(yùn)行在Executor上的工作單元驹尼,是Executor中的一個(gè)線程趣避。

總結(jié):

  • Cluster Manager在standalone模式中即為Master主節(jié)點(diǎn),控制整個(gè)集群新翎,監(jiān)控worker程帕。
  • Worker Node從節(jié)點(diǎn),負(fù)責(zé)控制計(jì)算節(jié)點(diǎn)地啰,啟動Executor或者Driver
  • Executor是在WorkerNode上起的一個(gè)進(jìn)程
  • Task骆捧,負(fù)責(zé)內(nèi)存和磁盤的使用。
  • Driver是統(tǒng)管Task的產(chǎn)生與發(fā)送給Executor的髓绽,運(yùn)行Application 的main()函數(shù)
  • Application由多個(gè)Job組成怔昨,Job由多個(gè)Stage組成捕儒,Stage由多個(gè)Task組成裆熙。Stage是作業(yè)調(diào)度的基本單位必指。

4.Spark 運(yùn)行原理

image.png

image.png

1.構(gòu)建Spark Application的運(yùn)行環(huán)境,啟動SparkContext
2.SparkContext向資源管理器(可以是Standalone株茶,Mesos来涨,Yarn)申請運(yùn)行Executor資源,并啟動StandaloneExecutorbackend启盛,
3.Executor向SparkContext申請Task
4.SparkContext將應(yīng)用程序分發(fā)給Executor
5.SparkContext構(gòu)建成DAG圖蹦掐,將DAG圖分解成Stage、將Taskset發(fā)送給Task Scheduler僵闯,最后由Task Scheduler將Task發(fā)送給Executor運(yùn)行
6.Task在Executor上運(yùn)行卧抗,運(yùn)行完釋放所有資源

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市鳖粟,隨后出現(xiàn)的幾起案子社裆,更是在濱河造成了極大的恐慌,老刑警劉巖向图,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泳秀,死亡現(xiàn)場離奇詭異,居然都是意外死亡榄攀,警方通過查閱死者的電腦和手機(jī)嗜傅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來檩赢,“玉大人吕嘀,你說我怎么就攤上這事。” “怎么了币他?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長憔狞。 經(jīng)常有香客問我蝴悉,道長,這世上最難降的妖魔是什么瘾敢? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任拍冠,我火速辦了婚禮,結(jié)果婚禮上簇抵,老公的妹妹穿的比我還像新娘庆杜。我一直安慰自己,他們只是感情好碟摆,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布晃财。 她就那樣靜靜地躺著,像睡著了一般典蜕。 火紅的嫁衣襯著肌膚如雪断盛。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天愉舔,我揣著相機(jī)與錄音钢猛,去河邊找鬼。 笑死轩缤,一個(gè)胖子當(dāng)著我的面吹牛命迈,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播火的,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼壶愤,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了馏鹤?” 一聲冷哼從身側(cè)響起公你,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎假瞬,沒想到半個(gè)月后陕靠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡脱茉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年剪芥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片琴许。...
    茶點(diǎn)故事閱讀 40,680評論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡税肪,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情益兄,我是刑警寧澤锻梳,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站净捅,受9級特大地震影響疑枯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蛔六,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一荆永、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧国章,春花似錦具钥、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至四啰,卻和暖如春桃漾,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背拟逮。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工撬统, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人敦迄。 一個(gè)月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓恋追,卻偏偏與公主長得像,于是被迫代替她去往敵國和親罚屋。 傳聞我的和親對象是個(gè)殘疾皇子苦囱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容