【Spark】Spark基本概念

Spark專用名詞

  • RDD ---- resillient distributed dataset 彈性分布式數(shù)據(jù)集
  • Operation ---- 作用于RDD的各種操作分為transformation和action
  • Job ---- 作業(yè),一個(gè)JOB包含多個(gè)RDD及作用于相應(yīng)RDD上的各種operation
  • Stage ---- 一個(gè)作業(yè)分為多個(gè)階段
  • Partition ---- 數(shù)據(jù)分區(qū), 一個(gè)RDD中的數(shù)據(jù)可以分成多個(gè)不同的區(qū)
  • DAG ---- Directed Acycle graph, 有向無環(huán)圖贱纠,反應(yīng)RDD之間的依賴關(guān)系
  • Narrow dependency ---- 窄依賴伊佃,子RDD依賴于父RDD中固定的data partition
  • Wide Dependency ---- 寬依賴,子RDD對父RDD中的所有data partition都有依賴
  • Caching Managenment ---- 緩存管理焕毫,對RDD的中間計(jì)算結(jié)果進(jìn)行緩存管理以加快整體的處理速度

Spark編程模型

下面是Spark的一個(gè)日志計(jì)數(shù)示例蹲坷,該程序演示了Spark的計(jì)算模型:



下面是Spark運(yùn)行時(shí)涉及的各組件的概況圖:


從RDD轉(zhuǎn)換和存儲角度,用戶程序?qū)DD通過多個(gè)函數(shù)進(jìn)行操作邑飒,將RDD進(jìn)行轉(zhuǎn)換循签。Block Manager管理RDD的物理分區(qū),每個(gè)Block就是節(jié)點(diǎn)上對應(yīng)的一個(gè)數(shù)據(jù)塊疙咸,可以存儲在內(nèi)存或磁盤县匠。而RDD中的partition是一個(gè)邏輯數(shù)據(jù)塊,對應(yīng)相應(yīng)的物理塊Block撒轮。
本質(zhì)上乞旦,一個(gè)RDD在代碼中相當(dāng)于是數(shù)據(jù)的一個(gè)元數(shù)據(jù)結(jié)構(gòu),存儲著數(shù)據(jù)分區(qū)及其邏輯結(jié)構(gòu)映射關(guān)系题山,存儲著RDD之前的依賴轉(zhuǎn)換關(guān)系兰粉。


作用于RDD上的操作分為transformantion和action。 經(jīng)Transformation處理之后顶瞳,數(shù)據(jù)集中的內(nèi)容會發(fā)生更改亲桦,由數(shù)據(jù)集A轉(zhuǎn)換成為數(shù)據(jù)集B;而經(jīng)Action處理之后浊仆,數(shù)據(jù)集中的內(nèi)容會被歸約為一個(gè)具體的數(shù)值客峭。
只有當(dāng)RDD上有action時(shí),該RDD及其父RDD上的所有operation才會被提交到cluster中真正的被執(zhí)行抡柿。


Spark運(yùn)行態(tài)

用Spark的術(shù)語來說舔琅,static view稱為dataset-level view,而dynamic view稱為parition-level view洲劣,關(guān)系如圖所示:



在Spark中的task可以對應(yīng)于線程备蚓,worker是一個(gè)個(gè)的進(jìn)程课蔬,worker由driver來進(jìn)行管理。

在源碼閱讀時(shí)郊尝,需要重點(diǎn)把握以下兩大主線:

  • 靜態(tài)視圖static view 即 RDD, transformation and action
  • 動態(tài)視圖dynamic view 即 life of a job,每一個(gè)job又分為多個(gè)stage二跋,每一個(gè)stage中可以包含多個(gè)rdd及其transformation,這些stage又是如何映射成為task被distributed到cluster中

Spark調(diào)度機(jī)制

Spark應(yīng)用提交后經(jīng)歷了一系列的轉(zhuǎn)換,最后成為Task在每個(gè)節(jié)點(diǎn)上執(zhí)行流昏。
當(dāng)有Action作用于某RDD時(shí)扎即,該action會作為一個(gè)job被提交。
在提交的過程中况凉,DAGScheduler模塊介入運(yùn)算谚鄙,計(jì)算RDD之間的依賴關(guān)系。RDD之間的依賴關(guān)系就形成了DAG刁绒。
每一個(gè)Job被分為多個(gè)stage闷营,劃分stage的一個(gè)主要依據(jù)是當(dāng)前計(jì)算因子的輸入是否是確定的,如果是則將其分在同一個(gè)stage知市,避免多個(gè)stage之間的消息傳遞開銷傻盟。
當(dāng)stage被提交之后,由taskscheduler來根據(jù)stage來計(jì)算所需要的task嫂丙,并將task提交到對應(yīng)的worker莫杈。
大體概況如下圖所示:



關(guān)于Spark的調(diào)度運(yùn)行機(jī)制詳見下一節(jié)的RDD詳解中的介紹。

轉(zhuǎn)載請注明作者Jason Ding及其出處
GitCafe博客主頁(http://jasonding1354.gitcafe.io/)
Github博客主頁(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.reibang.com/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354進(jìn)入我的博客主頁

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末奢入,一起剝皮案震驚了整個(gè)濱河市筝闹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌腥光,老刑警劉巖关顷,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異武福,居然都是意外死亡议双,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進(jìn)店門捉片,熙熙樓的掌柜王于貴愁眉苦臉地迎上來平痰,“玉大人,你說我怎么就攤上這事伍纫∽诠停” “怎么了?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵莹规,是天一觀的道長赔蒲。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么舞虱? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任欢际,我火速辦了婚禮,結(jié)果婚禮上矾兜,老公的妹妹穿的比我還像新娘损趋。我一直安慰自己,他們只是感情好椅寺,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布浑槽。 她就那樣靜靜地躺著,像睡著了一般配并。 火紅的嫁衣襯著肌膚如雪括荡。 梳的紋絲不亂的頭發(fā)上高镐,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天溉旋,我揣著相機(jī)與錄音,去河邊找鬼嫉髓。 笑死观腊,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的算行。 我是一名探鬼主播梧油,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼州邢!你這毒婦竟也來了儡陨?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤量淌,失蹤者是張志新(化名)和其女友劉穎骗村,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體呀枢,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡胚股,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了裙秋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片琅拌。...
    茶點(diǎn)故事閱讀 39,722評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖摘刑,靈堂內(nèi)的尸體忽然破棺而出进宝,到底是詐尸還是另有隱情,我是刑警寧澤枷恕,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布即彪,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏隶校。R本人自食惡果不足惜漏益,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望深胳。 院中可真熱鬧绰疤,春花似錦、人聲如沸舞终。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽敛劝。三九已至余爆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間夸盟,已是汗流浹背蛾方。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留上陕,地道東北人桩砰。 一個(gè)月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像释簿,于是被迫代替她去往敵國和親亚隅。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評論 2 353

推薦閱讀更多精彩內(nèi)容