Spark 基礎(上篇)

Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎,是apache的一個開源項目。是一種跟hadoop相似的通用分布式并行計算框架茫孔,但是兩者之間還存在一些不同之處。spark是一種基于內(nèi)存計算的分布式執(zhí)行框架被芳,在執(zhí)行速度上大大優(yōu)于hadoop.

1. spark的歷史

  • 2009年缰贝,spark誕生于加州大學伯克利分校AMPLab.
  • 2010和2012年關(guān)于spark的兩篇論文發(fā)表:
    M. Zaharia, M. Chowdhury, M. J. Franklin, S. Shenker, and I. Stoica, “Spark: cluster computing with working sets,” in Proceedings of the 2nd USENIX conference on Hot topics in cloud computing, 2010, pp. 10–10.
    M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. J. Franklin, S. Shenker, and I. Stoica, “Resilient distributed datasets: A fault-tolerant abstraction for in- memory cluster computing,” in Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation, 2012, pp. 2–2.
  • 2013年,在GitHub上成立了Spark開發(fā)社區(qū)并成為Apache孵化項目畔濒。
  • 2014年2月剩晴,該項目成為Apache頂級項目。
  • 2014年5月30日,Spark 1.0.0版正式上線赞弥。
  • 至2016年底毅整,spark的最新版本2.1.0已發(fā)布上線。
  • 截止目前绽左,Spark官方維護運營公司Databricks已經(jīng)組織并舉辦了四年Spark Summit技術(shù)峰會悼嫉。

2. spark的特點

  • 處理速度快
      隨著信息技術(shù)的發(fā)展,數(shù)據(jù)也以驚人的數(shù)據(jù)在增長拼窥,而數(shù)據(jù)處理的速度也成為人們越來越關(guān)注的話題戏蔑。由于spark支持內(nèi)存級計算功能,因此spark執(zhí)行速度要遠遠高于hadoop
  • 多語言鲁纠、多API支持
      Spark支持多語言总棵。Spark允許Java、Scala改含、Python及R情龄,這允許更多的開發(fā)者在自己熟悉的語言環(huán)境下進行工作,普及了Spark的應用范圍捍壤。
  • 多業(yè)務場景支持
      提供了對etl骤视、流處理、機器學習和圖計算等幾種主流數(shù)據(jù)處理場景的支持
  • 開源生態(tài)環(huán)境支持
      擁有廣泛的開源生態(tài)環(huán)境的支持鹃觉,底層數(shù)據(jù)源部分包括hdfs尚胞、cassandra、hbase以及alluxio等等帜慢,擁有yarn笼裳、mesos等分布式框架的支持,如下圖所示:
圖1. Spark開源生態(tài)系統(tǒng)

3. spark的體系結(jié)構(gòu)

Spark主要包括Spark Core和在Spark Core基礎之上建立的應用框架Spark SQL粱玲、Spark Streaming躬柬、MLlib和GraphX.
  Core庫中主要包括上下文(Spark Context)、抽象數(shù)據(jù)集(RDD抽减、DataFrame和DataSet)允青、調(diào)度器(Scheduler)、洗牌(shuffle)和序列化器(Serializer)等卵沉。Spark系統(tǒng)中的計算颠锉、IO、調(diào)度和shuffle等系統(tǒng)基本功能都在其中史汗。
  在Core庫之上就根據(jù)業(yè)務需求分為用于交互式查詢的SQL琼掠、實時流處理Streaming、機器學習Mllib和圖計算GraphX四大框架停撞,除此外還有一些其他實驗性項目如Tachyon瓷蛙、BlinkDB和Tungsten等悼瓮。Hdfs是Spark主要應用的持久化存儲系統(tǒng)。Spark 體系結(jié)構(gòu)如下圖所示:

圖2. Spark 體系結(jié)構(gòu)

4. spark 執(zhí)行框架

spark應用程序運行在分布式集群上艰猬,通過集群管理器(cluster manger)將驅(qū)動程序(driver program)節(jié)點跟工作節(jié)點(work node)相連横堡,實現(xiàn)分布式并行工作。如下圖所示:

圖3. spark 執(zhí)行流程

創(chuàng)建spark應用程序時冠桃,首先要創(chuàng)建sparkContext命贴,SparkContext 允許驅(qū)動程序(spark driver)通過資源管理器訪問集群。同時sparkContext還存有來自sparkConf的配置信息食听。這些配置信息用于分配集群資源胸蛛,比如worker節(jié)點運行的executors 的number, memory 大小和cores等等。驅(qū)動程序?qū)⑦@些配置信息通知給集群管理器(cluster manager)碳蛋,集群管理器收到配置信息后,在集群上根據(jù)程序配置的executor number給應用程序?qū)ふ蚁鄳獋€數(shù)的工作節(jié)點(work node)省咨。并在每個工作節(jié)點創(chuàng)建一個executor(作為單個執(zhí)行單元)肃弟,每個executor根據(jù)程序的配置信息分配響應的內(nèi)存空間(如shuffle內(nèi)存和存儲內(nèi)存等等)。
  程序執(zhí)行時零蓉,根據(jù)rdd(彈性分布式數(shù)據(jù)集—spark程序中數(shù)據(jù)的基本類型)中分區(qū)的數(shù)量將每個stag(程序的每個執(zhí)行步驟笤受,以shuffle為邊界)分成相同數(shù)目的task,分到各個executor中去執(zhí)行敌蜂。每個executor中一次執(zhí)行的task數(shù)量是由程序調(diào)用時給executor配置的核數(shù)決定的箩兽。
  本篇我們大致介紹下spark的發(fā)展歷史、spark的特點以及spark的組成框架章喉,讓不熟悉spark的朋友對spark有一個簡單的了解汗贫。如果您已經(jīng)對spark有些了解,可繼續(xù)看spark基礎的下篇秸脱。在下篇中落包,將給大家介紹spark任務調(diào)度的詳細流程、spark的基本數(shù)據(jù)結(jié)構(gòu):rdd摊唇、dataframe以及dataset咐蝇、以及spark的基本執(zhí)行單元stage的劃分。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末巷查,一起剝皮案震驚了整個濱河市有序,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌岛请,老刑警劉巖旭寿,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異崇败,居然都是意外死亡许师,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來微渠,“玉大人搭幻,你說我怎么就攤上這事〕雅瑁” “怎么了檀蹋?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長云芦。 經(jīng)常有香客問我俯逾,道長,這世上最難降的妖魔是什么舅逸? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任桌肴,我火速辦了婚禮,結(jié)果婚禮上琉历,老公的妹妹穿的比我還像新娘坠七。我一直安慰自己,他們只是感情好旗笔,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布彪置。 她就那樣靜靜地躺著,像睡著了一般蝇恶。 火紅的嫁衣襯著肌膚如雪拳魁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天撮弧,我揣著相機與錄音潘懊,去河邊找鬼。 笑死贿衍,一個胖子當著我的面吹牛卦尊,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播舌厨,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼岂却,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了裙椭?” 一聲冷哼從身側(cè)響起躏哩,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎揉燃,沒想到半個月后扫尺,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡炊汤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年正驻,在試婚紗的時候發(fā)現(xiàn)自己被綠了弊攘。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡姑曙,死狀恐怖襟交,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情伤靠,我是刑警寧澤捣域,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站宴合,受9級特大地震影響焕梅,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜卦洽,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一贞言、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧阀蒂,春花似錦该窗、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽粗梭。三九已至争便,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間断医,已是汗流浹背滞乙。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鉴嗤,地道東北人斩启。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像醉锅,于是被迫代替她去往敵國和親兔簇。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容