Spark 基礎(chǔ)概述

1、什么是Spark?

Spark 是一個(gè)快速(基于內(nèi)存), 通用, 可擴(kuò)展的集群計(jì)算引擎

并且Spark 目前已經(jīng)成為 Apache 最活躍的開源項(xiàng)目, 有超過 1000 個(gè)活躍的貢獻(xiàn)者.

1.1 Spark發(fā)展歷史

2009年零抬,Spark 誕生于 UC Berkeley(加州大學(xué)伯克利分校, CAL) 的 AMP 實(shí)驗(yàn)室, 項(xiàng)目采用 Scala 編程語言編寫.

2010年, Spark 正式對外開源

2013年 6 月, 進(jìn)入 Apache 孵化器

2014年, 成為 Apache 的頂級項(xiàng)目.

目前最新的版本是2.4.0

參考: http://spark.apache.org/history.html

2、Spark特點(diǎn)

2.1 快速

與Hadoop的 MapReduce 相比, Spark 基于內(nèi)存的運(yùn)算是 MapReduce 的 100 倍.基于硬盤的運(yùn)算也要快 10 倍以上.

Spark實(shí)現(xiàn)了高效的 DAG 執(zhí)行引擎, 可以通過基于內(nèi)存來高效處理數(shù)據(jù)流


2.2 易用

Spark支持 Scala, Java, Python, R 和 SQL 腳本, 并提供了超過 80 種高性能的算法, 非常容易創(chuàng)建并行 App

而且Spark支持交互式的 Python 和 Scala 的 shell, 這意味著可以非常方便地在這些 shell 中使用 Spark 集群來驗(yàn)證解決問題的方法, 而不是像以前一樣 需要打包, 上傳集群, 驗(yàn)證等. 這對于原型開發(fā)非常重要.


2.3 通用

Spark 結(jié)合了SQL, Streaming和復(fù)雜分析.

Spark 提供了大量的類庫, 包括 SQL 和 DataFrames, 機(jī)器學(xué)習(xí)(MLlib), 圖計(jì)算(GraphicX), 實(shí)時(shí)流處理(Spark Streaming) .

可以把這些類庫無縫的柔和在一個(gè)App 中.

減少了開發(fā)和維護(hù)的人力成本以及部署平臺的物力成本.


2.4?可融合性

Spark 可以非常方便的與其他開源產(chǎn)品進(jìn)行融合.

比如, Spark 可以使用 Hadoop 的 YARN 和 Appache Mesos 作為它的資源管理和調(diào)度器, 并且可以處理所有 Hadoop 支持的數(shù)據(jù), 包括 HDFS, HBase等.

3蜻牢、內(nèi)置模塊介紹


3.1 集群管理器

Spark 設(shè)計(jì)為可以高效地在一個(gè)計(jì)算節(jié)點(diǎn)到數(shù)千個(gè)計(jì)算節(jié)點(diǎn)之間伸縮計(jì)算狭郑。

為了實(shí)現(xiàn)這樣的要求,同時(shí)獲得最大靈活性铸题,Spark 支持在各種集群管理器(Cluster Manager)上運(yùn)行铡恕,目前 Spark 支持 3 種集群管理器:

Hadoop YARN(在國內(nèi)使用最廣泛)

Apache Mesos(國內(nèi)使用較少, 國外使用較多)

Standalone(Spark自帶的資源調(diào)度器, 需要在集群中的每臺節(jié)點(diǎn)上配置 Spark)

3.2 SparkCore

實(shí)現(xiàn)了Spark的基本功能,包含任務(wù)調(diào)度丢间、內(nèi)存管理探熔、錯(cuò)誤恢復(fù)、與存儲系統(tǒng)交互等模塊烘挫。SparkCore中還包含了對彈性分布式數(shù)據(jù)集(Resilient Distributed DataSet 簡稱 RDD)的API定義诀艰。

3.3 Spark SQL

是Spark用來操作結(jié)構(gòu)化數(shù)據(jù)的程序包。通過SparkSql饮六,我們可以使用SQL或者Apache Hive版本的SQL方言(HQL)來查詢數(shù)據(jù)其垄。Spark SQL支持多種數(shù)據(jù)源。比如Hive表卤橄,Parquet以及JSON等绿满。

3.4?Spark Streaming

是Spark 提供的對實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的組件。提供了用來操作數(shù)據(jù)流的API窟扑,并且與 Spark Core 中的 RDD API 高度對應(yīng)棒口。

3.5 Spark MLlib

提供常見的機(jī)器學(xué)習(xí)(ML) 功能的程序庫。包括分類辜膝、回歸无牵、聚類、協(xié)同過濾等厂抖,還提供了模型評估茎毁、數(shù)據(jù)導(dǎo)入等額外的支持功能。

Spark得到了眾多大數(shù)據(jù)公司的支持,這些公司包括 Hortonworks七蜘、IBM谭溉、Intel、Cloudera橡卤、MapR扮念、Pivotal、百度碧库、阿里柜与、騰訊、京東嵌灰、攜程弄匕、優(yōu)酷土豆。

當(dāng)前百度的Spark已應(yīng)用于大搜索沽瞭、直達(dá)號迁匠、百度大數(shù)據(jù)等業(yè)務(wù);

阿里利用GraphX構(gòu)建了大規(guī)模的圖計(jì)算和圖挖掘系統(tǒng)驹溃,實(shí)現(xiàn)了很多生產(chǎn)系統(tǒng)的推薦算法城丧;

騰訊Spark集群達(dá)到 8000 臺的規(guī)模,是當(dāng)前已知的世界上最大的 Spark 集群豌鹤。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末芙贫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子傍药,更是在濱河造成了極大的恐慌磺平,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拐辽,死亡現(xiàn)場離奇詭異拣挪,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)俱诸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進(jìn)店門菠劝,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人睁搭,你說我怎么就攤上這事赶诊。” “怎么了园骆?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵舔痪,是天一觀的道長。 經(jīng)常有香客問我锌唾,道長锄码,這世上最難降的妖魔是什么夺英? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮滋捶,結(jié)果婚禮上痛悯,老公的妹妹穿的比我還像新娘。我一直安慰自己重窟,他們只是感情好载萌,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著巡扇,像睡著了一般扭仁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上霎迫,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天,我揣著相機(jī)與錄音帘靡,去河邊找鬼知给。 笑死,一個(gè)胖子當(dāng)著我的面吹牛描姚,可吹牛的內(nèi)容都是我干的涩赢。 我是一名探鬼主播,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼轩勘,長吁一口氣:“原來是場噩夢啊……” “哼筒扒!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起绊寻,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤花墩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后澄步,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體冰蘑,經(jīng)...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年村缸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了祠肥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,711評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡梯皿,死狀恐怖仇箱,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情东羹,我是刑警寧澤剂桥,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站属提,受9級特大地震影響渊额,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一旬迹、第九天 我趴在偏房一處隱蔽的房頂上張望火惊。 院中可真熱鬧,春花似錦奔垦、人聲如沸屹耐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽惶岭。三九已至,卻和暖如春犯眠,著一層夾襖步出監(jiān)牢的瞬間按灶,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工筐咧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鸯旁,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓量蕊,卻偏偏與公主長得像铺罢,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子残炮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評論 2 353