Spark 基礎(chǔ)

--------“道路是曲折的邻梆,前途時光明的然爆。”

一. Spark 是什么

分布式計算框架搔涝,核心是一個對由許多計算任務(wù)組成的厨喂、運(yùn)行在多個工作機(jī)器或者是一個計算集群上的應(yīng)用進(jìn)行調(diào)度、分發(fā)以及監(jiān)控的計算引擎庄呈。
Spark核心引擎的特點(diǎn)——速度快蜕煌、通用
大一統(tǒng)的軟件棧,其組件——Spark Core诬留、Spark SQL(結(jié)構(gòu)化數(shù)據(jù))斜纪、Spark Streaming(實(shí)時計算)贫母、MLib(機(jī)器學(xué)習(xí))、GraphX(圖計算)
設(shè)計原理——組件之間密切結(jié)合盒刚,好處:1)均可從底層優(yōu)化改進(jìn)中獲益腺劣; 2)運(yùn)行整個軟件棧的代價減少因块;¢僭3)構(gòu)建無縫整合不同處理模型的應(yīng)用

Spark軟件棧.png

二. Spark 特點(diǎn):

  1. 分布式:多臺機(jī)器并行化
  2. 基于內(nèi)存存儲(某些情況下也會基于磁盤,比如內(nèi)存中放不下的時候)
  3. 特別適合于迭代計算
  4. 高效的容錯機(jī)制

三. 各組件

1 Spark Core

1)實(shí)現(xiàn)Spark的基本功能涡上,包括任務(wù)調(diào)度趾断、內(nèi)存管理、錯誤恢復(fù)吓懈、與存儲系統(tǒng)交互等模塊歼冰。
2)包括對彈性分布式數(shù)據(jù)集(RDD)的API定義(RDD表示分布在多個計算節(jié)點(diǎn)上可以并行操作的元素集合,是Spark主要的編程抽象)耻警,Spark Core提供了創(chuàng)建和操作這些集合的多個API隔嫡。

2 Spark SQL

Spark SQL是Spark用來操作結(jié)構(gòu)化數(shù)據(jù)的程序包,可使用SQL或者HQL來查詢數(shù)據(jù)甘穿。
1)擴(kuò)展了Spark的RDD API

3 Spark Streaming

Spark提供的對實(shí)時數(shù)據(jù)進(jìn)行流式計算的組件腮恩。
1)提供了用來操作數(shù)據(jù)流的API,并且與Spark Core中的RDD API高度對應(yīng)温兼。
2)從底層來看秸滴,Spark Streaming支持Spark Core同級別的容錯性、吞吐量以及可伸縮性

4 MLib

提供機(jī)器學(xué)習(xí)功能的程序庫
1)提供了很多種機(jī)器學(xué)習(xí)算法募判,包括分類荡含、回歸、聚類届垫、協(xié)同過濾等
2)提供了模型評估释液、數(shù)據(jù)導(dǎo)入等額外的支持功能
3)還提供了一種更底層的機(jī)器學(xué)習(xí)原語,包括一個通用的速度下降優(yōu)化算法
所有這些算法都被設(shè)計為可以在集群上輕松伸縮的架構(gòu)装处。

5 Graphx

用來操作圖(比如社交網(wǎng)絡(luò)的)的程序庫误债,可以進(jìn)行并行的圖計算。
1)擴(kuò)展了Spark的RDD API妄迁,能用來創(chuàng)建一個定點(diǎn)和邊都包含任意屬性的有向圖
2)支持針對圖的各種操作
3)支持一些常用的圖算法

6 集群管理器

就底層而言寝蹈,Spark設(shè)計為可以高效地在一個計算節(jié)點(diǎn)到數(shù)千個計算節(jié)點(diǎn)之間伸縮計算。
為了實(shí)現(xiàn)這樣的要求登淘,同時獲得最大靈活性箫老,Spark支持在各種集群管理器上運(yùn)行,包括Hadoop YARN形帮、Apache Mesos槽惫,以及Spark 自帶的一個簡易調(diào)度器周叮,叫做獨(dú)立調(diào)度器。
若在裝有Hadoop YARN或Mesos的集群界斜,通過Spark對這些集群管理器的支持仿耽,我們的應(yīng)用也同樣能運(yùn)行在這些集群上。在把Spark部署到Amazon EC2上時各薇,Spark有個自帶的腳本可以啟動獨(dú)立模式集群以及各種相關(guān)服務(wù)项贺。
不同集群管理的區(qū)別
1)自帶的獨(dú)立模式:在一堆機(jī)器上只運(yùn)行Spark
2)Hadoop YARN或Mesos集群管理器:既可以運(yùn)行Spark作業(yè)有可以運(yùn)行hadoop作業(yè)

四. 彈性分布式數(shù)據(jù)集(RDD)

RDD——是一個不可變的、容錯的峭判、分布式對象集合开缎,可并行操作這些集合并且RDD提供了豐富的數(shù)據(jù)操作接口。
RDD是對分布式計算的抽象林螃,數(shù)據(jù)集本身表示要處理的數(shù)據(jù)奕删,它是一系列數(shù)據(jù)分片,分布在各個節(jié)點(diǎn)的內(nèi)存或者磁盤中疗认。
彈性之一:自動進(jìn)行內(nèi)存和磁盤數(shù)據(jù)存儲的切換
彈性之二:基于lineage的高效容錯(若第900個出錯完残,直接從第900個開始恢復(fù)就可以)
彈性之三:Task如果失敗會自動進(jìn)行特定次數(shù)的重試,默認(rèn)嘗試4次
彈性之四:Stage如果失敗會自動進(jìn)行特定次數(shù)的重試(横漏!注意谨设!只計算失敗的分片)。默認(rèn)是嘗試3次

五. Spark的存儲層次

Spark不僅可以將任何Hadoop分布式文件系統(tǒng)(HDFS)上的文件讀取為分布式數(shù)據(jù)集缎浇,也可以支持其他支持Hadoop接口的系統(tǒng)扎拣,比如本地文件、亞馬遜S3素跺、Cassandra二蓝、Hive、HBase等指厌。我們需要弄清楚——hadoop并非Spark的必要條件侣夷,Spark支持任何實(shí)現(xiàn)了hadoop接口的存儲系統(tǒng)。Spark支持的hadoop輸入格式包括文本文件仑乌、SequenceFile、Avro琴锭、Parquet等晰甚。
Know more,do more

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市决帖,隨后出現(xiàn)的幾起案子厕九,更是在濱河造成了極大的恐慌,老刑警劉巖地回,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件扁远,死亡現(xiàn)場離奇詭異俊鱼,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)畅买,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進(jìn)店門并闲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人谷羞,你說我怎么就攤上這事帝火。” “怎么了湃缎?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵犀填,是天一觀的道長。 經(jīng)常有香客問我嗓违,道長九巡,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任蹂季,我火速辦了婚禮冕广,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘乏盐。我一直安慰自己佳窑,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布父能。 她就那樣靜靜地躺著神凑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪何吝。 梳的紋絲不亂的頭發(fā)上溉委,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天,我揣著相機(jī)與錄音爱榕,去河邊找鬼瓣喊。 笑死,一個胖子當(dāng)著我的面吹牛黔酥,可吹牛的內(nèi)容都是我干的藻三。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼跪者,長吁一口氣:“原來是場噩夢啊……” “哼棵帽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起渣玲,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤逗概,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后忘衍,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體逾苫,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡卿城,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了铅搓。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瑟押。...
    茶點(diǎn)故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖狸吞,靈堂內(nèi)的尸體忽然破棺而出勉耀,到底是詐尸還是另有隱情,我是刑警寧澤蹋偏,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布便斥,位于F島的核電站,受9級特大地震影響威始,放射性物質(zhì)發(fā)生泄漏枢纠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一黎棠、第九天 我趴在偏房一處隱蔽的房頂上張望晋渺。 院中可真熱鬧,春花似錦脓斩、人聲如沸木西。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽八千。三九已至,卻和暖如春燎猛,著一層夾襖步出監(jiān)牢的瞬間恋捆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工重绷, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留沸停,地道東北人。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓昭卓,卻偏偏與公主長得像愤钾,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子候醒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容