1.Spark基礎(chǔ)學(xué)習(xí)一(Spark概念)

什么是Spark

Spark是一種基于內(nèi)存的快速的,通用的呢簸,可擴(kuò)展的大數(shù)據(jù)分析引擎

Spark內(nèi)存模塊

Snipaste_2020-08-18_20-33-17

Spark特點(diǎn)

:與Hadoop和MapReduce響度洲敢,Spark基于內(nèi)存運(yùn)算要快100倍以上姜钳,基于硬盤的運(yùn)算要快10倍以上,Spark實(shí)現(xiàn)了高效的DAG執(zhí)行引擎浴滴,可以通過基于內(nèi)存來高效處理數(shù)據(jù)流,計(jì)算的中間結(jié)果是存在內(nèi)存中的

易用: Spark支持Java岁钓,Python和Scala的API升略,還支持超過80中的高級(jí)算法,使用戶可以快速構(gòu)建不同的應(yīng)用屡限,而且Spark支持交互式的Python和Scala的Shell品嚣,可以非常方便的再這些Shell中使用Spark集群來驗(yàn)證解決問題。

通用: Spark提供了同意的解決方案钧大,Spark可以用于處理翰撑,交互式查詢,實(shí)時(shí)處理拓型,機(jī)器學(xué)習(xí)额嘿,圖計(jì)算,這些不同類型的處理都可以在同一個(gè)應(yīng)用中無縫使用劣挫,減少開發(fā)和維護(hù)的人力成本。

兼容: Spark可以非常方便的與其他開元產(chǎn)品進(jìn)行融合压固,比如球拦,Spark可以使用Hadoop的yarn和Apache Mesos作為它的資源管理器和調(diào)度器,并且可以處理所有的Hadoop支持?jǐn)?shù)據(jù)坎炼。包括HDFS,Hbase等谣光。

Spark的安裝地址

1.官網(wǎng)地址

http://spark.apache.org/

2.文檔查看地址

https://spark.apache.org/docs/2.1.1/

3.下載地址

https://spark.apache.org/downloads.html

角色

Driver(驅(qū)動(dòng)器)

? Spark的驅(qū)動(dòng)器是執(zhí)行開發(fā)程序中的main方法的進(jìn)程檩淋。它負(fù)責(zé)開發(fā)人員編寫的用來創(chuàng)建SparkContext、創(chuàng)建RDD萄金,以及進(jìn)行RDD的轉(zhuǎn)化操作和行動(dòng)操作代碼的執(zhí)行蟀悦。如果你是用spark shell,那么當(dāng)你啟動(dòng)Spark shell的時(shí)候日戈,系統(tǒng)后臺(tái)自啟了一個(gè)Spark驅(qū)動(dòng)器程序,就是在Spark shell中預(yù)加載的一個(gè)叫作 sc的SparkContext對(duì)象孙乖。如果驅(qū)動(dòng)器程序終止,那么Spark應(yīng)用也就結(jié)束了唯袄。主要負(fù)責(zé):

? 1)把用戶程序轉(zhuǎn)為作業(yè)(JOB)

? 2)跟蹤Executor的運(yùn)行狀況

? 3)為執(zhí)行器節(jié)點(diǎn)調(diào)度任務(wù)

? 4)UI展示應(yīng)用運(yùn)行狀況

Executor(執(zhí)行器)

? Spark Executor是一個(gè)工作進(jìn)程弯屈,負(fù)責(zé)在 Spark 作業(yè)中運(yùn)行任務(wù),任務(wù)間相互獨(dú)立越妈。Spark 應(yīng)用啟動(dòng)時(shí)季俩,Executor節(jié)點(diǎn)被同時(shí)啟動(dòng),并且始終伴隨著整個(gè) Spark 應(yīng)用的生命周期而存在梅掠。如果有Executor節(jié)點(diǎn)發(fā)生了故障或崩潰酌住,Spark 應(yīng)用也可以繼續(xù)執(zhí)行阎抒,會(huì)將出錯(cuò)節(jié)點(diǎn)上的任務(wù)調(diào)度到其他Executor節(jié)點(diǎn)上繼續(xù)運(yùn)行。主要負(fù)責(zé):

1)負(fù)責(zé)運(yùn)行組成 Spark 應(yīng)用的任務(wù)且叁,并將結(jié)果返回給驅(qū)動(dòng)器進(jìn)程;

2)通過自身的塊管理器(Block Manager)為用戶程序中要求緩存的RDD提供內(nèi)存式存儲(chǔ)逞带。RDD是直接緩存在Executor進(jìn)程內(nèi)的,因此任務(wù)可以在運(yùn)行時(shí)充分利用緩存數(shù)據(jù)加速運(yùn)算展氓。

Snipaste_2020-08-18_20-46-52

Yarn模式

Spark客戶端直接連接Yarn,不需要額外構(gòu)建Spark集群遇汞。有yarn-client和yarn-cluster兩種模式未妹,主要區(qū)別在于:Driver程序的運(yùn)行節(jié)點(diǎn)。

yarn-client:Driver程序運(yùn)行在客戶端络它,適用于交互、調(diào)試化戳,希望立即看到app的輸出

yarn-cluster:Driver程序運(yùn)行在由RM(ResourceManager)啟動(dòng)的AP(APPMaster)適用于生產(chǎn)環(huán)境。

Snipaste_2020-08-19_17-39-17

幾種模式的對(duì)比

模式 Spark機(jī)器安裝數(shù) 需要啟動(dòng)的進(jìn)程 所屬者
local 1 Spark
Standlone 3 Master及Worker Spark
Yarn 1 Yarn及Hdfs Hadoop

Java編寫一個(gè)本地的Spark應(yīng)用

創(chuàng)建一個(gè)Maven項(xiàng)目WordCount并導(dǎo)入依賴

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.1.1</version>
    </dependency>
</dependencies>
<build>
        <finalName>WordCount</finalName>
        <plugins>
<plugin>
                <groupId>net.alchim31.maven</groupId>
<artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                       <goals>
                          <goal>compile</goal>
                          <goal>testCompile</goal>
                       </goals>
                    </execution>
                 </executions>
            </plugin>
        </plugins>
</build>

用wordCount例子來舉證

package com.leon.bigdata.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {
    val sparkConfig = new SparkConf().setMaster("local[*]").setAppName("WordCount")
    
    val sc = new SparkContext(sparkConfig)

    val lines: RDD[String] = sc.textFile("./SparkDemo/data")

    val words = lines.flatMap(_.split(" "))

    val wordsMap = words.map((_,1))

    val wordsSum = wordsMap.reduceByKey((_+_))

    val result: Array[(String, Int)] = wordsSum.collect()

    result.foreach(println)
  }
}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市盟步,隨后出現(xiàn)的幾起案子躏结,更是在濱河造成了極大的恐慌却盘,老刑警劉巖媳拴,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異屈溉,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)子巾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來线梗,“玉大人,你說我怎么就攤上這事仪搔。” “怎么了烤咧?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長煮嫌。 經(jīng)常有香客問我,道長立膛,這世上最難降的妖魔是什么梯码? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任好啰,我火速辦了婚禮轩娶,結(jié)果婚禮上框往,老公的妹妹穿的比我還像新娘鳄抒。我一直安慰自己椰弊,他們只是感情好许溅,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布秉版。 她就那樣靜靜地躺著,像睡著了一般清焕。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上秸妥,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音粥惧,去河邊找鬼。 笑死突雪,一個(gè)胖子當(dāng)著我的面吹牛起惕,可吹牛的內(nèi)容都是我干的挂签。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼饵婆,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了侨核?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤搓译,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后些己,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嘿般,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年炉奴,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蛇更。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瞻赶。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡派任,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出掌逛,到底是詐尸還是另有隱情师逸,我是刑警寧澤颤诀,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站崖叫,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏心傀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一脂男、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧宰翅,春花似錦、人聲如沸爽室。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至啸箫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間忘苛,已是汗流浹背唱较。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留南缓,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓西乖,卻偏偏與公主長得像,于是被迫代替她去往敵國和親坛增。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345