什么是Spark
Spark是一種基于內(nèi)存
的快速的,通用的呢簸,可擴(kuò)展的大數(shù)據(jù)分析引擎
Spark內(nèi)存模塊
Spark特點(diǎn)
快
:與Hadoop和MapReduce響度洲敢,Spark基于內(nèi)存運(yùn)算要快100倍以上姜钳,基于硬盤的運(yùn)算要快10倍以上,Spark實(shí)現(xiàn)了高效的DAG執(zhí)行引擎浴滴,可以通過基于內(nèi)存來高效處理數(shù)據(jù)流,計(jì)算的中間結(jié)果是存在內(nèi)存
中的
易用
: Spark支持Java岁钓,Python和Scala的API升略,還支持超過80中的高級(jí)算法,使用戶可以快速構(gòu)建不同的應(yīng)用屡限,而且Spark支持交互式的Python和Scala的Shell品嚣,可以非常方便的再這些Shell中使用Spark集群來驗(yàn)證解決問題。
通用
: Spark提供了同意的解決方案钧大,Spark可以用于處理翰撑,交互式查詢,實(shí)時(shí)處理拓型,機(jī)器學(xué)習(xí)额嘿,圖計(jì)算,這些不同類型的處理都可以在同一個(gè)應(yīng)用中無縫使用劣挫,減少開發(fā)和維護(hù)的人力成本。
兼容
: Spark可以非常方便的與其他開元產(chǎn)品進(jìn)行融合压固,比如球拦,Spark可以使用Hadoop的yarn和Apache Mesos作為它的資源管理器和調(diào)度器,并且可以處理所有的Hadoop支持?jǐn)?shù)據(jù)坎炼。包括HDFS,Hbase等谣光。
Spark的安裝地址
1.官網(wǎng)地址
2.文檔查看地址
https://spark.apache.org/docs/2.1.1/
3.下載地址
https://spark.apache.org/downloads.html
角色
Driver(驅(qū)動(dòng)器)
? Spark的驅(qū)動(dòng)器是執(zhí)行開發(fā)程序中的main方法的進(jìn)程檩淋。它負(fù)責(zé)開發(fā)人員編寫的用來創(chuàng)建SparkContext、創(chuàng)建RDD萄金,以及進(jìn)行RDD的轉(zhuǎn)化操作和行動(dòng)操作代碼的執(zhí)行蟀悦。如果你是用spark shell,那么當(dāng)你啟動(dòng)Spark shell的時(shí)候日戈,系統(tǒng)后臺(tái)自啟了一個(gè)Spark驅(qū)動(dòng)器程序,就是在Spark shell中預(yù)加載的一個(gè)叫作 sc的SparkContext對(duì)象孙乖。如果驅(qū)動(dòng)器程序終止,那么Spark應(yīng)用也就結(jié)束了唯袄。主要負(fù)責(zé):
? 1)把用戶程序轉(zhuǎn)為作業(yè)(JOB)
? 2)跟蹤Executor的運(yùn)行狀況
? 3)為執(zhí)行器節(jié)點(diǎn)調(diào)度任務(wù)
? 4)UI展示應(yīng)用運(yùn)行狀況
Executor(執(zhí)行器)
? Spark Executor是一個(gè)工作進(jìn)程弯屈,負(fù)責(zé)在 Spark 作業(yè)中運(yùn)行任務(wù),任務(wù)間相互獨(dú)立越妈。Spark 應(yīng)用啟動(dòng)時(shí)季俩,Executor節(jié)點(diǎn)被同時(shí)啟動(dòng),并且始終伴隨著整個(gè) Spark 應(yīng)用的生命周期而存在梅掠。如果有Executor節(jié)點(diǎn)發(fā)生了故障或崩潰酌住,Spark 應(yīng)用也可以繼續(xù)執(zhí)行阎抒,會(huì)將出錯(cuò)節(jié)點(diǎn)上的任務(wù)調(diào)度到其他Executor節(jié)點(diǎn)上繼續(xù)運(yùn)行。主要負(fù)責(zé):
1)負(fù)責(zé)運(yùn)行組成 Spark 應(yīng)用的任務(wù)且叁,并將結(jié)果返回給驅(qū)動(dòng)器進(jìn)程;
2)通過自身的塊管理器(Block Manager)為用戶程序中要求緩存的RDD提供內(nèi)存式存儲(chǔ)逞带。RDD是直接緩存在Executor進(jìn)程內(nèi)的,因此任務(wù)可以在運(yùn)行時(shí)充分利用緩存數(shù)據(jù)加速運(yùn)算展氓。
Yarn模式
Spark客戶端直接連接Yarn,不需要額外構(gòu)建Spark集群遇汞。有yarn-client和yarn-cluster兩種模式未妹,主要區(qū)別在于:Driver程序的運(yùn)行節(jié)點(diǎn)。
yarn-client
:Driver程序運(yùn)行在客戶端络它,適用于交互、調(diào)試化戳,希望立即看到app的輸出
yarn-cluster
:Driver程序運(yùn)行在由RM(ResourceManager)啟動(dòng)的AP(APPMaster)適用于生產(chǎn)環(huán)境。
幾種模式的對(duì)比
模式 | Spark機(jī)器安裝數(shù) | 需要啟動(dòng)的進(jìn)程 | 所屬者 |
---|---|---|---|
local | 1 | 無 | Spark |
Standlone | 3 | Master及Worker | Spark |
Yarn | 1 | Yarn及Hdfs | Hadoop |
Java編寫一個(gè)本地的Spark應(yīng)用
創(chuàng)建一個(gè)Maven項(xiàng)目WordCount并導(dǎo)入依賴
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.1.1</version>
</dependency>
</dependencies>
<build>
<finalName>WordCount</finalName>
<plugins>
<plugin>
<groupId>net.alchim31.maven</groupId>
<artifactId>scala-maven-plugin</artifactId>
<version>3.2.2</version>
<executions>
<execution>
<goals>
<goal>compile</goal>
<goal>testCompile</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
用wordCount例子來舉證
package com.leon.bigdata.spark
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
val sparkConfig = new SparkConf().setMaster("local[*]").setAppName("WordCount")
val sc = new SparkContext(sparkConfig)
val lines: RDD[String] = sc.textFile("./SparkDemo/data")
val words = lines.flatMap(_.split(" "))
val wordsMap = words.map((_,1))
val wordsSum = wordsMap.reduceByKey((_+_))
val result: Array[(String, Int)] = wordsSum.collect()
result.foreach(println)
}
}