一轿曙、寫(xiě)在前面
由于Spark 的速度,API 的易用性摔笤,Spark在行業(yè)中的使用越來(lái)越廣泛副女。
Hbase 在2.0 alpha 版之后也加入對(duì)Spark的支持蛤高;
ElasticSearch也找加入對(duì)Spark的支持;
Spark天然的分布式內(nèi)存計(jì)算的優(yōu)勢(shì)基本上能向程序猿們完全隱藏分布式編程技術(shù)的細(xì)節(jié)碑幅。對(duì)于大數(shù)據(jù)量的計(jì)算 約等于 寫(xiě)SQL戴陡。未來(lái)Spark 將更會(huì)流行。那么如何構(gòu)建Spark開(kāi)發(fā)環(huán)境呢枕赵?
二猜欺、開(kāi)發(fā)套件
- IDE: IntelJ IDEA
- 依賴管理:SBT
- 版本控制:Git
- 操作系統(tǒng):Mac/Linux/windows
因?yàn)榇罅康臏y(cè)試工具需要上傳Jar到集群環(huán)境,shell的支持是必須的拷窜。
首選類Unix系統(tǒng)开皿,windows 也可,最好能選用win10(支持Shell的版本)
三篮昧、環(huán)境搭建
應(yīng)按照下來(lái)步驟按照
1.JDK 1.8
2.Scala 2.11 以上版本
3.SBT: 0.13 以上(推薦0.13.8)
4.Git
5.IntelJ IDEA
tips:
- 在 Mac/linux 下可通過(guò) homebrew 命令按照 git 和sbt赋荆。在windows 下載 msi 文件默認(rèn)安裝。最好不要改變安裝路徑懊昨,否則會(huì)造成git 命令無(wú)法識(shí)別
- 高級(jí)玩家強(qiáng)烈推薦命令行窄潭。oh my zsh 這一類的工具,簡(jiǎn)直不能再?gòu)?qiáng)大酵颁。
四嫉你、創(chuàng)建工程
目前SBT并未集成打包工具,需在全局的SBT依賴路徑中配置打包工具的依賴包躏惋。
在~/.sbt/0.13/plugins 下的build.sbt 文件中增加:
resolvers += "Sonatype snapshots" at "https://oss.sonatype.org/content/repositories/snapshots/"
addSbtPlugin("com.github.mpeltonen" % "sbt-idea" % "1.7.0-SNAPSHOT")
addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.11.2")
完成上述工作之后幽污,
1.創(chuàng)建一個(gè)測(cè)試的SBT 工程。特別注意SBT版本(0.13.8)簿姨,JDK 1.8 , scala 2.11.x
- 配置build.sbt 依賴
依賴庫(kù)一般在http://mvnrepository.com 中搜索距误,如果無(wú)法滿足簸搞,可在GitHub上找開(kāi)源代碼。
注意選擇SBT的依賴路徑准潭,同時(shí)注意依賴的版本
如果發(fā)生沖突趁俊,需解決沖突。刷新依賴刑然,即可編寫(xiě)代碼寺擂。
一個(gè)可用的build.sbt 配置如下:
// 以下要求sbt 版本必須是0.13,否則無(wú)法找到依賴包
import _root_.sbtassembly.Plugin.AssemblyKeys
import sbt._
import Keys._
import sbtassembly.Plugin._
import AssemblyKeys._
assemblySettings
name := "SparkAppExamples"
version := "0.1"
scalaVersion := "2.11.8"
// Resolvers
resolvers += "SnowPlow Repo" at "http://maven.snplow.com/releases/"
resolvers += "Twitter Maven Repo" at "http://maven.twttr.com/"
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % "2.0.0" % "provided",
"org.apache.spark" %% "spark-sql" % "2.0.0" % "provided",
"org.apache.spark" %% "spark-hive" % "2.0.0" % "provided",
"org.apache.spark" %% "spark-streaming" % "2.0.0" % "provided",
"org.apache.spark" %% "spark-graphx" % "2.0.0" % "provided",
"org.apache.spark" %% "spark-mllib" % "2.0.0" % "provided",
"com.snowplowanalytics" %% "scala-maxmind-iplookups" % "0.2.0"
)
// 沖突處理
mergeStrategy in assembly <<= (mergeStrategy in assembly) { (old) => {
case "META-INF/MANIFEST.MF" => MergeStrategy.discard
case "META-INF/io.netty.versions.properties" => MergeStrategy.last
case PathList(ps@_*) if ps.last endsWith "eclipse.inf" => MergeStrategy.last
case PathList(ps@_*) if ps.last endsWith "pom.xml" => MergeStrategy.last
case PathList(ps@_*) if ps.last endsWith "pom.properties" => MergeStrategy.last
case PathList("com", "sun", xs@_*) => MergeStrategy.last
case PathList("javax", xs@_*) => MergeStrategy.last
case PathList("org", "apache", xs@_*) => MergeStrategy.last
case PathList("org", "aopalliance", xs@_*) => MergeStrategy.last
case PathList("org", "w3c", xs@_*) => MergeStrategy.last
case "overview.html" => MergeStrategy.last
case x => old(x)
}
}
五闰集、提高效率
- 使用Shell
- 版本控制使用Shell
- 版本控制命令編輯成 alias
- 文件上傳腳本化
- 測(cè)試執(zhí)行腳本化
# git 命令別名
alias gl="git pull"
alias gh="git push"
alias gc="git commit -m"
alias ga="git add ."
#免密上傳jar包, 需研究ssh-gen-key 或spwan命令
scp /../xx.jar 10.120.1.1:/home/spark/hhl/lib/
#spark submit 腳本化
#!/bin/sh
CLASS="要運(yùn)行對(duì)應(yīng)的路徑"
/opt/spark-2.1.1-bin-spark-2.1.1-hadoop2.6.4/bin/spark-submit \
# 運(yùn)行參數(shù)配置,核數(shù)沽讹,內(nèi)存
--master yarn \
--queue xx \
--deploy-mode cluster \
--num-executors 12 \
--executor-cores 5 \
--executor-memory 30G \
--conf spark.driver.maxResultSize=2G \
--conf spark.driver.memory=30G \
# 優(yōu)化選項(xiàng) GC策略
--conf spark.executor.extraJavaOptions=-XX:+UseParallelGC \
--conf spark.executor.extraJavaOptions=-XX:ParallelGCThreads=8 \
--conf spark.driver.extraJavaOptions="-XX:+UseParNewGC -XX:ParallelGCThreads=8 -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:+UseCMSInitiatingOccupancyOnly" \
--class $CLASS \
--files hdfs://namenodeha/user/processuser/hive-site.xml \ #需要上傳的配置文件
/home/spark/hhl/lib/ #jar 包位置
- 充分利用Github 上的源碼般卑,不要自己造輪子
- 保護(hù)好頸椎武鲁,身體是革命的本錢!r鸺臁沐鼠!