構(gòu)建一個(gè)Spark project(Spark 開(kāi)發(fā)入門)

一轿曙、寫(xiě)在前面

由于Spark 的速度,API 的易用性摔笤,Spark在行業(yè)中的使用越來(lái)越廣泛副女。
Hbase 在2.0 alpha 版之后也加入對(duì)Spark的支持蛤高;
ElasticSearch也找加入對(duì)Spark的支持;
Spark天然的分布式內(nèi)存計(jì)算的優(yōu)勢(shì)基本上能向程序猿們完全隱藏分布式編程技術(shù)的細(xì)節(jié)碑幅。對(duì)于大數(shù)據(jù)量的計(jì)算 約等于 寫(xiě)SQL戴陡。未來(lái)Spark 將更會(huì)流行。那么如何構(gòu)建Spark開(kāi)發(fā)環(huán)境呢枕赵?

二猜欺、開(kāi)發(fā)套件

  1. IDE: IntelJ IDEA
  2. 依賴管理:SBT
  3. 版本控制:Git
  4. 操作系統(tǒng):Mac/Linux/windows

因?yàn)榇罅康臏y(cè)試工具需要上傳Jar到集群環(huán)境,shell的支持是必須的拷窜。
首選類Unix系統(tǒng)开皿,windows 也可,最好能選用win10(支持Shell的版本)

三篮昧、環(huán)境搭建

應(yīng)按照下來(lái)步驟按照
1.JDK 1.8
2.Scala 2.11 以上版本
3.SBT: 0.13 以上(推薦0.13.8)
4.Git
5.IntelJ IDEA

tips:

  1. 在 Mac/linux 下可通過(guò) homebrew 命令按照 git 和sbt赋荆。在windows 下載 msi 文件默認(rèn)安裝。最好不要改變安裝路徑懊昨,否則會(huì)造成git 命令無(wú)法識(shí)別
  2. 高級(jí)玩家強(qiáng)烈推薦命令行窄潭。oh my zsh 這一類的工具,簡(jiǎn)直不能再?gòu)?qiáng)大酵颁。

四嫉你、創(chuàng)建工程

目前SBT并未集成打包工具,需在全局的SBT依賴路徑中配置打包工具的依賴包躏惋。
在~/.sbt/0.13/plugins 下的build.sbt 文件中增加:

resolvers += "Sonatype snapshots" at "https://oss.sonatype.org/content/repositories/snapshots/"

addSbtPlugin("com.github.mpeltonen" % "sbt-idea" % "1.7.0-SNAPSHOT")

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.11.2")

完成上述工作之后幽污,
1.創(chuàng)建一個(gè)測(cè)試的SBT 工程。特別注意SBT版本(0.13.8)簿姨,JDK 1.8 , scala 2.11.x

  1. 配置build.sbt 依賴
    依賴庫(kù)一般在http://mvnrepository.com 中搜索距误,如果無(wú)法滿足簸搞,可在GitHub上找開(kāi)源代碼。
    注意選擇SBT的依賴路徑准潭,同時(shí)注意依賴的版本
    如果發(fā)生沖突趁俊,需解決沖突。刷新依賴刑然,即可編寫(xiě)代碼寺擂。
    一個(gè)可用的build.sbt 配置如下:
// 以下要求sbt 版本必須是0.13,否則無(wú)法找到依賴包
import _root_.sbtassembly.Plugin.AssemblyKeys
import sbt._
import Keys._
import sbtassembly.Plugin._
import AssemblyKeys._

assemblySettings
name := "SparkAppExamples"
version := "0.1"
scalaVersion := "2.11.8"

// Resolvers
resolvers += "SnowPlow Repo" at "http://maven.snplow.com/releases/"
resolvers += "Twitter Maven Repo" at "http://maven.twttr.com/"

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % "2.0.0" % "provided",
  "org.apache.spark" %% "spark-sql" % "2.0.0" % "provided",
  "org.apache.spark" %% "spark-hive" % "2.0.0" % "provided",
  "org.apache.spark" %% "spark-streaming" % "2.0.0" % "provided",
  "org.apache.spark" %% "spark-graphx" % "2.0.0" % "provided",
  "org.apache.spark" %% "spark-mllib" % "2.0.0" % "provided",
  "com.snowplowanalytics"  %% "scala-maxmind-iplookups"  % "0.2.0"
)

// 沖突處理
mergeStrategy in assembly <<= (mergeStrategy in assembly) { (old) => {
  case "META-INF/MANIFEST.MF" => MergeStrategy.discard
  case "META-INF/io.netty.versions.properties" => MergeStrategy.last
  case PathList(ps@_*) if ps.last endsWith "eclipse.inf" => MergeStrategy.last
  case PathList(ps@_*) if ps.last endsWith "pom.xml" => MergeStrategy.last
  case PathList(ps@_*) if ps.last endsWith "pom.properties" => MergeStrategy.last
  case PathList("com", "sun", xs@_*) => MergeStrategy.last
  case PathList("javax", xs@_*) => MergeStrategy.last
  case PathList("org", "apache", xs@_*) => MergeStrategy.last
  case PathList("org", "aopalliance", xs@_*) => MergeStrategy.last
  case PathList("org", "w3c", xs@_*) => MergeStrategy.last
  case "overview.html" => MergeStrategy.last
  case x => old(x)
}
}

五闰集、提高效率

  1. 使用Shell
  • 版本控制使用Shell
  • 版本控制命令編輯成 alias
  • 文件上傳腳本化
  • 測(cè)試執(zhí)行腳本化
# git 命令別名
alias gl="git pull"
alias gh="git push"
alias gc="git commit -m"
alias ga="git add ."

#免密上傳jar包, 需研究ssh-gen-key 或spwan命令
scp /../xx.jar  10.120.1.1:/home/spark/hhl/lib/

#spark submit 腳本化
#!/bin/sh
CLASS="要運(yùn)行對(duì)應(yīng)的路徑"
/opt/spark-2.1.1-bin-spark-2.1.1-hadoop2.6.4/bin/spark-submit \
# 運(yùn)行參數(shù)配置,核數(shù)沽讹,內(nèi)存
--master yarn \
--queue xx  \
--deploy-mode cluster \
--num-executors 12 \
--executor-cores 5 \
--executor-memory 30G \
--conf spark.driver.maxResultSize=2G \
--conf spark.driver.memory=30G \
# 優(yōu)化選項(xiàng) GC策略
--conf spark.executor.extraJavaOptions=-XX:+UseParallelGC \
--conf spark.executor.extraJavaOptions=-XX:ParallelGCThreads=8 \
--conf spark.driver.extraJavaOptions="-XX:+UseParNewGC -XX:ParallelGCThreads=8 -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:+UseCMSInitiatingOccupancyOnly" \
--class $CLASS \
--files hdfs://namenodeha/user/processuser/hive-site.xml \ #需要上傳的配置文件
/home/spark/hhl/lib/  #jar 包位置
  1. 充分利用Github 上的源碼般卑,不要自己造輪子
  2. 保護(hù)好頸椎武鲁,身體是革命的本錢!r鸺臁沐鼠!
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市叹谁,隨后出現(xiàn)的幾起案子饲梭,更是在濱河造成了極大的恐慌,老刑警劉巖焰檩,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件憔涉,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡析苫,警方通過(guò)查閱死者的電腦和手機(jī)兜叨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)衩侥,“玉大人国旷,你說(shuō)我怎么就攤上這事∶K溃” “怎么了跪但?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)峦萎。 經(jīng)常有香客問(wèn)我屡久,道長(zhǎng),這世上最難降的妖魔是什么爱榔? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任被环,我火速辦了婚禮,結(jié)果婚禮上搓蚪,老公的妹妹穿的比我還像新娘蛤售。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布悴能。 她就那樣靜靜地躺著揣钦,像睡著了一般。 火紅的嫁衣襯著肌膚如雪漠酿。 梳的紋絲不亂的頭發(fā)上冯凹,一...
    開(kāi)封第一講書(shū)人閱讀 51,624評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音炒嘲,去河邊找鬼宇姚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛夫凸,可吹牛的內(nèi)容都是我干的浑劳。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼夭拌,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼魔熏!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起鸽扁,我...
    開(kāi)封第一講書(shū)人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蒜绽,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后桶现,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體躲雅,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年骡和,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了相赁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡即横,死狀恐怖噪生,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情东囚,我是刑警寧澤跺嗽,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站页藻,受9級(jí)特大地震影響桨嫁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜份帐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一璃吧、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧废境,春花似錦畜挨、人聲如沸筒繁。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)毡咏。三九已至,卻和暖如春逮刨,著一層夾襖步出監(jiān)牢的瞬間呕缭,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工修己, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留恢总,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓睬愤,卻偏偏與公主長(zhǎng)得像片仿,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子戴涝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容