Spark集群環(huán)境搭建
?? ?-0. 前提:配置好Hadoop和JAVA的開(kāi)發(fā)環(huán)境
?? ?-1. 上傳Spark和Scala壓縮包(到~/software文件夾中)
?? ?-2. 解壓壓縮包
?? ?$ tar -zxvf ~/software/spark-1.6.1-bin-2.5.0-cdh5.3.6cdh版本已經(jīng)編譯好的cdh版本已經(jīng)編譯好的.tgz -C ~/modules/
?? ?$ tar -zxvf ~/software/scala-2.10.4.tgz -C ~/modules/
?? ?-3. 配置環(huán)境變量
?? ?$ vim ~/.bash_profile
# SCALA
export SCALA_HOME=/home/hadoop/modules/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
# SPARK
export SPARK_HOME=/home/hadoop/modules/spark-1.6.1-bin-2.5.0-cdh5.3.6
export PATH=$PATH:$SPARK_HOME/bin?? ?
?? ?$ source ~/.bash_profile
?? ?-4. 配置Spark相關(guān)參數(shù)項(xiàng)
?? ??? ?--1. 進(jìn)入Spark根目錄
?? ??? ?$ cd $SPARK_HOME
?? ??? ?--2. 修改配置文件
?? ??? ?$ mv conf/spark-env.sh.template conf/spark-env.sh
?? ??? ?$ vim conf/spark-env.sh
JAVA_HOME=/home/hadoop/modules/jdk1.7.0_79
SCALA_HOME=/home/hadoop/modules/scala-2.10.4
HADOOP_CONF_DIR=/home/hadoop/modules/hadoop-2.5.0-cdh5.3.6/etc/hadoop
SPARK_LOCAL_IP=hadoopeasy?? ?
######
HADOOP_CONF_DIR: 主要是給定spark應(yīng)用程序連接hadoop相關(guān)服務(wù)的配置文件所在的文件夾路徑是哪個(gè)嚼鹉,如果不給定蚓胸,那么使用默認(rèn)的HDFS文件系統(tǒng)(file:///)
該參數(shù)的作用其實(shí)就是將連接HDFS/YARN的相關(guān)配置文件添加到spark應(yīng)用的classpath中,讓spark應(yīng)用可以連接上hdfs或者yarn?? ?
######
?? ?-5. 啟動(dòng)HDFS
?? ?配置了相關(guān)環(huán)境變量
?? ?$ start-dfs.sh
?? ?-6. Spark環(huán)境測(cè)試(在同一個(gè)目錄中自晰,不能同時(shí)執(zhí)行多次Spark根目錄下bin文件夾中的命令,否則會(huì)報(bào)錯(cuò)稍坯,報(bào)錯(cuò)原因:環(huán)境沒(méi)有集成Hive酬荞,解決方案:將Hive配置文件hive-site.xml放到$SPARK_HOME/conf文件夾中,并啟動(dòng)hive相關(guān)服務(wù))
?? ??? ?--1. 進(jìn)入Spark根目錄
?? ??? ?$ cd $SPARK_HOME
?? ??? ?--2. 測(cè)試一:計(jì)算π的值
?? ??? ?$ ./bin/run-example? SparkPi 10
?? ??? ?--3. 測(cè)試二:PySpark測(cè)試
?? ??? ?$ ./bin/pyspark
Using Python version 2.6.6 (r266:84292, Nov 22 2013 12:16:22)
SparkContext available as sc, HiveContext available as sqlContext.
>>>?? ?
?? ??? ?>>> sc? ?
?? ??? ?>>> rdd = sc.textFile("/test/input/wc.txt")
?? ??? ?>>> rdd.collect()
?? ??? ?備注:還可以通過(guò)web頁(yè)面查看spark應(yīng)用的執(zhí)行情況
?? ??? ?textFile: 作用是按照行讀取文本文件數(shù)據(jù)瞧哟,形成一個(gè)RDD混巧,RDD中的元素一行一行的文本
----------------------------------------------------------
Spark開(kāi)發(fā)環(huán)境搭建(Windows)
?? ?備注:建議Python版本2.7或者3.5,Python3.6支持不太友好勤揩。
?? ?-1. 安裝Java和Scala
?? ?-2. 解壓Spark安裝包咧党,配置Spark開(kāi)發(fā)環(huán)境
?? ?? 將其安裝包解壓到一個(gè)沒(méi)有中文沒(méi)有空格的文件夾即可
?? ?? eg: D:\ProgramFiles\spark-1.6.1-bin-2.5.0-cdh5.3.6
?? ?-3. 配置Python開(kāi)發(fā)插件
?? ?? 從剛剛解壓的spark根目錄中將python\lib文件夾中的兩個(gè)壓縮包解壓后放到python的對(duì)應(yīng)目錄中:
?? ???? --a. 解壓py4j-0.9-src.zip和pyspark.zip
?? ??? ?--b. 解壓后的內(nèi)容(py4j和pyspark兩個(gè)文件夾)放到:C:\Python3.5\Lib\site-packages
?? ?-4. 完成環(huán)境搭建