一畸陡、準備工作(之前踩過的坑)
1鹰溜、需要安裝java的jdk,scala丁恭,spark曹动,hadoop
2、jdk的版本一定要是1.8的牲览,1.9的會報錯墓陈。
3、各個文件的安裝路徑中不能存在空格,所以jdk的安裝千萬不要默認路徑
4贡必、安裝spark前一定要安裝scala兔港,否則運行spark-shell時會報錯
5、在windows下安裝需要類似于破解的東西才能打開namenode仔拟,找了半天才找到的方案衫樊,參考文末的博客。
6理逊、啟動hive前必須先啟動hadoop橡伞,要不然沒法連接到9000端口
二、安裝
1晋被、java的 jdk
a) 使用版本:1.8版本
敲黑板:路徑千萬不要在默認路徑Program File下兑徘,路徑文件中中間不能存在空格(踩的第一個坑)
b) 配置java環(huán)境變量
變量名JAVA_HOME
,變量值D:\system\Java\jdk1.8.0_65
羡洛,然后到PATH中配置路徑%JAVA_HOME\bin
c) 測試:在命令行中測試 java -version
2挂脑、安裝scala
a)使用版本:版本scala-2.11.8 下載地址
一定要安裝scala,我之前是想用pyspark欲侮,所以沒有安裝scala崭闲,最后測試spark-shell時老是沒有系統(tǒng)文件(這是踩的第二個坑)
b)配置scala環(huán)境變量:
變量名SCALA_HOME
,變量值D:\system\scala-2.11.8
威蕉,然后到PATH中配置路徑%SCALA_HOME\bin
3刁俭、安裝spark:
a) 使用版本:spark-2.4.3-bin-hadoop2.7.tgz
spark下載地址
b)配置環(huán)境變量
變量名SPARK_HOME
,變量值D:\system\spark-2.4.3-bin-hadoop2.7
韧涨,然后到PATH中配置路徑%SPARK_HOME\bin
c) 測試:spark-shell
4牍戚、安裝hadoop
a)根據(jù)spark和winutils的版本來選擇hadoop版本號
- 根據(jù)spark在官網(wǎng)下載的時候會提醒下載的hadoop版本
- 去 [https://github.com/steveloughran/winutils] 選擇你安裝的Hadoop版本號,然后進入到bin目錄下虑粥,找到
winutils.exe
文件如孝,下載文件,放到hadoop\bin下的文件夾娩贷。 - 替換hadoop中的bin和etc https://github.com/sardetushar/hadooponwindows
在window下為了不裝cygwin第晰,參考了下面的博客,使得能夠在windows下使用hadoop彬祖,替換 原來的bin和etc茁瘦,然后修改其中的core-site.xml和hdfs-site.xml的參數(shù),詳情可見參考博客储笑,我是用的是hadoop-2.8.3的版本甜熔,可以使用。
b)配置環(huán)境變量
變量名HADOOP_HOME
南蓬,變量值D:\system\hadoop-2.8.3\
纺非,然后到PATH中配置路%HADOOP_HOME\bin
c)啟動hadoop,在cmd中先格式化hadoophadoop namenode -format
,然后進入hadoop-2.8.3 / sbin中使用start-all.cmd
啟動hadoop和yarn赘方。然后進入網(wǎng)頁版進行測試烧颖,hadoophttp://localhost:8088和namenode<>
5、安裝pyspark
a) 復(fù)制spark-2.4.3-bin-hadoop2.7\python\pyspark文件夾窄陡,以及解壓spark-2.4.3-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip炕淮,到Anaconda3\pkgs文件夾下
b)測試:在命令行中輸入python,import pyspark
6跳夭、hive的安裝
a)安裝地址
b)設(shè)置環(huán)境變量涂圆,HIVE_HOME
,變量值為D:\system\hive-2.1.1\
,然后到PATH中配置路由%HIVE_HOME\bin
c)復(fù)制mysql驅(qū)動jar到$HIVE_HOME/lib下。mysql的jar包下載地址
d)參數(shù)的設(shè)置币叹,修改hive-site.xml中的文件存放地址和數(shù)據(jù)庫的連接润歉,具體可參考下邊博客【hive配置參數(shù)的參考】
4)啟動hive,使用hive之前必須要先啟動hadoop和hdfs颈抚,啟動之后在cmd命令中輸入hive啟動
思考:看了網(wǎng)上的教程總覺得可以直接下載pyspark的安裝庫踩衩,不用那么麻煩的,哪位小伙伴可以試試直接在anaconda環(huán)境中conda install pyspark 試試贩汉,能安裝使用的話望告知哈