windows10 下Spark+Hadoop+hive+pyspark安裝

一畸陡、準備工作（之前踩過的坑）

1鹰溜、需要安裝java的jdk，scala丁恭，spark曹动，hadoop
2、jdk的版本一定要是1.8的牲览，1.9的會報錯墓陈。
3、各個文件的安裝路徑中不能存在空格，所以jdk的安裝千萬不要默認路徑
4贡必、安裝spark前一定要安裝scala兔港，否則運行spark-shell時會報錯
5、在windows下安裝需要類似于破解的東西才能打開namenode仔拟，找了半天才找到的方案衫樊，參考文末的博客。
6理逊、啟動hive前必須先啟動hadoop橡伞，要不然沒法連接到9000端口

二、安裝

1晋被、java的 jdk

a）使用版本：1.8版本
敲黑板：路徑千萬不要在默認路徑Program File下兑徘，路徑文件中中間不能存在空格（踩的第一個坑）

b) 配置java環(huán)境變量
變量名JAVA_HOME，變量值D:\system\Java\jdk1.8.0_65羡洛，然后到PATH中配置路徑%JAVA_HOME\bin
c) 測試：在命令行中測試 java -version

2挂脑、安裝scala

a)使用版本：版本scala-2.11.8 下載地址

一定要安裝scala，我之前是想用pyspark欲侮，所以沒有安裝scala崭闲，最后測試spark-shell時老是沒有系統(tǒng)文件（這是踩的第二個坑）

b)配置scala環(huán)境變量：
變量名SCALA_HOME，變量值D:\system\scala-2.11.8威蕉，然后到PATH中配置路徑%SCALA_HOME\bin

3刁俭、安裝spark：

a) 使用版本：spark-2.4.3-bin-hadoop2.7.tgz
spark下載地址

b)配置環(huán)境變量

變量名SPARK_HOME，變量值D:\system\spark-2.4.3-bin-hadoop2.7韧涨，然后到PATH中配置路徑%SPARK_HOME\bin

c) 測試：spark-shell

4牍戚、安裝hadoop

a)根據(jù)spark和winutils的版本來選擇hadoop版本號

根據(jù)spark在官網(wǎng)下載的時候會提醒下載的hadoop版本
去 [https://github.com/steveloughran/winutils] 選擇你安裝的Hadoop版本號，然后進入到bin目錄下虑粥，找到 winutils.exe文件如孝，下載文件，放到hadoop\bin下的文件夾娩贷。
替換hadoop中的bin和etc https://github.com/sardetushar/hadooponwindows
在window下為了不裝cygwin第晰，參考了下面的博客，使得能夠在windows下使用hadoop彬祖，替換原來的bin和etc茁瘦，然后修改其中的core-site.xml和hdfs-site.xml的參數(shù)，詳情可見參考博客储笑，我是用的是hadoop-2.8.3的版本甜熔，可以使用。

b)配置環(huán)境變量

變量名HADOOP_HOME南蓬，變量值D:\system\hadoop-2.8.3\纺非，然后到PATH中配置路%HADOOP_HOME\bin
c)啟動hadoop，在cmd中先格式化hadoophadoop namenode -format,然后進入hadoop-2.8.3 / sbin中使用start-all.cmd啟動hadoop和yarn赘方。然后進入網(wǎng)頁版進行測試烧颖，hadoophttp://localhost:8088和namenode<>

5、安裝pyspark

a) 復(fù)制spark-2.4.3-bin-hadoop2.7\python\pyspark文件夾窄陡，以及解壓spark-2.4.3-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip炕淮，到Anaconda3\pkgs文件夾下

b）測試：在命令行中輸入python，import pyspark

6跳夭、hive的安裝

a)安裝地址
b)設(shè)置環(huán)境變量涂圆，HIVE_HOME,變量值為D:\system\hive-2.1.1\,然后到PATH中配置路由%HIVE_HOME\bin
c)復(fù)制mysql驅(qū)動jar到$HIVE_HOME/lib下。mysql的jar包下載地址
d)參數(shù)的設(shè)置币叹，修改hive-site.xml中的文件存放地址和數(shù)據(jù)庫的連接润歉，具體可參考下邊博客【hive配置參數(shù)的參考】
4）啟動hive，使用hive之前必須要先啟動hadoop和hdfs颈抚，啟動之后在cmd命令中輸入hive啟動

思考：看了網(wǎng)上的教程總覺得可以直接下載pyspark的安裝庫踩衩，不用那么麻煩的，哪位小伙伴可以試試直接在anaconda環(huán)境中conda install pyspark 試試贩汉，能安裝使用的話望告知哈

參考博客：
hadoop的搭建和參數(shù)配置
 hive搭建與初始化的參考
 hive配置參數(shù)的參考

最后編輯于：2019.08.06 10:26:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者