安裝Python
可以選擇安裝官方版本的Python,或是Anaconda检碗,對應(yīng)的地址如下。
- 下載地址
Python:https://www.python.org/
Anaconda: https://www.anaconda.com/download/#windows
MiniConda:https://docs.conda.io/en/latest/miniconda.html
安裝Java運(yùn)行環(huán)境
安裝Java運(yùn)行環(huán)境
- 下載地址
在線安裝包: https://www.java.com/en/download/
離線安裝包:https://www.java.com/zh-CN/download/windows_offline.jsp
下載Spark和winutils工具
由于Hadoop開發(fā)是針對類Unix系統(tǒng)的码邻,所以在Windows平臺中沒有原生的Hadoop安裝包折剃,但可以通過winutils工具作為替代。
spark下載地址: http://spark.apache.org/downloads.html
winutils下載地址: https://github.com/steveloughran/winutils
解壓spark像屋,將winutils拷貝到解壓目錄的bin目錄下微驶,如下所示。
1-拷貝Winutils工具.gif
配置環(huán)境變量
添加環(huán)境變量 HADOOP_HOME
變量值是安裝Spark的目錄开睡,如 E:\spark\spark-3.1.2-bin-hadoop2.7\添加環(huán)境變量SPARK_HOME
變量值是安裝Spark的目錄因苹,如 E:\spark\spark-3.1.2-bin-hadoop2.7\將Spark安裝目錄添加環(huán)境變量中
將Spark安裝目錄bin文件夾添加到path變量中 E:\spark\spark-3.1.2-bin-hadoop2.7\bin
配置過程如下所示:
2-配置環(huán)境變量.gif
使用spark-shell
安裝配置完畢后,對Spark Shell使用篇恒,以驗(yàn)證成功的安裝。
- 打開spark-shell2.cmd胁艰,輸入以下的scala命令款筑。
打開一個(gè)Power Shell智蝠,然后輸入命令:spark-shell2.cmd
scala> 1 + 1
scala> println("Hello World!")
var myVar : String = "hello"
-
演示動態(tài)圖
3-spark-shell.gif
使用pyspark-shell
- 打開 pyspark2.cmd,輸入以下Python命令奈梳。
打開一個(gè)Power Shell杈湾,然后輸入命令:pyspark2.cmd
from datetime import datetime, date
import pandas as pd
from pyspark.sql import Row
df = spark.createDataFrame([
Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.printSchema()
4-pyspark.gif
使用sparkR-shell
- 打開 sparkR2.cmd,輸入以下R語言命令攘须。
打開一個(gè)Power Shell漆撞,然后輸入命令:sparkR2.cmd
emp.data <- data.frame(
emp_id = c (1:5),
emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
salary = c(623.3,515.2,611.0,729.0,843.25),
start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11","2015-03-27")),
stringsAsFactors = FALSE
)
df <- createDataFrame(emp.data)
4-sparkR.gif