在Windows安裝配置PySpakr開發(fā)環(huán)境操作視屏如下锅移。更多視頻可查看騰訊課堂地址:個人大數(shù)據(jù)平臺的搭建與學習實踐-學習視頻教程-騰訊課堂 (qq.com)
安裝Python
可以選擇安裝官方版本的Python腊嗡,或是Anaconda,對應的地址如下担巩,下載地址為:
Python:https://www.python.org/
Anaconda: https://www.anaconda.com/download/#windows
MiniConda:https://docs.conda.io/en/latest/miniconda.html
安裝Java運行環(huán)境
安裝Java運行環(huán)境,下載地址為
在線安裝包: https://www.java.com/en/download/
離線安裝包:https://www.java.com/zh-CN/download/windows_offline.jsp
下載Spark和winutils工具
由于Hadoop開發(fā)是針對類Unix系統(tǒng)的,所以在Windows平臺中沒有原生的Hadoop安裝包兼吓,但可以通過winutils工具作為替代烦绳。
* spark下載地址: http://spark.apache.org/downloads.html
* winutils下載地址: https://github.com/steveloughran/winutils
解壓spark卿捎,將winutils拷貝到解壓目錄的bin目錄下
配置環(huán)境變量
* 添加環(huán)境變量 HADOOP_HOME 變量值是安裝Spark的目錄,如 E:\spark\spark-3.1.2-bin-hadoop2.7\
* 添加環(huán)境變量SPARK_HOME 變量值是安裝Spark的目錄爵嗅,如 E:\spark\spark-3.1.2-bin-hadoop2.7\
* 將Spark安裝目錄添加環(huán)境變量中 將Spark安裝目錄bin文件夾添加到path變量中 E:\spark\spark-3.1.2-bin-hadoop2.7\bin
使用spark-shell
安裝配置完畢后娇澎,對Spark Shell使用,以驗證成功的安裝睹晒。
* 打開spark-shell2.cmd趟庄,輸入以下的scala命令括细。
打開一個Power Shell,然后輸入命令:spark-shell2.cmd
scala> 1 + 1
scala> println("Hello World!")
var myVar : String = "hello"
使用pyspark-shell
* 打開 pyspark2.cmd戚啥,輸入以下Python命令奋单。
打開一個Power Shell,然后輸入命令:pyspark2.cmd
from datetime import datetime, date
import pandas as pd
from pyspark.sql import Row
df = spark.createDataFrame([
? ? Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
? ? Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
? ? Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.printSchema()
使用sparkR-shell
* 打開 sparkR2.cmd猫十,輸入以下R語言命令览濒。
打開一個Power Shell,然后輸入命令:sparkR2.cmd
emp.data <- data.frame(
? emp_id = c (1:5),
? emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
? salary = c(623.3,515.2,611.0,729.0,843.25),
? start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11","2015-03-27")),
? stringsAsFactors = FALSE
)
df <- createDataFrame(emp.data)