1 大數(shù)據(jù)技術(shù)棧
2 spark是什么
快如閃電般的分布式計(jì)算框架:Lightning-fast cluster
3 MapReduce框架局限性
4 Hadoop生態(tài)圈中的各種框架
5 Spark的優(yōu)勢(shì)
6 SPARK 2新特性
7 Windows開(kāi)發(fā)環(huán)境
8 下載anacoda(略)
9 下載安裝hadoop2.7
hadoop-2.7.6下載地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/
進(jìn)入下載地址后竞川,選擇紅框里的內(nèi)容尺铣,則會(huì)開(kāi)始自動(dòng)下載了。
10 下載安裝jdk1.8
jdk1.8下載地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
選擇Accept License Agreement,然后下載和自己電腦配置相同的版本,我的是windows64位的,如下圖:
11 下載安裝spark
spark-2.3.1-bin-hadoop2.7.tgz下載地址:http://spark.apache.org/downloads.html
選擇版本,點(diǎn)擊下載
12 安裝py4j
進(jìn)入cmd命令框,輸入:pip install py4j多柑,即開(kāi)始下載
13 安裝pyspark的擴(kuò)展包
將D:\spark-2.3.1-bin-hadoop2.7\python(spark\python目錄)粘貼到anacoda目錄下D:\anaconda3\Lib\site-packages,新建pyspark.pth的文本里
14 配置環(huán)境變量
將hadoop2.7楣责、spark竣灌、jdk這三個(gè)的安裝目錄添加到環(huán)境變量中,分別為
HADOOP_HOME:hadoop安裝路徑
SPARK_HOME:spark安裝路徑
JAVA_HOME:jdk安裝路徑
在Path路徑中也要加上剛才添加的三個(gè)安裝路徑
15 啟動(dòng)pyspark
在cmd命令框中輸入:pyspark秆麸,進(jìn)入pyspark編輯界面
16 測(cè)試wordcount
1帐偎、在D盤(pán)新建一個(gè)測(cè)試文件:app.log(隨便輸入幾個(gè)word,用空格分割)
2、運(yùn)行下面命令
sc = spark.sparkContext
doc = sc.textFile('file:///d:/app.log')
words = doc.flatMap(lambda x:x.split(" ")).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y).collect()”